반응형
결측값을 채우거나 이상값을 제거하는 과정을 통해 데이터의 신뢰도를 높이는 작업
1) 데이터 오류 원인 분석
- 결측값, 노이즈, 이상값 처리
2) 데이터 정제 대상 선정
- 모든 데이터를 대상으로 정제 활동을 하는 것이 기본
- 데이터 품질 저하의 위협이 있는 데이터는 더 많은 정제 활동
- 내부 데이터보다 외부 데이터가, 정형 데이터보다는 비정형과 반정형 데이터가 데이터 품질 저하 위협에 많이 노출
3) 데이터 정제 방법 결정
- 삭제, 대체, 예측값 삽입
4) 데이터 정제 기술
기법 | 설명 | 사례 |
변환 (Transform) | 다양한 형태로 표현된 값을 일관된 형태로 변환하는 작업 | - 코드 변환 (남/여 -> M/F) - 형식 변환 (YYYYMMDD -> YY/MM/DD) |
파싱 (Parsing) | 데이터를 정제 규칙을 적용하기 위한 유의미한 최소 단위로 분할하는 작업 | - 주민 등록 번호 -> 생년월일, 성별 |
보강 (Enhancement) | 변환, 파싱, 수정, 표준화 등을 통한 추가 정보를 반영하는 작업 | - 주민 등록 번호를 통해 성별을 추출한 후 추가 정보 반영 |
5) 데이터 세분화
- 계층적 방법 : 응집분석법 / 분할분석법
- 비 계층적 방법 : 인공신경망 모델 / K-평균 군집화
반응형
'Data Analysis > info' 카테고리의 다른 글
[데이터 전처리] 4. 분석 변수 처리 (0) | 2021.11.01 |
---|---|
[데이터 전처리] 3. 데이터 이상값 처리 (0) | 2021.11.01 |
[데이터 탐색] 2. 고급 데이터 탐색 (0) | 2021.11.01 |
[데이터 탐색] 1. 기본적 데이터 탐색 (0) | 2021.11.01 |
[데이터 전처리] 2. 데이터 결측값 처리 (0) | 2021.11.01 |