본문으로 바로가기

[데이터 전처리] 1. 데이터 정제

category Data Analysis/info 2021. 11. 1. 20:53
반응형

결측값을 채우거나 이상값을 제거하는 과정을 통해 데이터의 신뢰도를 높이는 작업

 

1) 데이터 오류 원인 분석

- 결측값, 노이즈, 이상값 처리

 

2) 데이터 정제 대상 선정

- 모든 데이터를 대상으로 정제 활동을 하는 것이 기본

- 데이터 품질 저하의 위협이 있는 데이터는 더 많은 정제 활동

- 내부 데이터보다 외부 데이터가, 정형 데이터보다는 비정형과 반정형 데이터가 데이터 품질 저하 위협에 많이 노출

 

3) 데이터 정제 방법 결정

- 삭제, 대체, 예측값 삽입

 

4) 데이터 정제 기술

기법 설명 사례
변환 (Transform) 다양한 형태로 표현된 값을 일관된 형태로 변환하는 작업 - 코드 변환 (남/여 -> M/F)
- 형식 변환 (YYYYMMDD -> YY/MM/DD)
파싱 (Parsing) 데이터를 정제 규칙을 적용하기 위한 유의미한 최소 단위로 분할하는 작업 - 주민 등록 번호 -> 생년월일, 성별
보강 (Enhancement) 변환, 파싱, 수정, 표준화 등을 통한 추가 정보를 반영하는 작업 - 주민 등록 번호를 통해 성별을 추출한 후 추가 정보 반영

 

5) 데이터 세분화

- 계층적 방법 : 응집분석법 / 분할분석법

- 비 계층적 방법 : 인공신경망 모델 / K-평균 군집화

 

 

 

반응형