본문으로 바로가기
반응형

1) 데이터 이상값 발생 원인

- 데이터 입력 오류

- 측정 오류

- 실험 오류

- 고의적인 이상값

- 표본추출 에러

 

2) 데이터 이상값 검출 방법

- 개별 데이터 관찰

- 통곗값 : ESD / 기하평균 / 사분위 수 / 표준화 점수(Z) / 딕슨의 Q 검정 / 그럽스 T-검정 / 카이제곱 검정

- 시각화 : 확률 밀도 함수 / 히스토그램 / 시계열 차트

- 머신 러닝 기법 : K-평균 알고리즘 (데이터 군집화)

- 마할라노비스 거리 : 관측치가 평균으로부터 벗어난 정도

- LOF : 밀도기반

- iForest : 의사결정나무

 

3) 데이터 이상값 처리

- 삭제 : 극단값 절단

- 대체법 : 하한값과 상한값 설정 후 대체(*결측값처리법과 유사)

- 변환 : 자연로그

- 박스 플롯 해석을 통한 이상값 제거

- 분류하여 처리 : 이상값이 하나의 그룹을 형성 -> 따로 처리

반응형