반응형
1) 데이터 이상값 발생 원인
- 데이터 입력 오류
- 측정 오류
- 실험 오류
- 고의적인 이상값
- 표본추출 에러
2) 데이터 이상값 검출 방법
- 개별 데이터 관찰
- 통곗값 : ESD / 기하평균 / 사분위 수 / 표준화 점수(Z) / 딕슨의 Q 검정 / 그럽스 T-검정 / 카이제곱 검정
- 시각화 : 확률 밀도 함수 / 히스토그램 / 시계열 차트
- 머신 러닝 기법 : K-평균 알고리즘 (데이터 군집화)
- 마할라노비스 거리 : 관측치가 평균으로부터 벗어난 정도
- LOF : 밀도기반
- iForest : 의사결정나무
3) 데이터 이상값 처리
- 삭제 : 극단값 절단
- 대체법 : 하한값과 상한값 설정 후 대체(*결측값처리법과 유사)
- 변환 : 자연로그
- 박스 플롯 해석을 통한 이상값 제거
- 분류하여 처리 : 이상값이 하나의 그룹을 형성 -> 따로 처리
반응형
'Data Analysis > info' 카테고리의 다른 글
[데이터 전처리] 4. 분석 변수 처리 (0) | 2021.11.01 |
---|---|
[데이터 탐색] 2. 고급 데이터 탐색 (0) | 2021.11.01 |
[데이터 탐색] 1. 기본적 데이터 탐색 (0) | 2021.11.01 |
[데이터 전처리] 2. 데이터 결측값 처리 (0) | 2021.11.01 |
[데이터 전처리] 1. 데이터 정제 (0) | 2021.11.01 |