반응형
결측값 : 누락된 값 (NA, 999999, Null)
1) 결측값 종류
- 완전 무작위 결측 (MCAR : Missing completely At Random)
- 무작위 결측 (MAR : Missing At Random)
- 비 무작위 결측 (MNAR : Missing Not At Random)
2) 결측값 처리 절차
(1) 결측값 식별 : 다양한 형태로 존재하는 결측값 현황 파악
(2) 결측값 부호화 : NA / NaN / inf / NULL 등 컴퓨터가 처리 가능한 형태로 부호화
(3) 결측값 대체 : 자료형에 맞춰 대체 알고리즘을 통해 결측값 처리
3) 데이터 결측값 처리 밥법
(1) 단순 대치법
- 완전 분석법 : 불완전 자료를 모두 무시하는 방법
- 평균 대치법 : 비 조건부 평균 대치법 / 조건부 평균 대치법
- 단순 확률 대치법 : 핫덱 대체 / 콜드덱 대체 / 혼합 방법
(2) 다중 대치법
- m번 대치를 통해 m개의 가상적 완전한 자료를 만들어서 분석하는 방법
- 대치 -> 분석 -> 결합
반응형