반응형
결측값 : 누락된 값 (NA, 999999, Null)
1) 결측값 종류
- 완전 무작위 결측 (MCAR : Missing completely At Random)
- 무작위 결측 (MAR : Missing At Random)
- 비 무작위 결측 (MNAR : Missing Not At Random)
2) 결측값 처리 절차
(1) 결측값 식별 : 다양한 형태로 존재하는 결측값 현황 파악
(2) 결측값 부호화 : NA / NaN / inf / NULL 등 컴퓨터가 처리 가능한 형태로 부호화
(3) 결측값 대체 : 자료형에 맞춰 대체 알고리즘을 통해 결측값 처리
3) 데이터 결측값 처리 밥법
(1) 단순 대치법
- 완전 분석법 : 불완전 자료를 모두 무시하는 방법
- 평균 대치법 : 비 조건부 평균 대치법 / 조건부 평균 대치법
- 단순 확률 대치법 : 핫덱 대체 / 콜드덱 대체 / 혼합 방법
(2) 다중 대치법
- m번 대치를 통해 m개의 가상적 완전한 자료를 만들어서 분석하는 방법
- 대치 -> 분석 -> 결합
반응형
'Data Analysis > info' 카테고리의 다른 글
[데이터 전처리] 4. 분석 변수 처리 (0) | 2021.11.01 |
---|---|
[데이터 전처리] 3. 데이터 이상값 처리 (0) | 2021.11.01 |
[데이터 탐색] 2. 고급 데이터 탐색 (0) | 2021.11.01 |
[데이터 탐색] 1. 기본적 데이터 탐색 (0) | 2021.11.01 |
[데이터 전처리] 1. 데이터 정제 (0) | 2021.11.01 |