1) 변수 선택
(1) 필터 기법 (Filter Method) - 정보 소득 (Information Gain), 카이제곱 검정, 피셔 스코어 (Fisher Score), 상관계수
(2) 래퍼 기법 (Wrapper Method) - RFE(전진 선택법, 후진 제거법, 단계적 방법), SFS, 유전 알고리즘, 단변량 선택, mRMR
(3) 임베디드 기법 (Embedded Method) - 라쏘(LASSO), 릿지(Ridge), 엘라스틱 넷, SelectFromModel
2) 차원 축소
- 주성분 분석 (PCA : Principal Component Analysis)
- 특이값 분해 (SVD : Singular Value Decomposition)
- 요인분석 (Factor Analysis)
- 독립성분분석 (ICA : Independent Component Analysis)
- 다차원 척도법 (MDS : Multi-Dimensional Scaling)
3) 파생변수 생성
- 단위 변환 : 24시간 -> 12시간
- 표현형식 변환 : 날짜 -> 요일 변환, 남/여 -> 0/1
- 요약 통계량 변환 : 고객별 누적 방문 횟수 집계
- 변수 결합 : 매출액과 방문 횟수 데이터로 1회 평균 매출액 추출
4) 변수 변환
- 단순 기능 변환 : 로그변환, 역수변환, 제곱변환, 시그모이드 변환
- 비닝 (Binning) : 데이터 평활화, 수입을 상/중/하의 범주로 나누기 (비즈니스 도메인 지식 필요)
- 정규화 : 최소-최대 정규화, Z-스코어 정규화
- 표준화 : Z-스코어 정규화
** 변수 변환 사례
매출, 판매수량, 가격, 가구소득 | log(x) |
지리적 거리 | 1/x, 1/x^2, log(x) |
효용에 근거한 시장점유율, 선호점유율 | sigmoid(x) |
우측으로 꼬리가 긴 분포 | sqrt(x), log(x) |
좌측으로 꼬리가 긴 분포 | x^2 |
5) 불균형 데이터 처리 (Imbalanced data)
- 언더 샘플링 (Under-Sampling)
- 오버 샘플링 (Over-Sampling)
- 임곗값 이동 (Threshold-Moving)
- 앙상블 기법 (Ensemble Technique)
'Data Analysis > info' 카테고리의 다른 글
[데이터 전처리] 3. 데이터 이상값 처리 (0) | 2021.11.01 |
---|---|
[데이터 탐색] 2. 고급 데이터 탐색 (0) | 2021.11.01 |
[데이터 탐색] 1. 기본적 데이터 탐색 (0) | 2021.11.01 |
[데이터 전처리] 2. 데이터 결측값 처리 (0) | 2021.11.01 |
[데이터 전처리] 1. 데이터 정제 (0) | 2021.11.01 |