본문으로 바로가기
반응형

1) 변수 선택

  (1) 필터 기법 (Filter Method) - 정보 소득 (Information Gain), 카이제곱 검정, 피셔 스코어 (Fisher Score), 상관계수

  (2) 래퍼 기법 (Wrapper Method) - RFE(전진 선택법, 후진 제거법, 단계적 방법), SFS, 유전 알고리즘, 단변량 선택, mRMR

  (3) 임베디드 기법 (Embedded Method) - 라쏘(LASSO), 릿지(Ridge), 엘라스틱 넷, SelectFromModel

 

2) 차원 축소

- 주성분 분석 (PCA : Principal Component Analysis)

- 특이값 분해 (SVD : Singular Value Decomposition)

- 요인분석 (Factor Analysis)

- 독립성분분석 (ICA : Independent Component Analysis)

- 다차원 척도법 (MDS : Multi-Dimensional Scaling)

 

3) 파생변수 생성

- 단위 변환 : 24시간 -> 12시간

- 표현형식 변환 : 날짜 -> 요일 변환, 남/여 -> 0/1

- 요약 통계량 변환 : 고객별 누적 방문 횟수 집계

- 변수 결합 : 매출액과 방문 횟수 데이터로 1회 평균 매출액 추출

 

4) 변수 변환

- 단순 기능 변환 : 로그변환, 역수변환, 제곱변환, 시그모이드 변환

- 비닝 (Binning) : 데이터 평활화, 수입을 상/중/하의 범주로 나누기 (비즈니스 도메인 지식 필요)

- 정규화 : 최소-최대 정규화, Z-스코어 정규화

- 표준화 : Z-스코어 정규화

** 변수 변환 사례

매출, 판매수량, 가격, 가구소득 log(x)
지리적 거리 1/x, 1/x^2, log(x)
효용에 근거한 시장점유율, 선호점유율 sigmoid(x)
우측으로 꼬리가 긴 분포 sqrt(x), log(x)
좌측으로 꼬리가 긴 분포 x^2

 

5) 불균형 데이터 처리 (Imbalanced data)

- 언더 샘플링 (Under-Sampling)

- 오버 샘플링 (Over-Sampling)

- 임곗값 이동 (Threshold-Moving)

- 앙상블 기법 (Ensemble Technique)

 

반응형