반응형
탐색적 데이터 분석 EDA (Exploratory Data Analysis)
1) Four R's
- 저항성 (Resistance) : 오류점, 이상값이 데이터에 포함되에도 영향을 적게 받는 성질
- 잔차 해석 (Residual) : 관찰 값들이 주 경향으로부터 얼마나 벗어난 정도
- 자료 재표현 (Re-expression) : 로그 변환, 제곱근 변환, 역수 변환 등 분포의 대칭성, 선형성, 분산의 안정성을 위해 변환
- 현시성 (Grapic Representation) : 이해하기 쉽도록 시각적으로 표현
2) 개별 변수 탐색 방법
범주형 데이터 | 빈도수, 최빈값, 비율, 백분율 | 중심성, 변동성 | 막대형 그래프 (Bar plot) |
수치형 데이터 | 평균, 분산, 표준 편차, 첨도, 왜도 |
중심성, 변동성, 정규성 | 박스 플롯, 히스토그램 |
3) 다차원 데이터 탐색 방법
범주형-범주형 | - 빈도수와 비율을 활용한 교차 빈도, 비율, 백분율 분석 등을 활용해 데이터 간의 연관성을 분석 - 시각화는 막대형 그래프(Bar Plot) 사용 *카이제곱 분석(Chi-Square) |
수치형-수치형 | - 산점도와 기울기를 통해 상관성과 추세성 분석 - 공분산을 통하여 방향성 파악 - 피어슨 상관계수를 통하여 방향과 강도 파악 - 시각화는 산점도 이용 *상관성 분석(Correlation) |
범주형-수치형 | - 범주형 데이터를 그룹화 후 각 그룹에 따라 수치형 변수의 기술 통계량 차이 상호 비교 - 시각화는 그룹 간 비교를 위해 박스 플롯 이용 *2개 : T-Test / 3개 이상 : ANOVA 분산분석 |
4) 기초통계량
- 중심 경향성의 통계량 : 평균, 중위수, 최빈값
- 산포도의 통계량 : 범위, 분산, 표준편차, 변동계수(CV), 사분위 수 범위(IQR)
- 데이터의 분포를 나타내는 통계량 : 왜도, 첨도
5) 상관관계
- 산점도
- 공분산
- 피어슨 상관계수
- 스피어만 상관계수
6) 시각적 데이터 탐색
- 히스토그램
- 막대형 그래프
- 박스 플롯
- 산점도
반응형