본문으로 바로가기
반응형

탐색적 데이터 분석 EDA (Exploratory Data Analysis)

 

1) Four R's

- 저항성 (Resistance) : 오류점, 이상값이 데이터에 포함되에도 영향을 적게 받는 성질

- 잔차 해석 (Residual) : 관찰 값들이 주 경향으로부터 얼마나 벗어난 정도

- 자료 재표현 (Re-expression) : 로그 변환, 제곱근 변환, 역수 변환 등 분포의 대칭성, 선형성, 분산의 안정성을 위해 변환

- 현시성 (Grapic Representation) : 이해하기 쉽도록 시각적으로 표현

 

2) 개별 변수 탐색 방법

범주형 데이터 빈도수, 최빈값, 비율, 백분율 중심성, 변동성 막대형 그래프 (Bar plot)
수치형 데이터 평균, 분산, 표준 편차,
첨도, 왜도
중심성, 변동성, 정규성 박스 플롯, 히스토그램

 

3) 다차원 데이터 탐색 방법

범주형-범주형 - 빈도수와 비율을 활용한 교차 빈도, 비율, 백분율 분석 등을 활용해 데이터 간의 연관성을 분석
- 시각화는 막대형 그래프(Bar Plot) 사용
*카이제곱 분석(Chi-Square)
수치형-수치형 - 산점도와 기울기를 통해 상관성과 추세성 분석
- 공분산을 통하여 방향성 파악
- 피어슨 상관계수를 통하여 방향과 강도 파악
- 시각화는 산점도 이용
*상관성 분석(Correlation)
범주형-수치형 - 범주형 데이터를 그룹화 후 각 그룹에 따라 수치형 변수의 기술 통계량 차이 상호 비교
- 시각화는 그룹 간 비교를 위해 박스 플롯 이용
*2개 : T-Test  /  3개 이상 : ANOVA 분산분석

 

4) 기초통계량

- 중심 경향성의 통계량 : 평균, 중위수, 최빈값

- 산포도의 통계량 : 범위, 분산, 표준편차, 변동계수(CV), 사분위 수 범위(IQR)

- 데이터의 분포를 나타내는 통계량 : 왜도, 첨도

 

5) 상관관계

- 산점도

- 공분산

- 피어슨 상관계수

- 스피어만 상관계수

 

6) 시각적 데이터 탐색

- 히스토그램

- 막대형 그래프

- 박스 플롯

- 산점도

 

반응형