본문으로 바로가기

[Python] 데이터 재구조화

category Skills/Python 2021. 11. 4. 14:19
반응형

커다란 데이터에서 원하는 정보만 추출할 수 있어야 다양한 분석을 시도할 수 있다.

 

이를 위해서 데이터 재구조화하는 방법을 익혀야 한다.

 

데이터를 재구조화하는 방법에는 두 가지가 있다.

 

 

 

1. group by

 

데이터프레임.groupby(분류할컬럼명).적용할함수()[적용할컬럼명] 으로 재구조화를 하면된다.

df.groupby('job').mean()['income'].sort_values(ascending=False).head(10)

위 코드는 평균소득이 높은 Top10 직업을 나타내는 코드이다.

 

 

2. pivot_table

 

pd.pivot_table(데이터프레임, index = 분류할컬럼명, columns = 분류할컬럼명2, values = 적용할컬럼명, aggfunc = 적용할함수)

로 재구조화를 하면된다.

pd.pivot_table(df,
              index = 'job',
              columns = 'ages',
              values = 'income',
              aggfunc = np.mean)

위 코드는 연령대별 평균소득이 높은 Top10 직업을 나타내는 코드이다.

반응형