반응형
커다란 데이터에서 원하는 정보만 추출할 수 있어야 다양한 분석을 시도할 수 있다.
이를 위해서 데이터 재구조화하는 방법을 익혀야 한다.
데이터를 재구조화하는 방법에는 두 가지가 있다.
1. group by
데이터프레임.groupby(분류할컬럼명).적용할함수()[적용할컬럼명] 으로 재구조화를 하면된다.
df.groupby('job').mean()['income'].sort_values(ascending=False).head(10)
위 코드는 평균소득이 높은 Top10 직업을 나타내는 코드이다.
2. pivot_table
pd.pivot_table(데이터프레임, index = 분류할컬럼명, columns = 분류할컬럼명2, values = 적용할컬럼명, aggfunc = 적용할함수)
로 재구조화를 하면된다.
pd.pivot_table(df,
index = 'job',
columns = 'ages',
values = 'income',
aggfunc = np.mean)
위 코드는 연령대별 평균소득이 높은 Top10 직업을 나타내는 코드이다.
반응형
'Skills > Python' 카테고리의 다른 글
[Python] 최댓값에 해당되는 인덱스 찾기 (0) | 2021.11.04 |
---|---|
[Python] 빠른 행/열 추출 take() 메소드 (0) | 2021.11.04 |
[Python] 데이터에 특정 문자열이 포함되었는지 확인하는 법 (0) | 2021.11.04 |
[Python] 자료구조 순환하는 for문 (zip, enumerate) (0) | 2021.11.04 |
[Python] 기초 패키지 불러오기 (0) | 2021.11.03 |