Pandas 통계 함수 - describe, mean, median, corr 등
Pandas 통계 함수 - describe, mean, median, corr 등
Pandas 통계 함수 - describe, mean, median, corr 등
데이터 분석
통계
describe() - 요약통계
- 전반적인 주요 통계 확인
df.describe(): 수치형- count: 데이터 개수
- mean: 평균
- std: 표준편차
- min: 최솟값
- max: 최대값
df.describe(include='object'): 문자열- count: 데이터 개수
- unique: 고유 데이터의 값 개수
- top: 가장 많이 출현한 데이터 개수
- freq: 가장 많이 출현한 데이터의 빈도수
count()
df.count()/df['age'].count()mean()
df.mean()/df['age'].mean()- 조건별 평균
condition = (df['adult_male'] == True)df.loc[condition, 'age'].mean()
- skipna=False
- 오름차순 정렬하여 중앙에 위치한 값 출력
pd.Series([1, 2, 3, 4, 5]).median(): 3pd.Series([4, 5, 1, 2, 3]).median(): 3sum()
df.sum()/df['fare'].sum()cusum(), cuprod()
df['age'].cumsum(): 누적합df['age'].cumprod(): 누적곱var()
df['fare'].var()min(), max()
-
df['age'].min()-df['age'].max()agg()
- 단일컬럼
df['age'].agg(['min', 'max', 'count', 'mean']) - 복수컬럼
df[['age', 'fare']].agg(['min', 'max', 'count', 'mean']) - numpy 통계 함수 적용
df[['age', 'fare']].agg(['min', np.max, np.median, 'mean'])quantile()
- 주어진 데이터를 동등한 크기로 분할하는 지점 -
df['age'].quantile(0.1): 10% quantile -df['age'].quantile(0.8): 80% quantileunique(), nunique()
-
df['who'].unique(): 고유값 df['who'].nunique(): 고유값개수mode()
df['who'].mode(): 최빈값(가장 많이 출현한 데이터)corr()
- 컬럼별 상관관계를 확인
- -1 ~ 1사이의 범위를 가짐.
- -1에 가까울수록 반비례, 1에 가까울수록 정비례
df.corr()df.corr()['survived']
This post is licensed under CC BY 4.0 by the author.