Pandas 통계 함수 - describe, mean, median, corr 등

Posted Aug 11, 2023 Updated Oct 9, 2025

By figure.2

1 min read

데이터 분석

전반적인 주요 통계 확인
df.describe() : 수치형
- count: 데이터 개수
- mean: 평균
- std: 표준편차
- min: 최솟값
- max: 최대값
df.describe(include='object') : 문자열
- count: 데이터 개수
- unique: 고유 데이터의 값 개수
- top: 가장 많이 출현한 데이터 개수
- freq: 가장 많이 출현한 데이터의 빈도수

df.count() / df['age'].count()
mean()
df.mean() / df['age'].mean()
조건별 평균
- condition = (df['adult_male'] == True)
- df.loc[condition, 'age'].mean()
skipna=False
- NaN 값이 있는 col은 NaN 값으로 출력
- df.mean(skipna=False)
  median()
오름차순 정렬하여 중앙에 위치한 값 출력
pd.Series([1, 2, 3, 4, 5]).median() : 3
pd.Series([4, 5, 1, 2, 3]).median() : 3
sum()
df.sum() / df['fare'].sum()
cusum(), cuprod()
df['age'].cumsum() : 누적합
df['age'].cumprod() : 누적곱
var()
df['fare'].var()
min(), max()
-df['age'].min() -df['age'].max()
agg()
단일컬럼
df['age'].agg(['min', 'max', 'count', 'mean'])
복수컬럼
df[['age', 'fare']].agg(['min', 'max', 'count', 'mean'])
numpy 통계 함수 적용
df[['age', 'fare']].agg(['min', np.max, np.median, 'mean'])
quantile()
주어진 데이터를 동등한 크기로 분할하는 지점 -df['age'].quantile(0.1) : 10% quantile -df['age'].quantile(0.8) : 80% quantile
unique(), nunique()
-df['who'].unique() : 고유값
df['who'].nunique() : 고유값개수
mode()
df['who'].mode() : 최빈값(가장 많이 출현한 데이터)
corr()
컬럼별 상관관계를 확인
-1 ~ 1사이의 범위를 가짐.
-1에 가까울수록 반비례, 1에 가까울수록 정비례
df.corr()
df.corr()['survived']

This post is licensed under CC BY 4.0 by the author.