Post

Pandas 통계 함수 - describe, mean, median, corr 등

Pandas 통계 함수 - describe, mean, median, corr 등

Pandas 통계 함수 - describe, mean, median, corr 등

데이터 분석

통계

describe() - 요약통계

  • 전반적인 주요 통계 확인
  • df.describe() : 수치형
    • count: 데이터 개수
    • mean: 평균
    • std: 표준편차
    • min: 최솟값
    • max: 최대값
  • df.describe(include='object') : 문자열
    • count: 데이터 개수
    • unique: 고유 데이터의 값 개수
    • top: 가장 많이 출현한 데이터 개수
    • freq: 가장 많이 출현한 데이터의 빈도수

count()

  • df.count() / df['age'].count()

    mean()

  • df.mean() / df['age'].mean()
  • 조건별 평균
    • condition = (df['adult_male'] == True)
    • df.loc[condition, 'age'].mean()
  • skipna=False
    • NaN 값이 있는 col은 NaN 값으로 출력
    • df.mean(skipna=False)

      median()

  • 오름차순 정렬하여 중앙에 위치한 값 출력
  • pd.Series([1, 2, 3, 4, 5]).median() : 3
  • pd.Series([4, 5, 1, 2, 3]).median() : 3

    sum()

  • df.sum() / df['fare'].sum()

    cusum(), cuprod()

  • df['age'].cumsum() : 누적합
  • df['age'].cumprod() : 누적곱

    var()

  • df['fare'].var()

    min(), max()

    -df['age'].min() -df['age'].max()

    agg()

  • 단일컬럼
    df['age'].agg(['min', 'max', 'count', 'mean'])
  • 복수컬럼
    df[['age', 'fare']].agg(['min', 'max', 'count', 'mean'])
  • numpy 통계 함수 적용
    df[['age', 'fare']].agg(['min', np.max, np.median, 'mean'])

    quantile()

  • 주어진 데이터를 동등한 크기로 분할하는 지점 -df['age'].quantile(0.1) : 10% quantile -df['age'].quantile(0.8) : 80% quantile

    unique(), nunique()

    -df['who'].unique() : 고유값

  • df['who'].nunique() : 고유값개수

    mode()

  • df['who'].mode() : 최빈값(가장 많이 출현한 데이터)

    corr()

  • 컬럼별 상관관계를 확인
  • -1 ~ 1사이의 범위를 가짐.
  • -1에 가까울수록 반비례, 1에 가까울수록 정비례
  • df.corr()
  • df.corr()['survived']
This post is licensed under CC BY 4.0 by the author.