탐색
df.head(number) : 처음 다섯 개의 로우를 출력
df.shape : 몇 개의 로우와 행으로 이루어져 있는지 확인
df.describe() # include = 'all' : 통계 지표를 확인
df.info() : 데이터의 구조를 파악 (몇 개의 컬럼, 각 컬럼에 포함된 데이터들의 타입 등)
df['칼럼명'].unique() : 카테고리형 데이터의 종류를 파악
df['칼럼명'].unique() : 카테고리형 데이터의 고유값의 총 수
df['컬럼명'].value_counts() : 카테고리형 데이터의 개수를 확인
정렬
df.sort_values(by = ['칼럼명'], ascending = False)
df.sort_index(ascending = False)
선택
df['컬럼명']
df[시작인덱스:종료인덱스+1] : n개의 로우면 종료인덱스는 n-1번째 (0부터 n-1번째 = n개)
df.iloc[인덱스위치]
df1 = df.set_index('컬럼명')
df1.loc['로우명']
df.iloc[1] or df.loc['인덱스명'] : 첫 로우 출력
df[조건식]
df['컬럼명'].max() : 특정 컬럼의 가장 큰 값
df['컬럼명'].idxmax() : 큰 값의 인덱스
df['컬럼명'].argmax() : 최대값이 "어디에 있는지" 반환
삭제
df.drop(컬럼명, axis = 1, inplace = True) # axis = 1은 책꽃는 (열방향)
df.drop(로우인덱스, inplace = True)
연산
① 산술연산
df['컬럼명'] + 2
df['컬럼명'].mean()
② 샘플링
df.sample(n = number) : 비복원 추출 (모집단에서 제외)
df.sample(frac = float) : 비율로 비복원 추출
df.sample(n = number, replace = True) : 복원 추출 (다시 모집단에 복원)
③ 값 치환
df.replace(현재값, 새로운 값)
④ 함수 적용
df['컬럼명'].apply(함수이름)
df['컬럼명'].apply(lambda x : x+2)
df['컬럼명'].astype('int') : 형 변환
⑤ 원핫 인코딩
pd.get_dummies(변환할 컬럼, prefix = '붙이는 이름')
⑥ 결측치 처리
df.isna() : 결측치 포함 여부
df.isna().sum() : 결측치 몇 개 있는지 확인
df.fillna(치환할 값)
df.dropna() : 모든 결측치 삭제
변형
df.groupby(컬럼명)
pd.merge(left, right, how = 'left') : 동일하지 않은 데이터 형태이고 기준값을 사용하여 합침
pd.concat([데이터프레임], axis=) # axis = 1로 설정하면 열을 따라서 데이터를 이어 붙임 : 동일한 데이터 형태이고 로우나 컬럼을 이어서 붙임
저장
df.to_csv(파일이름, encoding = 'euc-kr', index = False)
'Data Analytics with python > [Data Analysis]' 카테고리의 다른 글
[Pandas][Series] S1_02_custom_index: 사용자 지정 인덱스 (0) | 2023.01.17 |
---|---|
[Pandas][Series] S1_01_Numeric Default Index: 기본 인덱스 (0) | 2023.01.17 |
[실전 연습] 보험료 예측 (insurance) (0) | 2023.01.17 |
[matplotlib & seaborn] 기초 명령어 (0) | 2023.01.08 |
[데이터프레임] Dataframe이란 (0) | 2022.02.28 |
댓글