본문 바로가기
728x90

Data Analytics with python/[Data Analysis]63

[matplotlib & seaborn] 기초 명령어 seaborn 산점도, 회귀선 : 두 변수 간의 상관관계를 확인 선그래프, 막대그래프 : 시간의 변화에 따른 추이를 확인 박스플롯 : 데이터 분포의 중앙값을 확인 바이올린플롯 : 데이터의 최대값, 최소값을 확인 히스토그램 : 데이터의 분포 히트맵 : 여러 가지 변수를 한 번에 비교 데이터셋 In [54]: import seaborn as sns import pandas as pd In [55]: # print(dir(sns)) In [56]: print(sns.get_dataset_names(), end='') ['anagrams', 'anscombe', 'attention', 'brain_networks', 'car_cras.. 2023. 1. 8.
[pandas] 기초 명령어 탐색 df.head(number) : 처음 다섯 개의 로우를 출력 df.shape : 몇 개의 로우와 행으로 이루어져 있는지 확인 df.describe() # include = 'all' : 통계 지표를 확인 df.info() : 데이터의 구조를 파악 (몇 개의 컬럼, 각 컬럼에 포함된 데이터들의 타입 등) df['칼럼명'].unique() : 카테고리형 데이터의 종류를 파악 df['칼럼명'].unique() : 카테고리형 데이터의 고유값의 총 수 df['컬럼명'].value_counts() : 카테고리형 데이터의 개수를 확인 정렬 df.sort_values(by = ['칼럼명'], ascending = False) df.sort_index(ascending = False) 선택 df['컬럼명'] df[.. 2023. 1. 8.
[데이터프레임] Dataframe이란 pd.DataFrame(data = None, index = None, columns = None, copy = None) Series는 1차원, DataFrame은 2차원 매개변수 (parameter) data : ndarray(판다스 배열), Iterable(반복 가능한 객체), dictionary(키:값), DataFrame(행렬) index : 행 레이블, 인덱스 또는 배열 형태 columns : 열 레이블, 인덱스 또는 배열 형태 dtype : 데이터 유형을 보여준다. default = None copy : True / False, True이면 원본 보호되고 False면 원본 보호 안 됨 In [1]: import numpy as np import pandas as pd In [9]: dt = .. 2022. 2. 28.
728x90