본문 바로가기
자격증/[빅데이터분석기사]

[실기] 빅데이터분석기사 실기 - 작업형 2 빈출

by 보끔밥0130 2023. 1. 16.
728x90

ESD (Extreme Studentized Deviation, 평규 ±3σ)

avg = 시리즈객체.mean()

sd = 시리즈객체.std()

upp = avg + 3 * sd

low = avg – 3 * sd

cond = (열 < low) | (열 > upp)

● 순서를 부여 – rank = 시리즈객체.rank(method = ‘min’, ascending = False)

* min - 동점은 동일한 순위이며 가장 낮은 단위(상위 등수 기준)

● 전체 레코드 수 – 데이터프레임객체.shape[0]

● 결측치가 있는 컬럼의 수 – sum(데이터프레임객체.isna().sum() != 0)

● 전체 결측치 수 – sum(데이터프레임객체.isna().sum())

● 결측치가 n개 이상인 컬럼 – cols = 데이터프레임객체.columns[데이터프레임객체.isna().sum() > n]

● 결측치가 있는 레코드 삭제 후 전체 레코드 수 – len(데이터프레임객체.dropna())

● 레코드 홀/짝 조건

idx = np.arange(1, 48)

odd = (idx % 2 == 1)

even = (idx % 2 == 0)

● 문자열 일부 교체 처리 – 시리즈객체.str.replace(‘/’, ‘’)

● 백의 자리가 n인 경우 – 시리즈객체// 100 == n

● 일의 자리가 n인 경우 – 시리즈객체.astype(‘string’).str.endswith(‘n’)

● 데이터 구간화

bins = [0,10,20,30,40,50]

pd.cut(데이터, bins = bins, right = True)

● 범주형 최다 빈도 – freq = 데이터.value_counts().idxmax()

● 정규화 z-score

avg = 시리즈객체.mean()

sd = 시리즈객체.std()

std = (시리즈객체 – avg) / sd

● 상위 n번째(0부터이므로 n번째라면 입력은 n-1) –

시리즈객체.sort_values(ascending=False, ignore_index=True).loc[n-1]

● 상위 n의 인덱스 (0부터 n개 이므로 입력은 n, 파이썬은 0부터 마지막은 포함하지 않음)

– 시리즈객체.sort_values(ascending=False).iloc[:10].index

● 데이터 분할 – 

idx = np.floor(데이터프레임객체.shape[0] * 0.8).astype(‘int’)

train = 데이터[0:idx]

● 데이터 날짜로 변경 – pd.to_datetime(날짜객체)

년도 – 날짜객체.dt.year / 월 – 날짜객체.dt.month

● 순위 – rank(method = ‘min’, ascending = False)

● 결측 – sum(isna().sum() !=0)

● 행별 – train.index[ train.isna().sum(axis = 1) ]

● 결측조건 – train[‘컬럼’].isna()

● 변수 간 상관성 확인(수치형 변수들) – from scipy.stats import pearsonr

ex. cond_na = X_train[‘설명컬럼’].isna()

pearsonr(y_train[‘목표컬럼’][~cond_na], X_train[‘설명컬럼’][~cond_na])

● 결측 대치 – fillna()

● 최다 빈도 – train[‘컬럼’].value_counts().idxmax()

● category형 변수 컬럼 개수 – train.select_dtypes(‘object’).nuique()

● 범주 수정 – train[‘컬럼’].map( {key : value} )

● 타입 변경 – train[‘컬럼’].astype(‘object’)

 
728x90

댓글