● ESD (Extreme Studentized Deviation, 평규 ±3σ) –
avg = 시리즈객체.mean()
sd = 시리즈객체.std()
upp = avg + 3 * sd
low = avg – 3 * sd
cond = (열 < low) | (열 > upp)
● 순서를 부여 – rank = 시리즈객체.rank(method = ‘min’, ascending = False)
* min - 동점은 동일한 순위이며 가장 낮은 단위(상위 등수 기준)
● 전체 레코드 수 – 데이터프레임객체.shape[0]
● 결측치가 있는 컬럼의 수 – sum(데이터프레임객체.isna().sum() != 0)
● 전체 결측치 수 – sum(데이터프레임객체.isna().sum())
● 결측치가 n개 이상인 컬럼 – cols = 데이터프레임객체.columns[데이터프레임객체.isna().sum() > n]
● 결측치가 있는 레코드 삭제 후 전체 레코드 수 – len(데이터프레임객체.dropna())
● 레코드 홀/짝 조건 –
idx = np.arange(1, 48)
odd = (idx % 2 == 1)
even = (idx % 2 == 0)
● 문자열 일부 교체 처리 – 시리즈객체.str.replace(‘/’, ‘’)
● 백의 자리가 n인 경우 – 시리즈객체// 100 == n
● 일의 자리가 n인 경우 – 시리즈객체.astype(‘string’).str.endswith(‘n’)
● 데이터 구간화 –
bins = [0,10,20,30,40,50]
pd.cut(데이터, bins = bins, right = True)
● 범주형 최다 빈도 – freq = 데이터.value_counts().idxmax()
● 정규화 z-score –
avg = 시리즈객체.mean()
sd = 시리즈객체.std()
std = (시리즈객체 – avg) / sd
● 상위 n번째 값 (0부터이므로 n번째라면 입력은 n-1) –
시리즈객체.sort_values(ascending=False, ignore_index=True).loc[n-1]
● 상위 n개의 인덱스 (0부터 n개 이므로 입력은 n, 파이썬은 0부터 마지막은 포함하지 않음)
– 시리즈객체.sort_values(ascending=False).iloc[:10].index
● 데이터 분할 –
idx = np.floor(데이터프레임객체.shape[0] * 0.8).astype(‘int’)
train = 데이터[0:idx]
● 데이터 날짜로 변경 – pd.to_datetime(날짜객체)
년도 – 날짜객체.dt.year / 월 – 날짜객체.dt.month
● 순위 – rank(method = ‘min’, ascending = False)
● 결측 – sum(isna().sum() !=0)
● 행별 – train.index[ train.isna().sum(axis = 1) ]
● 결측조건 – train[‘컬럼’].isna()
● 변수 간 상관성 확인(수치형 변수들) – from scipy.stats import pearsonr
ex. cond_na = X_train[‘설명컬럼’].isna()
pearsonr(y_train[‘목표컬럼’][~cond_na], X_train[‘설명컬럼’][~cond_na])
● 결측 대치 – fillna()
● 최다 빈도 – train[‘컬럼’].value_counts().idxmax()
● category형 변수 컬럼 개수 – train.select_dtypes(‘object’).nuique()
● 범주 수정 – train[‘컬럼’].map( {key : value} )
● 타입 변경 – train[‘컬럼’].astype(‘object’)
'자격증 > [빅데이터분석기사]' 카테고리의 다른 글
[실기] 빅분기 연습: job_change 데이터로 (with Kaggle) / Classification (0) | 2023.01.16 |
---|---|
[실기] 빅데이터분석기사 실기 작업 흐름 (0) | 2023.01.16 |
댓글