본문 바로가기
자격증/[빅데이터분석기사]

[실기] 빅데이터분석기사 실기 작업 흐름

by 보끔밥0130 2023. 1. 16.
728x90

(참고) 제공된 패키지 확인

import pkg_resources

import pandas

Output = pandas.DataFrame(sorted([i.key, i.version) for i in pkg_resources.working_set]))

print(Output)

 

help 사용법 (import 후에 사용) :

① # import sklearn

    # print(sklearn.__all__)

② # from sklearn import linear_model

     # print(dir(sklearn.linear_model))

③ # from sklearn.linear_model import LinearRegression

    # help(LinearRegression)

 

1. 데이터 읽어오기

 

2. 데이터 셋 파악 - 일부 / 요약정보 / 기초 통계량 : head(), info(), describe() (shape, 변수타입, 결측치)

 

3. 전처리 / 정제

변수 처리 8가지

① 불필요한 컬럼 삭제

② 결측치 처리 -

10% 미만 : 삭제 or 대치

10%~50% : regression or model based imputation (시험에선 삭제)

50 % 이상 : 해당 컬럼(변수) 자체 삭제

③ 카테고리형 컬럼 전처리

④ 수치형 컬럼 전처리

분석용 처리 ⑤ 데이터 분할 : from sklearn.model_selection import train_test_split

⑥ 인코딩 (범주) : from sklearn.preprocessing import OneHotEncoder

⑦ 스케일링 (수치형) : from sklearn.preprocessing import StandardSclaer

⑧ 입력 데이터셋 준비 : import numpy as np

X_train = np.concatenate([원핫데이터, 스케일데이터], axis = 1)

y_train = y_train.values.ravel()

 

4. 모델링 (최소 3모델 중 하나로 결과)

분류 : RandomForestClassifier / XGBClassifier / LGBMClassifier

회귀 : RandomForestRegressor / XGBRegressor / LGBMRegressor

분류 : RandomForestClassifier ,DecisionTreeClassifier → BaggingClassifier, AdaBoostClassifier

회귀 : RandomForestRegressor ,DecisionTreeRegressor → BaggingRegressor, AdaBoostRegressor

 

5. 평가 :

from sklearn.metrics import mean_squared_error (보통 회귀 평가의 경우)

from sklearn.metrics import f1_score (보통 분류 평가의 경우)

 

기타 평가 모듈

분류 : acccuracy_score / roc_curve, auc / f1_score

회귀 : mean_squared_error / mean_absolute_error

 

6. 예측 / 저장

데이터.to_csv('파일명', index=False)

 

 
728x90

댓글