(참고) 제공된 패키지 확인
import pkg_resources
import pandas
Output = pandas.DataFrame(sorted([i.key, i.version) for i in pkg_resources.working_set]))
print(Output)
help 사용법 (import 후에 사용) :
① # import sklearn
# print(sklearn.__all__)
② # from sklearn import linear_model
# print(dir(sklearn.linear_model))
③ # from sklearn.linear_model import LinearRegression
# help(LinearRegression)
1. 데이터 읽어오기
2. 데이터 셋 파악 - 일부 / 요약정보 / 기초 통계량 : head(), info(), describe() (shape, 변수타입, 결측치)
3. 전처리 / 정제
변수 처리 8가지
① 불필요한 컬럼 삭제
② 결측치 처리 -
10% 미만 : 삭제 or 대치
10%~50% : regression or model based imputation (시험에선 삭제)
50 % 이상 : 해당 컬럼(변수) 자체 삭제
③ 카테고리형 컬럼 전처리
④ 수치형 컬럼 전처리
분석용 처리 ⑤ 데이터 분할 : from sklearn.model_selection import train_test_split
⑥ 인코딩 (범주) : from sklearn.preprocessing import OneHotEncoder
⑦ 스케일링 (수치형) : from sklearn.preprocessing import StandardSclaer
⑧ 입력 데이터셋 준비 : import numpy as np
X_train = np.concatenate([원핫데이터, 스케일데이터], axis = 1)
y_train = y_train.values.ravel()
4. 모델링 (최소 3모델 중 하나로 결과)
①
분류 : RandomForestClassifier / XGBClassifier / LGBMClassifier
회귀 : RandomForestRegressor / XGBRegressor / LGBMRegressor
②
분류 : RandomForestClassifier ,DecisionTreeClassifier → BaggingClassifier, AdaBoostClassifier
회귀 : RandomForestRegressor ,DecisionTreeRegressor → BaggingRegressor, AdaBoostRegressor
5. 평가 :
from sklearn.metrics import mean_squared_error (보통 회귀 평가의 경우)
from sklearn.metrics import f1_score (보통 분류 평가의 경우)
기타 평가 모듈
분류 : acccuracy_score / roc_curve, auc / f1_score
회귀 : mean_squared_error / mean_absolute_error
6. 예측 / 저장
데이터.to_csv('파일명', index=False)
'자격증 > [빅데이터분석기사]' 카테고리의 다른 글
[실기] 빅분기 연습: job_change 데이터로 (with Kaggle) / Classification (0) | 2023.01.16 |
---|---|
[실기] 빅데이터분석기사 실기 - 작업형 2 빈출 (0) | 2023.01.16 |
댓글