본문 바로가기
728x90

자격증/[빅데이터분석기사]3

[실기] 빅분기 연습: job_change 데이터로 (with Kaggle) / Classification data : https://www.kaggle.com/datasets/arashnic/hr-analytics-job-change-of-data-scientists?resource=download 작업형 예시 / 문제 : Classification / 평가 : auc In [60]: import pandas as pd import numpy as np from sklearn.model_selection import train_test_split from sklearn.preprocessing import OneHotEncoder, StandardScaler from sklearn.ensemble import RandomForestClassifier as RFC from xgboost import XGBCl.. 2023. 1. 16.
[실기] 빅데이터분석기사 실기 작업 흐름 (참고) 제공된 패키지 확인 import pkg_resources import pandas Output = pandas.DataFrame(sorted([i.key, i.version) for i in pkg_resources.working_set])) print(Output) help 사용법 (import 후에 사용) : ① # import sklearn # print(sklearn.__all__) ② # from sklearn import linear_model # print(dir(sklearn.linear_model)) ③ # from sklearn.linear_model import LinearRegression # help(LinearRegression) 1. 데이터 읽어오기 2. 데이터 셋 파.. 2023. 1. 16.
[실기] 빅데이터분석기사 실기 - 작업형 2 빈출 ● ESD (Extreme Studentized Deviation, 평규 ±3σ) – avg = 시리즈객체.mean() sd = 시리즈객체.std() upp = avg + 3 * sd low = avg – 3 * sd cond = (열 upp) ● 순서를 부여 – rank = 시리즈객체.rank(method = ‘min’, ascending = False) * min - 동점은 동일한 순위이며 가장 낮은 단위(상위 등수 기준) ● 전체 레코드 수 – 데이터프레임객체.shape[0] ● 결측치가 있는 컬럼의 수 – sum(데이터프레임객체.isna().sum() != 0) ● 전체 결측치 수 – sum(데이터프레임객체.isna().sum()) ● 결측치가 n개 이상인 컬럼 – col.. 2023. 1. 16.
728x90