728x90
상관성이 높은 변수를 기준으로 이상치 제거
import seaborn as sns
plt.figure(figsize=(9,9))
corr = card_df.corr()
sns.heatmap(corr, cmap='RdBu')
이상치 인덱스
import numpy as np
def get_outlier(df = None, column = None, weight = 1.5):
data = df[df['Class']==1][column]
quantile_25 = np.percentile(data.values, 25)
quantile_75 = np.percentile(data.values, 75)
iqr = quantile_75 - quantile_25
iqr_weight = iqr * weight
lowest_val = quantile_25 - iqr_weight
highest_val = quantile_75 + iqr_weight
outlier_index = data[(data < lowest_val) | (data > highest_val)].index
return outlier_index
이상치 찾기
outlier_index = get_outlier(df = card_df, column='V14', weight=1.5)
print('이상치 데이터의 인덱스:', outlier_index)
728x90
'Data Analytics with python > [Data Analysis]' 카테고리의 다른 글
[Visualization] Plotly_Part2 (0) | 2023.01.22 |
---|---|
[Visualization] Plotly_Part1 (0) | 2023.01.22 |
[Visualization] seaborn (0) | 2023.01.22 |
[Visualization] matplotlib (0) | 2023.01.22 |
[Visualization] Basic_for _visualization (0) | 2023.01.22 |
댓글