본문 바로가기
Data Analytics with python/[Data Analysis]

outlier

by 보끔밥0130 2023. 2. 18.
728x90

상관성이 높은 변수를 기준으로 이상치 제거

import seaborn as sns

plt.figure(figsize=(9,9))
corr = card_df.corr()
sns.heatmap(corr, cmap='RdBu')

이상치 인덱스

 

import numpy as np

def get_outlier(df = None, column = None, weight = 1.5):
    data = df[df['Class']==1][column]
    quantile_25 = np.percentile(data.values, 25)
    quantile_75 = np.percentile(data.values, 75)
    iqr = quantile_75 - quantile_25
    iqr_weight = iqr * weight
    lowest_val = quantile_25 - iqr_weight
    highest_val = quantile_75 + iqr_weight
    outlier_index = data[(data < lowest_val) | (data > highest_val)].index
    return outlier_index

이상치 찾기

outlier_index = get_outlier(df = card_df, column='V14', weight=1.5)
print('이상치 데이터의 인덱스:', outlier_index)
728x90

'Data Analytics with python > [Data Analysis]' 카테고리의 다른 글

[Visualization] Plotly_Part2  (0) 2023.01.22
[Visualization] Plotly_Part1  (0) 2023.01.22
[Visualization] seaborn  (0) 2023.01.22
[Visualization] matplotlib  (0) 2023.01.22
[Visualization] Basic_for _visualization  (0) 2023.01.22

댓글