outlier

728x90

상관성이 높은 변수를 기준으로 이상치 제거

import seaborn as sns

plt.figure(figsize=(9,9))
corr = card_df.corr()
sns.heatmap(corr, cmap='RdBu')

이상치 인덱스

import numpy as np

def get_outlier(df = None, column = None, weight = 1.5):
    data = df[df['Class']==1][column]
    quantile_25 = np.percentile(data.values, 25)
    quantile_75 = np.percentile(data.values, 75)
    iqr = quantile_75 - quantile_25
    iqr_weight = iqr * weight
    lowest_val = quantile_25 - iqr_weight
    highest_val = quantile_75 + iqr_weight
    outlier_index = data[(data < lowest_val) | (data > highest_val)].index
    return outlier_index

이상치 찾기

outlier_index = get_outlier(df = card_df, column='V14', weight=1.5)
print('이상치 데이터의 인덱스:', outlier_index)

728x90

'Data Analytics with python > [Data Analysis]' 카테고리의 다른 글

[Visualization] Plotly_Part2 (0)	2023.01.22
[Visualization] Plotly_Part1 (0)	2023.01.22
[Visualization] seaborn (0)	2023.01.22
[Visualization] matplotlib (0)	2023.01.22
[Visualization] Basic_for _visualization (0)	2023.01.22

Kang's Note

outlier

'Data Analytics with python > [Data Analysis]' 카테고리의 다른 글

댓글

티스토리툴바

outlier

'Data Analytics with python > [Data Analysis]' 카테고리의 다른 글

관련글

댓글

티스토리툴바