나이브 베이스는 베이즈의 정리를 기반으로 하는 분류 기법입니다.
베이즈 정리는 사전확률을 알고 있을 때, 사건 발생 후에 그 확률이 수정되거나 변할 수 있다는 의미입니다.
과제 : 새로운 고객은 빨간색으로 분류되는가 초록색으로 분류되는가?
NAIVE BAYES
step1. prior probability (사전 확률) - 얕은 추측
우리는 빨간 점보다 파란 점을 더 많이 갖고 있기 때문에 우리는 새로운 점이 빨간 점보다 파란 점(더 흔한 클래스)으로 속할 것이라 판단합니다.
빨강 점의 사전확률 = Number of RED Points / Total Number of Points = 20 / 60
초록 점의 사전확률 = Number of GREEN Points / Total Number of Points = 40 / 60
→ 초록 점에 속합니다.
step2. likelihood (우도)
그 지점 주변에서 선택한 영역을 기반으로 가능성을 계산합니다.
새로운 데이터를 중심으로 얼마나 많은 점이 분포하고 있는지를 기반으로 판단합니다
빨강 속한 우도 = Number of RED Points in vicinity / Total of RED Points = 3 / 20
초록 속한 우도 = Number of GREEN Points in vicinity / Total of GREEN Points = 1 / 40
→ 빨강 점에 속합니다.
step3. posterior probability (사후 확률)
추가된 정보로부터 사전정보를 새롭게 수정한 확률
사후확률 = 사전확률 * 우도
빨강의 사후 확률 = 사전 확률 * 우도 = 20 / 60 * 3 / 20 = 1/20
초록의 사후 확률 = 사전 확률 * 우도 = 40 / 60 * 1 / 40 = 1/ 60
→ 빨강 점에 속합니다.
결과적으로 새 데이터는 빨강 점에 속합니다
실제 확률값을 구하는 공식
X : 새 데이터
P(Retire|X) : 사후 확률 - 사건 발생 후 어떤 원인으로부터 일어난 것으로 생각 되어지는 확률
P(Retire) : 사전 확률
P(X|Retire) : 우도 (조건부확률) - 원인으로 발생할 지지 정도
P(X) : 주변 우도 - 추가된 어떤 점이든 그 원 안에 들어갈 확률 ( 경계 내 관측된 수 / 전체 수)
P(Retire|X) = {(40/60) * (1/40) } / (4 /60) = 0.25
'Data Analytics with python > [Theory]' 카테고리의 다른 글
[Machine Learning][Regression] 회귀 소개 (0) | 2023.02.02 |
---|---|
[Machine Learning] 머신 러닝 개괄 (0) | 2023.01.30 |
그래프 유형 선택하기 (0) | 2023.01.21 |
클래스(class)와 객체(object)와 인스턴스(instance) 구분 (0) | 2022.03.01 |
PCA (Principal Component Analysis) : 주성분 분석 개요 (0) | 2022.02.28 |
댓글