본문 바로가기
Data Analytics with python/[Theory]

[Machine Learning][나이브 베이지안 ] NAIVE BAYES

by 보끔밥0130 2023. 1. 26.
728x90

나이브 베이스는 베이즈의 정리를 기반으로 하는 분류 기법입니다.

 

베이즈 정리는 사전확률을 알고 있을 때, 사건 발생 후에 그 확률이 수정되거나 변할 수 있다는 의미입니다.

과제 : 새로운 고객은 빨간색으로 분류되는가 초록색으로 분류되는가?

 

NAIVE BAYES

step1. prior probability (사전 확률)  - 얕은 추측

우리는 빨간 점보다 파란 점을 더 많이 갖고 있기 때문에 우리는 새로운 점이 빨간 점보다 파란 점(더 흔한 클래스)으로 속할 것이라 판단합니다.

 

빨강 점의 사전확률 =  Number of RED Points / Total Number of Points = 20 / 60

 

초록 점의 사전확률 =  Number of GREEN Points / Total Number of Points = 40 / 60

 

→ 초록 점에 속합니다.

 

step2. likelihood (우도)

그 지점 주변에서 선택한 영역을 기반으로 가능성을 계산합니다.

새로운 데이터를 중심으로 얼마나 많은 점이 분포하고 있는지를 기반으로 판단합니다

 

빨강 속한 우도 = Number of RED Points in vicinity / Total of RED Points = 3 / 20

 

초록 속한 우도 = Number of GREEN Points in vicinity / Total of GREEN Points = 1 / 40

 

→ 빨강 점에 속합니다.

 

step3. posterior probability (사후 확률)

추가된 정보로부터 사전정보를 새롭게 수정한 확률 

사후확률 = 사전확률 * 우도

 

빨강의 사후 확률 = 사전 확률 * 우도 = 20 / 60 * 3 / 20 = 1/20

 

초록의 사후 확률 = 사전 확률 * 우도 = 40 / 60 * 1 / 40 = 1/ 60

 

→ 빨강 점에 속합니다.

 

결과적으로 새 데이터는 빨강 점에 속합니다

 

 

실제 확률값을 구하는 공식

X : 새 데이터

P(Retire|X) : 사후 확률 - 사건 발생 후 어떤 원인으로부터 일어난 것으로 생각 되어지는 확률

P(Retire) : 사전 확률

P(X|Retire) : 우도 (조건부확률) - 원인으로 발생할 지지 정도

P(X) : 주변 우도 - 추가된 어떤 점이든 그 원 안에 들어갈 확률 ( 경계 내 관측된 수 / 전체 수)

 

P(Retire|X) = {(40/60) * (1/40) } / (4 /60) = 0.25

 

 

728x90

댓글