본문 바로가기
Data Analytics with python/[Theory]

[Machine Learning] K-Menas_2

by 보끔밥0130 2023. 2. 14.
728x90

비지도 학습에 속한다.

 

비슷한 위치에 있는 데이터들을 그룹으로 묶어 군집화 한다.

 

두 가지 변수에 속한 데이터 값들을 그룹핑 하는 경우

 

타겟 레이블이 없고 여러 데이터 값들만 있는 상태에서 군집화가 가능하다.

 

데이터들을 관찰하고 유클리드 거리값이 비슷한 데이터들 간에 묶는 과정을 거친다.

 

K-Means 알고리즘 단계

step1. 군집의 수를 정합니다. k

step2. 각 군집의 중심이 될 랜덤 k의 지점을 선택합니다.

step3. 정한 중심으로 근처에 있는 데이터를 할당하여 k개의 군집을 만듭니다.

step4. 각 군집의 새로운 중심을 계산합니다.

step5. 각각의 데이터들을 새로운 근처의 중심에 재할당합니다.

step6. step4부터 반복합니다.

 

최적의 k숫자

ELBOW METHOD: 최적의 군집 수를 얻기 위한 기법

군집 내 제곱의 합을 구한다. (Within Cluster Sum of Squares 약어 WCSS)

 

WCSS는 각 데이터 좌표들과 중심점의 거리를 계산하고 제곱합니다.

군집별로 똑같은 계산을 합니다.

모든 계산한 값을 합하면 구해집니다.

 

군집 수가 작을 수록, 군집 내 제곱 합은 매우 커지게 됩니다.

각 데이터 좌표들의 거리가 중심과 훨씬 멀어지기 때문입니다.

군집의 수를 늘려가면서 WCSS값은 점차 줄어듭니다. 각 데이터 좌표와 중심 간의 거리가 짧아지기 때문입니다.

제곱한 값들을 모두 더해도 값이 커지지 않습니다.

그러므로 최적의 K는 군집의 수가 점점 늘어날수록 낮아지는데 그 다음의 변화가 미미해지는 시작점이 최적이 됩니다.

 

728x90

댓글