[Machine Learning] K-Menas

728x90

비지도 학습에 속한다.

비슷한 위치에 있는 데이터들을 그룹으로 묶어 군집화 한다.

두 가지 변수에 속한 데이터 값들을 그룹핑 하는 경우

타겟 레이블이 없고 여러 데이터 값들만 있는 상태에서 군집화가 가능하다.

데이터들을 관찰하고 유클리드 거리값이 비슷한 데이터들 간에 묶는 과정을 거친다.

K-Means 알고리즘 단계

step1. 군집의 수를 정합니다. k

step2. 각 군집의 중심이 될 랜덤 k의 지점을 선택합니다.

step3. 정한 중심으로 근처에 있는 데이터를 할당하여 k개의 군집을 만듭니다.

step4. 각 군집의 새로운 중심을 계산합니다.

step5. 각각의 데이터들을 새로운 근처의 중심에 재할당합니다.

step6. step4부터 반복합니다.

최적의 k숫자

ELBOW METHOD: 최적의 군집 수를 얻기 위한 기법

군집 내 제곱의 합을 구한다. (Within Cluster Sum of Squares 약어 WCSS)

WCSS는 각 데이터 좌표들과 중심점의 거리를 계산하고 제곱합니다.

군집별로 똑같은 계산을 합니다.

모든 계산한 값을 합하면 구해집니다.

군집 수가 작을 수록, 군집 내 제곱 합은 매우 커지게 됩니다.

각 데이터 좌표들의 거리가 중심과 훨씬 멀어지기 때문입니다.

군집의 수를 늘려가면서 WCSS값은 점차 줄어듭니다. 각 데이터 좌표와 중심 간의 거리가 짧아지기 때문입니다.

제곱한 값들을 모두 더해도 값이 커지지 않습니다.

그러므로 최적의 K는 군집의 수가 점점 늘어날수록 낮아지는데 그 다음의 변화가 미미해지는 시작점이 최적이 됩니다.

728x90

[Machine Learning][Classification] Classifier Algorithms (0)	2023.02.16
[Machine Learning][Classification] Ensemble Learning (0)	2023.02.15
[Machine Learning] 실루엣 분석 (0)	2023.02.14
[Machine Learning] K-means_1 (0)	2023.02.14
[Machine Learning] 차원 축소 (1)	2023.02.13

Kang's Note