본문 바로가기
Data Analytics with python/[Theory]

[Machine Learning][Regression] 회귀 소개

by 보끔밥0130 2023. 2. 2.
728x90

회귀분석은 영국의 통계학자 갈톤(Galton)이 수행한 연구에서 유래했다는 것이 일반론입니다.

 

갈톤의 연구에 따르면 부모의 키가 아주 크다고 자식의 키가 부모보다 더 커져서 세대를 이어가면서 무한 정 커지는 것이 아니며 그 반대도 마찬가지라는 것입니다.

 

결국 사람의 키는 평균 키로 회귀하려는 경향을 가진다는 자연의 법칙이 있다는 것입니다.

 

회귀분석은 데이터 값이 평균과 같은 일정한 값으로 돌아가려는 경향을 이용한 통계학 기법입니다.

 

통계학 용어에서 회귀는 여러 개의 독립변수와 한 개의 종속변수 간의 상관관계를 모델링하는 기법을 통칭합니다.

 

머신러닝 회귀 예측은 주어진 피처(독립변수)와 결정 값(종속변수) 데이터 기반에서 학습을 통해 최적의 회귀 계수를 찾아내는 것입니다.

 

회귀에서 가장 중요한 것은 "회귀 계수"입니다.

 

회귀 계수의 선형 여부에 따라 선형 회귀, 비선형 회귀로 나눌 수 있습니다.

 

또한, 독립변수의 개수에 따라 1 개면 단일 회귀, 여러 개면 다중 회귀로 나눌 수 있습니다.

 

회귀는 예측 값이 연속형 숫자 값입니다.

 

<선형 회귀>

선형 회귀는 실제 값과 예측 값의 차이의 제곱을 최소화하는 회귀 선을 최적화하는 방식입니다.

RSS(Residual Sum of Squares) : 오류(실제 값과 예측값의 차이)의 제곱 값

선형 회귀 모델이 과적합하는 문제를 해결하기 위한 규제(Regularization)방법에 따라 다시 별도로 분류할 수 있습니다

 

릿지 (Ridge): 선형 회귀에 L2 규제를 적용한 회귀 모델입니다.

L2 규제는 상대적으로 큰 회귀 계수 값의 예측 영향도를 감소시킵니다.

회귀 계수 값을 더 작게 만드는 규제 모델입니다.

 

라쏘 (Lasso): 선형 회귀에 L1규제를 적용한 회귀 모델입니다.

L1 규제는 예측 영향력이 작은 피처의 회귀 계수를 0으로 만들어 선택되지 않도록 만듭니다.

 

엘라스틱넷 (ElasticNet): L2, L1 규제를 함께 적용한 회귀 모델입니다.

피처가 많은 데이터 셋에 적용합니다.

L1 규제로 피처의 개수를 줄이며 동시에 L2 규제로 계수 값의 크기를 조정합니다.

 

로지스틱 회귀 (Logistic Regression): 분류에 사용되는 선형 회귀 모델입니다.

이진 분류뿐만 아니라 텍스트 분류와 같이 희소 영역의 분류에서 강력한 분류 성능을 보여줍니다.

 

 

 

728x90

댓글