[Math]/[확률과 통계]

확률 분포가 왜 필요한가?

보끔밥0130 2023. 5. 28. 12:17
728x90

데이터 분석에서 데이터에는 많은 정보가 담겨있습니다.

 

사람은 이 많은 정보를 받아들일 때, 숫자를 보고 판단하기보다 숫자의 특성을 파악하기 용이한 이미지를 통해 이해하는 경우가 많습니다. 그래서 수학을 사용하게 되며 수학에서는 보다 쉽게 정보를 전달하기 위해 표나 그래프 같은 이미지를 사용합니다.

 

위 그래프 처럼 데이터는 일정한 분포를 갖고 있는데 매번 이 분포를 계산하여 함수를 구하고 그 공식을 통해 확률을 구하는 것은 어렵습니다. 모양에 따른 확률 분포 함수에 관한 공식을 알고 있다면 일련의 과정이 편해집니다.

 

보통 변수의 빈도수를 표현한 막대그래프를 그려 도수 분포를 먼저 관찰합니다.

 

만일 변수가 범주형이나 이산형 변수이고 확률변수라면 도수를 상대도수로 바꾸면 상대도수는 확률변수의 확률 질량이 됩니다.

 

반대로, 변수가 연속형 변수이고 확률 변수이면 변수를 구간으로 나누어 구간의 대표값을 구한 후 그 대표값의 상대도수를 막대그래프로 그리면 막대의 길이가 확률밀도가 됩니다. 히스토그램을 그리면 히스토그램의 경계를 확률밀도값으로 사용할 수도 있습니다. 

 

이렇게 매번 변수의 종류에 따라 분포를 그려내고 그 분포의 확률 함수를 찾아내는 것은 복잡한 일입니다.

 

즉, 데이터 분석의 첫 번째 가정은 ‘분석하고자 하는 데이터가 어떤 확률 변수로부터 실현된 표본이다’입니다. 이 말은 우리 는 하나의 관측에 불과한 표본(지금 손에 가지고 있는 데이터)이 아닌 그 뒤에서 이 데이터를 만들어내는 확률변수의 분포에 정말 관심을 가진다는 의미입니다. 확률론적인 관점에서 볼 때 데이터는 이 확률변수의 분포를 알아내기 위한 일련의 참고 자료일 뿐입니다. 따라서 우리는 데이터 즉 표본으로부터 확률변수의 분포를 알아내는 목적이 있습니다.

확률 분포 관계도

통계에서 확률분포가 중요한 이유는 바로 공식 때문입니다. 왜냐하면 현실에서는 통계를 활용하여 많은 해석을 하는데, 매번 데이터의 분포를 일일이 분석해서 확률을 구하는 것은 힘들고 복잡합니다. 하지만 먼저 확률값이 퍼져있는 형태를 활용한 여러 공식을 미리 만들어 놓으면, 그 다음부터는 분포에 맞는 공식을 활용해서 훨씬 쉽고 간편하게 확률을 구할 수 있습니다. 결과적으로 통계에는 많은 확률 분포가 존재하고, 각 분포마다 확률 함수 공식이 하나씩 있습니다. 그 확률 분포는 데이터 변수의 종류에 따라 이산확률 분포와 연속확률 분포로 크게 나뉩니다.

 

참고

https://blog.cloudera.com/blog/2015/12/common-probability-distributions-the-data-scientists-crib-sheet/

 

Cloudera Blog

May 17, 2023 | Culture Career Lessons Learned and Navigating the Workplace by Gino Gemignani 5 min read May 11, 2023 | Culture Originally from Brazil, Alex previously lived in Chile and now lives in Spain.  During his time living in Latin America in early

blog.cloudera.com

https://recipesds.tistory.com/entry/%ED%99%95%EB%A5%A0%EA%B3%BC-%ED%86%B5%EA%B3%84%EC%9D%98-%EA%B4%80%EA%B3%84-%EB%8A%90%EB%8B%B7%EC%97%86%EC%9D%B4-%ED%99%95%EB%A5%A0%EC%9D%84-%EB%B0%B0%EC%9A%B0%EB%8A%94-%EC%9D%B4%EC%9C%A0

 

확률과 통계의 관계 - 느닷없이 확률을 배우는 이유

확률과 통계의 관계 - 느닷없이 확률을 배우는 이유 확률과 통계는 어째서 붙어 다니는 걸까. 고등학교 시절로 거슬러 올라가면, 어느 날 갑자기 - 정말 뜬금없이 - 경우의 수를 배우기 시작하게

recipesds.tistory.com

728x90