본문 바로가기
데이터 분석, 통계/통계학 개념 정리

딥러닝/데이터 분석을 위한 통계 - 3편) 정규분포와 중심극한정리

by W_log 2023. 10. 16.

이 글은 통계학을 공부하는 과정에서 왜 딥러닝에서 통계가 필요하고 어떤 개념들이 데이터 분석/딥러닝 실무에서 중점적으로 필요한지 개인적으로 정리하기 위한 목적으로 쓴 시리즈 글입니다.

(사실 데이터 분석을 실무를 경험했지만 딥러닝에서는 실무를 경험해보지 않았기 때문에 딥러닝 관점에서는 사실 공부하면서 중요하다고 생각한 개념들이라고 봐주시면 좋을 것 같습니다.)

 

나조차도 딥러닝 공부하겠다고 그동안 통계공부를 도전해 왔었는데 수학 문제집에서 “집합” 부분만 너덜너덜한 것처럼 항상 평균과 분산, t분포, 중심극한 정리가 공부하다가 이게 앞으로 내가 공부하는 과정에서 왜 필요한지에 대해서 의문을 가져왔는데 해답을 찾지 못해 항상 지지부진했었는데 다시 통계를 공부하기 시작한 시점에서 이를 정리해보려고 합니다.

 

 


이전 편에서 통계가 왜 필요한지 설명하고 여러 데이터에서 대표적인 정보를 얻어낼 수 있는 방법으로 대푯값들에 대한 설명을 했다. 

사실 대푯값은 단순히 정보를 가지는 것 외에 추가적인 역할을 하게 되는데 이에 대해서 오늘 같이 설명해보려고 한다.

 

1장에서 우리는 확률분포에 대해서 배워본 적이 있다. 통계에서의 분포란 일종의 물리학 공식처럼, 데이터들에 대한 분포를 공식으로 표현할 수 있는 것을 의미한다. (1장에서는 통계 분포가 아닌 확률분포로 한정지어서 표현했지만 통계분포이든, 확률분포든 분포가 가지는 장점은 모두 동일하며, 모든 데이터가 확률로 표현되지 않기 때문에 더 확장된 개념으로 통계 분포를 이해하면 좋을 것 같다.)

 

분포의 장점은 우리가 발견하지 않은 데이터라고 하더라도 예측가능할 수 있으며, 수식이기 때문에 그래프로 그릴 수 있어서, 그래프와 현재의 표본(분포에서 추출된 데이터)과의 비교를 통해서 정보를 얻어갈 수 있다.

 

 

우리가 구하려는 분포는 모집단의 분포일까 표본집단의 분포일까?

 

엄밀히 말하면 둘다 구하는 경우가 있다. 하지만 기본적으로 우리가 알고 싶은 건 근본적으로 데이터가 어떤 분포를 가지는지(모집단의 분포)이다. 

 

하지만 현실에서 우리는 전체 데이터 중에 일부(대통령 선거에서 출구조사를 통해서 투표 결과를 예측할때)만 가지고, 전체 데이터를 알아내야하는(추정해야하는) 경우가 대부분이다.

 

전체를 다 조사하기에는 시간, 공간적 비용이 많이 들기 때문이다. 

 

 

 

분포는 어떻게 우리가 알아낼 수 있을까?

여기서 앞서 얘기했던 대푯값이 재등장한다. 대부분의 분포는 평균, 분산, 표준편차와 같은 대푯값으로 인해서 정해진다. 이게 무슨 말이냐면, y = ax 라는 함수가 있다고 하자. a가 기울기(상수)라고 했을 때 x는 어차피 우리가 대입하는 값이기 때문에 오로지 a의 값에 의해서 정해진다. 그래프의 모양이 a의 값에 따라 달라진다.

 

즉 분포를 이루는 공식이 평균, 분산과 같은 대푯값에 의해 정해진다는 의미이다.

 

 

대표적인 분포 : 정규분포

 

1편에서 정규분포에 대해서 많이 설명했기 때문에 분포 자체에 대해서는 아래 포스팅 글을 확인해주시면 좋을 것 같다.

https://w-log.tistory.com/20

 

딥러닝/데이터 분석을 위한 통계 - 1편) 확률변수, 확률분포

이 글은 통계학을 공부하는 과정에서 왜 딥러닝에서 통계가 필요하고 어떤 개념들이 데이터 분석/딥러닝 실무에서 중점적으로 필요한지 개인적으로 정리하기 위한 목적으로 쓴 시리즈 글입니

w-log.tistory.com

 

이 포스팅에서 추가적으로 얘기하고 싶은 부분은 자연현상에 있어서 대부분의 분포는 정규분포를 따르기 때문에 모집단이 정규분포를 따른다는 가정을 많이 세우고, 실제 통계학에서도 그와 관련된 방법론들이 많다는 점이다. 

 

오늘은 왜 정규분포가 많이 나오는지에 대한 이유와 정규분포를 따르는지를 어떻게 추정할 수 있는지 그 방법에 대해서 추가적으로 설명하려고 한다.

 

 

중심극한정리

통계학을 공부하다보면 대부분의 분포들이 정규분포로 근사화되거나, 정규분포를 따른다는 문장을 많이 보게 되는데 대부분의 그 이유가 이 중심극한정리로 설명된다.

 

어쩌면 이 중심극한정리가 없었다면, 우리는 매우 복잡한 분포들을 하나하나 다 기억하고 있어야할수도 있다.(각 분포간의 연결성 없이 다 암기로...)

 

이제 정의에 대해 알아보자

동일한 확률분포를 가진 독립 확률 변수 n개의 평균의 분포는 n이 적당히 크다면 정규분포에 가까워진다는 정리이다. 
위키피디아(링크)

 

n이 극한으로 간다니, 독립확률변수니 확률분포니 처음 이 단어를 들었을 때 대체 무슨말이지? 했지만, 사실 간단한 도식화만 보고 바로 이해할 수 있었다.

 

https://www.youtube.com/watch?v=SoKjCUcDBf0&t=16s 

 

영상이 보기 귀찮은 분들을 위해서 간단하게 예시로 설명해보려고 한다.

6면체 주사위에 1,2,2,2,2,3으로 적혀져있는 주사위를 3번 던졌을 때 나온 값들의 평균에 대한 분포를 A라고 하자.

이걸 던졌을 때 어떤 값이 가장 많이 나올까? 당연히 확률이 0.5로 가장 높은 2가 많이 나올 것으로 보인다.(확률값이 높은 변수가 나올 확률이 높다.)

자 이제 다시 질문을 던져보려고 한다. 
6번 던졌을 때 6의 평균이 2에 가까울 확률이 높을까? 1000번 던졌을 때 나온 1000개의 평균이 2에 가까울 확률이 높을까?
(이는 마치 동전 던지기를 처음 던지면 앞앞앞앞이 나올 수 있지만 10만번 던졌을 때에는 반반으로 수렴한다와 비슷하다.)

이처럼 어떤 분포를 따르든 간에 꽤 많은 수를 뽑게 되면 해당 표본의 평균은 당연히 모집단의 평균에 가까워질 수밖에 없고, 그외의 평균값들도 대부분 중간점인 평균을 중심으로 근처로 수렴하는 정규분포의 모양을 따른다는 이야기이다.

 

물론 위의 내용은 정말 직관적으로 이해시키기 위해 적은 내용이고 실제 종모양을 띄더라도 정규분포를 따르는지에 대한 증명은 별개로 있다. 해당 증명은 아래를 참고하시면 좋을 것 같다.

 

https://angeloyeo.github.io/2020/01/10/CLT_proof.html

 

 

왜 중요할까?

 

앞에서 우리가 알고 싶은 것은 "모집단의 분포"라고 했다. 모집단의 분포를 안다는 것을 좀 더 파보면 대부분은 평균, 분산과 같은 모수를 알려고 하는 경우가 많다.

 

대부분의 분포들은 정규분포를 따르지 않기 때문에 통계적으로 우리가 모집단의 평균이나 분산을 알기 위해서는 우선, 어떤 분포를 따를지 후보군을 찾아야하고 표본이 실제 각 분포를 따르는지에 대해서 검증을 하는 과정들을 분포를 찾을 때까지 반복해야한다.

 

하지만, 우리가 중심극한정리를 발견함으로써 다행히 모집단의 평균과 분산을 알고 싶을 때에는 위의 과정을 반복할 필요가 없게 된 것이다.

모분포가 정규분포를 따르지 않더라도 충분히 많은 표본을 뽑아서 구한 표본들의 평균과 분산을 통해서 모분포의 모수를 알 수 있게 되었다는 점이다.

 

 

유의할 점

 

우리가 얻게 된 표본이 하나 있다고 하자. 흔히들 중심극한정리를 그렇게 얻게된 표본의 평균과 분산을 구해서 모집단의 평균, 분산으로 활용하는 경우가 있는데 중심극한정리에서 말하는 표본은 우리가 가지고 있는 하나의 표본을 의미하는게 아니다. n개의 표본을 많이 뽑아서 각각 구한 평균들을 표본평균들이라고 하면, 표본평균들의 평균이 모집단의 평균가 근사된다는 의미이다.