본문 바로가기
데이터 과학 수학

데이터의 질서, 정규분포와 중심극한정리의 마법

by dexien 2026. 4. 4.

주사위 하나를 던지면 1~6이 똑같은 확률로 나옵니다. 균등분포입니다. 그런데 주사위를 10개 동시에 던져서 합계를 구하면 어떻게 될까요. 35 근처가 가장 많이 나오고 극단적인 값(10이나 60)은 거의 안 나옵니다. 종 모양 곡선이 됩니다.

처음엔 이게 신기했습니다. 균등분포인 주사위를 여러 개 합쳤을 뿐인데 왜 갑자기 종 모양이 되는 걸까요. 이게 중심극한정리입니다. 모집단이 어떤 모양이든 표본을 충분히 뽑아서 평균을 내면 정규분포에 가까워집니다. 오늘은 이 원리가 왜 성립하는지, 그리고 AI와 데이터 과학에서 왜 중요한지 따라가 보겠습니다.

정규분포와 중심극한정리의 마법 데이터의 질서
데이터의 질서, 정규분포와 중심극한정리의 마법

정규분포란 무엇인가 — 종 모양이 자주 나오는 이유

정규분포(Normal Distribution)는 평균을 중심으로 좌우 대칭인 종 모양 곡선입니다. 평균에 가까울수록 빈도가 높고 멀어질수록 급격히 낮아집니다. 사람 키, 시험 점수, 공장 제품 오차 같은 것들이 대부분 이 모양을 따릅니다.

정규분포는 평균(μ)과 표준편차(σ) 두 개의 숫자만으로 모양이 완전히 결정됩니다. 평균이 분포의 중심을 결정하고, 표준편차가 얼마나 퍼져있는지를 결정합니다. 특히 평균 ± 1σ 안에 전체의 68%, ± 2σ 안에 95%, ± 3σ 안에 99.7%의 데이터가 들어온다는 게 정규분포의 핵심 성질입니다.

평균 ± 1σ: 전체 데이터의 68.3% 포함
평균 ± 2σ: 전체 데이터의 95.4% 포함
평균 ± 3σ: 전체 데이터의 99.7% 포함

→ 평균에서 3σ 이상 벗어나는 값은 0.3%로 매우 드물다

정규분포 종 모양 곡선에서 표준편차 1 2 3 구간별 데이터 포함 비율 68 95 99.7퍼센트를 표시한 그래프
정규분포에서 평균 ±1σ 구간에 68%, ±2σ에 95%, ±3σ에 99.7%의 데이터가 포함된다


중심극한정리 — 어떤 분포든 평균은 정규분포가 된다

중심극한정리(Central Limit Theorem, CLT)의 내용은 단순합니다. 모집단이 어떤 분포를 따르든 상관없이, 표본 크기(n)가 충분히 크면 표본 평균들의 분포는 정규분포에 가까워집니다.

핵심은 "모집단의 분포가 어떻든"이라는 부분입니다. 균등분포여도, 한쪽으로 치우친 분포여도, 심지어 불규칙한 분포여도 상관없습니다. 거기서 충분히 큰 표본을 반복해서 뽑아 평균을 내면 그 평균들이 정규분포를 따릅니다.

보통 n ≥ 30이면 중심극한정리가 충분히 작동한다고 봅니다. 원래 분포가 정규분포에 가까울수록 더 작은 n에서도 성립합니다.


주사위로 직접 확인하기

주사위 하나를 던지면 1~6이 각각 1/6 확률로 나옵니다. 완전한 균등분포입니다. 종 모양과는 거리가 멉니다. 그런데 주사위를 여러 개 던져서 합계를 구하면 어떻게 될까요.

주사위 1개: 1~6 균등분포 (종 모양 아님)
주사위 2개 합계: 2~12, 7이 가장 많이 나옴 (약간 종 모양)
주사위 5개 합계: 5~30, 17~18 근처가 가장 많음 (종 모양 뚜렷)
주사위 10개 합계: 10~60, 35 근처가 압도적으로 많음 (거의 정규분포)

→ 개수가 늘수록 모양이 정규분포에 수렴

왜 그럴까요. 극단적인 값이 나오려면 모든 주사위가 동시에 최댓값이나 최솟값을 내야 합니다. 확률이 매우 낮습니다. 반면 중간값 근처는 다양한 조합이 가능해서 확률이 높습니다. 독립적인 요인이 더해질수록 극단값은 줄어들고 중간값이 많아지는 현상이 수학적으로 정규분포로 수렴하는 겁니다.

 

주사위 개수가 1개에서 10개로 늘어날수록 합계 분포가 균등분포에서 정규분포로 수렴하는 중심극한정리 히스토그램
주사위 개수가 늘수록 합계 분포는 균등분포에서 종 모양 정규분포로 수렴한다


표준오차 — 표본 크기가 클수록 정확해지는 원리

중심극한정리에는 한 가지 중요한 성질이 더 있습니다. 표본 평균의 분포는 정규분포를 따르는데, 이때 표준편차가 모집단 표준편차를 √n으로 나눈 값이 됩니다. 이걸 표준오차(Standard Error)라고 합니다.

표준오차 = σ / √n

n=100일 때: 표준오차 = σ / 10
n=400일 때: 표준오차 = σ / 20 (절반으로 줄어듦)
n=10000일 때: 표준오차 = σ / 100 (10분의 1로 줄어듦)

→ 표본이 4배 늘면 정확도가 2배 좋아진다

표본 크기가 커질수록 표준오차가 줄어들고, 표본 평균이 모평균에 더 가까워집니다. 여론조사에서 1,000명보다 4,000명을 조사하면 오차가 절반으로 줄어드는 이유가 이 공식 때문입니다.

모집단과 표본 평균의 분포 차이를 정리하면 이렇습니다.

항목 모집단 표본 평균의 분포
분포 형태 임의의 형태 정규분포 (n이 클 때)
평균 모평균 μ 모평균과 동일
표준편차 모표준편차 σ 표준오차 σ/√n
n 증가 효과 변화 없음 분포가 좁아지며 더 정확해짐

선거 예측과 가설 검정이 가능한 이유

선거철에 1,000명 조사만으로 전체 민심을 예측할 수 있는 건 중심극한정리 덕분입니다. 표본 평균이 정규분포를 따른다는 걸 알기 때문에, 조사한 지지율이 실제 지지율과 얼마나 차이 날 수 있는지 수학적으로 계산할 수 있습니다.

가설 검정에서 쓰이는 p-value도 같은 원리입니다. "이 약이 효과가 없다면 이런 결과가 나올 확률이 얼마나 되는가"를 정규분포 위에서 계산합니다. p-value가 0.05 미만이면 우연으로 보기 어렵다고 판단하는 기준도 정규분포의 ±2σ(95%) 개념에서 나온 겁니다.


머신러닝에서 정규분포 가정이 중요한 이유

선형 회귀, LDA(선형 판별 분석) 같은 알고리즘들은 데이터가 정규분포를 따른다고 가정하고 설계됐습니다. 정규분포일 때 파라미터 추정이 수학적으로 가장 깔끔하게 풀리기 때문입니다.

실제 데이터가 정규분포와 많이 다를 때는 전처리 과정에서 보정합니다. 한쪽으로 치우친 데이터에 로그 변환을 하면 정규분포에 가까워지는 경우가 많습니다. Scikit-learn의 StandardScaler나 PowerTransformer가 하는 작업 중 일부가 이런 정규화입니다.

딥러닝에서도 가중치 초기화를 정규분포로 하는 경우가 많습니다. 완전히 무작위로 초기화하면 학습이 불안정해지는데, 평균 0 표준편차 0.01인 정규분포로 초기화하면 안정적으로 학습이 시작됩니다. 중심극한정리와 정규분포는 이론에서 끝나는 게 아니라 코드 한 줄에도 녹아있는 개념입니다.

머신러닝에서 정규분포가 선형 회귀 잔차 가정 가중치 초기화 데이터 전처리에 활용되는 세 가지 사례 인포그래픽
정규분포는 선형 회귀의 잔차 가정, 딥러닝 가중치 초기화, 데이터 전처리에 모두 활용된다

주사위 하나는 무작위지만 주사위 10개의 합계는 예측 가능합니다. 데이터 하나는 노이즈처럼 보여도 충분히 모이면 패턴이 나타납니다. 중심극한정리는 그 패턴이 왜 항상 같은 모양인지를 설명합니다. 미분에서 시작한 이 연재가 확률과 통계로 이어지는 이유가 결국 같은 곳을 향하고 있기 때문입니다. 데이터 속의 구조를 찾는 것, 그게 AI 수학의 본질입니다.


소개 및 문의 · 개인정보처리방침 · 면책조항

© 2026 블로그 이름