본문 바로가기
데이터 과학 수학

베이즈 정리의 마법, 정보가 확신을 바꾸는 원리

by dexien 2026. 4. 4.

코로나 검사를 받아본 적 있으신가요. 검사 결과가 양성으로 나왔을 때 실제로 감염됐을 확률이 얼마나 될까요. "양성이면 걸린 거 아닌가?"라고 생각할 수 있는데, 실제로는 그렇게 단순하지 않습니다. 검사 정확도가 99%라도 감염자가 아주 드문 상황이라면 양성 반응이 나왔더라도 실제 감염 확률이 생각보다 훨씬 낮을 수 있거든요.

이게 처음엔 직관에 어긋나는 것처럼 느껴졌습니다. 그런데 베이즈 정리로 계산해 보면 왜 그런지 정확히 나옵니다. 새로운 증거가 나타났을 때 기존의 확률을 어떻게 수정해야 하는지 수학적으로 설명해 주는 도구입니다. 오늘은 이걸 실제 숫자로 따라가 보겠습니다.

베이즈 정리의 마법 정보가 확신을 바꾸는 원리
베이즈 정리의 마법, 정보가 확신을 바꾸는 원리

사전 확률과 사후 확률 — 증거가 믿음을 바꾸는 구조

전통적인 통계학은 "동전을 100번 던졌을 때 앞면이 나올 횟수"를 계산합니다. 반면 베이즈 정리는 반대 방향을 봅니다. "앞면이 70번 나왔다면 이 동전이 정상일 확률은?"이라는 질문입니다.

여기서 두 가지 개념이 등장합니다. 새로운 증거를 보기 전의 믿음을 사전 확률(Prior)이라고 합니다. 그리고 증거를 반영한 후 업데이트된 믿음이 사후 확률(Posterior)입니다. 베이즈 정리는 이 둘 사이를 연결하는 수식입니다.

핵심은 "오늘의 사후 확률이 내일의 사전 확률이 된다"는 점입니다. 데이터가 들어올 때마다 확률이 조금씩 업데이트되면서 점점 진실에 가까워지는 구조입니다. 사람이 경험을 통해 판단력이 나아지는 과정과 수학적으로 같습니다.

사전 확률이 새로운 증거를 만나 사후 확률로 업데이트되는 베이즈 정리의 순환 구조 다이어그램
베이즈 정리는 새로운 증거가 나타날 때마다 확률을 업데이트하는 순환 구조를 가진다


베이즈 정리 수식 — 조건부 확률이 뒤집히는 원리

베이즈 정리의 핵심은 "A가 일어났을 때 B일 확률"로 "B가 일어났을 때 A일 확률"을 구하는 겁니다. 이 둘은 비슷해 보이지만 전혀 다른 의미입니다.

예를 들어 "병에 걸렸을 때 검사가 양성일 확률"은 의학 데이터로 알 수 있습니다. 하지만 환자에게 필요한 건 "검사가 양성일 때 실제로 병에 걸렸을 확률"입니다. 베이즈 정리가 이 둘을 연결해줍니다.

P(A|B) = P(B|A) × P(A) / P(B)

P(A|B):  사후 확률 — B가 관측됐을 때 A일 확률
P(B|A):  가능도 — A가 참일 때 B가 나타날 확률
P(A):    사전 확률 — 증거 전 A에 대한 믿음
P(B):    증거 — B가 나타날 전체 확률 (정규화 상수)

베이즈 정리를 구성하는 네 가지 요소를 정리하면 이렇습니다.

요소 명칭 의미
P(A|B) 사후 확률 (Posterior) 데이터가 주어졌을 때 가설이 참일 확률
P(A) 사전 확률 (Prior) 데이터를 보기 전의 기존 믿음
P(B|A) 가능도 (Likelihood) 가설이 참일 때 데이터가 나타날 확률
P(B) 증거 (Evidence) 데이터가 나타날 전체 확률

실제 숫자로 계산해 보기 — 검사 양성의 진짜 의미

도입부에서 든 검사 예시를 실제로 계산해 보겠습니다. 조건은 이렇습니다. 인구 중 감염자 비율 1%, 검사 정확도 99%(감염자를 양성으로 판정), 비감염자가 양성으로 잘못 나올 확률 1%입니다.

사전 확률 P(감염) = 0.01 (1%)
가능도 P(양성|감염) = 0.99
P(양성|비감염) = 0.01

P(양성) = P(양성|감염)×P(감염) + P(양성|비감염)×P(비감염)
        = 0.99×0.01 + 0.01×0.99
        = 0.0099 + 0.0099 = 0.0198

P(감염|양성) = 0.99×0.01 / 0.0198 ≈ 0.5 (50%)

검사 정확도가 99%인데 양성이 나와도 실제 감염 확률이 50%밖에 안 됩니다. 처음엔 놀라웠는데 이유가 있습니다. 감염자 자체가 1%로 워낙 드물다 보니, 비감염자 99명 중 1명씩 오판되는 숫자가 실제 감염자 수와 비슷해지는 겁니다. 사전 확률(감염 기저율)이 결과에 얼마나 큰 영향을 주는지 보여주는 사례입니다.

감염율 1퍼센트 검사정확도 99퍼센트 조건에서 양성 판정을 받아도 실제 감염 확률이 50퍼센트인 이유를 시각화한 다이어그램
검사 정확도 99퍼센트여도 기저율이 낮으면 양성 판정의 실제 감염 확률은 50퍼센트에 불과하다


가능도(Likelihood)가 결과를 결정하는 방식

베이즈 업데이트에서 가장 역동적인 역할을 하는 게 가능도입니다. 가설이 참일 때 관측된 데이터가 나타날 확률입니다. 이 값이 크면 해당 가설이 데이터를 잘 설명한다는 뜻이고, 작으면 가설이 데이터와 맞지 않는다는 뜻입니다.

극단적인 예를 들면 이렇습니다. "이 동전은 앞면만 나오는 동전이다"라는 가설을 세웠는데 뒷면이 한 번이라도 나왔다면 가능도는 0이 됩니다. 사전 확률이 아무리 높아도 가능도가 0이면 사후 확률도 0입니다. 데이터가 가설을 완전히 부정한 겁니다.

반대로 데이터가 가설과 딱 맞아떨어지면 가능도가 높아지고 사후 확률도 올라갑니다. 결국 베이즈 정리는 사전 확률(기존 믿음)과 가능도(데이터의 증거력)를 곱해서 새로운 믿음을 만들어내는 구조입니다.


스팸 필터 — 베이즈 정리의 가장 유명한 응용

이메일 스팸 필터가 베이즈 정리의 가장 유명한 실용 사례입니다. 작동 방식은 이렇습니다. 수천 개의 스팸 메일을 분석해서 "무료", "광고", "대출" 같은 단어가 스팸에 등장할 가능도를 미리 계산해 둡니다.

새 메일에 "무료"라는 단어가 있을 때:

P(스팸|"무료") = P("무료"|스팸) × P(스팸) / P("무료")

P("무료"|스팸) = 0.8  (스팸 80%에 "무료" 포함)
P("무료"|정상) = 0.1  (정상 메일 10%에 "무료" 포함)
P(스팸) = 0.3        (전체 메일 중 스팸 30%)

→ P(스팸|"무료") ≈ 0.77 (77% 스팸 확률)

단어가 여러 개면 각각의 가능도를 모두 곱합니다. "무료"도 있고 "대출"도 있으면 스팸 확률이 더 올라갑니다. 이게 나이브 베이즈(Naive Bayes) 분류기입니다. 단순해 보이지만 빠르고 효율적이라 지금도 실무에서 쓰입니다.

나이브 베이즈 분류기가 단어별 가능도를 계산해 이메일을 스팸과 정상으로 분류하는 원리 인포그래픽
나이브 베이즈 스팸 필터는 단어별 가능도를 곱해 메일이 스팸일 사후 확률을 계산한다

 


데이터가 쌓일수록 정교해지는 구조

베이즈 정리의 진짜 강점은 반복에 있습니다. 오늘의 사후 확률이 내일의 사전 확률이 됩니다. 데이터가 하나씩 들어올 때마다 확률이 조금씩 업데이트되고, 처음에 사전 확률을 잘못 잡았더라도 데이터가 충분히 쌓이면 진실에 수렴합니다.

이 구조가 AI의 온라인 학습(Online Learning)과 정확히 같습니다. 고정된 데이터로 한 번 학습하는 게 아니라 새로운 데이터가 들어올 때마다 모델을 조금씩 업데이트하는 방식입니다. 추천 시스템이나 실시간 이상 탐지 같은 곳에서 이 방식이 쓰입니다.

경사하강법이 손실을 조금씩 줄여가는 반복 구조라면, 베이즈 업데이트는 확률을 조금씩 수정해 가는 반복 구조입니다. 방식은 다르지만 둘 다 데이터를 통해 점점 나아지는 같은 철학입니다. 미분에서 시작한 이 연재가 결국 확률로 이어지는 이유가 여기 있습니다.


소개 및 문의 · 개인정보처리방침 · 면책조항

© 2026 블로그 이름