데이터로 진실을 추론하다, 최대우도추정(MLE)의 원리

우리는 지난 글에서 정규분포라는 질서가 어떻게 데이터의 흐름을 지배하는지 학습했습니다.

실제 현실에서는 '정답'인 파라미터를 모르는 상태에서 오직 결과물인 '데이터'만을 손에 쥐게 되는 경우가 대부분입니다.

이미 벌어진 일(데이터)을 바탕으로 그 일을 일으킨 가장 그럴듯한 원인(모델)을 역추적하는 기법이 바로 최대우도추정이며, 이는 인공지능이 최적의 가중치를 찾아가는 논리적 기초가 됩니다.

📌 목차

가능도(Likelihood): 확률과는 다른 역방향의 관점
최대우도추정(MLE)의 수학적 정의와 목표
로그 가능도(Log-Likelihood)를 사용하는 실전적 이유
머신러닝 학습과 MLE의 밀접한 연결고리
미분을 통한 최적 파라미터 도출 과정
데이터가 알려주는 최선의 모델을 찾아서

가능도(Likelihood): 확률과는 다른 역방향의 관점

확률(Probability)이 '모델이 주어졌을 때 데이터가 나타날 가능성'을 말한다면, 가능도(Likelihood)는 그 반대입니다.

이미 관측된 데이터가 주어졌을 때, 특정한 파라미터 값이 얼마나 이 데이터를 잘 설명하는지를 나타내는 척도입니다.

예를 들어 동전을 던져 앞면이 10번 나왔다면, 이 동전이 앞면이 나올 확률이 0.5인 동전일 가능도와 0.8인 동전일 가능도를 비교하는 것입니다.

즉, 가능도는 '어떤 모델이 이 데이터를 가장 잘 만들어낼 수 있는가'를 묻는 질문에 대한 대답입니다.

이 관점의 전환은 고정된 수치에 얽매이지 않고 데이터를 통해 모델 자체를 유연하게 수정할 수 있게 해 줍니다.

최대우도추정(MLE)의 수학적 정의와 목표

최대우도추정의 목표는 매우 단순하고 명확합니다. '가능도 함수를 최대화하는 파라미터를 찾는 것'입니다.

우리가 관측한 데이터 포인트들이 서로 독립적이라면, 전체 가능도는 각 데이터의 개별 확률 밀도를 모두 곱한 값이 됩니다.

이 곱셈 결과가 가장 커지는 지점의 파라미터가 바로 우리가 찾는 '가장 그럴듯한(Most Likely)' 정답이 됩니다.

수학적으로는 관측된 현상이 일어날 확률을 극대화하는 지점을 찾는 최적화 문제로 환원됩니다.

이 방식은 표본의 크기가 커질수록 실제 모집단의 파라미터에 매우 정교하게 근사한다는 강력한 장점을 가집니다.

로그 가능도(Log-Likelihood)를 사용하는 실전적 이유

실제 계산에서는 가능도 함수에 로그(log)를 취한 '로그 가능도'를 주로 사용합니다.

수많은 확률값(0과 1 사이)을 계속 곱하다 보면 숫자가 너무 작아져 컴퓨터가 계산할 수 없는 언더플로우(Underflow) 현상이 발생하기 때문입니다.

로그를 취하면 곱셈 연산이 덧셈 연산으로 변하며, 이는 계산의 안정성을 높여줄 뿐만 아니라 미분 계산도 훨씬 수월하게 만듭니다.

아래 표는 일반 가능도와 로그 가능도의 차이점을 비교한 내용입니다.

구분	일반 가능도 (Likelihood)	로그 가능도 (Log-Likelihood)
연산 형태	확률값들의 곱셈 ($\prod$)	확률 로그값들의 덧셈 ($\sum$)
수치적 안정성	낮음 (언더플로우 위험)	높음 (안정적인 연산 가능)
미분 편의성	복잡함 (곱의 미분법 적용)	단순함 (항별 미분 가능)
최댓값 위치	단조 증가 함수인 로그를 취해도 동일함	일반 가능도와 최적 지점이 일치함

머신러닝 학습과 MLE의 밀접한 연결고리

머신러닝 모델을 학습시킨다는 것은 결국 데이터를 가장 잘 설명하는 모델의 가중치(Weight)를 찾는 과정입니다.

가령 선거 결과나 이미지 분류 문제에서 손실 함수로 자주 쓰이는 '크로스 엔트로피(Cross-Entropy)'는 사실 로그 가능도에 마이너스를 붙인 것과 수학적으로 동일합니다.

즉, 손실을 최소화하는 것이 곧 가능도를 최대화하는 MLE 과정인 셈입니다.

우리가 딥러닝 모델의 오차를 줄이기 위해 애쓰는 모든 행위의 이면에는 이 강력한 확률적 추론 원리가 숨어 있습니다.

미분을 통한 최적 파라미터 도출 과정

실제로 MLE를 수행할 때는 로그 가능도 함수를 파라미터에 대해 미분한 뒤 그 값을 0으로 만드는 방정식을 풉니다.

여기서 우리는 이전 글에서 다루었던 **임계점**과 **편미분**의 개념을 다시 만나게 됩니다.

복잡한 데이터 셋 속에서도 미분이라는 도구를 통해 기울기가 0이 되는 '정상'을 찾으면, 그것이 바로 데이터를 가장 잘 설명하는 모델이 됩니다.

수학적 기초가 하나로 연결되어 실제 인공지능의 성능을 결정짓는 순간입니다.

데이터가 알려주는 최선의 모델을 찾아서

최대우도추정은 우리에게 주관적인 추측이 아닌, 데이터라는 객관적 증거를 바탕으로 진실에 접근하는 법을 가르쳐 줍니다.

완벽한 정답을 한 번에 알 수는 없지만, 데이터를 통해 가장 그럴듯한 가설을 세우고 이를 검증해 나가는 과정이 공학의 본질입니다.

이 확률적 사고방식은 여러분이 복잡한 머신러닝 알고리즘의 내부 동작을 이해하는 강력한 나침반이 될 것입니다.

지금까지 관측값으로 모델을 찾는 마법, 최대우도추정(MLE)의 기초 원리를 살펴보았습니다.

데이터가 웅변하는 목소리에 귀를 기울이고 그 뒤에 숨겨진 파라미터를 찾아내는 즐거움을 느껴보시길 바랍니다.

오늘 정리한 내용이 인공지능 학습의 핵심 원리를 관통하는 유익한 통찰이 되었기를 바랍니다.

덱시엔