우리는 지난 글에서 데이터 사이의 관계를 오해하지 않고 올바르게 해석하는 통계적 사고법을 학습했습니다.
인공지능 모델이 데이터를 학습한다는 것은 결국 데이터가 가진 불확실성을 줄여나가는 과정이며, 이를 정량화하기 위해 수학에서는 '엔트로피'라는 개념을 도입합니다.
정보 이론의 기초인 엔트로피가 어떻게 확률 분포와 결합하여 머신러닝의 성능을 평가하는 손실 함수로 진화하는지 그 구체적인 배경을 파헤쳐 보겠습니다.

정보량의 정의: 놀라움의 정도를 측정하다
정보 이론의 창시자 클로드 섀넌(Claude Shannon)은 정보의 가치를 '불확실성이 해소되는 정도'로 정의했습니다.
항상 일어나는 뻔한 사건(확률이 높은 사건)은 우리에게 별다른 정보를 주지 못하지만, 아주 드물게 발생하는 사건(확률이 낮은 사건)은 큰 정보를 담고 있습니다.
수학적으로 정보량은 확률의 역수에 로그를 취한 형태로 표현되며, 이는 사건이 일어날 확률이 낮을수록 정보량이 커짐을 의미합니다.
즉, 정보량은 우리가 특정 결과를 마주했을 때 느끼는 '놀라움의 정도'를 수치화한 것이라 할 수 있습니다.
엔트로피(Entropy): 불확실성의 수학적 척도
엔트로피는 모든 가능한 사건들이 가진 정보량의 평균값, 즉 확률 분포 전체의 불확실성을 나타냅니다.
모든 사건의 확률이 균등할 때(무질서도가 높을 때) 엔트로피는 최대가 되며, 특정 사건의 확률이 압도적으로 높을 때 엔트로피는 낮아집니다.
인공지능 모델의 목표는 입력 데이터에 대해 올바른 정답을 높은 확률로 예측함으로써 이 엔트로피를 낮추는 것에 있습니다.
불확실성이 높았던 모델이 학습을 통해 정답에 대한 확신을 갖게 되는 과정이 바로 엔트로피의 감소로 설명됩니다.
확률 분포의 차이, 쿨백-라이블러 발산(KLD)
모델이 예측한 확률 분포와 실제 정답의 확률 분포가 얼마나 다른지 측정하는 도구가 '쿨백-라이블러 발산(Kullback-Leibler Divergence)'입니다.
두 분포 사이의 거리를 측정하는 이 개념은 정보 이론에서 매우 중요한 역할을 수행합니다.
KLD 값이 0에 가까울수록 모델이 정답 분포를 완벽하게 모사하고 있음을 의미하며, 값이 클수록 모델의 예측이 빗나가고 있음을 뜻합니다.
이 지표는 직접적으로 모델을 최적화하는 기준이 되며, 생성 모델(GAN, VAE) 등 고도화된 AI 알고리즘의 기초가 됩니다.
크로스 엔트로피(Cross-Entropy)와 손실 함수의 본질
실제 딥러닝 분류 문제에서 가장 널리 쓰이는 손실 함수가 바로 '크로스 엔트로피'입니다.
크로스 엔트로피는 실제 분포를 기반으로 예측 분포의 정보량을 측정한 값으로, 모델의 오차를 정량화하는 데 탁월한 성능을 보입니다.
아래 표는 정보 이론의 주요 개념들이 머신러닝의 손실 함수와 어떻게 연결되는지 정리한 내용입니다.
| 수학적 개념 | 정보 이론적 의미 | 머신러닝에서의 역할 |
|---|---|---|
| 엔트로피 (Entropy) | 전체적인 불확실성의 크기 | 데이터 자체의 복잡도 판단 |
| 크로스 엔트로피 | 실제 분포와 예측 분포의 오차 중첩 | 분류 모델의 주된 손실 함수 |
| KL 발산 (KLD) | 두 분포 간의 정보 손실량 측정 | 분포 간의 유사도 및 거리 측정 |
| 조건부 엔트로피 | 추가 정보가 있을 때의 불확실성 | 특성 추출(Feature Extraction) 효율 평가 |
머신러닝 최적화에서 엔트로피가 중요한 이유
우리가 이전 포스팅에서 다루었던 경사하강법은 이 크로스 엔트로피 값을 최소화하는 방향으로 가중치를 업데이트합니다.
전통적인 평균 제곱 오차(MSE)보다 크로스 엔트로피가 분류 문제에서 선호되는 이유는 기울기 소실 문제를 완화해 주기 때문입니다.
모델이 완전히 틀린 예측을 했을 때 크로스 엔트로피는 매우 큰 기울기를 제공하여 모델이 빠르게 올바른 방향으로 학습하도록 돕습니다.
정보 이론이라는 수학적 토대가 실제 연산의 효율성과 학습 속도를 결정짓는 셈입니다.
불확실성을 최소화하며 진화하는 인공지능
결국 인공지능의 발전은 데이터 속의 혼돈(엔트로피)을 질서(정보)로 바꾸어가는 여정입니다.
정보 이론은 우리에게 복잡한 데이터를 수치로 요약하고, 그 사이의 간극을 메우는 정교한 언어를 제공합니다.
수학적 배경이 탄탄할 때, 우리는 단순히 결과에 기뻐하는 것을 넘어 모델이 왜 그렇게 작동하는지 근본적으로 이해할 수 있습니다.
지금까지 확률 분포와 엔트로피, 그리고 머신러닝 손실 함수의 수학적 배경을 살펴보았습니다.
정보를 측정하는 이 강력한 도구가 여러분이 딥러닝 알고리즘의 심장부를 이해하는 데 큰 도움이 되길 바랍니다.
오늘의 내용이 데이터 과학의 깊이를 한 층 더해주는 유익한 시간이 되었기를 바랍니다.