머신러닝과 딥러닝 모델을 설계할 때 우리가 가장 경계해야 할 단어는 바로 '과적합(Overfitting)'입니다.
모델이 훈련 데이터의 아주 사소한 노이즈까지 전부 외워버리면, 정작 새로운 데이터를 만났을 때 아무런 힘을 쓰지 못하는 '우물 안 개구리'가 되어버립니다.
오늘은 모델이 학습 데이터에만 집착하지 않도록 강제로 제약을 거는 규제(Regularization)의 원리와 L1·L2 노름(Norm)이 가중치를 어떻게 요리하는지 분석해 보겠습니다.

과적합과 일반화: 암기와 이해의 차이
과적합은 모델이 학습 데이터의 패턴뿐만 아니라 데이터에 섞인 '잡음(Noise)'까지 완벽하게 학습해 버린 상태를 말합니다. 수학적으로 보면 모델의 복잡도가 데이터의 복잡도보다 훨씬 높을 때 발생하죠.
우리가 추구하는 것은 '일반화(Generalization)'입니다. 이는 학습 데이터가 아닌 처음 보는 데이터에 대해서도 정확한 예측을 수행하는 능력입니다. 공부에 비유하자면, 문제집의 정답을 외우는 것이 아니라 문제의 핵심 원리를 파악하여 응용문제를 풀 수 있게 만드는 것과 같습니다.
규제(Regularization)의 본질: 손실 함수에 패널티 가하기
규제는 모델이 너무 복잡해지지 않도록 손실 함수(Loss Function) 뒤에 '가중치의 크기'에 대한 벌금(Penalty) 항을 추가하는 기법입니다.
기존의 손실 함수가 단순히 '정답을 얼마나 잘 맞히느냐'만 따졌다면, 규제가 추가된 손실 함수는 '정답을 잘 맞히되, 가중치를 너무 크게 쓰지 마라'는 조건을 덧붙입니다. 가중치가 크다는 것은 특정 특성에 과도하게 의존한다는 뜻이고, 이는 곧 과적합의 징조이기 때문입니다.
L1 규제(Lasso): 불필요한 특징을 0으로 만드는 마법
L1 규제는 가중치들의 절대값 합을 페널티로 사용합니다. 수학적으로는 L1 노름($\sum |w|$)을 손실 함수에 더하는 것이죠.
L1 규제의 가장 큰 특징은 영향력이 적은 가중치들을 완전히 '0'으로 만들어버린다는 점입니다. 결과적으로 중요한 변수만 남고 나머지는 삭제되는 효과(Sparse Model)가 발생합니다. 수만 개의 변수 중 진짜 핵심이 무엇인지 가려내고 싶을 때 L1 규제는 강력한 선별 도구가 됩니다.
L2 규제(Ridge): 가중치를 고르게 깎아내는 평준화
반면 L2 규제는 가중치들의 제곱 합을 패널티로 사용합니다($\sum w^2$). 이를 가중치 감쇠(Weight Decay)라고도 부릅니다.
L2 규제는 가중치를 완전히 0으로 만들지는 않지만, 전체적으로 가중치의 크기를 작게 억제하여 모델을 부드럽게(Smooth) 만듭니다. 특정 변수가 혼자 튀는 것을 막아주기 때문에 일반적인 딥러닝 학습에서 과적합을 방지하기 위해 가장 기본적으로 사용되는 든든한 방어 기제입니다.
편향(Bias)과 분산(Variance)의 트레이드오프
규제를 강하게 걸면 모델은 훈련 데이터에서 오차가 좀 더 발생하게 됩니다. 이를 '편향이 높아진다'라고 합니다. 하지만 그 대가로 처음 보는 데이터에 대한 변동성인 '분산'을 낮출 수 있습니다.
아래 표는 모델의 상태에 따른 편향과 분산의 관계를 정리한 가이드입니다.
| 구분 | 과소적합 (Underfitting) | 적정 상태 (Good Fit) | 과적합 (Overfitting) |
|---|---|---|---|
| 편향 (Bias) | 높음 (너무 단순함) | 낮음 | 매우 낮음 (학습 데이터에 올인) |
| 분산 (Variance) | 낮음 | 낮음 | 매우 높음 (노이즈에 민감함) |
| 규제 필요성 | 오히려 규제를 풀어야 함 | 현재 상태 유지 | 강력한 규제 적용 필수 |
| 가중치 상태 | 너무 작거나 부족함 | 적정 크기 유지 | 특정 변수 가중치가 비정상적으로 큼 |
진정한 실력을 만드는 수학적 절제의 미학
과적합을 겪어보고 규제를 통해 이를 해결해본 경험은 데이터 과학자에게 매우 소중한 교훈을 줍니다. 수치상의 만점이 항상 정답은 아니며, 때로는 강제로 성능을 억제하는 '절제'가 더 훌륭한 모델을 만든다는 역설적인 진리를 깨닫게 되기 때문입니다.
L1과 L2 노름은 단순히 가중치를 깎아내는 수식이 아니라, 모델이 세상의 보편적인 법칙을 배우도록 유도하는 나침반입니다. 훈련 데이터라는 좁은 울타리를 벗어나 미지의 데이터 앞에서도 당당할 수 있는 모델을 만드는 것, 그것이 바로 수학적 규제가 인공지능에 부여하는 진정한 지능입니다.
지금까지 모델의 일반화 능력을 결정짓는 과적합 방지와 규제 전략에 대해 깊이 있게 살펴보았습니다. 단순히 Loss를 0으로 만드는 데 몰두하기보다, 여러분의 모델이 유연한 사고방식을 가질 수 있도록 적절한 규제의 처방전을 내려보시길 바랍니다.