딥러닝 학습의 복병, 안장점의 위협과 고차원 최적화

우리는 지난 포스팅에서 함수의 기울기가 0이 되는 지점을 찾아 최적의 자원 배분을 결정하는 법을 학습했습니다.

그러나 실제 딥러닝 모델의 학습 과정에서는 기울기가 0임에도 불구하고 오차가 전혀 줄어들지 않는 기묘한 정체 구간을 만나게 됩니다.

이것이 바로 안장점(Saddle Point)이며, 고차원 공간으로 갈수록 극솟값보다 안장점을 만날 확률이 압도적으로 높다는 사실이 밝혀졌습니다.

📌 목차

기울기가 0이지만 최솟값이 아닌 곳, 안장점
고차원 공간에서 안장점이 빈번한 수학적 이유
딥러닝 학습 정체의 주범: 평탄한 구간(Plateau)
안장점을 탈출하는 현대적 최적화 알고리즘
헤세 행렬(Hessian Matrix)과 고윳값의 의미
정체를 극복하며 진화하는 인공지능

기울기가 0이지만 최솟값이 아닌 곳, 안장점

안장점이란 함수의 임계점 중에서 어떤 방향으로는 극대이고 다른 방향으로는 극소인 지점을 말합니다.

말의 등에 얹는 안장처럼 생겼다고 해서 붙여진 이름인데, 이 지점의 미분값은 정확히 0입니다.

단순한 경사하강법은 기울기가 0인 곳에 도달하면 목표지에 도착했다고 착각하여 학습을 멈춰버립니다.

결국 안장점은 모델이 충분히 학습되지 않았음에도 불구하고 성장이 멈춰버리는 일종의 '가짜 최적점' 역할을 합니다.

인공지능 모델이 복잡해질수록 이러한 안장점은 학습 효율을 떨어뜨리는 치명적인 위협이 됩니다.

고차원 공간에서 안장점이 빈번한 수학적 이유

우리가 흔히 걱정하는 '로컬 미니멈(Local Minimum)'은 사실 고차원 공간에서는 매우 희귀한 현상입니다.

모든 차원의 미분값이 0이면서 모든 방향에서 아래로 볼록(Positive Definite)해야 극솟값이 되기 때문입니다.

변수가 10,000개라면 10,000개 방향 모두에서 극소일 확률은 동전 던지기 10,000번이 모두 앞면이 나올 확률만큼이나 낮습니다.

반면 몇몇 방향은 극소이고 몇몇 방향은 극대인 안장점은 통계적으로 발생할 확률이 압도적으로 높습니다.

따라서 현대 딥러닝 최적화의 핵심은 로컬 미니멈을 피하는 것이 아니라, 수많은 안장점을 어떻게 빠르게 통과하느냐에 달려 있습니다.

딥러닝 학습 정체의 주범: 평탄한 구간(Plateau)

안장점 주변에는 기울기가 매우 완만한 '평탄한 구간(Plateau)'이 형성됩니다.

이 구간에 진입하면 경사하강법의 보폭이 극도로 작아지며 학습 속도가 기어가는 수준으로 느려집니다.

사용자는 학습이 끝났다고 생각할 수 있지만, 사실은 안장점 근처에서 맴돌고 있는 것일 뿐입니다.

이러한 정체 구간은 학습 시간을 불필요하게 늘리고 하드웨어 자원을 낭비하는 결과를 초래합니다.

아래 표는 로컬 미니멈과 안장점이 학습에 미치는 영향을 비교한 내용입니다.

구분	로컬 미니멈 (Local Minimum)	안장점 (Saddle Point)
수학적 특징	모든 방향에서 위로 휨	방향에 따라 위/아래 휨이 공존
발생 확률	고차원에서 매우 낮음	고차원에서 매우 높음
학습 영향	학습이 완전히 종료됨	학습이 매우 느려지거나 정체됨
해결 전략	다양한 초기값 설정	모멘텀 및 적응적 학습률 사용

안장점을 탈출하는 현대적 최적화 알고리즘

안장점의 평탄한 구간을 탈출하기 위해 연구자들은 관성(Momentum)을 도입했습니다.

과거에 이동했던 방향과 속도를 기억했다가, 기울기가 0인 지점을 만나더라도 그 힘으로 정체 구간을 밀고 나가는 방식입니다.

또한 Adam이나 RMSProp 같은 알고리즘은 변수별로 학습률을 조절하여 안장점을 더 기민하게 피하도록 설계되었습니다.

기울기가 완만한 방향으로는 더 크게 움직이고, 가파른 방향으로는 조심스럽게 움직여 안장점의 덫을 빠져나옵니다.

결국 딥러닝의 성능 발전은 이러한 안장점과의 전쟁에서 승리해온 역사라고 해도 과언이 아닙니다.

헤세 행렬(Hessian Matrix)과 고윳값의 의미

수학적으로 안장점을 판정하려면 일계 미분을 넘어 이계 미분 정보를 담은 '헤세 행렬'을 분석해야 합니다.

헤세 행렬의 고윳값(Eigenvalue)들을 살펴보면 해당 지점의 기하학적 구조를 완벽히 파악할 수 있습니다.

고윳값이 모두 양수라면 극소, 모두 음수라면 극대, 양수와 음수가 섞여 있다면 안장점이 됩니다.

비록 헤세 행렬을 직접 계산하는 것은 연산량이 너무 많아 실무에서는 어렵지만, 최적화 알고리즘의 이론적 토대는 바로 이 행렬의 성질에 근거하고 있습니다.

정체를 극복하며 진화하는 인공지능

안장점은 인공지능 학습을 방해하는 장애물이지만, 역설적으로 고차원 공간의 복잡성을 대변하는 지표이기도 합니다.

안장점을 이해하고 이를 극복하는 알고리즘을 설계하는 과정에서 딥러닝은 비약적인 발전을 이루었습니다.

정체는 끝이 아니라, 더 나은 최솟값을 향해 나아가기 위한 잠시 동안의 머무름일 뿐입니다.

지금까지 고차원 공간 최적화의 최대 난제인 안장점과 그 탈출 전략에 대해 심도 있게 알아보았습니다.

수학적 기초가 명확할 때 우리는 인공지능이 왜 정체되는지, 그리고 어떻게 해결해야 하는지 그 실마리를 찾을 수 있습니다.

오늘의 내용이 여러분이 더 정교하고 효율적인 인공지능 모델을 이해하고 설계하는 데 큰 도움이 되길 바랍니다.

덱시엔