미분을 배우면서 한 가지 의문이 생겼습니다. dx와 dy, 접선의 기울기, 연쇄법칙까지 이해했는데 이게 실제로 어디에 쓰이는 걸까요. 교과서에서는 "최적화에 쓰인다"라고 나오는데 그게 뭔지 와닿지 않았습니다. 경사하강법을 공부하면서 그 답을 찾았습니다. AI가 학습한다는 게 결국 미분으로 방향을 찾고, 그 방향으로 값을 조금씩 수정하는 과정을 수천 번 반복하는 거였습니다.
이 구조를 이해하고 나서 미분이 완전히 다르게 보였습니다. 시험을 위한 계산 기술이 아니라 AI가 스스로 나아지는 방법의 핵심이었던 거예요. 이 글에서는 경사하강법이 어떻게 작동하는지를 실제 숫자와 함께 따라가 보겠습니다.

경사하강법이란 무엇인가
경사하강법(Gradient Descent)은 함수의 최솟값을 찾는 방법입니다. 한 번에 정답을 찾는 게 아니라 현재 위치에서 기울기를 보고 낮은 방향으로 조금씩 이동하는 과정을 반복합니다.
산을 내려가는 비유가 자주 쓰이는데, 정확히 맞는 비유입니다. 눈을 가리고 산에서 내려간다고 생각해보세요. 전체 지형을 볼 수 없으니 발아래 경사만 느끼면서 낮은 쪽으로 한 걸음씩 이동합니다. 그 발아래 경사를 계산하는 게 미분이고, 낮은 쪽으로 한 걸음 이동하는 게 경사하강법의 한 스텝입니다.

손실 함수란 무엇인가
경사하강법을 이해하려면 먼저 손실 함수(Loss Function)가 뭔지 알아야 합니다. AI 모델이 예측한 값과 실제 정답 사이의 차이를 숫자로 표현한 게 손실 함수입니다. 이 값이 클수록 모델이 틀렸다는 뜻이고, 작을수록 정확하다는 뜻입니다.
가장 단순한 손실 함수는 평균 제곱 오차(MSE)입니다. 예측값과 정답의 차이를 제곱해서 평균 낸 값입니다. 예를 들어 모델이 3이라고 예측했는데 정답이 5라면 오차는 (5-3)² = 4입니다. 학습의 목표는 이 손실 함숫값을 최대한 줄이는 것입니다. 경사하강법은 그 방법입니다.
미분이 방향을 알려주는 방식
손실 함수의 값을 줄이려면 가중치(w)를 어느 방향으로 바꿔야 할지 알아야 합니다. 이때 미분이 등장합니다. 손실 함수를 가중치 w로 미분하면 dL/dw가 나오는데, 이 값이 방향을 알려줍니다.
dL/dw가 양수라면 w를 늘릴수록 손실이 커진다는 뜻입니다. 그러니 w를 줄여야 합니다. dL/dw가 음수라면 w를 늘릴수록 손실이 작아진다는 뜻이니 w를 늘려야 합니다. 결국 미분값의 반대 방향으로 w를 조정하면 손실이 줄어듭니다. 이게 경사하강법의 핵심 논리입니다.
학습률이란 무엇인가
방향을 알았다면 다음 질문은 얼마나 움직이느냐입니다. 이걸 결정하는 게 학습률(Learning Rate, α)입니다. 경사하강법의 업데이트 공식은 이렇습니다.
α가 너무 크면 한 번에 너무 많이 이동해서 최솟값을 지나쳐버립니다. 그릇에서 공이 왔다 갔다 하면서 수렴하지 못하는 상황이 됩니다. 반대로 α가 너무 작으면 조금씩만 이동하니까 최솟값까지 가는 데 너무 오래 걸립니다. 적절한 학습률을 찾는 것 자체가 AI 학습에서 중요한 과제입니다.

경사하강법 한 스텝 직접 계산하기
실제 숫자로 한 스텝을 따라가 보겠습니다. 손실 함수가 L = w² 이고 현재 w = 3, 학습률 α = 0.1이라고 하겠습니다.
먼저 미분을 계산합니다. dL/dw = 2w이고 w = 3이니 dL/dw = 6입니다. 업데이트 공식에 대입하면 w = 3 - 0.1 × 6 = 3 - 0.6 = 2.4입니다. 한 스텝 후 w가 3에서 2.4로 줄었습니다. 이 과정을 반복하면 w는 0에 점점 가까워집니다. L = w²의 최솟값이 w = 0일 때 L = 0이니 정확히 목표 방향으로 가고 있습니다.
| 스텝 | w 값 | dL/dw (=2w) | 업데이트 후 w | 손실 L (=w²) |
|---|---|---|---|---|
| 1 | 3.0 | 6.0 | 2.4 | 9.0 → 5.76 |
| 2 | 2.4 | 4.8 | 1.92 | 5.76 → 3.69 |
| 3 | 1.92 | 3.84 | 1.54 | 3.69 → 2.36 |
| 4 | 1.54 | 3.07 | 1.23 | 2.36 → 1.51 |
| 5 | 1.23 | 2.46 | 0.98 | 1.51 → 0.97 |
5번만 반복했는데 손실이 9.0에서 0.97로 줄었습니다. 이 과정을 수천 번 반복하면 손실은 거의 0에 가까워집니다. 단순한 계산이 반복되면서 모델이 점점 나아지는 겁니다.
반복이 학습이 되는 구조
과정 자체는 단순합니다. 현재 가중치로 예측하고, 정답과 비교해서 손실을 구한 뒤, 미분으로 방향을 잡고 가중치를 업데이트합니다. 그리고 다시 처음으로 돌아갑니다. 이 네 단계가 한 사이클입니다.
이 사이클이 수만 번, 수십만 번 돌아가는 게 AI 학습입니다. ChatGPT 같은 대형 모델은 이 과정을 수억 번 이상 반복합니다. 엄청난 연산량이지만 각 스텝 자체는 미분 하나 계산하고 빼주는 단순한 과정입니다. 단순한 것이 쌓이면 강력해진다는 걸 여기서도 확인할 수 있습니다.

실제 AI에서 어떻게 쓰이는가
실제 딥러닝에서는 가중치가 수억 개입니다. 각 가중치마다 미분을 계산해야 하는데, 이걸 효율적으로 처리하는 게 앞 글에서 다룬 역전파입니다. 역전파는 연쇄법칙을 이용해 출력층에서 입력층으로 거슬러 올라가면서 모든 가중치의 dL/dw를 한 번에 계산합니다.
경사하강법에도 여러 변형이 있습니다. 전체 데이터를 한 번에 써서 계산하는 Batch GD, 데이터 하나씩 계산하는 SGD, 일정량씩 묶어서 처리하는 Mini-batch GD가 대표적입니다. 현재 대부분의 AI 학습은 Mini-batch GD 방식을 씁니다. 속도와 안정성을 동시에 잡을 수 있거든요.
처음에 미분을 배울 때는 이게 어디에 쓰이는지 몰랐는데, 결국 여기까지 이어지더군요. 라이프니츠가 만든 기호가 AI 학습의 핵심 연산이 됐다는 게 아직도 조금 신기합니다. 수백 년 전 수학자가 만든 표기법이 지금 ChatGPT를 학습시키는 데 그대로 쓰이고 있다는 사실, 생각할수록 흥미롭지 않나요.
'데이터 과학 수학' 카테고리의 다른 글
| [라이프니츠 미분학 연재 #10] 라이프니츠 미분학의 의미, 변화의 개념이 만든 현대 기술 (0) | 2026.04.03 |
|---|---|
| [라이프니츠 미분학 연재 #9] 역전파란 무엇인가, 연쇄법칙이 딥러닝을 가능하게 한 방식 (0) | 2026.04.03 |
| [라이프니츠 미분학 연재 #7] 이진법이란 무엇인가, 컴퓨터와 미분을 연결하는 핵심 개념 (0) | 2026.04.03 |
| [라이프니츠 미분학 연재 #6] 연쇄법칙이란 무엇인가, 복잡한 미분을 쉽게 이해하는 방법 (0) | 2026.04.03 |
| [라이프니츠 미분학 연재 #5] 미분 법칙이란 무엇인가, 합과 곱의 미분을 이해하는 방법 (0) | 2026.04.03 |