본문 바로가기
데이터 과학 수학

[라이프니츠 미분학 연재 #9] 역전파란 무엇인가, 연쇄법칙이 딥러닝을 가능하게 한 방식

by dexien 2026. 4. 3.

경사하강법을 이해하고 나면 한 가지 현실적인 문제가 남습니다. 가중치가 수억 개인 모델에서 각각의 dL/dw를 어떻게 계산하냐는 겁니다. 하나씩 따로 계산하면 이론적으로는 맞지만 현실적으로 불가능한 연산량이 됩니다. 이 문제를 해결한 게 역전파입니다.

역전파를 처음 들었을 때 저는 그냥 경사하강법의 다른 이름인 줄 알았습니다. 근데 전혀 달랐어요. 경사하강법이 어느 방향으로 얼마나 움직 일지를 결정하는 방법이라면, 역전파는 그 계산을 수억 개의 가중치에 대해 효율적으로 처리하는 방법입니다. 둘은 역할이 다릅니다.

역전파 개념과 순전파 비교 신경망 학습 구조
역전파란 무엇인가, 인공지능이 스스로 학습하는 핵심 원리

순전파란 무엇인가

역전파를 이해하려면 먼저 순전파(Forward Propagation)가 뭔지 알아야 합니다. 순전파는 입력에서 출력으로 흐르는 방향입니다. 데이터가 입력층에 들어가서 은닉층을 거쳐 출력층으로 나오는 과정이에요.

예를 들어 고양이 사진을 입력하면 각 층에서 특징을 추출하고 변환하면서 "고양이일 확률 92%"라는 결과가 나옵니다. 이 방향, 즉 입력 → 출력이 순전파입니다. 역전파는 이 방향을 뒤집어서 출력 → 입력 방향으로 오차를 전달하는 과정입니다.

신경망에서 순전파가 입력에서 출력으로 역전파가 출력에서 입력으로 흐르는 방향 비교 다이어그램
순전파는 입력에서 출력으로, 역전파는 출력에서 입력으로 오차를 거슬러 올라갑니다


왜 역방향 계산이 필요한가

경사하강법에서 가중치를 업데이트하려면 dL/dw가 필요합니다. 가중치가 10개라면 10번 계산하면 됩니다. 근데 GPT 같은 대형 모델은 가중치가 수천억 개입니다. 각각을 따로 계산하면 어떻게 될까요.

가장 단순한 방법은 각 가중치를 조금씩 바꿔보면서 손실이 어떻게 변하는지 확인하는 수치 미분입니다. 근데 가중치가 n개라면 n번 순전파를 돌려야 합니다. 수천억 번 순전파를 돌리는 건 현실적으로 불가능합니다. 역전파는 이걸 단 한 번의 역방향 계산으로 처리합니다. 모든 가중치의 기울기를 한 번에 구하는 거예요.


역전파의 핵심 아이디어

역전파의 핵심은 계산 결과를 재사용한다는 점입니다. 출력층에서 오차를 계산하고, 그 값을 이전 층으로 전달합니다. 이전 층은 전달받은 값을 이용해 자신의 기울기를 계산하고, 다시 그 앞 층으로 전달합니다.

한 번 계산한 값을 다음 층에서 재활용하기 때문에 전체 계산량이 순전파 한 번과 역전파 한 번으로 끝납니다. 가중치가 수천억 개여도 계산 횟수는 2번, 즉 순전파 1번과 역전파 1번입니다. 이게 역전파가 혁신적인 이유입니다.


연쇄법칙이 역전파를 가능하게 하는 방식

역전파가 이렇게 작동할 수 있는 건 연쇄법칙 덕분입니다. 신경망은 함수가 여러 층으로 중첩된 합성함수입니다. 연쇄법칙에서 배웠듯이 dy/dx = dy/du × du/dx 형태로 분해할 수 있습니다.

출력층의 기울기를 계산하고, 그 값에 각 층의 로컬 기울기를 곱하면서 앞으로 전달합니다. 뒤에서 앞으로 넘어올 때마다 연쇄법칙으로 한 단계씩 분해되는 구조입니다. 연쇄법칙이 없었다면 역전파도 불가능했습니다. 라이프니츠의 dy/dx 표기가 AI 학습의 핵심 알고리즘을 가능하게 한 셈입니다.

역전파에서 연쇄법칙을 이용해 출력층부터 은닉층으로 기울기가 전달되는 계산 흐름 다이어그램
역전파는 연쇄법칙을 이용해 출력층의 기울기를 각 층으로 역방향 전달합니다


실제 3층 신경망으로 계산해 보기

간단한 예시로 따라가 보겠습니다. 입력층, 은닉층, 출력층으로 이루어진 3층 신경망입니다. 각 층의 연산을 단순하게 y = wx로 가정하겠습니다.

순전파: 입력 x = 2, 가중치 w₁ = 3, w₂ = 4라고 하면 은닉층 출력 h = w₁ × x = 3 × 2 = 6, 최종 출력 y = w₂ × h = 4 × 6 = 24입니다. 정답이 20이라면 손실 L = (24-20)² = 16입니다.

역전파: dL/dy = 2(y-20) = 2(24-20) = 8입니다. dy/dw₂ = h = 6이니 dL/dw₂ = dL/dy × dy/dw₂ = 8 × 6 = 48입니다. dy/dh = w₂ = 4, dh/dw₁ = x = 2이니 dL/dw₁ = dL/dy × dy/dh × dh/dw₁ = 8 × 4 × 2 = 64입니다. 연쇄법칙이 층을 거슬러 올라가면서 각 가중치의 기울기를 계산했습니다.

단계 계산 방향 계산 내용 결과
순전파 1 h = w₁ × x = 3 × 2 h = 6
순전파 2 y = w₂ × h = 4 × 6 y = 24, L = 16
역전파 1 dL/dw₂ = 8 × 6 dL/dw₂ = 48
역전파 2 dL/dw₁ = 8 × 4 × 2 dL/dw₁ = 64
가중치 업데이트 w = w - α × dL/dw (α=0.01) w₂=3.52, w₁=2.36

순전파 한 번, 역전파 한 번으로 두 가중치의 기울기를 모두 구했습니다. 가중치가 수억 개여도 이 구조는 똑같이 작동합니다.


순전파와 역전파 한눈에 비교

구분 순전파 역전파
방향 입력 → 출력 출력 → 입력
목적 예측값 계산 기울기 계산
사용 개념 함수 계산 연쇄법칙 (미분)
결과 손실값 L 각 가중치의 dL/dw
경사하강법과 관계 손실 제공 업데이트 방향 제공

순전파 역전파 경사하강법이 순환하는 AI 학습 전체 사이클 구조 다이어그램
순전파로 예측하고 역전파로 기울기를 구한 뒤 경사하강법으로 업데이트하는 사이클이 AI 학습입니다


역전파가 없었다면 AI는 불가능했다

역전파 알고리즘은 1986년 루멜하트, 힌튼, 윌리엄스가 논문으로 발표하면서 딥러닝의 실질적인 시작점이 됩니다. 그전에도 신경망 이론은 있었지만 학습시킬 방법이 없었습니다. 역전파가 나오면서 비로소 여러 층짜리 신경망을 실제로 학습시킬 수 있게 됐습니다.

지금 우리가 쓰는 ChatGPT, 이미지 생성 AI, 번역기 전부 역전파로 학습됐습니다. 그리고 역전파의 핵심은 연쇄법칙이고, 연쇄법칙의 표기법은 라이프니츠가 만든 dy/dx입니다. 이 연재에서 따라온 개념들이 결국 현대 AI의 학습 알고리즘으로 이어진다는 게 꽤 인상적입니다.


소개 및 문의 · 개인정보처리방침 · 면책조항

© 2026 블로그 이름