[라이프니츠 미분학 연재 #6] 연쇄법칙이란 무엇인가, 복잡한 미분을 쉽게 이해하는 방법
미분을 배우다 보면 어느 순간 이런 함수를 마주치게 됩니다. (x²+1)³ 같은 형태입니다. 괄호 안에 함수가 있고, 그게 다시 다른 함수의 입력으로 들어가는 구조입니다. 이걸 처음 봤을 때 저는 그냥 전개해서 풀려고 했습니다. 근데 괄호 안이 복잡해지면 전개 자체가 불가능해집니다. 이때 필요한 게 연쇄법칙입니다.
연쇄법칙은 외워야 할 공식이 아닙니다. 변화가 여러 단계를 거쳐 전달될 때 그 전체 변화를 어떻게 계산하는지를 설명하는 구조입니다. 이 관점으로 접근하면 공식이 왜 그런 형태인지 자연스럽게 이해됩니다.

연쇄법칙이 필요한 순간
앞에서 배운 합의 미분과 곱의 미분으로 대부분의 기본 함수는 처리할 수 있습니다. 근데 이런 형태는 어떻게 할까요. y = (x²+1)³. 괄호 안에 함수가 있고 그게 세제곱으로 묶여 있습니다.
전개해서 풀 수도 있지만 (x²+1)³을 전개하면 항이 엄청 많아집니다. 괄호 안이 sin(x²)이나 e^(3x+1) 같은 형태라면 전개 자체가 불가능합니다. 이런 상황에서 쓰는 게 연쇄법칙입니다. 함수 안에 함수가 들어간 구조, 즉 합성함수를 미분하는 방법입니다.
합성함수란 무엇인가
연쇄법칙을 이해하려면 먼저 합성함수가 뭔지 알아야 합니다. 합성함수는 함수 안에 함수가 들어간 구조입니다. y = (x²+1)³에서 안쪽 함수는 u = x²+1이고 바깥쪽 함수는 y = u³입니다.
x가 입력되면 먼저 안쪽 함수 u = x²+1을 거쳐 중간값 u가 만들어집니다. 그 u가 다시 바깥쪽 함수 y = u³에 들어가서 최종 결과 y가 나옵니다. 입력 → 중간값 → 최종 결과, 이렇게 두 단계를 거치는 구조입니다.

변화가 두 단계를 거치는 구조
이제 x가 조금 변하면 어떤 일이 생기는지 따라가 봅니다. x가 dx만큼 변하면 먼저 중간값 u가 du만큼 변합니다. 그 du가 다시 최종 결과 y를 dy만큼 변화시킵니다.
변화가 x → u → y 순서로 전달됩니다. 한 번에 가는 게 아니라 두 단계를 거쳐서 가는 거예요. 그래서 전체 변화율을 구하려면 각 단계의 변화율을 모두 고려해야 합니다. 1단계에서 x 변화가 u에 얼마나 영향을 주는지, 2단계에서 u 변화가 y에 얼마나 영향을 주는지를 둘 다 봐야 한다는 겁니다.
왜 곱으로 계산되는가
각 단계의 변화율을 어떻게 합칠까요. 더하는 게 아니라 곱합니다. 왜 곱일까요.
1단계에서 x가 1 변할 때 u가 3 변한다고 해봅니다. 2단계에서 u가 1 변할 때 y가 5 변한다고 하면, x가 1 변할 때 y는 얼마나 변할까요. u가 3 변하고, u가 1 변할 때마다 y가 5씩 변하니까 y는 3 × 5 = 15 변합니다. 곱이 되는 게 자연스럽죠.
수식으로 쓰면 dy/dx = dy/du × du/dx입니다. du가 분자와 분모에 동시에 나타나서 약분되는 형태로도 볼 수 있습니다. 분수의 약분처럼 중간 단계가 사라지고 전체 변화율만 남습니다.
연쇄법칙 수식과 실제 계산
연쇄법칙을 수식으로 쓰면 이렇습니다.
y = (x²+1)³으로 직접 계산해 보겠습니다. u = x²+1로 놓으면 y = u³입니다. du/dx는 u = x²+1을 x로 미분한 값이니 2x입니다. dy/du는 y = u³을 u로 미분한 값이니 3u²입니다. 두 값을 곱하면 dy/dx = 3u² × 2x = 6x(x²+1)²입니다. u 자리에 원래 식 x²+1을 다시 넣어주면 됩니다.
x = 1일 때 대입하면 dy/dx = 6 × 1 × (1+1)² = 6 × 4 = 24입니다. x = 1 지점에서 이 함수의 접선 기울기가 24라는 뜻입니다. 전개하지 않고 두 단계로 나눠서 계산했을 뿐인데 답이 나왔습니다.
| 단계 | 계산 내용 | 결과 |
|---|---|---|
| 안쪽 함수 설정 | u = x²+1 | du/dx = 2x |
| 바깥쪽 함수 설정 | y = u³ | dy/du = 3u² |
| 연쇄법칙 적용 | dy/du × du/dx | 3u² × 2x |
| u 대입 | u = x²+1 대입 | 6x(x²+1)² |
기어로 이해하는 연쇄법칙
연쇄법칙을 직관적으로 이해하는 데 기어 비유가 도움이 됩니다. 기어 A가 돌면 기어 B가 돌고, 기어 B가 돌면 기어 C가 돕니다. A가 1바퀴 돌 때 B가 3바퀴 돌고, B가 1바퀴 돌 때 C가 2바퀴 돈다면 A가 1바퀴 돌 때 C는 3 × 2 = 6바퀴 돕니다.
연쇄법칙이 딱 이 구조입니다. x가 변하면 u가 변하고, u가 변하면 y가 변합니다. 각 단계의 변화율을 곱하면 전체 변화율이 나옵니다. 기어가 몇 개 연결되든 같은 방식으로 계산할 수 있습니다. 함수가 3단계, 4단계로 중첩돼도 각 단계의 미분을 모두 곱하면 됩니다.

AI 역전파와의 연결
연쇄법칙이 가장 강력하게 쓰이는 곳이 인공지능의 역전파(Backpropagation)입니다. 딥러닝 모델은 여러 층이 연결된 구조인데, 입력이 첫 번째 층을 거치고 두 번째 층을 거치고 계속 이어져서 최종 결과가 나옵니다. 합성함수가 수십 단계 중첩된 셈입니다.
학습할 때는 최종 결과의 오차를 줄이기 위해 각 층의 가중치를 조정해야 합니다. 이때 최종 오차가 각 층에 얼마나 영향을 받는지를 계산해야 하는데, 이게 연쇄법칙으로 이루어집니다. 마지막 층부터 역방향으로 거슬러 올라가면서 각 단계의 미분을 곱해나가는 방식입니다. 역전파라는 이름이 붙은 이유가 여기에 있습니다.
결국 ChatGPT 같은 AI가 학습하는 핵심 원리가 연쇄법칙입니다. 17세기에 만들어진 미분 개념이 현대 AI의 학습 알고리즘 안에 그대로 살아있는 셈입니다.
