아이스크림이 많이 팔리는 날 익사 사고가 늘어납니다. 데이터를 보면 두 수치가 정확히 같이 올라갑니다. 그렇다면 아이스크림이 익사 사고를 유발하는 걸까요. 당연히 아닙니다. 둘 다 "더운 날씨"라는 공통 원인 때문에 늘어나는 겁니다.
이게 웃긴 예시처럼 보이지만 실제 데이터 분석에서 이런 실수가 자주 일어납니다. 저도 처음 데이터를 다룰 때 두 변수가 같이 움직이면 "이게 원인이겠구나"라고 너무 빠르게 결론 내리는 실수를 했습니다. 상관관계와 인과관계를 구분하는 건 생각보다 훨씬 중요합니다. 잘못 결론 내리면 틀린 방향으로 정책을 세우거나 모델을 설계하게 됩니다. 오늘은 이 둘의 차이와 구분하는 방법을 따라가 보겠습니다.

상관관계란 무엇인가
상관관계(Correlation)는 두 변수가 함께 변화하는 경향을 말합니다. 하나가 커질 때 다른 것도 커지면 양의 상관관계, 하나가 커질 때 다른 것이 작아지면 음의 상관관계입니다. 이 관계의 강도를 수치로 표현한 게 상관계수(r)로, -1에서 1 사이 값을 갖습니다.
r = 0.7: 강한 양의 상관
r = 0.0: 상관 없음
r = -0.7: 강한 음의 상관
r = -1.0: 완벽한 음의 상관
⚠️ r이 높다고 인과관계가 성립하는 건 아니다
핵심은 상관관계가 "두 변수가 같이 움직인다"는 사실만 말해준다는 점입니다. 왜 같이 움직이는지, 어느 쪽이 원인인지, 제3의 변수가 있는 건 아닌지는 전혀 알 수 없습니다.

인과관계란 무엇인가 — 세 가지 조건
인과관계(Causality)는 한 변수의 변화가 다른 변수의 변화를 직접 일으키는 관계입니다. 상관관계보다 훨씬 강한 주장입니다. 인과관계가 성립하려면 세 가지 조건을 동시에 만족해야 합니다.
2. 공변성: 원인이 변할 때 결과도 체계적으로 변해야 한다
3. 비허구성: 제3의 변수를 통제해도 관계가 유지되어야 한다
→ 세 조건 중 하나라도 빠지면 인과관계가 아니다
특히 세 번째 조건이 까다롭습니다. 다른 모든 변수의 영향을 통제한 상태에서도 두 변수의 관계가 살아있어야 인과관계라고 할 수 있습니다. 이 조건 때문에 인과관계를 증명하는 게 관찰 데이터만으로는 매우 어렵습니다.
혼란 변수 — 가장 흔한 함정
상관관계가 인과관계로 오인되는 가장 큰 이유가 혼란 변수(Confounding Variable)입니다. 두 변수에 동시에 영향을 주는 제3의 변수가 숨어 있을 때, 두 변수는 마치 서로 영향을 주는 것처럼 보입니다.
아이스크림 예시가 전형적입니다. 아이스크림 판매량과 익사 사고 건수 사이에 강한 양의 상관관계가 있습니다. 그런데 "기온"이라는 혼란 변수를 넣으면 이야기가 달라집니다. 기온이 높으면 아이스크림도 많이 팔리고 물놀이도 많이 합니다. 아이스크림이 익사를 유발하는 게 아니라 둘 다 더위의 결과입니다.
아이스크림 판매↑ → 익사 사고↑ (인과관계처럼 보임)
실제 구조:
기온↑
↙ ↘
아이스크림↑ 익사사고↑
→ 기온이 혼란 변수. 두 결과 사이엔 직접 인과관계 없음

허구적 상관관계 — 실제 사례들
세상에는 실제로 관련 없는데 데이터상으로 강한 상관관계를 보이는 사례가 많습니다. 미국에서 니콜라스 케이지 출연 영화 수와 수영장 익사 사고 건수가 수년간 높은 상관관계를 보였습니다. 당연히 케이지 씨가 익사 사고를 유발하는 게 아닙니다. 그냥 우연입니다.
상관관계와 인과관계의 차이를 정리하면 이렇습니다.
| 항목 | 상관관계 | 인과관계 |
|---|---|---|
| 핵심 개념 | 두 변수의 동시 변화 | 직접적인 원인과 결과 |
| 방향성 | 대칭 (A↔B) | 비대칭 (A→B) |
| 증명 난이도 | 관찰 데이터로 가능 | 실험 또는 정교한 통계 필요 |
| 분석 도구 | 피어슨 상관계수, 산점도 | RCT, 이중차분법, 도구변수 |
| 활용 목적 | 패턴 발견, 예측 | 개입, 정책 설계 |
인과관계를 증명하는 방법
인과관계를 가장 확실하게 증명하는 방법은 무작위 대조 실험(RCT, Randomized Controlled Trial)입니다. 참가자를 무작위로 실험군과 대조군으로 나눠서 혼란 변수의 영향을 양쪽에 고르게 분산시킵니다. 그러면 두 그룹의 차이가 오직 처치(원인) 때문이라고 볼 수 있습니다. 임상시험이 이 방식입니다.
실험이 불가능한 상황에서는 관찰 데이터로 인과관계를 추론하는 방법들이 있습니다. 이중차분법(DID)은 정책 시행 전후를 실험군·대조군으로 비교합니다. 도구변수법은 원인에는 영향을 주지만 결과에는 직접 영향을 안 주는 변수를 활용합니다. 이런 방법들을 통틀어 인과 추론(Causal Inference)이라고 합니다.
AI 모델 설계에서 이 구분이 중요한 이유
머신러닝 모델은 기본적으로 상관관계를 학습합니다. 입력과 출력 사이의 패턴을 찾는 거지, 인과관계를 이해하는 게 아닙니다. 이 때문에 데이터 분포가 바뀌면 모델 성능이 급격히 떨어지는 경우가 생깁니다. 학습 데이터의 상관관계가 새로운 환경에서는 성립하지 않을 수 있기 때문입니다.
예를 들어 "병원 방문 횟수가 많을수록 건강이 나쁘다"는 상관관계를 학습한 모델이 있다면, 이 모델은 병원 방문을 줄이면 건강해진다는 잘못된 개입 방향을 제시할 수 있습니다. 실제로는 건강이 나쁘기 때문에 병원을 자주 가는 겁니다.
데이터가 거짓말을 하는 게 아닙니다. 데이터를 해석하는 방식이 틀릴 수 있습니다. 상관관계와 인과관계를 구분하는 습관은 더 좋은 모델을 만드는 것보다 먼저 갖춰야 할 분석가의 기본기입니다.
'데이터 과학 수학' 카테고리의 다른 글
| 넷플릭스는 어떻게 내 취향을 아는가, 특이값 분해(SVD)의 원리 (0) | 2026.04.22 |
|---|---|
| 데이터로 진실을 추론하다, 최대우도추정(MLE)의 원리 (0) | 2026.04.04 |
| 데이터의 질서, 정규분포와 중심극한정리의 마법 (0) | 2026.04.04 |
| 베이즈 정리의 마법, 정보가 확신을 바꾸는 원리 (0) | 2026.04.04 |
| 다변수 함수와 편미분, 라이프니츠 표기법의 연산 마법 (0) | 2026.04.04 |