[인과추론] 인과추론 개념 정리 1

2025. 3. 2. 23:52

배경

앞선 글에서 uplift모델의 구성을 아주 간략히 살펴보고 실무에 적용해 봤습니다. 그 결과는 크게 좋지 못했는데, 긍정적으로 보자면 모델의 대략적인 설계와 예제만 보고 적용가능한 일반적인 ML과 달리 uplift모델을 사용하기 위해서는 인과추론에 대한 이해가 필요하다는 깨달음을 얻을 수 있는 시간이었습니다. 다만 이런 공부를 좀 더 일찍 시작해 사전에 알고 있었으면 어땠을까 하는 아쉬움도 많이 남습니다.

사족이 길었는데, 뭐 지금부터라도 공부하면 되는거 아니겠습니까. 이런 계기로 많이들 스터디하시는 "실무로 통하는 인과추론"을 공부하는 내용을 기록해 보겠습니다.

 

진짜 너무 늦었으니 열심히해봅시다.

 

 

인과와 상관

"인과" (원인과 결과)와 "상관"(서로 영향을 미침)이 다르다는 점은 통계학을 처음 배우면서, 또 통계학이 아니더라도 일반적으로도 많이 알려져 있는 사실입니다. 하지만 이를 혼용하거나 혼동하여 일어나는 실수들도 꽤 많이 보입니다.  예를 들어 A 회사에서의 광고 비용이 증가할 경우, 매출이 늘어나는 관계를 확인했습니다. 이때 광고 비용과 매출은 인과관계를 가질까요? 아닙니다. 이 상태에서 확신할 수 있는 점은 두 지표가 서로 양의 상관을 보인다는 점입니다. 

그렇다면 왜 인과관계가 아닐까요? 사실 인과관계가 아니다. 보다는 아직은 확신할 수 없다. 에 가깝습니다. A사의 광고가 집행되는 과정에서 계절성(시즈널리티)가 반영되거나 기타 다른 영향들이 있을 수 있습니다. 즉, 이런 많은 영향들을 고려해서 광고 비용이라는 원인이 매출 이라는 결과에 미치는 영향을 분석하는 것이 인과분석입니다. 즉,  상관과 인과를 너무 나눠서 볼 것이 아니라 인과는 상관에서 비롯되는  개념입니다.

 

 

인과추론의 구성과 한계

회귀분석에서 X를 사용해 Y를 추정하는 것과 같이 인과추론은 아래의 세 가지의 구성을 가집니다. 

  • X(Confounder) : Y에 영향을 미치는 여러 인자 
  • T(Treatment) : 처치, 어떠한 Action을 했을 때 Y에 대한 효과
  • Y(Outcome) : Confounder와 Treatment의 조합으로 얻어진 결과

인과추론에서 얻고자 하는 것은 T가 변화됨에 따라 Y의 변화를 살펴보고 T의 차이가 Y의 결과에 어떤 영향을 미치고 있는지를 살펴보는 것입니다.  즉, 다른 모든 상황이 동일할 때 T만 차이를 줘 T의 실제 영향을 확인하고자 하는 것입니다. 앞선 예시에서 동일한 기간, 상품 등 모든 조건이 일치하는 A사에 대해 광고 여부에 따른 매출 변화를 살펴봐야 인과추론의 목표를 달성할 수 있습니다. 

 

네 맞습니다. 이는 현실에서 불가능한 상황입니다. 현실에서는 하나의 상황에 대해 광고를 하고, 하지 않는 두 가지 행동을 모두 해볼 수 없습니다. 이때 관측할 수 없는 결과를 "반사실", 예측되거나 관측된 결과를 "잠재적 결과"라고 이야기하고, 우리가 구하고자하는 반사실과 잠재적 효과의 차를 "개별 처치 효과(ITE)"라고 합니다.

 

 

인과추론을 가능하게 하기위한 노력

그렇다면 어떻게 우리는 인과적인 관계를 확인해 볼 수 있을까요? 이때 주로 사용되는 기법이 A/B test입니다. 실험설계에서 A와 B는 Randomize 되는 것이 이상적이라는 말을 들어본 적 있으신가요? 이는 Confounder를 통제하여 두 집단이 서로 유사하게 만들기 위한 노력입니다. 즉, 우리가 확인해보고자 하는 Treatment 이외의 다른 요인들에 대해서는 A와 B 어느 한쪽에 편향된 특징을 가지지 않게 만들어 Treatment의 차이에 대한 효과를 검증해 보는 것입니다. (물론 A/B test는 대표적인 예시이고 아니더라도 Confounder를 통제할 수 있다면 Treatment 효과를 측정해 볼 수 있을 겁니다!)

 

 

마무리

공부한 내용은 조금 더 있으나.. 일정 조절 실패로 급하게 끝내게 되었습니다. 이번에 여행을 가게되었는데, 여행 기간 동안 조금 여유를 가지고 인과추론 공부하면서 꾸준히 업데이트해 보겠습니다! 

 

 

 

 

'Statistics > Uplift' 카테고리의 다른 글

[인과추론] 인과추론 개념 정리 2  (0) 2025.03.16
[Uplift] Uplift 모델의 이해  (0) 2025.02.16

BELATED ARTICLES

more