[인과추론] 인과추론 개념 정리 1
배경
앞선 글에서 uplift모델의 구성을 아주 간략히 살펴보고 실무에 적용해 봤습니다. 그 결과는 크게 좋지 못했는데, 긍정적으로 보자면 모델의 대략적인 설계와 예제만 보고 적용가능한 일반적인 ML과 달리 uplift모델을 사용하기 위해서는 인과추론에 대한 이해가 필요하다는 깨달음을 얻을 수 있는 시간이었습니다. 다만 이런 공부를 좀 더 일찍 시작해 사전에 알고 있었으면 어땠을까 하는 아쉬움도 많이 남습니다.
사족이 길었는데, 뭐 지금부터라도 공부하면 되는거 아니겠습니까. 이런 계기로 많이들 스터디하시는 "실무로 통하는 인과추론"을 공부하는 내용을 기록해 보겠습니다.
인과와 상관
"인과" (원인과 결과)와 "상관"(서로 영향을 미침)이 다르다는 점은 통계학을 처음 배우면서, 또 통계학이 아니더라도 일반적으로도 많이 알려져 있는 사실입니다. 하지만 이를 혼용하거나 혼동하여 일어나는 실수들도 꽤 많이 보입니다. 예를 들어 A 회사에서의 광고 비용이 증가할 경우, 매출이 늘어나는 관계를 확인했습니다. 이때 광고 비용과 매출은 인과관계를 가질까요? 아닙니다. 이 상태에서 확신할 수 있는 점은 두 지표가 서로 양의 상관을 보인다는 점입니다.
그렇다면 왜 인과관계가 아닐까요? 사실 인과관계가 아니다. 보다는 아직은 확신할 수 없다. 에 가깝습니다. A사의 광고가 집행되는 과정에서 계절성(시즈널리티)가 반영되거나 기타 다른 영향들이 있을 수 있습니다. 즉, 이런 많은 영향들을 고려해서 광고 비용이라는 원인이 매출 이라는 결과에 미치는 영향을 분석하는 것이 인과분석입니다. 즉, 상관과 인과를 너무 나눠서 볼 것이 아니라 인과는 상관에서 비롯되는 개념입니다.
인과추론의 구성과 한계
회귀분석에서 X를 사용해 Y를 추정하는 것과 같이 인과추론은 아래의 세 가지의 구성을 가집니다.
- X(Confounder) : Y에 영향을 미치는 여러 인자
- T(Treatment) : 처치, 어떠한 Action을 했을 때 Y에 대한 효과
- Y(Outcome) : Confounder와 Treatment의 조합으로 얻어진 결과
인과추론에서 얻고자 하는 것은 T가 변화됨에 따라 Y의 변화를 살펴보고 T의 차이가 Y의 결과에 어떤 영향을 미치고 있는지를 살펴보는 것입니다. 즉, 다른 모든 상황이 동일할 때 T만 차이를 줘 T의 실제 영향을 확인하고자 하는 것입니다. 앞선 예시에서 동일한 기간, 상품 등 모든 조건이 일치하는 A사에 대해 광고 여부에 따른 매출 변화를 살펴봐야 인과추론의 목표를 달성할 수 있습니다.
네 맞습니다. 이는 현실에서 불가능한 상황입니다. 현실에서는 하나의 상황에 대해 광고를 하고, 하지 않는 두 가지 행동을 모두 해볼 수 없습니다. 이때 관측할 수 없는 결과를 "반사실", 예측되거나 관측된 결과를 "잠재적 결과"라고 이야기하고, 우리가 구하고자하는 반사실과 잠재적 효과의 차를 "개별 처치 효과(ITE)"라고 합니다.
인과추론을 가능하게 하기위한 노력
그렇다면 어떻게 우리는 인과적인 관계를 확인해 볼 수 있을까요? 이때 주로 사용되는 기법이 A/B test입니다. 실험설계에서 A와 B는 Randomize 되는 것이 이상적이라는 말을 들어본 적 있으신가요? 이는 Confounder를 통제하여 두 집단이 서로 유사하게 만들기 위한 노력입니다. 즉, 우리가 확인해보고자 하는 Treatment 이외의 다른 요인들에 대해서는 A와 B 어느 한쪽에 편향된 특징을 가지지 않게 만들어 Treatment의 차이에 대한 효과를 검증해 보는 것입니다. (물론 A/B test는 대표적인 예시이고 아니더라도 Confounder를 통제할 수 있다면 Treatment 효과를 측정해 볼 수 있을 겁니다!)
마무리
공부한 내용은 조금 더 있으나.. 일정 조절 실패로 급하게 끝내게 되었습니다. 이번에 여행을 가게되었는데, 여행 기간 동안 조금 여유를 가지고 인과추론 공부하면서 꾸준히 업데이트해 보겠습니다!
'Statistics > Uplift' 카테고리의 다른 글
[인과추론] 인과추론 개념 정리 2 (0) | 2025.03.16 |
---|---|
[Uplift] Uplift 모델의 이해 (0) | 2025.02.16 |