Tae Hyun Kim (Lowell)

HTE (Heterogeneous Treatment Effects)

3분 읽기 #causal-inference#hte

정의

처치 효과가 개인의 특성에 따라 달라지는 현상

τ(x)=E[Y(1)Y(0)X=x]\tau(x) = E[Y(1) - Y(0) \mid X=x]

τ(x)\tau(x)xx에 따라 변하면 이질적 처치 효과(HTE) 존재.


직관적 이해

Homogeneous vs Heterogeneous

유형정의예시
동질적τ(x)=τ\tau(x) = \tau (상수)모든 환자에게 동일한 약효
이질적τ(x)\tau(x)xx에 의존젊은 환자에게 더 큰 약효

왜 중요한가?

  1. 개인화 의사결정: 누구에게 처치할지 결정
  2. 정책 타겟팅: 효과 큰 집단 우선
  3. 자원 최적화: 제한된 자원의 효율적 배분
  4. 과학적 이해: 메커니즘 통찰

HTE vs 관련 개념

개념정의관계
ITEYi(1)Yi(0)Y_i(1) - Y_i(0)개인 수준 효과
CATEE[Y(1)Y(0)X=x]E[Y(1)-Y(0) \mid X=x]HTE의 함수적 표현
HTECATE의 변동성CATE가 변하면 HTE 존재
ATEE[Y(1)Y(0)]E[Y(1)-Y(0)]CATE의 평균

HTE 추정 방법

1. Meta-learners

기존 ML 알고리즘을 활용한 CATE 추정:

Method접근특징
S-Learner단일 모델간단, HTE 미미할 때 적합
T-Learner처치별 분리 모델유연, 정보 공유 없음
X-Learner2단계 imputation불균형 데이터에 적합
R-LearnerResidualized regression이론적 보장

2. Tree-based Methods

Method특징
Causal Forest이질성 기반 분할, 신뢰구간 제공
BARTBayesian 불확실성 정량화

3. Representation Learning

Method특징
CFR균형 잡힌 표현 학습
CEVAEVAE 기반 잠재 교란변수 추론
BNNBalancing Neural Network
GANITEGAN 기반 ITE 추정

4. Multi-task Learning

Method특징
CMGPGaussian Process 멀티태스크
DragonnetTargeted regularization

HTE 분석 워크플로우

1. 효과 이질성 탐색

# Causal Forest로 CATE 추정
from econml.dml import CausalForestDML

cf = CausalForestDML()
cf.fit(Y, T, X)
cate = cf.effect(X)

# 이질성 확인
print(f"CATE std: {cate.std():.3f}")
print(f"CATE range: [{cate.min():.3f}, {cate.max():.3f}]")

2. 하위집단 분석

# 특성별 효과 분석
for group in ['young', 'old']:
    idx = X['age_group'] == group
    print(f"{group}: CATE = {cate[idx].mean():.3f}")

3. 변수 중요도

# 어떤 변수가 이질성에 기여?
importance = cf.feature_importances_

HTE의 해석 주의점

1. Subgroup Hunting 문제

  • 사후 분석으로 효과 큰 그룹 찾기 → 다중비교 문제
  • 검증 데이터 분리 필요

2. 신뢰구간 확인

  • 점추정만으로 결론 짓지 말 것
  • 불확실성 고려

3. 인과적 해석

  • CATE 추정 ≠ 최적 처치 결정
  • 개입 효과의 인과적 해석 필요

응용 사례

1. Personalized Medicine

  • “이 환자에게 어떤 치료가 최적인가?”
  • 부작용 위험 vs 효과 trade-off

2. 마케팅 타겟팅

  • “어떤 고객에게 프로모션이 효과적인가?”
  • Uplift modeling

3. 정책 설계

  • “어떤 집단에 정책을 우선 적용할까?”
  • 자원 제약 하 최적화

4. 추천 시스템

  • “어떤 사용자에게 이 콘텐츠가 효과적인가?”
  • MOC-LLM4RecSys 등과 연결

평가 지표

지표정의용도
PEHEE[(τ(X)τ^(X))2]\sqrt{E[(\tau(X) - \hat{\tau}(X))^2]}CATE 추정 정확도
ATE Estimation Error$\text{ATE} - \widehat{\text{ATE}}
Qini coefficientUplift curve 기반타겟팅 효율성

관련 개념


참고 논문

  • yaoSurveyCausalInference2021 - Section 2.2, 3.4, 3.5
  • kunzelMetalearnersEstimatingHeterogeneous2019 - Meta-learners
  • Athey, S., & Imbens, G. (2016). Recursive partitioning for heterogeneous causal effects
  • Wager, S., & Athey, S. (2018). Estimation and inference of HTE using random forests

연결 그래프