CATE (Conditional Average Treatment Effect)
Definition
**Conditional Average Treatment Effect (CATE)**는 covariate 가 주어졌을 때의 평균 처치 효과:
여기서:
- : Treatment를 받았을 때의 potential outcome
- : Treatment를 받지 않았을 때의 potential outcome
- : Pre-treatment covariates (특성 변수)
관련 용어:
- HTE (Heterogeneous Treatment Effect): CATE와 동의어로 사용
- ITE (Individual Treatment Effect): (관측 불가)
Intuitive Understanding
핵심 질문:
“특정 특성을 가진 사람에게 처치가 얼마나 효과적인가?”
ATE vs CATE:
| Quantity | Definition | Question |
|---|---|---|
| ATE | ”평균적으로 효과가 있는가?” | |
| CATE | ”이 특성을 가진 사람에게 효과가 있는가?” |
예시:
- 신약의 평균 효과는 양수지만 (ATE > 0)
- 65세 이상 환자에게는 효과가 없거나 부정적 ()
ATE = E[τ(X)] = ∫ τ(x) dP(x) (CATE의 평균)
Key Properties
Fundamental Problem of Causal Inference
개인 수준에서 과 를 동시에 관측할 수 없음:
- 실제 관측:
- 반사실은 항상 missing
Identification Assumptions
CATE 식별을 위한 표준 가정들:
-
SUTVA (Stable Unit Treatment Value Assumption)
- No interference: 타인의 treatment가 나의 outcome에 영향 없음
- Consistency:
-
Unconfoundedness (Ignorability)
- 가 주어지면 treatment assignment가 potential outcomes와 독립
-
Positivity (Overlap)
- 모든 covariate 값에서 treatment 받을 확률이 0과 1 사이
CATE의 구조
CATE는 다음으로 분해 가능:
여기서
Estimation Methods
Meta-Learners
| Method | Description | Best When |
|---|---|---|
| S-Learner | Single model: , then | Homogeneous effects |
| T-Learner | Two models: , separately | Different response functions |
| X-Learner | Two-stage imputation with propensity weighting | Unbalanced treatment groups |
| R-Learner | Residualize then regress: minimize | Heterogeneous effects |
| DR-Learner | Regress doubly robust pseudo-outcome on | Double robustness desired |
Tree-Based Methods
- Causal Forest (Wager & Athey): Random forest adapted for CATE
- BART (Bayesian Additive Regression Trees)
- Causal MARS
Deep Learning
- CEVAE (Causal Effect VAE)
- TARNet (Treatment-Agnostic Representation Network)
- DragonNet
Example
의료 시나리오:
- : 혈압 감소량
- : 신약 투여 여부 (0/1)
- : (나이, 성별, 기저 혈압, BMI, …)
해석:
- : 이 특성의 환자에게 신약이 효과적
- : 이 특성의 환자에게 신약이 해로움
- : 이 특성의 환자에게 효과 없음
Applications
Treatment Targeting (Policy Learning)
최적 treatment rule 학습:
- 이면 treat
- 이면 don’t treat
Personalized Medicine
- 환자 특성에 따른 맞춤 치료
- 부작용 최소화 & 효과 최대화
Precision Marketing
- 고객별 마케팅 효과 추정
- 개인화된 프로모션 targeting
Policy Evaluation
- Subgroup별 정책 효과 분석
- Heterogeneity 탐색
Evaluation Metrics
CATE 추정의 평가는 어려움 (true CATE 관측 불가)
RCT가 있는 경우
- PEHE (Precision in Estimation of HTE):
- ATE Error:
Observational Data
- AUUC (Area Under Uplift Curve): Treatment targeting 성능
- Qini Coefficient: Uplift modeling 평가
Related Concepts
- ATE - Average Treatment Effect (CATE의 평균)
- ATT - Average Treatment on Treated
- Propensity Score - Treatment assignment probability
- DR-Learner - CATE 추정을 위한 doubly robust 방법
- Double-Debiased ML - High-dimensional CATE 추정
- Causal Forest - Tree-based CATE 추정
Key Papers
- kunzelMetalearnersEstimatingHeterogeneous2019 - Meta-learners (S, T, X-learner)
- nieQuasiOracleEstimationHeterogeneous2020 - R-learner
- kennedyOptimalDoublyRobust2023 - DR-learner, optimal rates
- Wager & Athey (2018) - Causal Forests
- chernozhukovDoubleDebiasedMachine2018 - DML for treatment effects
Implementation
Python (econml):
from econml.dml import CausalForestDML
from econml.dr import DRLearner
# Causal Forest
cf = CausalForestDML()
cf.fit(Y, T, X=X, W=W)
cate = cf.effect(X_test)
# DR-Learner
dr = DRLearner()
dr.fit(Y, T, X=X, W=W)
cate = dr.effect(X_test)
R (grf):
library(grf)
cf <- causal_forest(X, Y, W)
tau_hat <- predict(cf)$predictions
References
- kunzelMetalearnersEstimatingHeterogeneous2019
- nieQuasiOracleEstimationHeterogeneous2020
- kennedyOptimalDoublyRobust2023
- chernozhukovDoubleDebiasedMachine2018
- Wager & Athey (2018) - “Estimation and Inference of Heterogeneous Treatment Effects using Random Forests”