HTE (Heterogeneous Treatment Effects) · Tae Hyun Kim (Lowell)

정의

처치 효과가 개인의 특성에 따라 달라지는 현상

\tau(x) = E[Y(1) - Y(0) \mid X=x]

$\tau(x)$ 가 $x$ 에 따라 변하면 이질적 처치 효과(HTE) 존재.

직관적 이해

Homogeneous vs Heterogeneous

유형	정의	예시
동질적	$\tau(x) = \tau$ (상수)	모든 환자에게 동일한 약효
이질적	$\tau(x)$ 가 $x$ 에 의존	젊은 환자에게 더 큰 약효

왜 중요한가?

개인화 의사결정: 누구에게 처치할지 결정
정책 타겟팅: 효과 큰 집단 우선
자원 최적화: 제한된 자원의 효율적 배분
과학적 이해: 메커니즘 통찰

HTE vs 관련 개념

개념	정의	관계
ITE	$Y_i(1) - Y_i(0)$	개인 수준 효과
CATE	$E[Y(1)-Y(0) \mid X=x]$	HTE의 함수적 표현
HTE	CATE의 변동성	CATE가 변하면 HTE 존재
ATE	$E[Y(1)-Y(0)]$	CATE의 평균

HTE 추정 방법

1. Meta-learners

기존 ML 알고리즘을 활용한 CATE 추정:

Method	접근	특징
S-Learner	단일 모델	간단, HTE 미미할 때 적합
T-Learner	처치별 분리 모델	유연, 정보 공유 없음
X-Learner	2단계 imputation	불균형 데이터에 적합
R-Learner	Residualized regression	이론적 보장

2. Tree-based Methods

Method	특징
Causal Forest	이질성 기반 분할, 신뢰구간 제공
BART	Bayesian 불확실성 정량화

3. Representation Learning

Method	특징
CFR	균형 잡힌 표현 학습
CEVAE	VAE 기반 잠재 교란변수 추론
BNN	Balancing Neural Network
GANITE	GAN 기반 ITE 추정

4. Multi-task Learning

Method	특징
CMGP	Gaussian Process 멀티태스크
Dragonnet	Targeted regularization

HTE 분석 워크플로우

1. 효과 이질성 탐색

# Causal Forest로 CATE 추정
from econml.dml import CausalForestDML

cf = CausalForestDML()
cf.fit(Y, T, X)
cate = cf.effect(X)

# 이질성 확인
print(f"CATE std: {cate.std():.3f}")
print(f"CATE range: [{cate.min():.3f}, {cate.max():.3f}]")

2. 하위집단 분석

# 특성별 효과 분석
for group in ['young', 'old']:
    idx = X['age_group'] == group
    print(f"{group}: CATE = {cate[idx].mean():.3f}")

3. 변수 중요도

# 어떤 변수가 이질성에 기여?
importance = cf.feature_importances_

HTE의 해석 주의점

1. Subgroup Hunting 문제

사후 분석으로 효과 큰 그룹 찾기 → 다중비교 문제
검증 데이터 분리 필요

2. 신뢰구간 확인

점추정만으로 결론 짓지 말 것
불확실성 고려

3. 인과적 해석

CATE 추정 ≠ 최적 처치 결정
개입 효과의 인과적 해석 필요

응용 사례

1. Personalized Medicine

“이 환자에게 어떤 치료가 최적인가?”
부작용 위험 vs 효과 trade-off

2. 마케팅 타겟팅

“어떤 고객에게 프로모션이 효과적인가?”
Uplift modeling

3. 정책 설계

“어떤 집단에 정책을 우선 적용할까?”
자원 제약 하 최적화

4. 추천 시스템

“어떤 사용자에게 이 콘텐츠가 효과적인가?”
MOC-LLM4RecSys 등과 연결

평가 지표

지표	정의	용도
PEHE	$\sqrt{E[(\tau(X) - \hat{\tau}(X))^2]}$	CATE 추정 정확도
ATE Estimation Error	$	\text{ATE} - \widehat{\text{ATE}}
Qini coefficient	Uplift curve 기반	타겟팅 효율성

참고 논문

yaoSurveyCausalInference2021 - Section 2.2, 3.4, 3.5
kunzelMetalearnersEstimatingHeterogeneous2019 - Meta-learners
Athey, S., & Imbens, G. (2016). Recursive partitioning for heterogeneous causal effects
Wager, S., & Athey, S. (2018). Estimation and inference of HTE using random forests

연결 그래프