Causal Forest · Tae Hyun Kim (Lowell)

from econml.dml import CausalForestDML
from sklearn.ensemble import GradientBoostingRegressor

forest_dml = CausalForestDML(
    model_y=GradientBoostingRegressor(n_estimators=200),
    model_t=GradientBoostingRegressor(n_estimators=200),
    discrete_treatment=False,  # 연속 가격
    n_estimators=1000,
    min_samples_leaf=20,
    honest=True
)

forest_dml.fit(
    Y=np.log1p(data['quantity']),  # 로그 수량
    T=np.log(data['price']),        # 로그 가격 → 탄력성
    X=data[heterogeneity_vars],
    W=data[confounders]
)

# 개인별 탄력성
individual_elasticities = forest_dml.effect(data[heterogeneity_vars])
lower, upper = forest_dml.effect_interval(data[heterogeneity_vars], alpha=0.05)

print(f"평균 탄력성: {individual_elasticities.mean():.3f}")
print(f"탄력성 범위: [{individual_elasticities.min():.3f}, {individual_elasticities.max():.3f}]")

세그먼트 발견

Causal Forest는 자연스럽게 세그먼트를 발견합니다:

from sklearn.cluster import KMeans

data['elasticity'] = forest_dml.effect(data[heterogeneity_vars])

kmeans = KMeans(n_clusters=4, random_state=42)
data['segment'] = kmeans.fit_predict(
    np.column_stack([data['elasticity'], data[heterogeneity_vars]])
)

segment_profile = data.groupby('segment').agg({
    'elasticity': ['mean', 'std'],
    'income': 'mean',
    'age': 'mean'
})

변수 중요도

importance = forest_dml.feature_importances_
for feat, imp in zip(heterogeneity_vars, importance):
    print(f"{feat}: {imp:.3f}")

CATE - 추정 대상
Double-Debiased ML - 이론적 기반
Cross-fitting - 과적합 방지
Meta-learners - 대안적 접근법
Policy Trees - 해석 가능한 정책 학습

References

Athey, S., Tibshirani, J., & Wager, S. (2019). “Generalized Random Forests.” Annals of Statistics.
Wager, S., & Athey, S. (2018). “Estimation and Inference of Heterogeneous Treatment Effects using Random Forests.”
Comprehensive Personalized Pricing Guide, Part III, §9

연결 그래프