Optimal Targeting Policy

정의

Optimal Targeting Policy는 covariate $x$ 를 처치 결정 $\pi(x)\in\{0,1\}$ 로 사상해 정책 가치를 극대화하는 규칙이다:

$\pi^\star = \arg\max_{\pi} \; \mathbb{E}\big[ Y(\pi(X)) \big] - c\cdot\mathbb{E}[\pi(X)]$

비용 $c$ ·마진을 고려하면 최적 규칙은 threshold 정책: $\pi^\star(x) = \mathbf{1}\{\hat\tau(x) > \text{breakeven}\}$ , 즉 uplift가 손익분기를 넘는 고객만 처치.

직관적 이해

uplift 추정(CATE)이 “각자 얼마나 더 살까”를 알려주면, 정책은 “그래서 누구를 처치할까”를 정한다. 연속적 CATE를 binary 결정으로 바꾸는 단계 — Policy Learning의 산업 인스턴스.

방법

Threshold on CATE: $\hat\tau(x) > \text{BE}$ — 단순·강력 (econml 등).
Policy Tree / DR Policy Tree (Athey & Wager 2021, Kitagawa & Tetenov 2018): 해석가능 규칙을 직접 학습. 단 연속 CATE를 규칙으로 양자화 시 정보 손실 가능.
Risk-adjusted policy: positivity 위반으로 CATE 불확실 시 $\text{CE-CATE}(\lambda) = (1-\lambda)\hat\tau + \lambda\,\text{LB}$ 로 보수성 조절.
가치 검증: OPE(IPW/AIPW/DR)로 배포 전 정책 가치 추정.

Dunnhumby: breakeven $42.43(cost $12.73 / margin 30%). 최적 31.3% 타겟팅 → $2,426 수익(125% ROI); 전체 타겟팅 시 −$4,657 손실. CATE-threshold가 PolicyTree를 $742 상회. PS AUC 0.989(positivity 위반)로 식별이 17% overlap 영역에 제한 → λ=0.7–1.0 보수 정책 권장. (프로젝트 canonical)

참고

MOC-Targeting
Study Roadmap — Track 3 (Athey-Wager 2021, Kitagawa-Tetenov 2018 원전)

정의

직관적 이해

방법

프로젝트 적용

관련 개념

참고

연결 그래프