Tae Hyun Kim (Lowell)

Optimal Targeting Policy

정의

Optimal Targeting Policy는 covariate xx를 처치 결정 π(x){0,1}\pi(x)\in\{0,1\}로 사상해 정책 가치를 극대화하는 규칙이다:

π=argmaxπ  E[Y(π(X))]cE[π(X)]\pi^\star = \arg\max_{\pi} \; \mathbb{E}\big[ Y(\pi(X)) \big] - c\cdot\mathbb{E}[\pi(X)]

비용 cc·마진을 고려하면 최적 규칙은 threshold 정책: π(x)=1{τ^(x)>breakeven}\pi^\star(x) = \mathbf{1}\{\hat\tau(x) > \text{breakeven}\}, 즉 uplift가 손익분기를 넘는 고객만 처치.

직관적 이해

uplift 추정(CATE)이 “각자 얼마나 더 살까”를 알려주면, 정책은 “그래서 누구를 처치할까”를 정한다. 연속적 CATE를 binary 결정으로 바꾸는 단계 — Policy Learning의 산업 인스턴스.

방법

  • Threshold on CATE: τ^(x)>BE\hat\tau(x) > \text{BE} — 단순·강력 (econml 등).
  • Policy Tree / DR Policy Tree (Athey & Wager 2021, Kitagawa & Tetenov 2018): 해석가능 규칙을 직접 학습. 단 연속 CATE를 규칙으로 양자화 시 정보 손실 가능.
  • Risk-adjusted policy: positivity 위반으로 CATE 불확실 시 CE-CATE(λ)=(1λ)τ^+λLB\text{CE-CATE}(\lambda) = (1-\lambda)\hat\tau + \lambda\,\text{LB} 로 보수성 조절.
  • 가치 검증: OPE(IPW/AIPW/DR)로 배포 전 정책 가치 추정.

프로젝트 적용

Dunnhumby: breakeven $42.43(cost $12.73 / margin 30%). 최적 31.3% 타겟팅 → $2,426 수익(125% ROI); 전체 타겟팅 시 −$4,657 손실. CATE-threshold가 PolicyTree를 $742 상회. PS AUC 0.989(positivity 위반)로 식별이 17% overlap 영역에 제한 → λ=0.7–1.0 보수 정책 권장. (프로젝트 canonical)

관련 개념

참고

  • MOC-Targeting
  • Study Roadmap — Track 3 (Athey-Wager 2021, Kitagawa-Tetenov 2018 원전)

연결 그래프