Optimal Targeting Policy
정의
Optimal Targeting Policy는 covariate 를 처치 결정 로 사상해 정책 가치를 극대화하는 규칙이다:
비용 ·마진을 고려하면 최적 규칙은 threshold 정책: , 즉 uplift가 손익분기를 넘는 고객만 처치.
직관적 이해
uplift 추정(CATE)이 “각자 얼마나 더 살까”를 알려주면, 정책은 “그래서 누구를 처치할까”를 정한다. 연속적 CATE를 binary 결정으로 바꾸는 단계 — Policy Learning의 산업 인스턴스.
방법
- Threshold on CATE: — 단순·강력 (econml 등).
- Policy Tree / DR Policy Tree (Athey & Wager 2021, Kitagawa & Tetenov 2018): 해석가능 규칙을 직접 학습. 단 연속 CATE를 규칙으로 양자화 시 정보 손실 가능.
- Risk-adjusted policy: positivity 위반으로 CATE 불확실 시 로 보수성 조절.
- 가치 검증: OPE(IPW/AIPW/DR)로 배포 전 정책 가치 추정.
프로젝트 적용
Dunnhumby: breakeven $42.43(cost $12.73 / margin 30%). 최적 31.3% 타겟팅 → $2,426 수익(125% ROI); 전체 타겟팅 시 −$4,657 손실. CATE-threshold가 PolicyTree를 $742 상회. PS AUC 0.989(positivity 위반)로 식별이 17% overlap 영역에 제한 → λ=0.7–1.0 보수 정책 권장. (프로젝트 canonical)
관련 개념
- Targeting Overview ← 허브
- Uplift Modeling / CATE — 정책의 입력
- Policy Learning — 일반 이론 (P2)
- Off-Policy Evaluation — 정책 가치 검증
참고
- MOC-Targeting
- Study Roadmap — Track 3 (Athey-Wager 2021, Kitagawa-Tetenov 2018 원전)