Tae Hyun Kim (Lowell)

Uplift Modeling

2분 읽기 #targeting#uplift#meta-learner

정의

Uplift(증분효과)는 처치(캠페인 노출·쿠폰·추천)가 한 개인의 결과(구매·전환)에 미치는 인과적 증분이다. 이진 처치 W{0,1}W\in\{0,1\}, 결과 YY, covariate XX에 대해

uplift(x)=E[YX=x,W=1]E[YX=x,W=0]=τ(x)\text{uplift}(x) = \mathbb{E}[Y\mid X=x, W=1] - \mathbb{E}[Y\mid X=x, W=0] = \tau(x)

즉 uplift는 이진 처치에서의 CATE 와 같다. “노출했을 때 얼마나 더 사는가”의 개인 수준 답.

직관적 이해

응답(response) 모델 P(Y=1X,W=1)P(Y=1\mid X, W=1)살 사람을 찾지만, uplift 모델은 **노출 때문에 사게 되는 사람(persuadable)**을 찾는다. 4분면:

노출 시 구매노출 시 미구매
미노출 시 미구매Persuadable (타겟 ✓)Lost cause
미노출 시 구매Sure thing (낭비)Sleeping dog (역효과 — 건드리지 말 것)

타겟팅의 목적은 persuadable에만 처치를 집중해 ROI를 올리는 것.

추정 방법

  • Meta-learners: S/T/X-learner, DR-Learner — 임의 ML로 τ(x)\tau(x) 추정
  • Causal Forest: 트리 기반 직접 uplift 추정 (Wager & Athey 2018)
  • R-learner / DML: 잔차 직교화로 robust 추정

장단점

  • 장점: 응답 모델보다 자원 배분이 효율적(persuadable 집중), 음의 uplift(역효과) 탐지.
  • 한계: 반사실은 관측 불가 → 라벨 없음(평가는 OPE·Qini/uplift curve로). 관측 데이터에서는 Selection Bias·positivity 위반에 취약.

프로젝트 적용

Dunnhumby: CausalForestDML로 세그먼트별 uplift 추정 — VIP Heavy −$38, Bulk Shoppers −$40 등 음의 CATE(sleeping dog) 발견, 전체 타겟팅 시 −$4,657 손실의 원인. (프로젝트 canonical)

관련 개념

참고

  • MOC-Targeting

연결 그래프