Customer Segmentation & Causal Targeting — An Applied Case Study

마케팅에서 “누구에게 캠페인을 보낼 것인가”는 예측 문제가 아니라 인과 의사결정 문제다. 반응 확률이 높은 고객이 아니라, 캠페인이 있을 때와 없을 때의 차이(uplift) 가 큰 고객을 골라야 한다. 이 노트는 공개 데이터셋 하나로 그 파이프라인 전체를 — segmentation부터 causal targeting policy, off-policy 검증까지 — 직접 구현하며 배운 점을 정리한 applied field note다. 등장하는 모든 수치는 공개 데이터 위의 illustrative finding이며 특정 실제 리테일러의 감사된(audited) 결과가 아님을 먼저 밝혀 둔다.

문제 설정

타겟팅을 propensity(반응 확률) 기준으로 하면 흔히 이미 살 사람에게 쿠폰을 낭비한다. 우리가 원하는 양은 개인 수준 CATE $\tau(x) = \mathbb{E}[Y(1) - Y(0) \mid X = x]$ — 즉 처치(캠페인) 유무가 만드는 결과의 차이다. 이 case study의 질문은 두 갈래다.

(Segmentation) 고객 행동을 어떤 잠재 차원으로 요약하고, 실행 가능한 세그먼트로 어떻게 묶을 것인가?
(Causal Targeting) 캠페인 효과가 고객마다 어떻게 다르며, 비용 대비 수익을 극대화하는 타겟팅 규칙은 무엇인가?

데이터 (공개)

Dunnhumby “The Complete Journey” 공개 리테일 데이터셋을 사용했다. 약 2,500 가구의 102주에 걸친 거래·캠페인 로그로, 수백만 건의 트랜잭션과 수십 개의 마케팅 캠페인 노출이 기록돼 있다. 누구나 내려받을 수 있는 public dataset이므로, 아래 결과는 방법론을 보여 주는 illustrative한 예시로만 해석하면 된다.

방법 / 파이프라인

Track 1 — Latent Factor Segmentation

Feature engineering: 다중공선성( $r \ge 0.7$ )을 제거해 행동 feature를 축소.
Latent factor 추출: NMF(Non-negative Matrix Factorization)로 5개 latent behavioral factor를 도출. PCA 대신 NMF를 쓴 이유는 비음수 제약 덕에 “고객 = 0.3×충성 + 0.5×신선식품” 식의 parts-based 해석이 가능하고, 지출 데이터의 자연스러운 비음수성과 맞아떨어지기 때문이다. 5개 factor가 행동 분산의 대부분(~92%)을 설명했다.
Clustering: K-Means로 factor score를 군집화해 7개 고객 세그먼트를 도출.
안정성 검증: bootstrap resampling(100회, 80% 서브샘플) + ARI로 세그먼트 재현성을 측정 → bootstrap ARI ≈ 0.77 (강한 안정성). 내부 품질 지표(silhouette 등)가 “지금 할당이 좋은가”를 본다면, bootstrap ARI는 “이 할당이 재현 가능한가”를 봐서 상호 보완한다. 행동 데이터 특성상 silhouette은 보통 수준이었지만 높은 ARI가 실질적 안정성을 뒷받침했다.

이 7개 세그먼트는 그 자체로 마케팅 인사이트이자, Track 2에서 HTE의 moderator(이질성 축)로 재활용된다.

Track 2 — Causal Targeting

먼저 positivity(overlap) 가정을 진단했다. Treatment/control 그룹이 사실상 다른 모집단인지 보려고 propensity score를 학습했더니 PS AUC ≈ 0.99 — 즉 모델이 처치 여부를 거의 완벽히 예측했다. 이는 심각한 Positivity violation 신호다. Propensity가 $[0.1, 0.9]$ 안에 드는, 인과적으로 식별 가능한 **overlap 영역은 전체의 약 17%**에 불과했다. 나머지 ~83%는 강한 외삽(extrapolation) 영역이다.

이 진단 위에서 HTE를 추정했다.

CATE 추정: Meta-learners(S/T/X-learner)와 Causal Forest(CausalForestDML)를 비교. 모델 선택 기준은 통계적 유의성 하나가 아니라 타겟팅 순위 품질(uplift curve / AUUC)과 추정 안정성(분산)을 함께 봤다. Causal Forest가 AUUC 최고 + 분산 최저로 채택됐다(BLP 이질성 검정은 경계선 수준이었다 — 이질성은 존재하나 강하지 않음).
Optimal targeting policy: breakeven 임계값(캠페인 비용 ÷ 마진)을 넘는 $\hat\tau(x)$ 고객만 처치하는 threshold policy $\pi^\star(x) = \mathbf{1}\{\hat\tau(x) > \text{breakeven}\}$ 를 구성. 이것이 Optimal Targeting Policy의 산업적 형태다. PolicyTree 같은 학습된 규칙과도 비교했는데, 연속적 CATE를 binary로 바꾸면서 생기는 정보 손실 때문에 CATE-threshold가 우위였다.
Off-policy 검증: 새 정책을 실제로 집행하지 않고 Off-Policy Evaluation(doubly-robust 추정)으로 정책 가치를 추정. positivity가 약한 영역에서는 CATE 불확실성이 크므로, lower-bound를 섞는 risk-adjusted 변형 $\text{CE-CATE}(\lambda) = (1-\lambda)\,\hat\tau + \lambda\cdot\text{LB}$ 로 보수성을 조절했다.

핵심 발견 (illustrative)

아래 숫자는 모두 공개 Dunnhumby 데이터 위의 예시 결과이며, 가설 생성적(hypothesis-generating)으로만 해석해야 한다.

타겟팅 비율 곡선이 비단조다. 약 31% 고객만 타겟팅했을 때 정책 가치가 illustrative하게 ROI ≈ 125% (예: 약 $2,426 수익)로 최적에 가까웠다. 더 좁히면 ROI는 올라가지만 절대 수익은 줄고, 전체 고객을 타겟팅하면 오히려 순손실(약 -$4,657)이 났다.
“전부 타겟팅”이 최악인 이유는 음의 CATE 세그먼트 때문이다. VIP Heavy(약 -$38), Bulk Shoppers(약 -$40) 같은 counter-intuitive negative-CATE 세그먼트 — uplift 문헌의 이른바 “sleeping dogs” — 가 양의 효과를 상쇄한다. 이미 충분히 사는 고객을 쿠폰으로 자극하면 효과가 0이거나 음수일 수 있다(ceiling effect / 쿠폰 미스매치 가설).
반대로 Light Grocery처럼 과소 타겟팅된, 양의 uplift 세그먼트가 드러났다 — 예산을 옮길 곳이 어디인지 알려 주는 신호다.
positivity violation이 모든 것을 제약한다. PS AUC ≈ 0.99 / overlap ~17%라는 사실은 ATE 추정치가 방법에 따라 수십 배 출렁이게 만들었고(naive vs. IPW vs. AIPW vs. DML), 신뢰할 수 있는 인과 주장은 사실상 overlap 영역으로 한정됐다. 그래서 모든 결론은 A/B test 검증을 전제로 한 가설로 남긴다.

배운 점 (lessons)

predictive ≠ causal targeting. 반응 확률 순위와 uplift 순위는 다르다. negative-CATE 세그먼트의 존재는 propensity 기반 타겟팅이 왜 돈을 태우는지를 가장 선명하게 보여 준다.
가정 진단을 먼저, 정직하게. positivity를 그냥 가정하지 않고 PS AUC로 측정한 것이 이 프로젝트에서 가장 중요한 한 걸음이었다. overlap이 17%뿐이라는 사실을 알고 나면 모든 점추정치를 다르게(겸손하게) 읽게 된다.
모델 선택 기준은 의사결정 기준이어야 한다. CATE 모델을 통계적 유의성이 아니라 타겟팅 순위 품질(AUUC) 로 고른 것은, 우리가 추정치가 아니라 정책을 출하한다는 사실을 반영한다.
불확실성은 버그가 아니라 정책 손잡이다. risk-adjusted $\lambda$ 와 OPE는 “얼마나 공격적으로 타겟팅할지”를 검증 전후로 다르게 잡을 수 있게 해 준다 — 실험 전엔 보수적으로, 검증 후엔 공격적으로.
public-data 케이스의 정직한 선. 절대 달러 총액은 감사된 비즈니스 성과가 아니라 방법을 보여 주는 illustrative 숫자다. 가설 생성과 검증된 인과 주장을 섞지 않는 것 — 그것이 이 노트가 지키려는 규율이다.

Customer Segmentation — NMF + K-Means 행동 세그멘테이션
Uplift Modeling — predictive가 아닌 incremental 효과 타겟팅
CATE — 개인 수준 조건부 평균 처치효과
Meta-learners — S/T/X-learner CATE 추정군
Causal Forest — 비모수 CATE / 채택 모델
Optimal Targeting Policy — breakeven threshold 정책
Off-Policy Evaluation — 정책 집행 없는 가치 추정
Targeting Overview — 산업 타겟팅 방법 지도
Positivity — overlap 가정과 그 위반 진단

연결 그래프