Marketing Attribution at Scale — From Simulation to Causal Inference

문제 — “어떤 채널이 전환에 기여했는가?”는 인과 질문이다

Marketing attribution은 표면적으로 “어떤 마케팅 채널이 전환에 얼마나 기여했는가?”라는 단순한 회계 문제처럼 보인다. 그러나 실무에서 이 질문은 곧 반사실(counterfactual) 질문이다. 실제로 중요한 것은 “Paid Search 클릭이 전환 직전에 있었다”가 아니라 “Paid Search 광고가 없었다면 이 유저가 전환하지 않았을 것인가?”이다. Last-click 같은 rule-based 휴리스틱은 전자에 답하지만, 예산을 옮길 때 필요한 답은 후자다.

이 괴리가 attribution을 까다롭게 만든다. 상관(correlational) 방법론과 인과(causal) 방법론은 같은 데이터에서 서로 다른 채널에 크레딧을 배분할 수 있고, 어느 쪽이 맞는지 판단하려면 ground truth가 필요하다. 하지만 실 마케팅 데이터에는 ground truth가 존재하지 않는다 — 우리는 반사실 세계를 관측할 수 없다.

이 케이스 스터디는 그 딜레마를 두 단계로 푼다. (1) ground truth를 알고 있는 시뮬레이터를 설계해 10종 이상의 방법론이 진짜 기여도를 얼마나 정확히 복원하는지 정량 평가하고, (2) 그 방법론을 **공개 대규모 실 데이터(Criteo)**로 스케일링해 실 환경 강건성을 검증한 뒤, (3) 추정된 채널 효과를 예산 배분 의사결정으로 연결하는 Off-Policy Evaluation 단계로 마무리한다.

본 노트의 모든 DGP 파라미터와 수치는 연구자가 직접 설계한 ground truth이거나 공개 데이터셋의 명세이며, 어떤 클라이언트/독점 지표도 포함하지 않는다. 수치는 방법론을 설명하기 위한 illustrative 예시다.

데이터 — 시뮬레이터(해석 가능) + Criteo(대규모, 공개)

핵심 진단은 이렇다. 해석 가능한 feature를 가진 대규모 공개 MTA 데이터셋은 사실상 존재하지 않는다. Criteo Attribution Dataset은 대규모이지만 모든 feature가 해시/익명화되어 “이 채널이 Display인지 Search인지” 알 수 없다. 반대로 해석 가능한 공개 소스는 세션별 채널 시퀀스를 신뢰성 있게 재구성할 수 없거나 단일 binary treatment에 그친다. 그래서 본 프로젝트는 하이브리드 접근을 채택한다.

소스	규모	역할	핵심 특성
시뮬레이터 (자체 설계)	~100K 유저, 전환율 2–3% (전환 유저 ~2–3K)	ground truth 기반 정확도 평가	7개 해석 가능한 채널, 알려진 DGP, 반사실 직접 계산 가능
Criteo Attribution (2018, 공개)	~16.5M 이벤트, ~2.6M 여정, 7개 채널	대규모 실 데이터 스케일/강건성 검증	view-through vs click-through 구분, cost 포함, feature 해시 처리

시뮬레이터의 DGP는 세 편의 검증된 학술 프레임워크를 통합한다 — sequential dependence와 user heterogeneity의 기본 골격, channel별 차별화된 시간 감쇠 함수(temporal decay), 그리고 채널 간 교차 영향(cross-channel influence). 전환은 inhomogeneous Poisson process의 실현으로 생성되며, intensity는 다음과 같은 log-linear 모델을 따른다.

$\log \lambda_i(t) = \alpha_0 + \sum_j \sum_k \beta_k\, x_{jk}\, f_{\text{channel}}(t - t_j) + \sum_{i,j} \delta_{ij}\, \text{cross}(c_i, c_j) + d_i \cdot \eta$

여기서 $f_{\text{channel}}$ 은 채널별 감쇠 함수(예: Display는 $\exp(-\Delta t / 14\text{d})$ 로 느린 인지 효과, Paid Search는 $\exp(-\Delta t / 1\text{d})$ 로 즉시 소멸), $\delta_{ij}$ 는 교차 시너지(예: Display → Paid Search), $d_i \cdot \eta$ 는 유저 이질성이다. 이 $\beta, \delta$ 파라미터에서 도출한 Shapley value가 곧 ground truth이며, 모든 attribution 모델의 채점 기준이 된다.

파이프라인 — rule-based부터 causal DL까지

같은 시뮬레이션 데이터에 10종 이상의 방법론을 적용하고, ground truth 대비 정확도를 measure한다. 핵심 축은 “이 방법론이 답하는 질문이 상관이냐 인과냐”이다.

카테고리	방법론	답하는 질문	인과성 수준
Rule-based	Last / First / Linear / Time-Decay / Position	”어떤 규칙으로 크레딧을 나눌까?”	없음
Statistical	Markov Chain (1차/2차/고차, Removal Effect)	“전이 구조에서 어떤 채널이 중요한가?”	약함
Game-theoretic	Shapley Value (전환율 기반 / 모델 기반, $2^7=128$ coalition 정확 계산)	“공정한 배분은?”	약함
Predictive DL	LSTM+Attention / Transformer	”전환 예측에 어떤 터치포인트가 중요한가?”	약함
Incremental causal	Incremental Shapley	”광고로 인한 순증 전환은?”	중간
Time-to-event causal	Survival / Poisson attribution	”이 광고가 전환을 얼마나 앞당겼나?”	중간
Debiased causal	IPW / Doubly Robust / DML	”selection bias 보정 후 채널 효과는?”	높음
Causal DL	Causal Attention (CAMTA 변형)	“딥러닝 기여도가 인과적으로 타당한가?”	중간~높음

네 개의 causal 방법론이 분석의 중심이다. (1) IPW — 유저 세그먼트가 채널 노출 확률을 다르게 만들어 SCM 상에서 confounding을 유발하므로, propensity로 가중해 보정한다. (2) DML — 각 채널을 treatment, 나머지 채널과 유저 특성을 confounder로 두고 cross-fitting으로 nuisance를 제거한 뒤 채널별 CATE/ATE를 추정한다(EconML LinearDML). (3) Incremental Shapley — 전체 전환이 아닌 순증 전환만 배분해 광고 없이도 발생했을 base conversion에 크레딧을 주지 않는다. (4) Survival/Poisson — intensity 모델에서 광고 $j$ 를 제거한 반사실 $\lambda_{-j}(t)$ 를 계산해 시간 축까지 인과적으로 해석한다.

딥러닝 모델에서는 세 가지 contribution-extraction 기법(Attention weight / SHAP DeepExplainer / Leave-One-Out)을 비교한다. 핵심 가설은 “attention ≠ attribution” — attention weight가 실제 반사실 기여도를 반영하지 않을 수 있다는 점을 Kendall’s Tau 순위 일치도로 정량화한다.

Criteo로 넘어가면 같은 baseline(rule-based, Markov, Shapley)과 딥러닝 시퀀스 모델을 ~2.6M 여정에 적용하되, feature가 해시 처리되어 있으므로 “채널 X 예산을 늘려라” 같은 도메인 해석은 의도적으로 하지 않는다. Criteo의 고유 가치는 (a) 방법론이 대규모에서 기술적으로 작동하는지, (b) view-through(노출만)가 전환에 기여하는지, (c) cost 필드를 활용한 cost-per-attributed-conversion 분석이다.

핵심 발견 (illustrative)

아래 수치는 모두 연구자가 설계한 DGP에서 도출된 ground-truth 비교 결과이며, 방법론의 거동을 보여주기 위한 예시다.

상관과 인과는 갈라진다, 그리고 confounding이 강할수록 더. 유저 세그먼트별 채널 노출 확률 차이(= confounding 강도)를 키울수록 상관 방법론(Shapley, LSTM-Attention)과 인과 방법론(IPW, DML)의 채널 배분 괴리가 커진다. CRM 타겟팅이 강한(= Email/Direct를 특정 세그먼트에 집중) 환경에서 상관 방법론은 해당 채널을 체계적으로 과대평가했다. → “언제 causal 보정이 필요한가”는 데이터의 selection bias 강도로 결정된다.
Positivity가 IPW를 깨뜨린다. Propensity score가 극단으로 갈 때(예측이 거의 완벽할 때) IPW weight가 폭발해 추정이 불안정해졌다. trimming 후 안정화됐고, DML은 nuisance를 ML로 흡수해 더 강건했다 — doubly-robust 구조의 실전적 이점.
Base conversion이 높을수록 전통 attribution이 오도한다. DGP의 base conversion rate(광고 없는 자연 전환)를 0% → 20%로 올리면 Incremental Shapley와 전통 Shapley의 괴리가 커진다. 자연 전환이 많은 비즈니스에서 전통 MTA는 광고가 한 일을 과대평가한다.
attention은 attribution이 아니다. 딥러닝의 attention weight와 SHAP/LOO 기반 기여도의 순위 일치도가 완벽하지 않았고, 불일치가 큰 여정이 일관되게 식별됐다. attention을 설명(explanation)으로 곧장 쓰는 관행에 대한 경고.
복잡도가 항상 정당화되지는 않는다. 짧은 시퀀스(2–3 터치포인트)에서는 Transformer가 LSTM 대비 유의미한 향상을 주지 못했다 — “짧은 여정에서는 Transformer 불필요”라는 것 자체가 실무적으로 유용한 finding이다.

예산으로 연결 — channel allocation as policy evaluation

방법론 비교는 그 자체가 목적이 아니다. 최종 산출물은 **“예산을 어떻게 옮길 것인가”**라는 의사결정이다. 추정된 채널별 response curve(집계 수준에서는 Adstock + Saturation, 유저 수준에서는 causal ATE)를 정책으로 보면, 새 예산 배분은 곧 **새 정책(policy)**이고, “이 배분이 매출을 얼마나 낼까”는 로그 데이터로 그 정책 가치를 추정하는 Off-Policy Evaluation 문제가 된다.

동일 총 예산 제약 하에서 매출을 최대화하는 배분을 numerical optimization으로 찾고, 현재 배분 대비 “어디서 빼서 어디로 옮길지”를 제시한다. 인과적으로 추정된 효과(상관이 아니라)를 response curve에 쓰는 것이 핵심이다 — 상관 기여도로 예산을 옮기면 자연 전환을 광고 효과로 착각해 잘못된 채널에 투자하게 된다. 불확실성은 점추정이 아닌 credible interval로 함께 보고한다(예: 어떤 채널의 ATE가 $24, 95% CI가 음수를 포함하면 증액 결정을 보류).

교훈

Ground truth가 없으면 방법론을 채점할 수 없다. 시뮬레이터의 진짜 가치는 데이터 양이 아니라 반사실을 직접 계산할 수 있다는 점이다. 실 데이터(Criteo)는 강건성만 검증하고, 정확도 판정은 시뮬레이터가 한다 — 역할 분담이 명확해야 한다.
상관 attribution은 기본값이 아니라 가정이다. “selection bias가 약하다”는 가정이 성립할 때만 Shapley/Markov로 충분하다. 그 가정을 데이터에서 검증(세그먼트별 노출 확률 차이 측정)하지 않은 채 쓰는 것은 위험하다.
추정과 의사결정을 분리하지 말 것. attribution 숫자는 예산 정책으로 환산될 때 의미를 갖는다. 그래서 CATE 추정 → Off-Policy Evaluation → budget allocation을 하나의 파이프라인으로 본다.
불확실성을 끝까지 가져갈 것. positivity 위반 시 weight 폭발, 짧은 데이터에서의 추정 분산 — 점추정만 보고하면 잘못된 확신을 준다. CI/credible interval을 의사결정에 그대로 노출한다.

IPW — selection bias 보정의 출발점, positivity 위반에 취약
Double-Debiased ML — cross-fitting으로 고차원 confounding에 강건한 ATE/CATE 추정
Off-Policy Evaluation — 예산 재배분을 로그에서 평가하는 정책 가치 추정
CATE — 채널/세그먼트별 이질적 처치 효과
SCM — 유저 세그먼트가 만드는 confounding 구조의 언어
Attribution — 기여도 배분 문제 일반

문제 — “어떤 채널이 전환에 기여했는가?”는 인과 질문이다

데이터 — 시뮬레이터(해석 가능) + Criteo(대규모, 공개)

파이프라인 — rule-based부터 causal DL까지

핵심 발견 (illustrative)

예산으로 연결 — channel allocation as policy evaluation

교훈

Related Concepts

연결 그래프