Tae Hyun Kim (Lowell)

ESMM (Entire Space Multi-Task Model)

2분 읽기 #recsys#representation-learning

정의

CVR의 Sample Selection BiasData Sparsity 문제를 동시에 해결하기 위해, impressionclickconversion\text{impression} \to \text{click} \to \text{conversion}의 순차적 사용자 행동을 활용하여 전체 impression space에서 CVR을 간접 학습하는 multi-task 모델.

핵심 분해:

P(o=1,r=1)CTCVR=P(o=1)CTR×P(r=1o=1)CVR\underbrace{P(o=1, r=1)}_{\text{CTCVR}} = \underbrace{P(o=1)}_{\text{CTR}} \times \underbrace{P(r=1 \mid o=1)}_{\text{CVR}}

학습 목적함수:

LESMM=LCTR+LCTCVR\mathcal{L}_{\text{ESMM}} = \mathcal{L}_{\text{CTR}} + \mathcal{L}_{\text{CTCVR}}
  • LCTR=E(u,i)D[δ(ou,i,o^u,i)]\mathcal{L}_{\text{CTR}} = E_{(u,i) \in \mathcal{D}}[\delta(o_{u,i}, \hat{o}_{u,i})] — 전체 impression space에서 CTR 학습
  • LCTCVR=E(u,i)D[δ(ou,iru,i, o^u,ir^u,i)]\mathcal{L}_{\text{CTCVR}} = E_{(u,i) \in \mathcal{D}}[\delta(o_{u,i} \cdot r_{u,i},\ \hat{o}_{u,i} \cdot \hat{r}_{u,i})] — 전체 impression space에서 CTCVR 학습
  • CVR tower는 직접 loss 없이 CTCVR 곱셈을 통해 간접 학습

직관적 이해

왜 전체 공간에서 학습하는가?

기존 naive CVR 모델의 문제:

전체 impression (D)     클릭된 아이템 (O)     전환 (R)
 ┌──────────────┐     ┌──────────┐        ┌────┐
 │  ■ ■ □ □ □   │     │  ■ ■ □   │  CVR   │ ■  │
 │  □ □ □ □ □   │ →   │  ■ □ □   │  학습 → │ ■  │
 │  □ □ □ □ □   │     │          │   ↑     │    │
 └──────────────┘     └──────────┘   │     └────┘
   Inference space      Training     Selection
                        space        Bias!
  • Training: click=1 샘플에서만 CVR 학습
  • Inference: 전체 impression에 대해 CVR 예측
  • → 분포 불일치 (MNAR: Missing Not At Random)

ESMM의 해결: CVR tower를 직접 학습하지 않고, CTR × CVR = CTCVR라는 관계를 활용하여 전체 impression space에서 CTCVR loss를 통해 CVR을 간접적으로 학습.

아키텍처

Raw Features (User, Item)

┌─── Shared Embedding Lookup Table ───┐
│                                      │
↓                                      ↓
CTR Tower                         CVR Tower
   ↓                                  ↓
  pCTR ──────────── × ──────────── pCVR

                  pCTCVR

            L_CTR + L_CTCVR (학습)
  • Shared Embedding: CTR의 풍부한 데이터(클릭 레이블)를 CVR tower로 전이 → data sparsity 완화
  • 곱셈 구조: CVR tower가 전체 space에서 학습 → selection bias 우회

해결하는 문제

문제해결 메커니즘
Sample Selection BiasClick space 대신 전체 impression space에서 CTCVR 학습
Data SparsityShared embedding으로 CTR → CVR 정보 전이

한계

1. Inherent Estimation Bias (IEB)

ESMM의 CVR 추정값은 구조적으로 ground truth보다 항상 높음:

BiasESMM:=ED[R^]ED[R]>0\text{Bias}^{\text{ESMM}} := E_\mathcal{D}[\hat{R}] - E_\mathcal{D}[R] > 0

원인: R^=C^/O^\hat{R} = \hat{C}/\hat{O}에서 Jensen’s inequality에 의해 E[C^/O^]E[C^]/E[O^]E[\hat{C}/\hat{O}] \geq E[\hat{C}]/E[\hat{O}] — 등호 조건(Var(O^)=0\text{Var}(\hat{O})=0)은 비현실적.

2. Potential Independence Priority (PIP)

ESMM의 causal graph에서 ORO \to R 엣지가 누락 → CVR tower가 P(r=1)P(r=1)을 학습할 위험, click의 인과적 효과를 무시.

두 한계 모두 ESCM2에서 counterfactual risk regularizer로 해결.

관련 개념

  • Multi-Task Learning — ESMM의 학습 패러다임
  • Selection Bias — ESMM이 해결하려는 핵심 문제
  • ESCM2 — ESMM의 IEB/PIP 한계를 해결하는 후속 모델
  • Propensity Score — ESCM²에서 CTR을 propensity로 활용

참고 논문

  • maEntireSpaceMultiTask2018 — ESMM 원논문 (SIGIR 2018)
  • wangESCM2^2EntireSpace2022 — IEB/PIP 한계 증명 및 ESCM² 제안

연결 그래프