ESMM (Entire Space Multi-Task Model)

정의

CVR의 Sample Selection Bias와 Data Sparsity 문제를 동시에 해결하기 위해, $\text{impression} \to \text{click} \to \text{conversion}$ 의 순차적 사용자 행동을 활용하여 전체 impression space에서 CVR을 간접 학습하는 multi-task 모델.

핵심 분해:

\underbrace{P(o=1, r=1)}_{\text{CTCVR}} = \underbrace{P(o=1)}_{\text{CTR}} \times \underbrace{P(r=1 \mid o=1)}_{\text{CVR}}

학습 목적함수:

\mathcal{L}_{\text{ESMM}} = \mathcal{L}_{\text{CTR}} + \mathcal{L}_{\text{CTCVR}}

$\mathcal{L}_{\text{CTR}} = E_{(u,i) \in \mathcal{D}}[\delta(o_{u,i}, \hat{o}_{u,i})]$ — 전체 impression space에서 CTR 학습
$\mathcal{L}_{\text{CTCVR}} = E_{(u,i) \in \mathcal{D}}[\delta(o_{u,i} \cdot r_{u,i},\ \hat{o}_{u,i} \cdot \hat{r}_{u,i})]$ — 전체 impression space에서 CTCVR 학습
CVR tower는 직접 loss 없이 CTCVR 곱셈을 통해 간접 학습

직관적 이해

왜 전체 공간에서 학습하는가?

기존 naive CVR 모델의 문제:

전체 impression (D)     클릭된 아이템 (O)     전환 (R)
 ┌──────────────┐     ┌──────────┐        ┌────┐
 │  ■ ■ □ □ □   │     │  ■ ■ □   │  CVR   │ ■  │
 │  □ □ □ □ □   │ →   │  ■ □ □   │  학습 → │ ■  │
 │  □ □ □ □ □   │     │          │   ↑     │    │
 └──────────────┘     └──────────┘   │     └────┘
   Inference space      Training     Selection
                        space        Bias!

Training: click=1 샘플에서만 CVR 학습
Inference: 전체 impression에 대해 CVR 예측
→ 분포 불일치 (MNAR: Missing Not At Random)

ESMM의 해결: CVR tower를 직접 학습하지 않고, CTR × CVR = CTCVR라는 관계를 활용하여 전체 impression space에서 CTCVR loss를 통해 CVR을 간접적으로 학습.

아키텍처

Raw Features (User, Item)
         ↓
┌─── Shared Embedding Lookup Table ───┐
│                                      │
↓                                      ↓
CTR Tower                         CVR Tower
   ↓                                  ↓
  pCTR ──────────── × ──────────── pCVR
                     ↓
                  pCTCVR
                     ↓
            L_CTR + L_CTCVR (학습)

Shared Embedding: CTR의 풍부한 데이터(클릭 레이블)를 CVR tower로 전이 → data sparsity 완화
곱셈 구조: CVR tower가 전체 space에서 학습 → selection bias 우회

해결하는 문제

문제	해결 메커니즘
Sample Selection Bias	Click space 대신 전체 impression space에서 CTCVR 학습
Data Sparsity	Shared embedding으로 CTR → CVR 정보 전이