Tae Hyun Kim (Lowell)

Multi-Task Learning

2분 읽기 #recsys#multi-task-learning

정의

여러 관련 태스크를 동시에 학습하여 공유 표현(shared representation)을 통해 일반화 성능을 향상시키는 학습 패러다임

Ltotal=k=1KλkLk\mathcal{L}_{total} = \sum_{k=1}^{K} \lambda_k \mathcal{L}_k

여기서 Lk\mathcal{L}_k는 태스크 kk의 손실, λk\lambda_k는 태스크 가중치.


직관적 이해

왜 함께 학습하는가?

  • 공유 표현: 관련 태스크가 공통 패턴을 학습하면 개별 태스크 성능도 향상
  • 정규화 효과: 여러 태스크가 과적합 방지
  • 데이터 효율: 희소한 태스크가 풍부한 태스크로부터 정보 전이

광고/추천에서의 핵심 응용

CTR과 CVR을 동시에 예측:

User/Item Features

  Shared Embedding

   ┌───┴───┐
   ↓       ↓
CTR Tower  CVR Tower
   ↓       ↓
  pCTR    pCVR

주요 아키텍처

1. Shared-Bottom

모든 태스크가 동일한 하위 네트워크 공유. 단순하지만 태스크 간 충돌 가능.

2. MMoE (Multi-gate Mixture-of-Experts)

태스크별 게이트가 expert 네트워크를 선택적으로 조합. 태스크 간 관계가 약할 때 유리.

3. PLE (Progressive Layered Extraction)

공유/전용 expert를 점진적으로 분리. 태스크 충돌 최소화.


광고 예측에서의 주요 모델

ESMM (Entire Space Multi-Task Model)

  • 문제 해결: CVR의 Selection Bias (click=1에서만 학습) + Data Sparsity
  • 핵심: Impression 전체 공간에서 CTCVR=pCTR×pCVR\text{CTCVR} = \text{pCTR} \times \text{pCVR} 학습
  • 한계: Inherent Estimation Bias (IEB) + Potential Independence Priority (PIP)

ESCM² (Entire Space Counterfactual Multi-Task Model)

  • 개선점: ESMM + IPS/DR counterfactual risk regularizer
  • 방법: CVR을 P(r=1do(o=1))P(r=1 \mid do(o=1))로 재정의, IPS/DR로 unbiased 학습
  • 한계: CTR 정확도에 의존, impression space에서만 작동

IPW-ESCM² (제안 프레임워크)

  • ESCM²IPW 가중치를 결합
  • Win selection bias와 click selection bias를 동시에 보정
  • 자세한 내용은 research_design_selection_bias 참조

관련 개념

  • Selection Bias - MTL로 해결하려는 핵심 문제
  • IPW - bias 보정을 위한 가중 방법
  • Calibration - 예측 확률의 정확도
  • Survival Analysis - win propensity 추정에 활용

참고 논문

  • maEntireSpaceMultiTask2018 — Entire Space Multi-Task Model (ESMM), SIGIR 2018
  • wangESCM2^2EntireSpace2022 — ESCM²: Entire Space Counterfactual Multi-Task Model, SIGIR 2022
  • Ma et al. (2018). Modeling Task Relationships in Multi-Task Learning with Multi-Gate Mixture-of-Experts (MMoE), KDD

연결 그래프