Multi-Task Learning
정의
여러 관련 태스크를 동시에 학습하여 공유 표현(shared representation)을 통해 일반화 성능을 향상시키는 학습 패러다임
여기서 는 태스크 의 손실, 는 태스크 가중치.
직관적 이해
왜 함께 학습하는가?
- 공유 표현: 관련 태스크가 공통 패턴을 학습하면 개별 태스크 성능도 향상
- 정규화 효과: 여러 태스크가 과적합 방지
- 데이터 효율: 희소한 태스크가 풍부한 태스크로부터 정보 전이
광고/추천에서의 핵심 응용
CTR과 CVR을 동시에 예측:
User/Item Features
↓
Shared Embedding
↓
┌───┴───┐
↓ ↓
CTR Tower CVR Tower
↓ ↓
pCTR pCVR
주요 아키텍처
1. Shared-Bottom
모든 태스크가 동일한 하위 네트워크 공유. 단순하지만 태스크 간 충돌 가능.
2. MMoE (Multi-gate Mixture-of-Experts)
태스크별 게이트가 expert 네트워크를 선택적으로 조합. 태스크 간 관계가 약할 때 유리.
3. PLE (Progressive Layered Extraction)
공유/전용 expert를 점진적으로 분리. 태스크 충돌 최소화.
광고 예측에서의 주요 모델
ESMM (Entire Space Multi-Task Model)
- 문제 해결: CVR의 Selection Bias (click=1에서만 학습) + Data Sparsity
- 핵심: Impression 전체 공간에서 학습
- 한계: Inherent Estimation Bias (IEB) + Potential Independence Priority (PIP)
ESCM² (Entire Space Counterfactual Multi-Task Model)
- 개선점: ESMM + IPS/DR counterfactual risk regularizer
- 방법: CVR을 로 재정의, IPS/DR로 unbiased 학습
- 한계: CTR 정확도에 의존, impression space에서만 작동
IPW-ESCM² (제안 프레임워크)
- ESCM²에 IPW 가중치를 결합
- Win selection bias와 click selection bias를 동시에 보정
- 자세한 내용은 research_design_selection_bias 참조
관련 개념
- Selection Bias - MTL로 해결하려는 핵심 문제
- IPW - bias 보정을 위한 가중 방법
- Calibration - 예측 확률의 정확도
- Survival Analysis - win propensity 추정에 활용
참고 논문
- maEntireSpaceMultiTask2018 — Entire Space Multi-Task Model (ESMM), SIGIR 2018
- wangESCMEntireSpace2022 — ESCM²: Entire Space Counterfactual Multi-Task Model, SIGIR 2022
- Ma et al. (2018). Modeling Task Relationships in Multi-Task Learning with Multi-Gate Mixture-of-Experts (MMoE), KDD