Tae Hyun Kim (Lowell)

← 모든 노트

Personalization

Multi-Task Learning

2026-01-29 2분 읽기 #recsys #multi-task-learning

정의

여러 관련 태스크를 동시에 학습하여 공유 표현(shared representation)을 통해 일반화 성능을 향상시키는 학습 패러다임

\mathcal{L}_{total} = \sum_{k=1}^{K} \lambda_k \mathcal{L}_k

여기서 $\mathcal{L}_k$ 는 태스크 $k$ 의 손실, $\lambda_k$ 는 태스크 가중치.

직관적 이해

왜 함께 학습하는가?

공유 표현: 관련 태스크가 공통 패턴을 학습하면 개별 태스크 성능도 향상
정규화 효과: 여러 태스크가 과적합 방지
데이터 효율: 희소한 태스크가 풍부한 태스크로부터 정보 전이

광고/추천에서의 핵심 응용

CTR과 CVR을 동시에 예측:

User/Item Features
       ↓
  Shared Embedding
       ↓
   ┌───┴───┐
   ↓       ↓
CTR Tower  CVR Tower
   ↓       ↓
  pCTR    pCVR

주요 아키텍처

1. Shared-Bottom

모든 태스크가 동일한 하위 네트워크 공유. 단순하지만 태스크 간 충돌 가능.

2. MMoE (Multi-gate Mixture-of-Experts)

태스크별 게이트가 expert 네트워크를 선택적으로 조합. 태스크 간 관계가 약할 때 유리.

3. PLE (Progressive Layered Extraction)

공유/전용 expert를 점진적으로 분리. 태스크 충돌 최소화.

광고 예측에서의 주요 모델

ESMM (Entire Space Multi-Task Model)

문제 해결: CVR의 Selection Bias (click=1에서만 학습) + Data Sparsity
핵심: Impression 전체 공간에서 $\text{CTCVR} = \text{pCTR} \times \text{pCVR}$ 학습
한계: Inherent Estimation Bias (IEB) + Potential Independence Priority (PIP)

ESCM² (Entire Space Counterfactual Multi-Task Model)

개선점: ESMM + IPS/DR counterfactual risk regularizer
방법: CVR을 $P(r=1 \mid do(o=1))$ 로 재정의, IPS/DR로 unbiased 학습
한계: CTR 정확도에 의존, impression space에서만 작동

IPW-ESCM² (제안 프레임워크)

ESCM²에 IPW 가중치를 결합
Win selection bias와 click selection bias를 동시에 보정
자세한 내용은 research_design_selection_bias 참조

관련 개념

Selection Bias - MTL로 해결하려는 핵심 문제
IPW - bias 보정을 위한 가중 방법
Calibration - 예측 확률의 정확도
Survival Analysis - win propensity 추정에 활용

참고 논문

maEntireSpaceMultiTask2018 — Entire Space Multi-Task Model (ESMM), SIGIR 2018
wangESCM $^2$ EntireSpace2022 — ESCM²: Entire Space Counterfactual Multi-Task Model, SIGIR 2022
Ma et al. (2018). Modeling Task Relationships in Multi-Task Learning with Multi-Gate Mixture-of-Experts (MMoE), KDD

연결 그래프