Double/Debiased Machine Learning (DML)
Definition
고차원 nuisance parameter 존재 하에서 저차원 관심 parameter 에 대한 유효한 통계적 추론을 수행하기 위한 방법론.
Two Key Ingredients:
- Neyman-Orthogonal Score 사용
- Cross-fitting (sample splitting) 적용
Intuitive Understanding
문제 상황: 전통적인 ML 방법으로 nuisance parameter를 추정하고 직접 대입하면:
- Regularization bias 발생
- Overfitting으로 인한 bias 발생
- 추정량이 consistency를 달성하지 못함
DML의 해결책:
- Neyman-orthogonal score: Nuisance parameter 추정 오차에 덜 민감한 moment condition 구성
- Cross-fitting: 데이터를 분할하여 overfitting bias 제거
Traditional: η̂ (ML) → plug-in → θ̂ (biased, inconsistent)
↓
DML: Orthogonal score + Cross-fitting → θ̂ (√N-consistent, asymptotically normal)
Key Properties
- convergence rate: 최적의 수렴 속도 달성
- Asymptotic normality: 표준 정규분포로 수렴
- Valid inference: 표준 t-test, confidence interval 사용 가능
- Method agnostic: Lasso, Random Forest, Neural Networks 등 다양한 ML 방법 사용 가능
- High-dimensional: 전통적 complexity 제약 (Donsker property) 없이도 작동
Algorithm
DML1 (Averaging)
각 fold에서 를 별도로 추정한 후 평균:
DML2 (Pooling)
집계된 estimating equation 해결:
DML2가 소표본에서 더 나은 성능을 보이는 경향
Example: Partially Linear Regression
Model:
Orthogonal Score:
Algorithm:
- Split data into K folds
- For each fold k:
- Estimate and on other folds using ML
- Compute residuals: ,
- Estimate by regressing on
Rate Conditions
DML이 작동하려면 nuisance parameter 추정의 convergence rate 조건 필요:
예: 각각 이상의 rate가 필요
Related Concepts
- Neyman-Orthogonal Score - DML의 핵심 이론적 도구
- Cross-fitting - Overfitting bias 제거를 위한 sample splitting
- Partially Linear Model - DML의 대표적 적용 예시
- CATE - DML로 추정 가능한 treatment effect
- Doubly Robust Estimator - 유사한 robustness 속성
Applications
- Treatment effect estimation with high-dimensional controls
- Instrumental variables with many instruments
- Structural parameter estimation in complex models
- Policy evaluation with rich covariate sets
- Personalized pricing with customer features
Advantages vs Limitations
| Advantages | Limitations |
|---|---|
| -consistent | Rate condition 필요 |
| Valid inference | 계산 집약적 (multiple splits) |
| Any ML method 사용 가능 | ML method 선택 가이드 부족 |
| High-dimensional nuisance 허용 | Finite sample 성능 가변적 |
References
- chernozhukovDoubleDebiasedMachine2018 - Original DML paper
- kennedyOptimalDoublyRobust2023 - Related doubly robust methods