Tae Hyun Kim (Lowell)

Double/Debiased Machine Learning (DML)

Definition

고차원 nuisance parameter η0\eta_0 존재 하에서 저차원 관심 parameter θ0\theta_0에 대한 유효한 통계적 추론을 수행하기 위한 방법론.

Two Key Ingredients:

  1. Neyman-Orthogonal Score 사용
  2. Cross-fitting (sample splitting) 적용
N(θ^DMLθ0)dN(0,V)\sqrt{N}(\hat{\theta}_{DML} - \theta_0) \xrightarrow{d} N(0, V)

Intuitive Understanding

문제 상황: 전통적인 ML 방법으로 nuisance parameter를 추정하고 직접 대입하면:

  • Regularization bias 발생
  • Overfitting으로 인한 bias 발생
  • θ\theta 추정량이 N1/2N^{-1/2} consistency를 달성하지 못함

DML의 해결책:

  1. Neyman-orthogonal score: Nuisance parameter 추정 오차에 덜 민감한 moment condition 구성
  2. Cross-fitting: 데이터를 분할하여 overfitting bias 제거
Traditional:  η̂ (ML) → plug-in → θ̂ (biased, inconsistent)

DML:  Orthogonal score + Cross-fitting → θ̂ (√N-consistent, asymptotically normal)

Key Properties

  • N1/2N^{-1/2} convergence rate: 최적의 수렴 속도 달성
  • Asymptotic normality: 표준 정규분포로 수렴
  • Valid inference: 표준 t-test, confidence interval 사용 가능
  • Method agnostic: Lasso, Random Forest, Neural Networks 등 다양한 ML 방법 사용 가능
  • High-dimensional: 전통적 complexity 제약 (Donsker property) 없이도 작동

Algorithm

DML1 (Averaging)

각 fold에서 θ\theta를 별도로 추정한 후 평균: θ~0=1Kk=1Kθˇ0,k\tilde{\theta}_0 = \frac{1}{K}\sum_{k=1}^K \check{\theta}_{0,k}

DML2 (Pooling)

집계된 estimating equation 해결: 1Kk=1KEn,k[ψ(W;θ~0,η^0,k)]=0\frac{1}{K}\sum_{k=1}^K E_{n,k}[\psi(W; \tilde{\theta}_0, \hat{\eta}_{0,k})] = 0

DML2가 소표본에서 더 나은 성능을 보이는 경향

Example: Partially Linear Regression

Model: Y=Dθ0+g0(X)+U,E[UX,D]=0Y = D\theta_0 + g_0(X) + U, \quad E[U|X,D] = 0 D=m0(X)+V,E[VX]=0D = m_0(X) + V, \quad E[V|X] = 0

Orthogonal Score: ψ(W;θ,η)=(YDθg(X))(Dm(X))\psi(W; \theta, \eta) = (Y - D\theta - g(X))(D - m(X))

Algorithm:

  1. Split data into K folds
  2. For each fold k:
    • Estimate g^(X)\hat{g}(X) and m^(X)\hat{m}(X) on other folds using ML
    • Compute residuals: Y~=Yg^(X)\tilde{Y} = Y - \hat{g}(X), D~=Dm^(X)\tilde{D} = D - \hat{m}(X)
  3. Estimate θ\theta by regressing Y~\tilde{Y} on D~\tilde{D}

Rate Conditions

DML이 작동하려면 nuisance parameter 추정의 convergence rate 조건 필요:

g^g0m^m0=oP(N1/2)||\hat{g} - g_0|| \cdot ||\hat{m} - m_0|| = o_P(N^{-1/2})

예: 각각 N1/4N^{-1/4} 이상의 rate가 필요

  • Neyman-Orthogonal Score - DML의 핵심 이론적 도구
  • Cross-fitting - Overfitting bias 제거를 위한 sample splitting
  • Partially Linear Model - DML의 대표적 적용 예시
  • CATE - DML로 추정 가능한 treatment effect
  • Doubly Robust Estimator - 유사한 robustness 속성

Applications

  • Treatment effect estimation with high-dimensional controls
  • Instrumental variables with many instruments
  • Structural parameter estimation in complex models
  • Policy evaluation with rich covariate sets
  • Personalized pricing with customer features

Advantages vs Limitations

AdvantagesLimitations
N\sqrt{N}-consistentRate condition 필요
Valid inference계산 집약적 (multiple splits)
Any ML method 사용 가능ML method 선택 가이드 부족
High-dimensional nuisance 허용Finite sample 성능 가변적

References

  • chernozhukovDoubleDebiasedMachine2018 - Original DML paper
  • kennedyOptimalDoublyRobust2023 - Related doubly robust methods

연결 그래프