Tae Hyun Kim (Lowell)

Dynamic Treatment Regimes (DTR / OTR)

정의

DTR은 누적 이력 HtH_t(공변량·이전 처치·중간결과)를 처치로 사상하는 결정규칙 열 {dt(Ht)}t=1T\{d_t(H_t)\}_{t=1}^T. optimal treatment regime(OTR) 은 기대 장기결과 E[Yd]E[Y^{d}]를 최대화. 추정:

  • Q-learning — Q-함수 후진귀납(회귀 기반)
  • A-learning — contrast/advantage 모델링(baseline 오설정에 강건)
  • G-estimation — structural nested mean model (Robins)
  • OWL — outcome-weighted learning(분류 관점) 가정: sequential ignorability.

직관적 이해

시간에 걸친 개인화·적응 치료 — “지금까지를 보고 다음에 무엇을” 정해 장기 결과를 최적화. CV pillar #4(임상 sequential 의사결정)의 코어이자 personalization의 시계열 확장.

관련 개념

참고 논문

  • Murphy, “Optimal dynamic treatment regimes”, JRSS-B 65(2), 2003
  • Robins — structural nested models / g-estimation
  • Hernán & Robins, Causal Inference: What If, 2020 — Part III (g-methods)

연결 그래프