Dynamic Treatment Regimes (DTR / OTR)
정의
DTR은 누적 이력 (공변량·이전 처치·중간결과)를 처치로 사상하는 결정규칙 열 . optimal treatment regime(OTR) 은 기대 장기결과 를 최대화. 추정:
- Q-learning — Q-함수 후진귀납(회귀 기반)
- A-learning — contrast/advantage 모델링(baseline 오설정에 강건)
- G-estimation — structural nested mean model (Robins)
- OWL — outcome-weighted learning(분류 관점) 가정: sequential ignorability.
직관적 이해
시간에 걸친 개인화·적응 치료 — “지금까지를 보고 다음에 무엇을” 정해 장기 결과를 최적화. CV pillar #4(임상 sequential 의사결정)의 코어이자 personalization의 시계열 확장.
관련 개념
- Policy Learning · MDP · Off-Policy Evaluation · Clinical Decision-Making Overview
참고 논문
- Murphy, “Optimal dynamic treatment regimes”, JRSS-B 65(2), 2003
- Robins — structural nested models / g-estimation
- Hernán & Robins, Causal Inference: What If, 2020 — Part III (g-methods)