Anytime-Valid OPE
정의
임의의 정지 시점에서도 유효한(time-uniform) off-policy value 신뢰열을 제공하는 anytime-valid off-policy evaluation; e-process/confidence sequence 기반.
직관적 이해
로그 데이터로 정책가치를 “계속 들여다보며” 추정해도 coverage가 깨지지 않는다 — 온라인 모니터링에 적합.
관련 개념
- Anytime-Valid Inference Overview ← 허브
- Off-Policy Evaluation · Confidence Sequence · e-process · Doubly Robust OPE
참고
- (예정) Waudby-Smith, Wu, Ramdas et al. 2024 — Study Roadmap §Track 3