Tae Hyun Kim (Lowell)

Anytime-Valid OPE

1분 읽기 #decision-making#anytime-valid#ope

정의

임의의 정지 시점에서도 유효한(time-uniform) off-policy value 신뢰열을 제공하는 anytime-valid off-policy evaluation; e-process/confidence sequence 기반.

직관적 이해

로그 데이터로 정책가치를 “계속 들여다보며” 추정해도 coverage가 깨지지 않는다 — 온라인 모니터링에 적합.

관련 개념

참고

  • (예정) Waudby-Smith, Wu, Ramdas et al. 2024 — Study Roadmap §Track 3

연결 그래프