#ope

노트 5개

Anytime-Valid OPE 임의의 정지 시점에서도 유효한(time-uniform) off-policy value 신뢰열을 제공하는 anytime-valid off-policy evaluation; e-process/confidence sequence 기반.
MDP (Markov Decision Process) 마르코프 결정 과정(Markov Decision Process, MDP)은 순차적 의사결정 문제의 수학적 프레임워크입니다.
Off-Policy Evaluation (OPE) 다른 behavior policy $\pib$로 수집한 로그로 target policy $\pie$의 가치 $V(\pie)=E{\pie}[\sum r]$를 추정.
Policy Trees 정책 트리(Policy Trees)는 Athey & Wager (2021)가 제안한 해석 가능한 정책 학습 방법입니다.
RTB Bidding Strategy via Causal ML — From Prediction to Optimization A five-stage case study on the public iPinYou RTB dataset that moves from pCTR/pCVR prediction through causal effect estimation (CATE, SCM) to budget-constrained optimal bidding and off-policy policy evaluation.