#bandits
노트 3개
- Contextual Bandits Contextual Bandits는 맥락(context)에 따라 최적의 행동(arm)이 달라지는 다중 슬롯 머신 문제입니다.
- Multi-Armed Bandits $K$개 arm, 매 라운드 $t$에 $At$를 당겨 보상 관측. cumulative regret 최소화:
- Thompson Sampling Thompson Sampling은 탐색과 활용의 균형을 맞추는 베이지안 접근법입니다.
노트 3개