多臂老虎机模型

林一二2024年12月11日 15:38

多臂老虎机问题与强化学习的一大区别在于其与环境的交互并不会改变环境,即多臂老虎机的每次交互的结果和以往的动作无关,所以可看作无状态的强化学习。

用上置信界算法、汤普森采样可以逐渐估计每个臂拉下的奖励期望。