老虎机算法
这样一来,如果使用常规的多臂老虎机算法,则不可避免地重新造成了大量的网络切换。 所以,在动态环境下,当用户需要重新开始学习过程时,UAAE算法能够保证节省大量的切换次数。 ]的早期工作已经表明传统置信上界算法的期望后悔度有严格上界:O,这意味着该算法的后悔值是时隙T的高阶无穷小量,但同时文献也指出该算法运行时在不同操作杆之间切换次数的数学期望上界也是O。 而这就意味着在无线密集网络问题中,由于网络切换带来的损失不可忽略,置信上界算法无法直接运用。 探索与利用是与环境做交互学习的重要问题,是强化学习试错法中的必备技术,而多臂老虎机问题是研究探索与利用技术理论的最佳环境。 了解多臂老虎机的探索与利用问题,对接下来我们学习强化学习环境探索有很重要的帮助。
本文主要考虑的是稳定环境下的解决方案,即基站产生奖励值的概率分布是恒定不变的。 但是正如前文的讨论中所指出,当用户面临动态变化的网络环境时,其需要频繁重新开始学习过程。 而本文所提算法为在动态环境下的部署使用提供了很好的基础。
话说有一天赌徒张三带着自己的积蓄来到拉斯维加斯,想要凭借着自己黑科技眼镜和最近研究的bandits算法赢光拉斯维加斯的赌场成为赌圣。 根据他的多年赌博经验,赌场的每个老虎机的赢率是不同的,但是每个老虎机的赢率是不会变化的,根据江湖传闻这家赌场存在一个老虎机赢率大于50%,他的策略就是找到那个赢率最大的老虎机。 即使一个开发者下定决心走上了利用AB测试做数据驱动的道路,想要搭建一个自有的AB测试平台成本太高,而使用第三方的AB测试服务又缺少灵活的数据分析能力。
- 友好程度:友好程度也就是老虎机的“难度”,因为老虎机为概率游戏,因此用“难易”来区分个人觉得不太恰当,因此一般会用“友好程度”来表示。
- 随后的理论分析可以表明,该算法在保持期望后悔度上界O 不变的情况下,可以将用户在不同基站之间切换次数的数学期望上界降低为常数阶。
- 本文主要考虑的是稳定环境下的解决方案,即基站产生奖励值的概率分布是恒定不变的。
- 而张三和李四的算法都是没有考虑一些其他的外部因素的,这类考虑其他外部因素的bandits算法叫做contextual bandits。
- 每次靠近老虎机,他都会将手机对准机器正面的屏幕,过一会就立马离开,转一圈再回来赌。
而更新累积懊悔和计数则直接放在主循环 run() 中。 我们在第 1 章中了解到,强化学习关注智能体和环境交互过程中的学习,这是一种试错型学习(trial-and-error learning)范式。 在正式学习强化学习之前,我们需要先了解多臂老虎机问题,它可以被看作简化版的强化学习问题。 与强化学习不同,多臂老虎机不存在状态信息,只有动作和奖励,算是最简单的“和环境交互中的学习”的一种形式。 多臂老虎机中的探索与利用(exploration vs. exploitation)问题一直以来都是一个特别经典的问题,理解它能够帮助我们学习强化学习。
例如:数值A(整套)为较为难出奖项,数值B(整套)为较为容易出奖项,则A为友好程度较低,B为友好程度较高。 友好程度:友好程度也就是老虎机的“难度”,因为老虎机为概率游戏,因此用“难易”来区分个人觉得不太恰当,因此一般会用“友好程度”来表示。 从字面上理解,也就是玩家在玩游戏时,体验到的是正反馈为主还是负反馈为主。 拉线式老虎机属于比较经典的类型,在这个基础上,老虎机后期有衍生出3线式、9线式,并且每个类型下又通过每条押线图案总数不同,有产生了更多的玩法。 核心中奖规则:相同X个图案出现在某一条线上,则该线视为中奖。 首先,BOSS们主要提供方向上的想法,转化工作则是设计者自己去完成。