劰载中...飞翔的小鸟
首页大学学科资料人工智能《深度学习500问》第十章+强化学习
党建飞
院长

文档

179

关注

0

好评

1
PDF

《深度学习500问》第十章+强化学习

阅读 609 下载 0 大小 1.18M 总页数 0 页 2024-12-16 分享
价格:¥ 10.00
下载文档
/ 0
全屏查看
《深度学习500问》第十章+强化学习
还有 0 页未读 ,您可以 继续阅读 或 下载文档
1、本文档共计 0 页,下载后文档不带水印,支持完整阅读内容或进行编辑。
2、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。
4、如文档内容存在违规,或者侵犯商业秘密、侵犯著作权等,请点击“违规举报”。
5/5/2020第十章强化学习·第十章强化学习。10.1强化学习的主要特点?■10.1.1定义。10.2强化学习应用实例。10.3强化学习和监督式学习、非监督式学习的区别■10.3.1强化学习和监督式学习的区别:·10.3.2强化学习和非监督式学习的区别:。10.4强化学习主要有哪些算法?。10.5深度迁移强化学习算法。10.6分层深度强化学习算法。10.7深度记忆强化学习算法。10.8多智能体深度强化学习算法。10.9强化学习开源框架。10.10深度强化学习算法小结https://morvanzhou.github.io/tutorials/machine-learning/reinforcement-learning/第十章强化学习10.1强化学习的主要特点?其他许多机器学习算法中学习器都是学得怎样做,而L是在尝试的过程中学习到在特定的情境下选择哪种行动可以得到最大的回报。在很多场景中,当前的行动不仅会影响当前的rewards,还会影响之后的状态和一系列的rewards。RL最重要的3个特定在于:(1)基本是以一种闭环的形式;(2)不会直接指示选择哪种行动(actions);(3)一系列的actions和奖励信号(reward signals)都会影响之后较长的时间。10.1.1定义强化学习是机器学习的一个重要分支,是多学科多领域交叉的一个产物,它的本质是解决decision making问题,即自动进行决策,并且可以做连续决策。它主要包含四个元素,agent,环境状态,行动,奖励,强化学习的目标就是获得最多的累计奖励。我们列举几个形象的例子:小孩想要走路,但在这之前,他需要先站起来,站起来之后还要保持平衡,接下来还要先迈出一条腿,是左腿还是右腿,迈出一步后还要迈出下一步。小孩就是aget,他试图通过采取行动(即行走)来操纵环境(行走的表面),并且从一个状态转变到另一个状态(即他走的每一步),当他完成任务的子任务(即走了几步)时,孩子得到奖励(给巧克力吃),并且当他不能走路时,就不会给巧克力。fle://home/shishuai/Deskto p/第十章强化学习.html1/85/5/2020第十章强化学习AgentstaterewardactionEnvironmentCHILDcouplechocolatewalkingof stepsSURFACE上图中agent代表自身,如果是自动驾驶,agent就是车;如果你玩游戏它就是你当前控制的游戏角色,如马里奥,马里奥往前走时环境就一直在发生变化,有小怪物或者障碍物出现,它需要通过跳跃来进行躲避,就是要做action(如向前走和跳起的动作);无人驾驶的action就是车左转、自动驾驶的车行驶目标是100米,它向前开了10米,那环境就发生了变化,所以每次产生actior都会导致环境改变,环境的改变会反馈给自身(aget),就是这样的一个循环;反馈又两种方式:1、做的好(reward)即正反馈,2、做得不好(punishment惩罚)即负反馈。Agenti可能做得复这样的一个循环,aget会越来越做的好,就像孩子在成长过程中会逐渐明辨是非,这就是强化学习。10.2强化学习应用实例(1)Manufacturing例如一家日本公司Fauc,工厂机器人在拿起一个物体时,会捕捉这个过程的视频,记住它每次操作的行动,操作成功还是失败了,积累经验,下一次可以更快更准地采取行动。fle://home/shishuai/Deskto p/第十章强化学习.html5/5/2020第十章强化学习Environment.AgentObserveSelect action2using policy3Action!-50 pointsGet rewardor penaltybad!5Update policy(learning step)Next time avoid it.6optimal policy isfound在库存管理中,因为库存量大,库存需求波动较大,库存补货速度缓慢等阻碍使得管理是个比较难的问题,可以通过建立强化学习算法来减少库存周转时间,提高空间利用率。(3)Dynamic pricing强化学习中的Q-learning可以用来处理动态定价问题。(4)Customer Delivery制造商在向各个客户运输时,想要在满足客户的所有需求的同时降低车队总成本。通过uti-agents5系统和Q-earning,可以降低时间,减少车辆数量。(5)ECommerce Personalization在电商中,也可以用强化学习算法来学习和分析顾客行为,定制产品和服务以满足客户的个性化需求。(6)Ad Serving例如算法LinUCB(属于强化学习算法bandit的一种算法),会尝试投放更广范围的广告,尽管过去还没有被浏览很多,能够更好地估计真实的点击率。再如双11推荐场景中,阿里巴巴使用了深度强化学习与自适应在线学习,通过持续机器学习和模型优化建立决策引擎,对海量用户行为以及百亿级商品特征进行实时分析,帮助每一个用户迅速发现宝贝,提高人和商品的配对效率。还有,利用强化学习将手机用户点击率提升了10-20%。(7)Financial Investment Decisions例如这家公司Pti,应用强化学习来评价交易策略,可以帮助用户建立交易策略,并帮助他们实现其投资目标。fle://home/shishuai/Deskto p/第十章强化学习.html3/8
文档评分
    请如实的对该文档进行评分
  • 0
发表评论
温馨提示

      由于近期经常有客户反馈添加我们客服QQ没有反应,如果您在添加我们QQ客服一直没有通过,或者发送的信息一直没有回复,有可能是QQ消息通知吞吐或延迟,建议添加我们的客服微信进行联系。

注意:请不要使用Safari浏览器浏览本站!否则会有一些不兼容的情况出现比如视频无法播放

1. 本系统正在更新换代中,建设过程较为漫长,请耐心等待。

2. 本站已经与子站 BITCO其它子站点 实现互联互通。

3. 若您有业迪账户,直接登录即可,若子系统没有您的信息,将会提示您激活账户。

4. 如在使用与体验过程中有任何疑问,可与我们联系,我们唯一联系方式如下,建议添加我们客服微信,QQ经常有收不到消息与通知的情况。

微信号:暂未开放       QQ号:点我跳转

返回顶部