PPO | 易学教程

腾讯AI足球队夺冠Kaggle竞赛，绝悟强化学习方案迁移至足球队

阅读更多关于腾讯AI足球队夺冠Kaggle竞赛，绝悟强化学习方案迁移至足球队

12月30日，腾讯宣布其人工智能球队摘得首届谷歌足球Kaggle竞赛冠军。该冠军球队来自腾讯AI Lab研发的绝悟WeKick版本，凭借1785.8的总分在与全球顶级技术团队的竞技中以显著优势胜出。今年11月底，腾讯AI Lab与王者荣耀联合研发的策略协作型AI绝悟升级为完全体，首次让AI精通了所有英雄的所有技能。此次绝悟WeKick版本的整体设计正是基于绝悟完全体迁移得到，并针对足球任务进行了一些针对性的调整，展现了绝悟AI背后深度强化学习方法的通用能力。 Kaggle 竞赛 google-football 排行榜前十名，来自 https://www.kaggle.com/c/google-football/leaderboard Kaggle创立于2010年，是全球最大的数据科学社区和数据科学竞赛平台。此次足球AI比赛由Google Research与英超曼城俱乐部在Kaggle平台上联合举办。一直以来，足球运动团队策略以其复杂性、多样性和高难度，成为长期困扰世界顶尖AI研究团队的难题，更加稀疏的游戏激励也使得其成为比MOBA游戏更难攻克的目标。今年Kaggle首次针对足球AI领域发布赛题，为深度强化学习多智能体技术竞技和基准评测提供了一个全新舞台。深度强化学习多智能体技术竞技和基准评测提供了一个全新舞台。比赛使用Google Research

利用深度学习来预测股票价格变动

阅读更多关于利用深度学习来预测股票价格变动

https://www.toutiao.com/i6644852565341110791/ 利用深度学习来预测股票价格变动（长文，建议收藏）原创不靠谱的猫 2019-01-10 21:01:39 完整架构概述在这篇文章中，我将创建一个预测股票价格变动的完整过程。我们将使用生成对抗网络（GAN）与LSTM（一种循环神经网络）作为生成器，使用卷积神经网络CNN作为鉴别器。我们使用LSTM的原因很明显，我们正在尝试预测时间序列数据。为什么我们使用GAN，特别是卷积神经网络（CNN）作为鉴别器呢？这是一个很好的问题：稍后会有特别的部分。当然，我们将详细介绍每个步骤，但最困难的部分是GAN：成功训练GAN的非常棘手的部分是获得正确的超参数集。出于这个原因，我们将使用贝叶斯优化（还有高斯过程）和深度强化学习（DRL）来决定何时以及如何改变GAN的超参数。在创建强化学习时，我将使用该领域的最新进展，例如Rainbow和PPO。我们将使用许多不同类型的输入数据。除了股票的历史交易数据和技术指标，我们将使用NLP的最新进展（使用“BERT，对NLP进行迁移学习）来创建情感分析（作为基本面分析的来源）），用于提取整体趋势方向的傅里叶变换，用于识别其他高级特征的栈式自动编码器，用于查找相关资产的特征投资组合，差分整合移动平均自回归模型（ARIMA））对于股票函数近似

OnRL: 基于在线强化学习的移动视频传输优化

阅读更多关于 OnRL: 基于在线强化学习的移动视频传输优化

从 2019年开始，淘系技术部内容社交互动团队和北京邮电大学周安福教授一起着手研究更好的基于机器学习的智能拥塞控制算法。在实验室环境完成原型验证后在淘宝直播的生产环境做实际效果对比，从实际数据来看效果明显。我们将其中的技术要点和数据做了总结，并投稿MobiCom2020，非常幸运地被这家全球最顶级的计算机刊物录用。以下是这篇Paper的中译本。摘要机器学习模型，尤其是强化学习(RL)，在优化视频流应用方面已显示出巨大的潜力。然而，目前的解决方案局限于“离线学习”模式，即 RL 模型在仿真器/模拟器中进行训练，然后在真实网络中部署。因此，上述方案不可避免地会遇到’仿真-现实’环境之间的差异(gap)，在真实网络中的性能远远不如仿真环境下的性能。在本文中，我们提出了 OnRL，一个实时移动视频通话的在线 RL 框架。OnRL 将单独的 RL agent 直接部署到每个视频通话系统中。这些系统依据 RL 算法，实时地做出视频比特率决策，并随时间实时演化其 RL agent。OnRL 继而聚合这些 agent，形成一个具有高层次信息的 RL 模型，从而使得每个视频通话都能应对不确定的动态网络条件。此外，OnRL 还设计融合了新的机制来处理视频特性所带来的系列挑战，并消除由 RL 算法本身的强探索性导致的服务质量下降的风险。我们将 OnRL 应用到主流的视频直播系统—

深度强化学习

阅读更多关于深度强化学习

Policy Gradient 类的算法是深度强化学习中很重要的一类算法，也是目前最有成效的算法之一。但我在学习的过程中一直觉得这部分的知识点比较散乱，因为策略梯度类的算法包括很多种变体，经过了各种改进，初学的时候感觉就是一团乱麻，迷失在各种各样的损失函数表达式里。当看到还有 Actor-Critic 这种结构的时候更是一脸懵逼。因此这里把这类算法做个简单的梳理，也是为了帮助自己理清思路，总结的算法包括：Reinforce，受限策略梯度，PPO1 和 PPO2。为了搞清楚具体的流程，我把三种常用算法的流程画了简图，对照流程图写程序思路更清晰。核心设计：Policy Gradient 的损失函数 Policy Gradient 类的算法是通过梯度计算去更新策略网络的参数，因此目标函数就直接设计成期望累积奖励。这个期望值有多种表达方式，也就对应着不同的具体算法对损失函数的不同计算方法。但因为累积奖励的期望值无法直接计算，需要采用蒙特卡洛方法，多次采样取近似的平均值。每次采样都会生成一个 Trajectory，在不断迭代运行，获取了大量的 Trajectory 后，使用一定的变换和近似去计算累积奖励，作为用于梯度更新的损失函数。在进行梯度计算时，往往采用 log probablity 的形式，这更易于计算（在Pytorch等框架中也很容易实现）。相关近似计算的推到过程如下：

最干货：深度强化学习工程师/研究员面试指南

阅读更多关于最干货：深度强化学习工程师/研究员面试指南

1 前言今年来，深度强化学习工程师/研究员已经成为腾讯，网易，字节跳动，华为，阿里巴巴，快手等大厂及一些初创公司如启元世界，超参数重要的招聘岗位，主要面向游戏AI，推荐系统等方向的落地，这对深度强化学习的发展是极大的利好。在这篇blog中我将以面试官的角度和大家分享一下深度强化学习工程师/研究员面试所需的必备技能，希望对感兴趣的同学有所帮助。 2 深度强化学习工程师/研究员做什么？以游戏AI为例，深度强化学习工程师/研究员当然是实现某一款游戏AI为目标，或者某一类游戏AI为目标。工程师（Research Engineer)比较强调工程实践能力，能够完成包括环境接口，算法，训练调优，模型部署等等工作，而研究员（Research Scientist) 比较强调理论深度，能够针对问题在理论层面提出解决方案，能够对最前沿的DRL相关问题进行研究创新，当然研究员的工程实践能力也是必不可少的。 2 面试考察的核心首先先声明一下下面的标准是一个比较理想化的solid的社招标准，不是面向校招的标准。对于深度强化学习工程师/研究员，考察的核心包括以下三点：对深度强化学习有足够的热情和信仰。只有对一件事情有热情，才有可能真正做好一件事，并且愿意为了达成目标去做其中可能比较枯燥的dirty work。因此，这一条要求会排除掉一些对深度强化学习没有热情，仅仅是因为它比较火就进来的同学。

乘风破浪的马里奥！AI带你一口气通29关，猜猜AI过不去的是哪3关

阅读更多关于乘风破浪的马里奥！AI带你一口气通29关，猜猜AI过不去的是哪3关

　　　　大数据文摘出品　　作者：牛婉杨　　马里奥的系列游戏自打诞生以来就风靡全球，同时也陪伴了无数人的童年。　　人工智能出现后，不少技术咖都开始尝试，能不能利用AI完成马里奥的一次通关梦？　　比如，这里有一位马里奥游戏疯狂爱好者uvipen就在GitHub上贡献了两种不同的方法，都能让马里奥轻松游走在障碍之间！去年6月，uvipen从2016年的论文《Asynchronous Methods for Deep Reinforcement Learning》中得到了启发，用异步优势Actor-Critic算法(A3C)让马里奥顺利通过了32关中的9关。　　显然，他对之前的方法不够满意，于是经过一年多的钻研，他带着新方法来了！这次，他用 OpenAI 公布的近端策略优化 (Proximal Policy Optimization，简称PPO) 算法，成功助力马里奥通过32关中的29关，近乎通关！　　效果大概是这样　　　　强迫症表示这也太舒适了吧，快来和文摘菌一起看看uvipen是如何做到的吧~ 　　用PPO算法顺利通过29关！如果不行，那就换一个学习率　　这个PPO是何来头？文摘菌也去了解了一下。　　PPO全称是近端策略优化，听这个名字你可能觉得陌生，但是在人工智能圈，这个算法可是早就用于各种游戏对抗中了。　　早在2017年，OpenAI

乘风破浪的马里奥！这个AI带你一口气通29关，你猜连AI都过不去的是哪3关？

阅读更多关于乘风破浪的马里奥！这个AI带你一口气通29关，你猜连AI都过不去的是哪3关？

大数据文摘出品作者：牛婉杨马里奥的系列游戏自打诞生以来就风靡全球，同时也陪伴了无数人的童年。人工智能出现后，不少技术咖都开始尝试，能不能利用AI完成马里奥的一次通关梦？比如，这里有一位马里奥游戏疯狂爱好者uvipen就在GitHub上贡献了两种不同的方法，都能让马里奥轻松游走在障碍之间！去年6月，uvipen从2016年的论文《Asynchronous Methods for Deep Reinforcement Learning》中得到了启发，用异步优势Actor-Critic算法(A3C)让马里奥顺利通过了32关中的9关。显然，他对之前的方法不够满意，于是经过一年多的钻研，他带着新方法来了！这次，他用 OpenAI 公布的近端策略优化 (Proximal Policy Optimization，简称PPO) 算法，成功助力马里奥通过32关中的29关，近乎通关！效果大概是这样强迫症表示这也太舒适了吧，快来和文摘菌一起看看uvipen是如何做到的吧~ 用PPO算法顺利通过29关！如果不行，那就换一个学习率这个PPO是何来头？文摘菌也去了解了一下。 PPO全称是近端策略优化，听这个名字你可能觉得陌生，但是在人工智能圈，这个算法可是早就用于各种游戏对抗中了。早在2017年，OpenAI 2017年提出的用于训练OpenAI Five的算法就是PPO

读懂操作系统之虚拟内存基本原理篇（一）

阅读更多关于读懂操作系统之虚拟内存基本原理篇（一）

前言由于个人对虚拟内存这块特别感兴趣，所以就直接暂且跳过其他，接下来将通过几篇文章进行详细讲解，当然其他基础内容后续在我进行相应整体学习后也会同步输出文章，比如操作系统概念、程序链接、进程管理、页面置换算法、流水线、浮点指令、内存管理、磁盘管理等内容。不管周遭的环境如何，毕竟还很菜，坚持每天让自己进步一点点，放下暂时的焦虑，不如专注于眼前的学习，跟着我一起学习操作系统吧。虚拟存储器设计初衷缓存从高到低，主存可作为磁盘的缓存，我们将这项技术称作为虚拟存储器，基于历史观点，构造虚拟存储器的主要出于两个目的，其一是允许云计算在多个虚拟机之间有效而安全的共享存储器，其二则是受限的主存容量对程序设计所造成的极大影响。有了虚拟存储器这样可确保每个程序只能对划分给它的那部分主存进行读写操作，而主存只需存放程序中的活跃区域。虚拟存储器实现程序地址空间到物理地址的转换，通过这种转换处理加强了各个程序地址之间的保护。若用户加载多个程序直接到主存，很显然最终可能会超过主存的容量，如此一来，将程序进行卸载或转入成为程序员不可推卸的责任，加重了程序员的负担，那么怎样才能将程序员从这种情况中解放出来呢？现代操作系统将主存提供了一种对主存的抽象概念，叫作虚拟内存，虚拟内存是硬件异常，硬件地址翻译、主存、磁盘文件和内核软件的完美交互，虚拟内存主要提供了三种能力：【1】

不吃蘑菇，不捡金币，我用强化学习跑通29关马里奥，刷新最佳战绩

阅读更多关于不吃蘑菇，不捡金币，我用强化学习跑通29关马里奥，刷新最佳战绩

　　机器之心报道　　编辑：张倩、蛋酱　　看了用强化学习训练的马里奥，我才知道原来这个游戏的后几关长这样。　　　　《超级马里奥兄弟》是任天堂公司开发并于 1985 年出品的著名横版过关游戏，最早在红白机上推出，有多款后续作品，迄今多个版本总销量已突破 5 亿套。　　这款游戏承载了一代人的回忆，你还记不记得你玩到过第几关？　　其实，除了我们这些玩家之外，强化学习研究者也对这款游戏情有独钟。　　最近，有人用 PPO 强化学习算法训练了一个超级马里奥智能体，已经打通了 29 关（总共 32 关），相关代码也已开源。　　　　　　PPO 算法的全称是 Proximal Policy Optimization（近端策略优化），是 OpenAI 在 2017 年发布的一种强化学习算法。该算法的实现和调参十分简单，在强化学习中的表现优于当时所有顶尖算法的水平，因此被 OpenAI 作为强化学习研究中的首选算法。　　使用 PPO 训练的 OpenAI Five 是第一款在电竞游戏中击败人类世界冠军的 AI。2018 年 8 月，OpenAI Five 与 Ti8Dota2 世界冠军 OG 战队展开了一场巅峰对决，最终 OpenAI Five 以 2:0 的比分轻松战胜世界冠军 OG。　　此前，作者曾经使用 A3C 算法训练过用于通关超级马里奥兄弟的智能体

Unity 用ml-agents机器学习造个游戏AI吧(2) (深度强化学习入门DEMO)

阅读更多关于 Unity 用ml-agents机器学习造个游戏AI吧(2) (深度强化学习入门DEMO)

目录本次示例：训练一个追踪红球的白球AI 1. 新建Unity项目，导入package 2. 编写Agent脚本 void OnEpisodeBegin() void CollectObservations(VectorSensor sensor) void OnActionReceived(float[] vectorAction) void Heuristic(float[] action) 3. 搭建好游戏场景 4. 调整脚本参数 Behavior Parameters Roller Agent Decision Requester 5. 开始训练 6. 将训练过的模型整合到Unity中附录 config文件配置参考前言：上一篇博文已经介绍了 Unity Ml-Agents的环境配置了。个人建议先敲深度强化学习的Demo再摸清概念比较容易上手，因此本文先提供一个深度强化学习的Demo示例简单阐述下。更新于2020.3.6：由于现在Unity ml-agents项目比起2018年已经更新了许多，以前的Demo教程已经不适合了，因此决定翻新Unity ml-agents机器学习系列博客。更新于2020.7.6：没想到仅仅过了几个月，ml-agents项目已经从最初的beta版到现在已经第3个正式发行版了。因此再次翻新博客。本次示例：训练一个追踪红球的白球AI 1

订阅 PPO