强化学习

CARS: 华为提出基于进化算法和权值共享的神经网络结构搜索,CIFAR-10上仅需单卡半天 | CVPR 2020

放肆的年华 提交于 2020-04-16 12:23:52
【推荐阅读】微服务还能火多久?>>> 为了优化进化算法在神经网络结构搜索时候选网络训练过长的问题,参考ENAS和NSGA-III,论文提出连续进化结构搜索方法(continuous evolution architecture search, CARS),最大化利用学习到的知识,如上一轮进化的结构和参数。首先构造用于参数共享的超网,从超网中产生子网,然后使用None-dominated排序策略来选择不同大小的优秀网络,整体耗时仅需要0.5 GPU day   来源:晓飞的算法工程笔记 公众号 论文: CARS: Continuous Evolution for Efficient Neural Architecture Search 论文地址: https://arxiv.org/abs/1909.04977 Introduction   目前神经网络结构搜索的网络性能已经超越了人类设计的网络,搜索方法大致可以分为强化学习、进化算法以及梯度三种,有研究表明进化算法能比强化学习搜索到更好的模型,但其搜索耗时较多,主要在于对个体的训练验证环节费事。可以借鉴ENSA的权重共享策略进行验证加速,但如果直接应用于进化算法,超网会受到较差的搜索结构的影响,因此需要修改目前神经网络搜索算法中用到的进化算法。为了最大化上一次进化过程学习到的知识的价值,论文提出了连续进化结构搜索方法

PaddlePaddle/PARL

纵然是瞬间 提交于 2020-04-16 11:35:24
【推荐阅读】微服务还能火多久?>>> English | 简体中文 文档 PARL 是一个高性能、灵活的强化学习框架。 特点 可复现性保证 。我们提供了高质量的主流强化学习算法实现,严格地复现了论文对应的指标。 大规模并行支持 。框架最高可支持上万个CPU的同时并发计算,并且支持多GPU强化学习模型的训练。 可复用性强 。用户无需自己重新实现算法,通过复用框架提供的算法可以轻松地把经典强化学习算法应用到具体的场景中。 良好扩展性 。当用户想调研新的算法时,可以通过继承我们提供的基类可以快速实现自己的强化学习算法。 框架结构 PARL的目标是构建一个可以完整复杂任务的智能体。以下是用户在逐步构建一个智能体的过程中需要了解到的结构: Model Model 用来定义前向( Forward )网络,这通常是一个策略网络( Policy Network )或者一个值函数网络( Value Function ),输入是当前环境状态( State )。 Algorithm Algorithm 定义了具体的算法来更新前向网络( Model ),也就是通过定义损失函数来更新 Model 。一个 Algorithm 包含至少一个 Model 。 Agent Agent 负责算法与环境的交互,在交互过程中把生成的数据提供给 Algorithm 来更新模型( Model )

百度技术沙龙第 54 期 人工智能技术应用

杀马特。学长 韩版系。学妹 提交于 2020-04-13 21:44:58
【今日推荐】:为什么一到面试就懵逼!>>> 本文作者:HelloDeveloper 2014 年 9 月 20 日,在由@百度主办、@InfoQ负责策划组织和实施的第 54 期百度技术沙龙活动上,来自百度自然语言处理部的杨程和来自清华大学自动化系控制理论与技术研究所的赵明国,两位讲师分享了各自在人工智能及机器学习领域的相关经验。 本次分享的话题分别是“ 计算机围棋 - 蒙特卡洛搜索与统计学习”和“ RoboCup 人形组的技术与挑战”。本文将对这两个主题分享做下简单的回顾,同时提供相关资料的下载。 主题一:计算机围棋 - 蒙特卡洛搜索与统计学习(下载讲稿) 计算机博弈在人工智能这个领域是一个重要的研究方向,这与围棋的特性息息相关。杨程举例道:比如说 19 路的围棋它有 361 个交叉点,如果我们简单地估计它的组合数的话,应该是大概 361 个节程,这可谓一个天文数字了。所以我们也常说它的空间复杂度是近似无穷大的概念。除了空间无穷大以外,它的状态也没有办法评估。任意地给一个棋盘的状态,有 ABCD 可选的点,我们怎么样知道哪个点是最好的,或者说哪个点的价值高,好有多好,坏有多坏。围棋这块,到现在也没有办法做。这和人工智能的某些领域还比较类似,所以我们把这个领域作为试金石,如果这个领域研究好,相关的领域也会有所提升,蒙特卡洛搜索就是在这样的背景下应运而生。 在介绍完蒙特卡洛搜索的背景后

谷歌又一野心浮现:用AI“反哺”芯片设计

守給你的承諾、 提交于 2020-04-13 19:57:28
【今日推荐】:为什么一到面试就懵逼!>>>    “让天下没有难做的芯片”。   过去两年来,随着专用芯片的壮大,芯片开发基础设施的变革浪潮也拉开序幕,例如在国内去年阿里平头哥发布的无剑 SOC 平台,希望能够借助新兴技术来降低芯片开发的门槛,以促进 AI 硬件的更新速度,追赶日新月异的市场。   而在国外,拉动世界技术革新的美国互联网巨头 “GAFA(谷歌、苹果、Facebook、亚马逊)” 们,是否也有相应布局?    至少,最近谷歌在这方面又有了新的进展,且称得上野心勃勃。      图|谷歌大楼(来源:JHVEPHOTO)    在今年 3 月举办的全球芯片设计领域顶会 ISSCC 上,计算机科学领域的传奇人物、谷歌 TPU 之父 Jeff Dean 的演讲,就透露出团队正在尝试的新方向:利用 AI 算法设计芯片。   演讲中,他一边高度肯定了高性能计算芯片是人工智能的基础设施,没有算力发展就难以发挥 AI 模型的更多价值,一边给出了 AI 算法“反哺”芯片设计的例子, 特别是使用深度强化学习的方法来进行芯片的布局优化(Placement Optimization)。    亮相芯片设计顶会,谷歌 AI 的牛刀小试    提到谷歌的芯片事业,相信许多人的第一印象是它为深度学习框架 TensorFlow 专门开发的云端芯片 TPU。这款产品因在举世瞩目的 AlphaGo

最强麻将AI已达10段水平,背后技术或可用于金融市场预测

走远了吗. 提交于 2020-04-12 18:34:22
  游戏已经成为检验强化学习算法实力的最佳途径之一。现在,继扑克、围棋之外,基于强化学习的游戏 AI 又在麻将上展现了超强能力。   2019 年 8 月, 微软曾宣布,由微软亚洲研究院研发的麻将 AI 系统 Suphx ,成为首个在国际知名专业麻将平台 “天凤” 上荣升十段的 AI 系统 。   “天凤”平台拥有超过 35 万个活跃用户,Suphx 模型在稳定排名方面表现出比大多数顶级玩家更强,评级高于 99.99%的官方排名玩家。   而就在本周,这一麻将 AI 的技术论文终于得以公布,向我们展示了 Suphx 背后的开发逻辑。      图丨麻将游戏的挑战以及 Suphx 的核心技术(来源:微软)   据团队介绍,尽管深度强化学习在一系列游戏 AI 中取得了巨大的成功,但想要将其直接应用在麻将 AI 上殊为不易,面临着若干挑战。   挑战一在于,麻将的计分规则通常都非常复杂,在如天凤平台等竞技麻将中,计分规则更加复杂。天凤平台上每一轮游戏的计分规则都需要根据赢家手里的牌型来计算得分,牌型有非常多的可能,例如清一色、混一色、门清等等,不同牌型的得分会相差很大。这样的计分规则比象棋、围棋等游戏要复杂得多。麻将高手需要谨慎选择牌型,以在胡牌的概率和胡牌的得分上进行平衡,从而取得第一、二位或者摆脱第四位。   而从博弈论的角度来看,麻将是多人非完美信息博弈。象棋和围棋属于完美信息游戏

百度大脑开放日来袭 24种全新AI能力呈现

懵懂的女人 提交于 2020-04-10 18:11:53
本文作者:DuerOs 人工智能连续3年进入政府报告、“智能+”成为时代新命题,这些信息都显示2019年会是AI产业全面加速落地的一年。AI行业的发展,离不开千万开发者的助力。 3月20日,首场百度大脑开放日全新登场,介绍了全新开放的24种全新AI能力,AI赋能市政、物流、教育等行业的20个案例,也为向开发者、行业人士展现了如何搭上AI开放生态的高速列车。 百度大脑开放日来袭 作为百度在人工智能领域多年研究成果的集大成者,百度大脑正在飞速进步着。自2016年启动开放以来,百度大脑目前已经是服务规模最大的AI开放平台,开放了158项AI能力,24小时快速集成,开发者数量超过100万,面向广泛的企业和开发者提供最先进、最全面的AI能力,不断降低AI应用落地的门槛。 百度AI技术生态部总经理喻友平谈到,“在百度大脑的开放生态中,开发者一直是最为重要的一环。百度大脑开放能力不断加速,有很多有价值的技术难以被开发者了解。2019年百度大脑开放日全新登场,希望为AI开发者提供及时、全面、近距离地了解百度大脑最新AI产品和案例,且能深度、持续交流的平台。” 百度AI技术生态部总经理喻友平 首期开放日,喻友平介绍了百度大脑开源深度学习平台PaddlePaddle以及通用AI能力两方面的技术和产品更新,以及百度大脑在市政、物流、教育等行业的落地案例,与开发者们进行深度交流。 更广、更快

【学习笔记】人工智能原理(MOOC北大 王文敏,教材是《人工智能一种现代的科学计算方法》)(学习中。。。)

一世执手 提交于 2020-04-10 18:02:22
MOOC大学上的课程,做个学习笔记,方便以后复习回顾 教材是 1 绪论 1.1 AI概述 人工智能研究如何用硬件和软件实现智能的理智的行为,即搜索、推理、规划与学习,并在此之上去实现感知、认知与智能行为 人工智能自1956年诞生,经历2次低潮后,计算能力的提升为其提供良好的平台,多媒体数据的爆发性增长为期提供充足原料,AI先后战胜了人类象棋、围棋以及德州扑克的顶级选手,图像的识别与分类能力已经超越人类,指纹语音与人脸识别正在改变人机交互手段,各种类型的机器人运行在工厂和现实生活之中,人工智能的学术研究越来越深入,人工智能的创业者越来越多,人工智能正在改变我们的生活,世界上主要发达国家都把人工智能当做重大发展战略,力争在新一轮国际竞争中争得主动权,中国国务院于2017年7月8日印发《新一代人工智能发展规划》明确提出了中国人工智能发展战略为三步走,2020年,人工智能的应用技术与世界先进水平同步,2025年人工智能基础理论取得重大突破,2030年发展为世界主要的人工智能创新中心。所以说现在是人工智能的最好时期,有人担心人工智能会造成大批人失业,有人认为人工智能是威胁,有人游说人工智能可能引发第三次世界大战,更有人惧怕人工智能会毁灭人类,所以又说这是人工智能最有争议的时期。 1956年的“Dartmouth Summer Research Project on Artificial

AI研习丨专题:一种军棋计算机博弈的多棋子协同博弈方法

那年仲夏 提交于 2020-04-10 16:53:10
      摘 要   协同博弈是军棋机器博弈的关键性技术。在军棋博弈不完全信息对弈中,面对棋子不同价值、不同位置和不同搭配所产生的不同棋力,传统的单子意图搜索算法,既缺少棋子的团体协同性和沟通性,也缺少欺骗性和引诱性等高级对抗能力。本文针对此问题,提出基于UCT搜索策略的高价值棋子筛选方法,形成为一种多棋子协同博弈方法,实现了多棋子协同对弈。实验证明,多棋子协同博弈方法优于单棋子军棋博弈方法。    关 键 字   机器博弈;军棋;协同博弈;Q学习算法;攻守平衡;维度灾难;UCT;高价值棋子    0 引言   机器博弈是人工智能领域重要的研究方向,通过训练计算机下棋来衡量机器的智能程度,具有人-机和机-机对弈两种形式,以谷歌Alpha Go战胜韩国围棋九段大师李世石、网络注册名为 Master大胜人类围棋线上高手,以及升级版Zero战胜中国围棋九段大师柯洁为标志性事件,使得围棋人-机博弈以机器取胜翻开了新篇章。但机机博弈仍然是人类探索的热点领域。   机器博弈分为完备信息机器博弈和非完备信息机器博弈。所谓完备博弈就是对弈各方能掌握全部对弈信息、各方的对弈信息完全透明,如中国象棋、围棋和五子棋等,如果博弈信息对博弈各方不是完全透明的,就是非完备信息博弈,如军棋、德州扑克、斗地主、桥牌等。非完备信息机器博弈存在诱导,欺诈等行为,使得计算机难以攻克。   在军棋机器博弈中,有从工兵

【学习笔记】人工智能原理(MOOC北大 王文敏,教材是《人工智能一种现代的科学计算方法》)(学习中。。。)

孤街浪徒 提交于 2020-04-10 16:30:17
MOOC大学上的课程,做个学习笔记,方便以后复习回顾 教材是 1 绪论 1.1 AI概述 人工智能研究如何用硬件和软件实现智能的理智的行为,即搜索、推理、规划与学习,并在此之上去实现感知、认知与智能行为 人工智能自1956年诞生,经历2次低潮后,计算能力的提升为其提供良好的平台,多媒体数据的爆发性增长为期提供充足原料,AI先后战胜了人类象棋、围棋以及德州扑克的顶级选手,图像的识别与分类能力已经超越人类,指纹语音与人脸识别正在改变人机交互手段,各种类型的机器人运行在工厂和现实生活之中,人工智能的学术研究越来越深入,人工智能的创业者越来越多,人工智能正在改变我们的生活,世界上主要发达国家都把人工智能当做重大发展战略,力争在新一轮国际竞争中争得主动权,中国国务院于2017年7月8日印发《新一代人工智能发展规划》明确提出了中国人工智能发展战略为三步走,2020年,人工智能的应用技术与世界先进水平同步,2025年人工智能基础理论取得重大突破,2030年发展为世界主要的人工智能创新中心。所以说现在是人工智能的最好时期,有人担心人工智能会造成大批人失业,有人认为人工智能是威胁,有人游说人工智能可能引发第三次世界大战,更有人惧怕人工智能会毁灭人类,所以又说这是人工智能最有争议的时期。 1956年的“Dartmouth Summer Research Project on Artificial

人工智能新手入门学习路线和学习资源合集(含AI综述/python/机器学习/深度学习/tensorflow)

僤鯓⒐⒋嵵緔 提交于 2020-04-10 09:01:31
【说在前面】本人博客新手一枚,象牙塔的老白,职业场的小白。以下内容仅为个人见解,欢迎批评指正,不喜勿喷![握手][握手] 1. 分享个人对于人工智能领域的算法综述: 如果你想开始学习算法,不妨先了解人工智能有哪些方向? 1.1 机器学习综述 1.2 深度学习综述 1.3 强化学习综述 1.4 知识图谱综述 1.5 对接其他前沿技术 2. 分享个人对于新手入门学习路线和学习资源的推荐 2.1 python编程学习路线及笔记 2.2 机器学习专题学习路线及笔记 2.3 深度学习专题学习路线及笔记 2.4 tensorflow编程学习路线及笔记 如果你是计算机专业的本科生,欢迎浏览我的另外一篇博客: 如果你是一个计算机领域的本科生,你可以选择学习什么? 如果你是计算机专业的研究生,欢迎浏览我的另外一篇博客: 如果你是一个计算机领域的研究生,你可以选择学习什么? 如果你是计算机专业的应届毕业生,欢迎浏览我的另外一篇博客: 如果你是一个计算机领域的应届生,你如何准备求职面试? 如果你对金融科技感兴趣,欢迎浏览我的另一篇博客: 如果你想了解金融科技,不妨先了解金融科技有哪些可能? 之后博主将持续分享各大算法的学习思路和学习笔记: hello world: 我的博客写作思路 来源: oschina 链接: https://my.oschina.net/u/4369820/blog/3227342