强化学习

超越99.9%人类玩家,微软专业十段麻将AI论文细节首次公布

﹥>﹥吖頭↗ 提交于 2020-04-09 00:52:10
  机器之心报道    机器之心编辑部   在去年 8 月底的世界人工智能大会上,时任微软全球执行副总裁的沈向洋正式对外宣布了微软亚洲研究院研发的麻将 AI「Suphx 」。近日,关于 Suphx 的所有技术细节已经正式公布。      继围棋、德州扑克、Dota、星际争霸之后,微软亚洲研究院的「Suphx」创造了 AI 在游戏领域的另一跨越性突破——麻将。   一直以来,麻将都因其复杂的出牌、得分规则和丰富的隐含信息,被视为 AI 研究中极具挑战性的领域。微软亚洲研究院副院长刘铁岩曾表示:「可以说 Dota 这类游戏更「游戏」,而麻将这类棋牌游戏更「AI」。」   Suphx 代表着 AI 系统在麻将领域取得的最好成绩,它也是首个在国际知名专业麻将平台「天凤」上荣升十段的 AI 系统,其实力超越了该平台与之对战过的 99.9% 的人类选手。   不久前,微软麻将 AI 研究团队在 arXiv 上首次公开发布了 Suphx 的论文,而 Suphx 背后的更多技术细节也随之公开。      论文链接:https://arxiv.org/abs/2003.13590    方法概述   在论文中,研究者创建了适用于 4 玩家日本麻将的 AI 系统 Suphx(Super Phoenix 的简称,意为超级凤凰),它采用深度卷积神经网络作为模型。首先,根据人类职业玩家的日志

机器学习如何分类?

喜欢而已 提交于 2020-04-06 03:23:27
按照任务类型可分为: 回归模型 :例如预测明天的股价。 分类模型 :将样本分为两类或者多类。 结构化学习模型 :输出的不是向量而是其他 结构。 按照学习理论可分为: 监督学习 :学习的样本 全部 具有标签,训练网络得到一个最优模型。 无监督学习 :训练的样本 全部 无标签,例如 聚类样本。 半监督学习 :训练样本 部分 有标签。 强化学习 :智能体与环境进行交互获得 奖励 来进行训练的一种模式,环境不会判断是否正确,而是会不断的反馈信号来 评价 智能体的行为。 迁移学习 :运用已经训练好的模型对新的样本进行学习,主要是解决问题中样本过少的问题。 人工智能更多面试问题关注公众号: 我们都是码农 (allmanong),或者扫描下方二维码! 来源: oschina 链接: https://my.oschina.net/u/4386848/blog/3220632

机器学习如何分类?

大城市里の小女人 提交于 2020-04-06 01:46:18
按照任务类型可分为: 回归模型 :例如预测明天的股价。 分类模型 :将样本分为两类或者多类。 结构化学习模型 :输出的不是向量而是其他 结构。 按照学习理论可分为: 监督学习 :学习的样本 全部 具有标签,训练网络得到一个最优模型。 无监督学习 :训练的样本 全部 无标签,例如 聚类样本。 半监督学习 :训练样本 部分 有标签。 强化学习 :智能体与环境进行交互获得 奖励 来进行训练的一种模式,环境不会判断是否正确,而是会不断的反馈信号来 评价 智能体的行为。 迁移学习 :运用已经训练好的模型对新的样本进行学习,主要是解决问题中样本过少的问题。 人工智能更多面试问题关注公众号: 我们都是码农 (allmanong),或者扫描下方二维码! 来源: oschina 链接: https://my.oschina.net/u/4329790/blog/3220621

Scikit-Learn&More,用于机器学习的综合数据集生成

怎甘沉沦 提交于 2020-03-23 19:59:27
3 月,跳不动了?>>> CDA数据分析师 出品 尽管成熟的算法和开源代码库可供机器学习从业人员广泛使用,但使用足够的数据去应用这些技术仍然是一个核心挑战。现在让我们了解如何利用scikit-learn和其他工具来生成适合优化和微调模型的综合数据。 --- Kevin Vu 越来越明显的是,谷歌,Facebook和微软等大型科技巨头对最新的机器学习算法和软件包非常慷慨(它们免费提供这些),因为目前算法世界的入门门槛很低。开源社区和工具(例如scikit-learn)已经走了很长一段路, 大量的开源计划正在推动数据科学,数字分析和机器学习的发展。站在2018年,我们可以肯定地说, 算法,编程框架和机器学习套件(甚至是学习这些技术的教程和课程)不是稀缺资源,而是高质量数据。 在调整和微调这些算法时,这通常成为数据科学(DS)和机器学习(ML)从业者的棘手问题。明智的是,从一开始就应该指出当前的文章,与算法研究、教学法学习和模型原型的数据稀缺有关,而不是与扩展和运行商业运作有关。这不是关于如何获取时尚旅行或时尚应用程序的数据的讨论。这种消费者,社会或行为数据收集会给自己带来问题。但是,即使是访问质量数据集以测试特定算法方法的局限性和变化性之类的简单操作,也往往不是那么简单。 为什么需要综合数据集? 如果是从头开始学习,则最合理的建议是从简单的小规模数据集入手

在量化中使用强化学习

柔情痞子 提交于 2020-03-13 13:54:08
什么是强化学习?用一句话概括,就是自己和自己玩,然后不断积累经验。典型的例子就是阿尔法狗,通过不断的自己和自己下棋,来达到人类无法达到的高度。 在量化领域,强化学习同样可以适用,下边我大概讲解一下思路(下文中使用期货量化进行说明)。 在github上边,有很多的强化学习例子,大家可以去找找,下载,看一下代码,然后就可以发现,这些例子都是在玩游戏,简单或稍微复杂的电脑游戏。量化中使用强化学习同样也是这个思路,将量化当作一个游戏看待。 如何当作游戏呢,实现gym包的接口即可(Gym 是 OpenAI 发布的用于开发和比较强化学习算法的工具包,里边包含了很多可交互的游戏)。 pip安装gym,然后打开core.py源码(位置如下) 就可以看到游戏接口了 具体看一下里边有那些要实现的方法: 1,根据指令执行一步 def step( self , action): 入参action就是指令,例如:持仓,清仓,观望等等。 在方法内实现一个根据指令和行情数据进行买卖的模拟交易(模拟交易就不细展开了,保存好开仓价,开仓方向,开仓时间等信息,设置好滑点,费用,计算好平仓金额,记录好交易各项信息就可以)。 返回的是 return 下一步状态, 得分奖励, 是否终止游戏, {} 下一步状态:返回下一步使用的数据([feature1,feature2,feature3,feature4......])

强化学习-7.策略梯度算法

Deadly 提交于 2020-03-12 08:47:31
文章目录 引言 强化学习方法的分类 基于值函数的方法的局限性 策略梯度算法的优缺点 策略模型的建模方式 策略梯度算法 策略梯度目标函数 策略梯度的推导 弥补策略梯度的缺陷 引入基线 修改回报值函数 Actor-Critic MC 策略梯度 (REINFORCE) 使用 Critic 函数减小方差 使用优势函数减小误差 使用 TD 误差替代优势函数 策略梯度多种形式的总结 A2C 算法 引言 强化学习方法的分类 强化学习方法可以分为:基于值函数的方法、基于策略的方法和Actor-Critic。 基于值函数的方法: 用 值函数 进行策略评价+策略优化,用值函数导出策略 基于策略的方法: 直接学习 策略 Actor-Critic: 学习 值函数 + 策略 之前的强化学习方法都是基于值函数的方法,在值函数近似中,我们使用带参数w的函数去近似值函数,如下: 在基于值函数的方法中,策略是从值函数中导出的 使用贪婪的方法导出 最优策略 (最终收敛得到的策略) 使用 ϵ \epsilon ϵ -贪婪方法导出 行为策略 (智能体真正做的策略) 而基于策略的方法,直接将策略进行参数化。 基于值函数的方法的局限性 针对确定性策略 存在策略退化: 收敛后,若存在误差,则很容易因为微小的值函数差,发生策略退化现象 难以处理高维度的状态/动作空间 不能处理连续的状态/动作空间 收敛速度慢: 反复进行策略迭代

强化学习

大憨熊 提交于 2020-03-07 11:22:45
2016年3月有件大事,人工智能围棋机器人AlphaGo与围棋世界冠军、职业九段棋手李世石进行围棋人机大战,以4比1的总比分获胜,AlphaGo一举成名,人工智能吸粉无数。 接下来一年,AlphaGo版本机器人更是在围棋界所向披靡,2017年5月,在中国乌镇围棋峰会上,AlphaGo Master与排名世界第一的世界围棋冠军柯洁对战,以3比0的总比分获胜。围棋界公认阿尔法围棋的棋力已经超过人类职业围棋顶尖水平。 一年后,AlphaGo的研发团队Deepmind又推出了最强版的围棋机器人AlphaGo Zero。AlphaGo Zero是自学能力超强的机器人,经过短短3天的自我训练,自我对弈的棋局数量为490万盘,就强势打败了此前战胜李世石的旧版AlphaGo。然后继续自我训练,40天后出关,击败了打败柯洁的AlphaGo Master。 AlphaGo Zero的一大核心就是强化学习。 最近很多正在学习 flare老师的实战课程 的小伙伴都对强化学习感兴趣,那flare老师今天就来和大家说说听上去高大上的强化学习,也就是 reinforcement learning 。 1、基本概念 强化学习,根据机器行动给予奖励或惩罚,让机器对外部环境做出反应自己决定接下来做什么: 做对了,奖励一下,给颗糖; 做错了,惩罚一下,拿走糖。 嗯,核心就这么简单。我们来看个简单的例子:小朋友学走路

多智能体协同强化学习实验平台 SMAC

心不动则不痛 提交于 2020-03-06 10:26:44
给大家推荐一个 多智能体协同强化学习实验平台 SMAC,在github上一搜就有,。 非常NICE。 如果需要中文文档,可参考 http://studyai.com/course/detail/ba8e572a?fr=ow [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-DkU5tAd2-1583458246978)(https://graph.baidu.com/resource/22278c064feb99edd3d6001583457753.png)] 单智能体强化学习 Gym MuJoCo 多智能体强化学习 StarCraftII(星际争霸2) Honor of King(王者荣耀) DOAT2 来源: CSDN 作者: ScorpioDoctor 链接: https://blog.csdn.net/zhjm07054115/article/details/104689293

[强化学习] 概念、举例、分类

百般思念 提交于 2020-03-01 08:20:40
写在前面 哈喽,好久不见,博客从现在开始,要开始继续更新喽! 本文主要是强化学习读书班(主要跟sutton的书)第一章节:强化学习绪论部分,书上讲的内容不是很好,这里为了更好地理解,扩展了很好。例子来源于网上,后续介绍的时候我会加上来源;还有部分PPT内容参考台大李宏毅老师的PPT以及Google DeepMind的David Silver的PPT,后续会注明!~~ 强化学习概念 来源: CSDN 作者: nana-li 链接: https://blog.csdn.net/quiet_girl/article/details/104578173

深度强化学习CS285 lec13-lec15 基础知识:变分推断VI与GAN

陌路散爱 提交于 2020-02-29 16:59:22
变分推断Variational Inference、生成对抗网络GAN 概述 一、简要回顾信息论 1.1 概念与公式 1.2小总结 二、 变分推断(Variational Inference) 2.1背景 2.2 Variational Inference 三、GAN 3.1 原始GAN 3.2 “-log D trick”的GAN 小结 概述 Lec1-Lec4 RL Introduction 介绍传统Imitation Learning的背景、算法、难点.IL学习的方式是通过Supervised Learning以state-action直接建立策略 π ( a ∣ s ) \pi(a|s) π ( a ∣ s ) 的mapping,因此只能 拟合数据与label的相关性 . 引入额外监督信息 r ( s , a ) r(s,a) r ( s , a ) , 尝试添加因果性 ,因此增加了灵活性(多solution应对更复杂的任务)的同时,付出了复杂度增大的代价(credit-assignment、exploration与exploitation). 对RL 监督信息的来源 、问题的建模、算法的大致分类进行了抽象介绍. Lec5-Lec9 Model-free RL 假设 无环境dynamics model,已知reward function、且为MDP 的情况下