阿尔法狗

强化学习

大憨熊 提交于 2020-03-07 11:22:45
2016年3月有件大事,人工智能围棋机器人AlphaGo与围棋世界冠军、职业九段棋手李世石进行围棋人机大战,以4比1的总比分获胜,AlphaGo一举成名,人工智能吸粉无数。 接下来一年,AlphaGo版本机器人更是在围棋界所向披靡,2017年5月,在中国乌镇围棋峰会上,AlphaGo Master与排名世界第一的世界围棋冠军柯洁对战,以3比0的总比分获胜。围棋界公认阿尔法围棋的棋力已经超过人类职业围棋顶尖水平。 一年后,AlphaGo的研发团队Deepmind又推出了最强版的围棋机器人AlphaGo Zero。AlphaGo Zero是自学能力超强的机器人,经过短短3天的自我训练,自我对弈的棋局数量为490万盘,就强势打败了此前战胜李世石的旧版AlphaGo。然后继续自我训练,40天后出关,击败了打败柯洁的AlphaGo Master。 AlphaGo Zero的一大核心就是强化学习。 最近很多正在学习 flare老师的实战课程 的小伙伴都对强化学习感兴趣,那flare老师今天就来和大家说说听上去高大上的强化学习,也就是 reinforcement learning 。 1、基本概念 强化学习,根据机器行动给予奖励或惩罚,让机器对外部环境做出反应自己决定接下来做什么: 做对了,奖励一下,给颗糖; 做错了,惩罚一下,拿走糖。 嗯,核心就这么简单。我们来看个简单的例子:小朋友学走路