油管最火十分钟机器学习数学课-深度Q学习
考虑一下这个场景,你在玩一个游戏超级马里奥,不过你自己在玩,你要训练一个AI来替你玩游戏,你会怎么思考这个问题?如果你从一些顶尖玩家处截屏游戏片段,我们可以利用这些视频片段来作为模型输入,而输出可以是马里奥可以移动的方向。这就是一个有监督的分类问题,因为我们的训练数据集是有标注的,也就是移动的方向。假设我们拥有很多数据,而且拥有大量GPU,那么我们就可以训练一个神经网络。给定一个新的视频片段,就可以知道最佳的通关路线,但我们需要几千个小时的游戏视频来进行训练,这不像是对于具体问题的优雅解决方案。首先,我们不是在静态数据上训练模型,而是在动态的数据上,这些训练数据是连续的,新的视频帧连续不断地在游戏时间出现。我们想知道如何在这个世界中行动,人类通过和环境互动以达到最佳学习效果,而不是看别人与环境互动。这个环境是随机的,任何事件都有可能发生,看上去最好的办法就是通过尝试不同的可能性来学习,而不是把他构造成可以通过模式识别来解决的问题。让我们把它设计出通过一系列尝试和犯错的过程来解决的问题。强化学习就是用来解决这类问题的。现在我没有一类标签,每当马里奥做了一些有助于赢得游戏的行为,正标签就会出现,只是它们不会立刻被我们获得,它们有延迟,相比起把它们叫做标签,让我们叫做反馈。那么我们如何用数学的方式将这个过程形式化尼? 让我们从一个环境开始,在这个环境中,AI或者agent会执行一系列动作