涨姿势!一文了解深度学习中的注意力机制
全文共 11413 字,预计学习时长 33 分钟 图源:Unsplash “每隔一段时间,就会出现一种能改变一切的革命性产品。” ——史蒂夫·乔布斯(SteveJobs) 这句21世纪最知名的言论之一与深度学习有什么关系呢? 想想看。计算能力的提升带来了一系列前所未有的突破。 若要追根溯源,答案将指向注意力机制。简而言之,这一全新概念正在改变我们应用深度学习的方式。 图源:Unsplash 注意力机制是过去十年中,深度学习研究领域最具价值的突破之一。 它催生了包括Transformer架构和Google的BERT在内的自然语言处理(NLP)领域的许多近期突破。如果你目前(或打算)从事NLP相关工作,一定要了解什么是注意力机制及其工作原理。 本文会讨论几种注意力机制的基础、流程及其背后的基本假设和直觉,并会给出一些数学公式来完整表达注意力机制,以及能让你在Python中轻松实现注意力相关架构的代码。 大纲 l 注意力机制改变了我们应用深度学习算法的方式 l 注意力机制彻底改变了自然语言处理(NLP)甚至计算机视觉等领域 l 本文将介绍注意力机制在深度学习中的工作原理,以及如何用Python将其实现 目录 1.什么是注意力? 1. 深度学习是如何引入注意力机制的 2. 了解注意力机制 2.使用Keras在Python中实现简单的注意力模型 3.全局与局部注意力 4