NLP中的自监督表示学习,全是动图,很过瘾的
作者:amitness 编译:ronghuaiyang 其实在自监督学习的概念提出之前,NLP中就已经运用到了这一思想。 虽然计算机视觉在自监督学习方面取得了惊人的进展,但在很长一段时间内,自监督学习一直是NLP研究领域的一等公民。语言模型早在90年代就已经存在,甚至在“自我监督学习”这个术语出现之前。2013年的Word2Vec论文推广了这一模式,在许多问题上应用这些自监督的方法,这个领域得到了迅速的发展。 这些自监督的方法的核心是一个叫做 “ pretext task ” 的框架,它允许我们使用数据本身来生成标签,并使用监督的方法来解决非监督的问题。这些也被称为“ auxiliary task ”或“ pre-training task “。通过执行此任务获得的表示可以用作我们的下游监督任务的起点。 在这篇文章中,我将概述研究人员在没有明确的数据标注的情况下从文本语料库中学习表示的各种pretext tasks。本文的重点是任务的制定,而不是实现它们的架构。 自监督的方案 1. 预测中心词 在这个公式中,我们取一定窗口大小的一小块文本,我们的目标是根据周围的单词预测中心单词。 例如,在下面的图中,我们有一个大小为1的窗口,因此我们在中间单词的两边各有一个单词。使用这些相邻的词,我们需要预测中心词。 这个方案已经在著名的Word2Vec论文的“ Continuous Bag of