XLNet论文导读-超越Bert的后浪
论文链接: https:// arxiv.org/pdf/1906.0823 7.pdf 导读 自然语言处理中,无监督学习通常分为自回归任务和自编码任务,自回归任务是从左到右预测一个可能的单词,自编码任务是已知上下文,去预测被MASK掉的单词,例如Bert就是一个非常经典的自编码任务。但是自编码任务被人诟病的缺点就是预训练和Finetune阶段看到的信息是不一样的,忽视了原文本和上下文之间的互相影响的关系。基于以上分析,本文提出了XLNet, 平衡了自编码任务和自回归任务的优缺点的自回归任务并且在多个数据集上也超过了Bert。并且我们还有一个惊人的发现——NSP(Next Sentence Prediction)对于XLNet的效果提升并无太大影响。这是为什么呢?我们一起来康康吧~ 背景 在自然语言处理中,无监督学习通常是在大规模数据集上进行预训练然后在下游任务中进行微调,这些任务通常分为两种类型自回归任务(Autoregressive)和自编码任务(AutoEncoding)。 自回归任务(AR) 是根据上下文内容预测下一个可能的单词,但是这个上下文仅限于一个方向,前向或者后向,不能同时利用上下文的信息。GPT就是典型的AR语言模型,AR语言模型的优点是 擅长生成式的自然语言处理任务 ,比如机器翻译,文本摘要等,因为在生成文本的时候就是从左向右的。 自编码任务(AE)