一文讲透预训练模型的改进训练算法 ,轻松达到State of the Art
编者按 随着BERT在NLP各种任务上取得骄人的战绩,预训练模型在不到两年的时间内得到了很大的发展。B ERT和Open-GPT等预训练语言模型的引入,使整个自然语言研究界发生了革命性的变化。然而,与它们巨大的好处相比,研究人员对它们的理论和经验性质仍然知之甚少。本文回顾了有关预训练深度神经网络的相关文献及观点,以及带有词嵌入的微调策略。针对已有的两种主流算法NFT-TM和FT-NTM,综合考虑了在预训练语言模型上建立一个上层网络,并以适当的方式对两者进行微调的可能性,提出了一种新算法FT-TM。通过对一系列NLP任务的实验结果分析,比较了算法FT-TM和FT-NTM的效果,证明了新算法FT-TM的优势。 在NLP的预训练语言模型时代,针对已有的两种主流算法NFT-TM和FT-NTM,本文提出了一种新算法FT-TM。它首先在BERT的基础上建立一个上层神经网络(LSTM或者CNN等等),然后在适当的策略下对两者进行同时训练。该算法融合了NFT-TM和FT-NTM两种算法的优势,通过一系列NLP任务的实验结果表明,新算法FT-TM能取得更好的效果,而且在公开的Quora和SLNI两个问题语义等价数据集上,新算法FT-TM的效果都达到了目前的State of the Art。 01 引 言 诸如BERT [1] 和Open-GPT [2] 等预训练语言模型的引入