BERT是怎样炼成的--词向量发展史
基本原理和特性 词向量 预训练词向量对于很多计算机语言模型至关重要。如何得到优质的词向量是非常热门的研究主题。 什么是好的词向量? 反映出语义和语法的复杂特征 适应不同上下文进行变换 历史回顾-如何用向量表示词语? one hot vector 有序词典V,包括n个单词。 每一个单词用长度为n的向量表示。这个向量仅于单词在V词典中索引序号位置为1,其余位置为0。这是一种非常稀疏的向量。 缺点: 1.维度非常高。 2.这种向量无法表示词与词之间的关系,无法衡量相似度。 word2vec 用低维度密集向量表示单词,通常维数为100-300。 在训练过程中,要求计算机学习根据当前单词预测其周围单词。或根据周围单词预测当前单词。 模型收敛后,得到单词与向量映射表。 优点: 1.相比one hot维度变低,利于计算。 2.词向量可以表达词语关系:相同上下文环境的词,会具有相似的向量值。 3.无需人工标注,可以利用丰富的语料库自动抽取特征。 缺点: 1.无法区分近义词与反义词,它们会具有相似的向量。 2.单词和向量是一一对应关系,而实际上单词在不同文本环境下,会具有不同的含义,向量无法适应上下文而变换。如下两句,词朝阳会被用相同的向量表达。 我在朝阳上班。 这是个朝阳行业。 ELMo 论文点我 动态词向量技术,词向量不再用固定的映射表来表达。 ELMo训练出一个神经网络模型,它接受输入一个句子