word2vec预训练词向量
NLP中的Word2Vec讲解 word2vec是Google开源的一款用于词向量计算 的工具,可以很好的度量词与词之间的相似性; word2vec建模是指用 CBoW模型 或 Skip-gram模型 来计算不同 词语的向量(word vector) CBoW是给定上下文来预测输入词、Skip-gram给定输入词预测上下文,但最终都会得到词向量矩阵W 上图为词向量的部分可视化结构 Statistical Language Model (统计语言模型) 在深入word2vec之前,首先回顾下nlp中的一个基本问题: 如何计算一段文本序列在某种语言下出现的概率?(Ngram) 统计语言模型给出了这一类问题的一个基本解决框架。对于一段文本序列: 它的概率可表示为: 即将序列的联合概率转化为一系列条件概率的乘积。问题变成了如何去预测这些给定previous words下的条件概率: 由于其巨大的参数空间,这样一个原始的模型在实际中并没有什么用。我们更多的是采用其简化版本——Ngram模型: 常见的如bigram模型(N=2)和tirgram模型(N=3)。事实上,由于模型复杂度和预测精度的限制,我们很少会考虑N>3的模型。我们可以用最大似然法去求解Ngram模型的参数——等价于去统计每个Ngram的条件词频