GloVe学习:Global Vectors for Word Representation
GloVe: Global Vectors for Word Representation 什么是GloVe? 正如 GloVe: Global Vectors for Word Representation 论文而言,GloVe的全称叫Global Vectors for Word Representation,它是一个基于 全局词频统计 (count-based & overall statistics)的词表征(word representation)工具,它可以把一个单词表达成一个由实数组成的向量,这些向量捕捉到了单词之间一些语义特性,比如相似性(similarity)、类比性(analogy)等。我们通过对向量的运算,比如欧几里得距离或者cosine相似度,可以计算出两个单词之间的语义相似性。 模型目标:进行词的向量化表示,使得向量之间尽可能多地蕴含语义和语法的信息。 输入:语料库 输出:词向量 方法概述:首先基于语料库构建词的共现矩阵,然后基于共现矩阵和GloVe模型学习词向量。 统计共现矩阵 设共现矩阵为 X X X ,其元素为 X i , j X_{i,j} X i , j 。 X i , j X_{i,j} X i , j 的意义为:在整个语料库中,单词i和单词j共同出现在一个窗口中的次数。 举个例子: 设有语料库: i love you but you