NLP笔记(word embedding)
目录 word embedding 语言表示 语言模型 词的分布式表示 word2vec 以前的word嵌入方法在今天仍然很重要 Word2Vec等方法的局限 针对NLP中的一些基本概念和知识,做一些摘记 word embedding 语言表示 语言表示 研究的是如何把自然语言文本转化为可以被算法模型处理的数据 目前使用得比较多的语言表示方法被称为:“基于词的分布式表示(distributed representation)” Harris 在 1954 年提出的 分布假说( distributional hypothesis) 为这一设想提供了理论基础: 上下文相似的词,其语义也相似 。 Firth 在 1957 年对分布假说进行了进一步阐述和明确:词的语义由其上下文决定( a word is characterized by thecompany it keeps) 语言模型 常见的语言模型包括:N元文法模型(N-gram Model)、unigram model、bigram model、trigram model等等 词的分布式表示 词的分布式表示方法一般分为3类,分别是: 基于矩阵的分布式表示,基于聚类的分布式表示,基于神经网络的分布式表示 常见到的 Global Vector 模型( GloVe模型) 是一种对“词-词”矩阵进行分解从而得到词表示的方法,属于