著名的「词类比」现象可能只是一场高端作弊
「词类比」可谓是自然语言处理领域最为人津津乐道的经典案例之一。然而,进来一系列针对词类比现象的理论依据的讨论似乎要将这一明星案例拉下神坛。然而,无论结果如何,这一场围绕爆炸新闻和真理的大讨论都大大吸引了人们对于自然语言处理领域的关注,激发了大家的研究热情! 自然语言处理(NLP)是现代机器学习工具的重要应用领域之一。它涉及到使用数字化的工具来分析、解释、甚至生成人类(自然的)语言。 目前,NLP 领域最著名的算法莫过于「Word2Vec」,几乎所有该领域的从业者都知道它(甚至许多对机器学习感兴趣,但不研究 NLP 的人也知道它)。WordVec 有几种不同的实现方式,非常易于使用。在许多机器学习/人工智能或 NLP 入门课程中,往往会将其作为一个教学示例。 人们喜欢它的一个主要原因是:它似乎非常直观。通常,Word2Vec 的名气是由一些吸引眼球的、直观构建的例子得来的,这些例子常常被用来展示 Word2Vec 的能力。下面,我们简要介绍一下 Word2Vec 的工作原理: Word2Vec 会查看大量的文本,然后统计哪些词会经常与其它单词一同出现。基于这种词共现统计,Word2Vec 会为每个单词生成抽象表征,也就是所谓的词嵌入。词嵌入是一些低维向量(可以想象成一个包含 200 或 300 个数字的列表)。有了这些词向量,你就可以用单词做一些「神奇」的数学运算了!当我们拥有「国王