相关词

利用word分词通过计算词的语境来获得相关词

北战南征 提交于 2019-11-27 14:25:02
我们如何通过计算词的 语境 来获得 相关词 呢? 语境 的定义是: 在一段文本中,任意一个词的语境由它的 前N个词和后N个词 组成。 相关词 的定义是: 如果两个词的语境越相似,那么这两个词就越相似,也就越相关。 算法由两个步骤组成: 1、从大规模语料库中计算每一个词的语境 ,并使用 词向量 来表示语境。 实现代码 2、把求两个词的相似度的问题 转换为 求这两个词的 语境 的 相似度 的问题。通过计算语境的相似度,就可得到词的相似度,越相似的词就越相关。 实现代码 关于相似度 计算,word分词还提供了很多种算法, 参考这里 使用方法如下: 1、使用 word分词 内置 语料库: 运行 word分词 项目根目录下的脚本 demo-word-vector-corpus.bat 或 demo-word-vector-corpus.sh 2、使用自己的文本内容: 运行 word分词 项目根目录下的 脚本 demo-word-vector-file.bat 或 demo-word-vector-file.sh 由于语料库很大,所以启动的时间会很长,请耐心等待,下面以例子来说明: 比如我们想分析 兰州 这个词的相关词有哪些,我们运行脚本 demo-word-vector-corpus.sh ,启动成功之后命令行提示: 开始初始化模型 模型初始化完成 可通过输入命令sa=cos来指定相似度算法