统计自然语言处理

《统计自然语言处理》第九章

99封情书 提交于 2019-12-02 06:47:10
词义消歧 词义消歧又称之为词义标注,任务是确定 一个多义词在给定的上下文语境当中的具体含义 。 发展概述 早期多采用基于规则的分析方法; 20世纪80年代以后,基于大规模语料库的统计机器学习方法在自然语言领域得到了广泛应用; 除此之外,还有一个重要来源是基于词典信息的消歧方法。 有监督的消歧方法当中,可以认为 多义词的语义是与不同上下文进行对应 的,所以说多义词的识别问题也就是词语的 上下文分类 问题; 无监督的消歧方法当中,首先利用 聚类算法 对于同一个 多义词的上下文进行等价类划分 ,如果一个词的上下文出现在多个等价类当中,认为该词是一个多义词。 有监督的词义消歧办法 基于互信息的词义消歧办法 基本思路 是为每一个需要消歧的多义词 寻找一个上下文特征 ,而使得这个 特征可以可靠的指示 该多义词在特定上下文语境中使用的是哪种 语义 。 在双语料库中,可以将英语单词看作是汉语词语的语义,将决定汉语词语的条件看作是语义指示器。 具体求解过程: 训练 使用Flip-Flop算法 T 1 . . . T m T_1...T_m T 1 ​ . . . T m ​ 是语义, V 1 . . . V m V_1...V_m V 1 ​ . . . V m ​ 是语义指示器的取值,那么算法执行步骤如下。 (1)随机将 T 1 . . . T m T_1...T_m T 1 ​ . . . T