基于隐马尔可夫模型的有监督词性标注
版权声明:本文为博主原创文章,未经博主同意不得转载。 https://blog.csdn.net/yutianzuijin/article/details/33292841 代码下载: 基于隐马尔可夫模型的有监督词性标注 词性标注(Part-of-Speech tagging 或 POS tagging)是指对于句子中的每一个词都指派一个合适的词性,也就是要确定每一个词是名词、动词、形容词或其它词性的过程,又称词类标注或者简称标注。 词性标注是自然语言处理中的一项基础任务,在语音识别、信息检索及自然语言处理的很多领域都发挥着关键的数据。 词性标注本质上是一个分类问题,对于句子中的每一个单词W。找到一个合适的词类类别T,也就是词性标记,只是词性标注考虑的是总体标记的好坏,既整个句子的序列标记问题。对于分类问题,有非常多现成的数学模型和框架能够套用。譬如HMM、最大熵模型、条件随机场、SVM等等。在本博客中我们介绍基于隐马尔可夫模型(HMM)的词性标注。 1 隐马尔可夫模型(HMM) 隐马尔科夫模型(HMM)是什么?说白了。就是一个数学模型,用一堆数学符号和參数表示而已,包含隐藏状态集合、观察状态集合、初始概率向量, 状态转移矩阵A。混淆矩阵B。 在 wiki上一个比較好的HMM样例 ,浅显易懂地介绍了HMM的基本概念和问题,初次接触HMM的人能够首先看一下这个样例。 在 Hidden