开源中文分词工具探析(七):LTP
LTP 是哈工大开源的一套中文语言处理系统,涵盖了基本功能:分词、词性标注、命名实体识别、依存句法分析、语义角色标注、语义依存分析等。 【开源中文分词工具探析】系列: 开源中文分词工具探析(一):ICTCLAS (NLPIR) 开源中文分词工具探析(二):Jieba 开源中文分词工具探析(三):Ansj 开源中文分词工具探析(四):THULAC 开源中文分词工具探析(五):FNLP 开源中文分词工具探析(六):Stanford CoreNLP 开源中文分词工具探析(七):LTP 1. 前言 同THULAC一样,LTP也是基于结构化感知器(Structured Perceptron, SP),以最大熵准则建模标注序列 \(Y\) 在输入序列 \(X\) 的情况下的score函数: \[ S(Y,X) = \sum_s \alpha_s \Phi_s(Y,X) \] 其中, \(\Phi_s(Y,X)\) 为本地特征函数。中文分词问题等价于给定 \(X\) 序列,求解score函数最大值对应的 \(Y\) 序列: \[ \mathop{\arg \max}_Y S(Y,X) \] 2. 分解 以下源码分析基于版本3.4.0。 分词流程 分词流程与其他分词器别无二致,先提取字符特征,计算特征权重值,然后Viterbi解码。代码详见 __ltp_dll_segmentor_wrapper: