文本分类专题(ultimate 版)绝对是目前最全的C++版开源文本分类代码和最令人耳目一新的实验解释
最终版本的文本分类代码、语料、以及中间文件都已经开源共享见: http://www.cnblogs.com/finallyliuyu/archive/2012/01/15/2322721.html 。由于数据和程序规模比较大,就不在博客园上传了。大家可以自己注册下载。 (注:转载请注明作者和出处 作者:f inallyliuyu 出处:博客园) 适用人群:文本分类初学者、新手、菜鸟、业余爱好者 目的:1.将书本上关于文本分类的相关内容,如分类器、特征词选择算法等,用程序实现,让入门者对文本分类有个感性的、具体的了解,毕竟数学公式还是蛮抽象的; 2.“尽信书不如无书”,“纸上得来终觉浅,绝知此事要躬行”,借助于此平台可以对书本上的一些关于分类器、特征词选择算法的结论进行验证; 3.写给我自己,体验 “the magic of mathematics” 。 1.获取语料库 方法一:搜狗 2008版语料库 ;处理程序见《 菜鸟学习C++练笔之整理搜狗2008版语料库--获取分类语料库 》 方法二:finallyliuyu在博客园空间提供的语料库参见 《 献给热衷于自然语言处理的业余爱好者的中文新闻分类语料库之二 》 2. 文本分类系统设计框架图 预处理过程流程图 分类模块流程图: 3. 各部分代码讲解 预处理模块 3.1 建立词典 3.2 全局DF特征词选择算法 3.3