中文分词 | 易学教程

简单的中文分词和词向量化

阅读更多关于简单的中文分词和词向量化

**在做分词前需要做的准备： ** （1）：已经预处理过的需要分词的语料（需要分词的语料要符合结巴分词的要求，每句一行，并且以句号做结尾）（2）：需要一份相关方面的词典用于更加专业化的分词，单纯的使用结巴分词不能很好的分出你需要的词，会影响到你以后词向量化阶段。（3）：需要一份停用词表，因为结巴分词不能很好的把一些没有实际意义的词去掉，这样此会影响到后面词向量化阶段。停用词表的作用就是去掉一些没有意义的词语，单字，或者特殊符号。主要你需要去掉的东西，你把它写在停用词表中就可以。停用词表可以在网上下载，停用词表一般分为很多种，有专门的中文停用词表。在做分词的时候看需要下载，一般下载一个比较全的停用词表就行（停用词表一般包括特殊符号和中文一些无意义词）。此处需要注意，在保存停用词表的时候注意保存为编码格式utf-8的格式储存为txt格式. 开始分词：代码如下 import codecs import jieba infile = 'date_open_yuliao.txt' ##你需要分词的语料的文件名 outfile = 'data_open_yuliaochuli2.txt' ##分词完成后保存的文件名 jieba . load_userdict ( "data_open_dict.txt" ) ##用结巴加载你准备好的专用分词的词典 descsFile = codecs