jieba | 易学教程

jieba

jieba、NLTK学习笔记

阅读更多关于 jieba、NLTK学习笔记

　　中文分词 - jieba import re import jieba news_CN = ''' 央视315晚会曝光湖北省知名的神丹牌、莲田牌“土鸡蛋”实为普通鸡蛋冒充，同时在商标上玩猫腻，分别注册“鲜土”、注册“好土”商标，让消费者误以为是“土鸡蛋”。3月15日晚间，新京报记者就此事致电湖北神丹健康食品有限公司方面，其工作人员表示不知情，需要了解清楚情况，截至发稿暂未取得最新回应。新京报记者还查询发现，湖北神丹健康食品有限公司为农业产业化国家重点龙头企业、高新技术企业，此前曾因涉嫌虚假宣传“中国最大的蛋品企业”而被罚6万元。 ''' string = re.sub('[^\w]', '', news_CN) #使用正则去符号，之后都是用这个str字符串 seg_list = jieba.cut(string, cut_all=False) #精确模式 print('/'.join(seg_list)) ''' path = '' file=open(path,'r') jieba.load_userdict(file) file.close() ''' jieba.load_userdict(['神丹牌','莲花牌','土鸡蛋','新京报']) #载入字典 seg_list = jieba.cut(string, cut_all=False) #精确模式 str

简单的中文分词和词向量化

阅读更多关于简单的中文分词和词向量化

**在做分词前需要做的准备： ** （1）：已经预处理过的需要分词的语料（需要分词的语料要符合结巴分词的要求，每句一行，并且以句号做结尾）（2）：需要一份相关方面的词典用于更加专业化的分词，单纯的使用结巴分词不能很好的分出你需要的词，会影响到你以后词向量化阶段。（3）：需要一份停用词表，因为结巴分词不能很好的把一些没有实际意义的词去掉，这样此会影响到后面词向量化阶段。停用词表的作用就是去掉一些没有意义的词语，单字，或者特殊符号。主要你需要去掉的东西，你把它写在停用词表中就可以。停用词表可以在网上下载，停用词表一般分为很多种，有专门的中文停用词表。在做分词的时候看需要下载，一般下载一个比较全的停用词表就行（停用词表一般包括特殊符号和中文一些无意义词）。此处需要注意，在保存停用词表的时候注意保存为编码格式utf-8的格式储存为txt格式. 开始分词：代码如下 import codecs import jieba infile = 'date_open_yuliao.txt' ##你需要分词的语料的文件名 outfile = 'data_open_yuliaochuli2.txt' ##分词完成后保存的文件名 jieba . load_userdict ( "data_open_dict.txt" ) ##用结巴加载你准备好的专用分词的词典 descsFile = codecs

订阅 jieba