jieba

jieba、NLTK学习笔记

佐手、 提交于 2019-11-26 12:25:55
   中文分词 - jieba import re import jieba news_CN = ''' 央视315晚会曝光湖北省知名的神丹牌、莲田牌“土鸡蛋”实为普通鸡蛋冒充,同时在商标上玩猫腻, 分别注册“鲜土”、注册“好土”商标,让消费者误以为是“土鸡蛋”。3月15日晚间,新京报记者就此 事致电湖北神丹健康食品有限公司方面,其工作人员表示不知情,需要了解清楚情况,截至发稿暂未 取得最新回应。新京报记者还查询发现,湖北神丹健康食品有限公司为农业产业化国家重点龙头企 业、高新技术企业,此前曾因涉嫌虚假宣传“中国最大的蛋品企业”而被罚6万元。 ''' string = re.sub('[^\w]', '', news_CN) #使用正则去符号,之后都是用这个str字符串 seg_list = jieba.cut(string, cut_all=False) #精确模式 print('/'.join(seg_list)) ''' path = '' file=open(path,'r') jieba.load_userdict(file) file.close() ''' jieba.load_userdict(['神丹牌','莲花牌','土鸡蛋','新京报']) #载入字典 seg_list = jieba.cut(string, cut_all=False) #精确模式 str

简单的中文分词和词向量化

霸气de小男生 提交于 2019-11-26 03:36:06
**在做分词前需要做的准备: ** (1):已经预处理过的需要分词的语料(需要分词的语料要符合结巴分词的要求,每句一行,并且以句号做结尾) (2):需要一份相关方面的词典用于更加专业化的分词,单纯的使用结巴分词不能很好的分出你需要的词,会影响到你以后词向量化阶段。 (3):需要一份停用词表,因为结巴分词不能很好的把一些没有实际意义的词去掉,这样此会影响到后面词向量化阶段。停用词表的作用就是去掉一些没有意义的词语,单字,或者特殊符号。主要你需要去掉的东西,你把它写在停用词表中就可以。停用词表可以在网上下载,停用词表一般分为很多种,有专门的中文停用词表。在做分词的时候看需要下载,一般下载一个比较全的停用词表就行(停用词表一般包括特殊符号和中文一些无意义词)。 此处需要注意,在保存停用词表的时候注意保存为编码格式utf-8的格式储存为txt格式. 开始分词: 代码如下 import codecs import jieba infile = 'date_open_yuliao.txt' ##你需要分词的语料的文件名 outfile = 'data_open_yuliaochuli2.txt' ##分词完成后保存的文件名 jieba . load_userdict ( "data_open_dict.txt" ) ##用结巴加载你准备好的专用分词的词典 descsFile = codecs