jieba、NLTK学习笔记
中文分词 - jieba import re import jieba news_CN = ''' 央视315晚会曝光湖北省知名的神丹牌、莲田牌“土鸡蛋”实为普通鸡蛋冒充,同时在商标上玩猫腻, 分别注册“鲜土”、注册“好土”商标,让消费者误以为是“土鸡蛋”。3月15日晚间,新京报记者就此 事致电湖北神丹健康食品有限公司方面,其工作人员表示不知情,需要了解清楚情况,截至发稿暂未 取得最新回应。新京报记者还查询发现,湖北神丹健康食品有限公司为农业产业化国家重点龙头企 业、高新技术企业,此前曾因涉嫌虚假宣传“中国最大的蛋品企业”而被罚6万元。 ''' string = re.sub('[^\w]', '', news_CN) #使用正则去符号,之后都是用这个str字符串 seg_list = jieba.cut(string, cut_all=False) #精确模式 print('/'.join(seg_list)) ''' path = '' file=open(path,'r') jieba.load_userdict(file) file.close() ''' jieba.load_userdict(['神丹牌','莲花牌','土鸡蛋','新京报']) #载入字典 seg_list = jieba.cut(string, cut_all=False) #精确模式 str