文本分析
概述: 本文演示了jieba中文分词组件、sklearn等库的使用,包括 新闻中停止词的剔除演示 提取新闻的关键词 词频统计 词云图绘制 对新闻进行向量化 使用朴素贝叶斯算法进行新闻分类 使用贝叶斯模型进行新闻分类(原理涉及到编辑距离、朴素贝叶斯算法) jieba 是目前最好的 Python 中文分词组件,它主要有以下 3 种特性 支持 3 种分词模式:精确模式、全模式、搜索引擎模式 支持繁体分词 支持自定义词典 import pandas as pd import jieba #pip install jieba 数据源:http://www.sogou.com/labs/resource/ca.php df_news = pd . read_csv ( './data/val.txt' , sep = '\t' , names = [ 'category' , 'theme' , 'URL' , 'content' ] , encoding = 'utf-8' ) df_news = df_news . dropna ( ) df_news . head ( ) category theme URL content 0 汽车 新辉腾 4.2 V84座加长Individual版2011款 最新报价 http://auto.data.people.com.cn/model