耐克公司 | 易学教程

耐克公司

文本分析

阅读更多关于文本分析

概述：本文演示了jieba中文分词组件、sklearn等库的使用，包括新闻中停止词的剔除演示提取新闻的关键词词频统计词云图绘制对新闻进行向量化使用朴素贝叶斯算法进行新闻分类使用贝叶斯模型进行新闻分类（原理涉及到编辑距离、朴素贝叶斯算法） jieba 是目前最好的 Python 中文分词组件，它主要有以下 3 种特性支持 3 种分词模式：精确模式、全模式、搜索引擎模式支持繁体分词支持自定义词典 import pandas as pd import jieba #pip install jieba 数据源：http://www.sogou.com/labs/resource/ca.php df_news = pd . read_csv ( './data/val.txt' , sep = '\t' , names = [ 'category' , 'theme' , 'URL' , 'content' ] , encoding = 'utf-8' ) df_news = df_news . dropna ( ) df_news . head ( ) category theme URL content 0 汽车新辉腾　４．２　Ｖ８４座加长Ｉｎｄｉｖｉｄｕａｌ版２０１１款　最新报价 http://auto.data.people.com.cn/model

订阅耐克公司