Python文本数据分析——新闻分类任务
逆文档频率(Inverse Document Frequency缩写为IDF) 如果某个词比较少,但是它在这篇文章中多次出现,那么它可能就反映了这篇文章的特性正是我们需要的关键词 词频(TF)=某个词在文章中的出现次数 / 该文出现次数最多的词出现的次数 逆文档频率(IDF)=log(语料库的文档总数 / 包含该词的文档数+1) TF-IDF:关键词提取 TF-IDF=词频(TF)X 逆文档频率(IDF) 数据源: http://www.sogou.com/labs/resource/ca.php import pandas as pd import jieba df_news=pd.read_table('data/val.txt',names=['category','theme','URL','content'],encoding='utf-8') df_news=df_news.dropna() print(df_news.head()) 分词:使用结巴分词器 content=df_news.content.values.tolist() print(content[1000]) content_S=[] for line in content: current_segment=jieba.lcut(line) if len(current_segment)>1 and