07 信息化领域热词分类分析及解释 第一步爬取博客园推荐新闻内容
功能要求为:1,数据采集,定期从网络中爬取信息领域的相关热词 2,数据清洗:对热词信息进行数据清洗,并采用自动分类技术生成自动分类计数生成信息领域热词目录。 3,热词解释:针对每个热词名词自动添加中文解释(参照百度百科或维基百科) 4,热词引用:并对近期引用热词的文章或新闻进行标记,生成超链接目录,用户可以点击访问; 5,数据可视化展示:① 用字符云或热词图进行可视化展示;② 用关系图标识热词之间的紧密程度。 6,数据报告:可将所有热词目录和名词解释生成 WORD 版报告形式导出。 本次完成第一步的部分功能,爬取博客园的推荐新闻的标题和内容到文本中, 思路:通过观察发现页与页之间的规律 通过改变page来改变页面链接。又发现 图中的href即为对应的新闻详细内容的网页链接的地址 于是再循环爬取对应的href链接获取文章的具体地址。具体代码如下 import requests from lxml import etree import time import pymysql import datetime import urllib import json def getDetail(href, title): #print(href) print(title) head={ 'cookie':'_ga=GA1