信息化领域热词分类分析及解释实战
一、 (1) 项目名称:信息化领域热词分类分析及解释 (2) 功能设计: 数据采集:要求从定期自动从网络中爬取信息领域的相关热 词; 数据清洗:对热词信息进行数据清洗,并采用自动分类技术 生成信息领域热词目录,; 热词解释:针对每个热词名词自动添加中文解释(参照百度 百科或维基百科) 热词引用:并对近期引用热词的文章或新闻进行标记,生成 超链接目录,用户可以点击访问; 数据可视化展示: ① 用字符云或热词图进行可视化展示; ② 用关系图标识热词之间的紧密程度。 首先我爬取热词的地址是博客园:https://news.cnblogs.com/n/recommend python代码: import requests import re import xlwt url = 'https://news.cnblogs.com/n/recommend' headers = { "user-agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.90 Safari/537.36" } def get_page(url): try: response = requests.get(url, headers=headers) if response