Python高级应用程序设计
一、主题式网络爬虫设计方案(15分) 1.主题式网络爬虫名称 爬取酷安网应用信息 2.主题式网络爬虫爬取的内容与数据特征分析 对酷安网 应用名,每日推荐应用,下载数,应用分类进行爬取 3.主题式网络爬虫设计方案概述(包括实现思路与技术难点) 用requests库进行页面爬取 用BeautifulSoup4库进行数据清洗 用pandas和numpy库进行数据可视化 用xlwt库进行数据存储 二、主题页面的结构特征分析(15分) 1.主题页面的结构特征 apk为应用页面 2.Htmls页面解析 3.节点(标签)查找方法与遍历方法 def getTitle(html): # 创建对象 soup = BeautifulSoup(html, "html.parser") #find_all()方法遍历所有p标签中名为ist_app_title的标签 a = soup.find_all("p","list_app_title") return a 使用find_all()方法将从网页解析出的特定标签进行查找。 (必要时画出节点树结构) 三、网络爬虫程序设计(60分) 爬虫程序主体要包括以下各部分,要附源代码及较详细注释,并在每部分程序后面提供输出结果的截图。 1.数据爬取与采集 def getHTMLText(): try: #获取爬取url r = requests.get(url=