网络数据分析和可视化
##1 项目描述## 以 豆瓣电影 上提供的电影数据为例,完整地展示网络数据从获取、处理到分析、可视化这一过程,纯当练手,也为感兴趣的小伙伴提供相关的技术介绍。项目代码托管在 Github 上,可视化网站请访问 这里 。 ##2 数据获取## 用python写爬虫, Scrapy 和 urllib2 都是比较好的选择,由于我对功能的要求比较简单,故选择后者即可。 在豆瓣电影上通过Chrome开发工具找到数据请求API,接下来就可以写代码爬一些电影数据了,我使用的是这两个API: http://movie.douban.com/j/search_tags?type=movie http://movie.douban.com/j/search_subjects?type=movie&tag=爱情&page_limit=20&page_start=0 第一个API是获取所有电影的分类即tag,第二个是请求某个tag下偏移为page_start的page_limit条电影数据,包括电影的标题、url、评分等信息。 有了电影的url,再次爬取该页面对应的html内容, 然后用 Beautiful Soup 解析出想要的字段就好了。最终一共获取了4587条电影记录,每条记录包含以下15个字段:电影ID、标题、链接、缩略图、评分、导演、编剧、演员、分类、上映国家、语言、上映时间、时长、别名和简介