豆瓣高分电影500部的信息爬取
第一步:明确需求 1. 分析数据来源的规律 2. 获取豆瓣高分电影的具体信息的访问链接 3. 利用具体信息的url 获取所有信息 4. 将2和3两张数据表连接成一张表格,并保存在Excel中 第二步:分析数据存储路径 豆瓣高分电影存储位置: 源访问链接: url = ' https://movie.douban.com/ explore#! type=movie&tag=%E8%B1%86%E7%93%A3%E9%AB%98%E5%88%86&sort=recommend&page_limit=20&page_start=0 ' 通过此链接寻找到数据加载链接: url = 'https://movie.douban.com /j/search_subjects? type=movie&tag=%E8%B1%86%E7%93%A3%E9%AB%98%E5%88%86&sort=recommend&page_limit=20&page_start=0' 发现通过改变page_limit=xxxx可以获取更多信息,当page_limit=500时电影数量不在增加。 因此可以通过这个url获取所有高分电影的电影名和访问链接: 1 # 访问链接 2 url = 'https://movie.douban.com/j/search_subjects?type=movie&tag=%E8%B1