Python爬虫 获取豆瓣电影信息
使用requests,lxml模块获取豆瓣电影所有分类下的电影(电影标题,演员,评分,链接,类型等信息) 获取主页面内容(url:https://movie.douban.com/chart) 将主页url并传给get_content函数,使用xpath获取到所有类型的url 使用正则提取每个url里的type_name,type参数(因为每个类型的详情页是ajax请求),用于拼接ajax请求地址 每个类型的ajax分页处理,返回json数据 从json数据中提取需要的字段信息 下面是源码 import requests , json , re from lxml import etree from urllib import parse def get_conent ( url , headers ) : ''' :param url: 请求url :param headers: :return: python的list或者字典 ''' response = requests . get ( url , headers = headers ) return response . text def parse_json ( json_data ) : item = { } for data in json_data : rating = data [ 'rating' ] imag