电影排行榜

python爬取豆瓣电影排行榜前250名

五迷三道 提交于 2019-11-30 13:35:38
爬取豆瓣电影排行榜 选择页面 首先,我们打开豆瓣的电影排行榜的页面。网页链接: 双击跳转 2. 页面分析 接下来,我们要在这个页面提取每一部电影的详情节链接,总页码数,每一部电影的短评。 我们先来提取电影详情页的链接。 # 获取豆瓣top250每个页面下的电影豆瓣链接列表 movies_link_list = html.xpath('//li//div[@class="info"]/div[@class="hd"]/a/@href') 提取导航页的每一部电影的短评。 `# 获取每个页面下的电影的代表影评 movies_quote_list = html.xpath('//p[@class="quote"]/span[@class="inq"]/text()')` 提取电影排行榜的总页数 `total_page_num = int(html.xpath('string(//span[@class="next"]/preceding-sibling::a[1])'))` 下面,我们提取每一部电影的详细信息。 我们提取的信息包括上图中的电影排名、名称、链接、评分、评价人数以及各个星级的评价人数,还有电影的导演,编剧、主演、类型、制片国家/地区、语言、上映日期、片长、又名和IMDb链接。代码如下: # 获取电影排名 movie_rank = r'电影排名:{}'.format(html