python 爬虫&爬取豆瓣电影top250
爬取豆瓣电影top250from urllib.request import * #导入所有的request,urllib相当于一个文件夹,用到它里面的方法requestfrom lxml import etree #调用包import pickle #import timearr = [] #定义一个空数组,用来添加爬出的数据url = "https://movie.douban.com/top250?start=" #豆瓣top250网址urls = [ url+str(i) for i in range(0,250,25)] #每次步进值25,总共250个,爬取十次def aa(link): #定义一个函数aa time.sleep(1) #间隔一秒 print("正在爬取:%s"%link) #提示信息可以实时看到爬取信息 with urlopen(link) as html: #在html中打开爬取的数据 text = html.read().decode("utf-8")# 读取并且解码数据 doc = etree.HTML(text) #解析html etree这是lxml中的方法 #分别爬取电影名字titles、详细信息news、评分grade、最佳评论comment、网址links titles = doc.xpath("//ol[@class='grid