爬虫 1
1. 使用requests 、urllib构建简单爬虫代码 """ 爬取 唯美女生 网站图片 """ import requests import re import os import time # 1. 请求网页 myheaders = { ' User-Agent ' : ' Mozilla/5.0 ' } # url = "http://pic.netbian.com" url = ' http://pic.netbian.com/4kmeinv ' response = requests.get(url, headers= myheaders) # 2. 处理响应数据, 正则匹配 html = response.text img_urls = re.findall( ' <img src="(.*?)" alt=".*?"> ' , html) print (img_urls) # 3. 下载图片 if not os.path.exists( ' 彼岸图片 ' ): os.mkdir( ' 彼岸图片 ' ) for img_url in img_urls: time.sleep( 1 ) img_name = img_url.split( ' / ' )[-1 ] response = requests.get((url + img_url), headers=