Python XPath抓取小说《三国演义》 《二》
昨天的代码 可以达到爬虫的目的 但是效果不理想,容易中断, 今天做了改进 增加写入文本,判断是否创建多层文件夹,增加了随机headers 可以多爬一些内容 不过还是会中断... from lxml import etree import requests import time import os import random def getHeaders(): #随机获取一个headers user_agents = ['Mozilla/5.0 (Windows NT 6.1; rv:2.0.1) Gecko/20100101 Firefox/4.0.1', 'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50', 'Opera/9.80 (Windows NT 6.1; U; en) Presto/2.8.131 Version/11.11', 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36', 'Mozilla/5.0 (Windows NT