部分网站反爬策略较严,一般的爬虫程序不能及时采集数据。如果进行网站反爬策略分析,需要研发投入大量的时间和精力,因此使用Selenium模拟用户浏览器进行数据访问,快速实现数据采集是较好的方案。 但是Selenium爬虫在实际的部署中,需要规避一些常见的问题,才能实现稳定持续的数据采集,包括: 1、开发模式 设置为开发者模式,防止被各大网站识别出来使用了Selenium from selenium.webdriver import ChromeOptions option = ChromeOptions() option.add_experimental_option('excludeSwitches', ['enable-automation'])#开启实验性功能 browser=webdriver.Chrome(options=option) # 修改get方法 script = ''' Object.defineProperty(navigator, 'webdriver', { get: () => undefined }) ''' browser.execute_cdp_cmd("Page.addScriptToEvaluateOnNewDocument", {"source": script}) 2、登录生成Cookie 如果版本不符合,会导致运行失败