python--spider验证码
目前,许多网站采取各种各样的措施来反爬虫,其中一个措施就是使用验证码。 验证码的花样也越来越多,几个数字组合的简单的图形验证码,英文字母和混淆曲线相结合的方式。大概包括: 普通图形验证码 极验滑动验证码 点触验证码 微博宫格验证码 接下里我们来具体了解一下。 1 图形验证码 图形验证码是最早出现也是最简单的一种验证码,一般由 4 位字母或者数字组成。 本节我们用OCR技术来识别图形验证码。(Optical Character Recognition,光学字符识别,将图片、照片上的文字内容,直接转换为可编辑文本) 安装 tesserocr 库 1.1 获取验证码 我们找一张验证码图片,为方便测试,我们保存到本地。(注册知网的时候可以看到需要输入验证码:http://my.cnki.net/elibregister/) 打开开发者工具,找到验证码元素。它是一张图片,它的 src 属性是 CheckCode.aspx 。可通过(http://my.cnki.net/elibregister/CheckCode.aspx),直接看到验证码,右键保存即可。 1.2 识别测试 tesserocr.image_to_text() tesserocr.file_to_text() import tesserocr from PIL import Image image = Image.open(