tesseract

猫眼的数字解密

心不动则不痛 提交于 2020-11-22 05:33:46
话不多说,直接干货走起: 看到了吗?字体加密了。那就找。。定位到加密字体的地方,然后看右边的styles,你是不是看到了与字体相关的名字—font-family,就是他,复制他然后源码里面全局搜索,你会看到如下东西: woff?就是这个字体文件。正则拿下来,接下来是正题 # 获取源码里面的字体加密源码 base_str = re.findall(r " base64,(.*?)\) " ,response.text)[0] 将base64编码的字体字符串解码成为二进制格式,写成.woff文件,再通过BytesIO 把一个二进制内存块当成一个文件来操作 def make_font_file(base64_string: str): # 将base64编码的字体字符串解码成为二进制格式 bin_data = base64.decodebytes(base64_string.encode()) with open( ' testotf.woff ' , ' wb ' ) as f: f.write(bin_data) return bin_data def convert_font_to_xml(bin_data): # BytesIO把一个二进制内存块当成一个文件来操作 font = TTFont(BytesIO(bin_data)) # 将解码字体保存为xml font

selenium+Python3.5获取验证码

二次信任 提交于 2020-11-21 12:22:58
其中PIL为Python Imaging Library,已经是Python平台事实上的图像处理标准库了。PIL功能非常强大,但API却非常简单易用。 PIL第三方库安装 pip install PIL Image 类是 PIL 库中一个非常重要的类,通过这个类来创建实例可以有直接载入图像文件,读取处理过的图像和通过抓取的方法得到的图像这三种方法。 python中PIL模块中有一个叫做ImageEnhance的类,该类专门用于图像的增强处理,不仅可以增强(或减弱)图像的亮度、对比度、色度,还可以用于增强图像的锐度。 环境:Windows7 64位、python3.5、selenium3.8 一、安装PIL 打开dos命令窗口,进入python安装目录C:\Python\Scripts,输入:pip install pillow 。如下图: 二、安装Tesseract Tesseract-OCR 下载地址 : http://jaist.dl.sourceforge.net/project/tesseract-ocr-alt/tesseract-ocr-setup-3.02.02.exe tessdata 目录存放的是语言字库文件,和在命令行界面中可能用到的参数所对应的文件. 这个安装程序默认包含了英文字库。 如果想能识别中文,可以到 http://code.google.com/p