python图像处理:pytesseract和PIL
大概介绍下相关模块的概念 : Python-tesseract 是光学字符识别Tesseract OCR引擎的Python封装类。能够读取任何常规的图片文件(JPG, GIF ,PNG , TIFF等)并解码成可读的语言。在OCR处理期间不会创建任何临文件 PIL (Python Imaging Library)是 Python 中最常用的图像处理库,目前版本为 1.1.7,我们可以 在这里 下载学习和查找资料。 Image 类是 PIL 库中一个非常重要的类,通过这个类来创建实例可以有直接载入图像文件,读取处理过的图像和通过抓取的方法得到的图像这三种方法。 python对图像的处理比较常见的是用pytesseract识别验证码,要安装pytesseract库,必须先安装其依赖的PIL及tesseract-ocr,其中PIL为图像处理库,而后面的tesseract-ocr则为google的ocr识别引擎。 下载链接:http://www.waitalone.cn/python-php-ocr.html 该链接文档描述了如何配置相关环境,以及识别验证码的python代码,总结起来就三步:安装PIL.exe;安装 tesseract-ocr-setup .exe;安装pip install pytesseract 1、识别图片简单的示例 1 import Image 2 import