pytesser

Pytesseract Improve OCR Accuracy

旧时模样 提交于 2021-02-10 14:17:44
问题 I want to extract the text from an image in python . In order to do that, I have chosen pytesseract . When I tried extracting the text from the image, the results weren't satisfactory. I also went through this and implemented all the techniques listed down. Yet, it doesn't seem to perform well. Image: Code: import pytesseract import cv2 import numpy as np img = cv2.imread('D:\\wordsimg.png') img = cv2.resize(img, None, fx=1.2, fy=1.2, interpolation=cv2.INTER_CUBIC) img = cv2.cvtColor(img, cv2

Increase Accuracy of text recognition through pytesseract & PIL

时光怂恿深爱的人放手 提交于 2021-02-05 20:30:33
问题 So I am trying to extract text from image. And as the quality and size of image is not good, it is giving inaccurate results. I tried few enhancements and other things with PIL but that is only worsening the quality of image. Can someone suggest some enhancement in image to get better results. Few Examples of images: 回答1: In the provided example of image the text is visually of quite good quality, so the question is how it comes that OCR gives inaccurate results? To illustrate the conclusions

NameError: name 'pytesseract' is not defined

那年仲夏 提交于 2021-01-29 02:29:47
问题 Pytesseract is not recognized. I have tried all fixes documented online, including adding Tesseract-OCR to my Path variables, incorporating the pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe' command path in my script, uninstalling and reinstalling pytesseract and tesseract. 回答1: In the line 23 vpnbookpassword = pytesseract.image_to_string(pwdi) there you have mentioned pytesseract.image_to_string but you have imported image_to_string from pytesseract

Pyhthon爬虫其之验证码识别

大兔子大兔子 提交于 2021-01-12 04:20:16
背景   现在的登录系统几乎都是带验证手段的,至于验证的手段也是五花八门,当然用的最多的还是验证码。不过纯粹验证码识已经是很落后的东西了,现在比较多见的是滑动验证,滑动拼图验证(这个还能往里面加广告)、点击图片特定位置确认(同样能放广告),再或者谷歌的No-CAPTCHA。总之纯粹的验证码效果不好,成本也不如一众新型验证码,迟早是要被全部淘汰的,但现在仍然有很多地方在使用传统的图片验证码。所以提到自动模拟登录,验证码识别肯定也是需要进行研究的。    思路   由于我此前并没有接触过验证码识别的相关知识,所以在开工前在网上查找了大量的资料,个人觉得对我最有帮助的三篇附在文章最后。   在翻阅了大量的博客、文章后我采用的识别方法为pytesser中的image_to_string函数。   起先是打算按照某篇文章的介绍,使用libSVM进行人工网络识别,但在完成了图片处理后,我发现使用pytesser进行识别的成功率已经达到了8成以上,便没有继续研究下去(因为我懒…)   验证码是别的流程大概是这样的:      1. 获取验证码图片 2. 二值化图片(使图片只有黑白两种像素) 3. 去噪、去干扰线 4. 修正扭曲、变形 5. 分割字符(视识别手段而定) 6. 识别   其中的去噪和修正并没有严格的先后顺序,怎么办效果好就怎么办。   由于我校教务处的验证码没有扭曲变形

批量识别图中文字自动命名,让你1秒找到骚图

有些话、适合烂在心里 提交于 2020-04-27 11:09:40
自从上次批量的保存了半佛老师的各种骚图之后: 我用Python一键保存了半佛老师所有的骚气表情包 ,每次做视频,找图就相当的费劲,因为图片太多,每次想要找到固定的图的话。就像大海捞针一样。因为上个版本的代码保存图片是截取部分图片链接进行命名的,所以名称是随机的。 所以今天我准备对这些图片重新命名。按照表情包中的文字来命名。所以我得找到能够识别图片中文字的方法。基础的方法的话,那就需要安装图像处理相关的库,像 pillow、pytesser3、Tesseract-OCR 等等库。用这些库识别图片中的文字的成功率不是很高,所有我准备调用一下第三方的一些库。我看了一下百度有个文字识别的API接口。我们需要在下面地址注册应用。 https://ai.baidu.com/tech/ocr 我们在文字识别里面去创建一个应用,选择图片文字识别。 通用文字识别接口一天有5万次免费调用次数,对我们保存的几千多张的图片来说,绰绰有余了。 创建成功之后返回应用列表,我们可以看到刚刚创建的应用,有三个重要的参数,我们等下会用到 AppID、API Key、Secret Key。 我们就可以调用百度的这个识别图片文字的API接口库。我们首先需要安装这个baidu-aip库。 pip install baidu-aip 使用这个文字识别接口挑了几张图测试下效果: 总结下: 1、gif图片不识别,只能识别静态图

批量识别图中文字自动命名,让你1秒找到骚图

回眸只為那壹抹淺笑 提交于 2020-04-27 02:34:41
自从上次批量的保存了半佛老师的各种骚图之后: 我用Python一键保存了半佛老师所有的骚气表情包 ,每次做视频,找图就相当的费劲,因为图片太多,每次想要找到固定的图的话。就像大海捞针一样。因为上个版本的代码保存图片是截取部分图片链接进行命名的,所以名称是随机的。 所以今天我准备对这些图片重新命名。按照表情包中的文字来命名。所以我得找到能够识别图片中文字的方法。基础的方法的话,那就需要安装图像处理相关的库,像 pillow、pytesser3、Tesseract-OCR 等等库。用这些库识别图片中的文字的成功率不是很高,所有我准备调用一下第三方的一些库。我看了一下百度有个文字识别的API接口。我们需要在下面地址注册应用。 https://ai.baidu.com/tech/ocr 我们在文字识别里面去创建一个应用,选择图片文字识别。 通用文字识别接口一天有5万次免费调用次数,对我们保存的几千多张的图片来说,绰绰有余了。 创建成功之后返回应用列表,我们可以看到刚刚创建的应用,有三个重要的参数,我们等下会用到 AppID、API Key、Secret Key。 我们就可以调用百度的这个识别图片文字的API接口库。我们首先需要安装这个baidu-aip库。 pip install baidu-aip 使用这个文字识别接口挑了几张图测试下效果: 总结下: 1、gif图片不识别,只能识别静态图

为什么这个程序被三个C ++编译器错误地拒绝了?

泪湿孤枕 提交于 2020-02-26 02:00:12
编写我编写的C ++程序时遇到一些困难。 这个程序非常简单,据我所知,它符合C ++标准中规定的所有规则。 我已经两次阅读整个ISO / IEC 14882:2003以确定。 该计划如下: 这是我尝试使用Visual C ++ 2010编译此程序时收到的输出: c:\dev>cl /nologo helloworld.png cl : Command line warning D9024 : unrecognized source file type 'helloworld.png', object file assumed helloworld.png : fatal error LNK1107: invalid or corrupt file: cannot read at 0x5172 沮丧,我尝试了g ++ 4.5.2,但同样无益: c:\dev>g++ helloworld.png helloworld.png: file not recognized: File format not recognized collect2: ld returned 1 exit status 我认为Clang(版本3.0主干127530)必须工作,因为它因其标准一致性而受到高度赞扬。 不幸的是,它甚至没有给我一个漂亮的,突出显示的错误消息: c:\dev>clang++

pytesseract and image.tif file

巧了我就是萌 提交于 2020-01-24 18:09:42
问题 I need to transcribe an image.tif with several pages to text using pytesseract. I have the next code: > From PIL import Image > Import pytesseract > Pytesseract.pytesseract.tesseract_cmd = 'C: / Program Files (x86) / Tesseract- > OCR / tesseract ' > Print (pytesseract.image_to_string (Image.open ('CAMARA.tif'), lang = "spa")) The problem is that only extract the firs page. How can i extract all of them? 回答1: I was able to fix the same problem by calling the method convert() as below image =

pytesseract and image.tif file

我们两清 提交于 2020-01-24 18:09:26
问题 I need to transcribe an image.tif with several pages to text using pytesseract. I have the next code: > From PIL import Image > Import pytesseract > Pytesseract.pytesseract.tesseract_cmd = 'C: / Program Files (x86) / Tesseract- > OCR / tesseract ' > Print (pytesseract.image_to_string (Image.open ('CAMARA.tif'), lang = "spa")) The problem is that only extract the firs page. How can i extract all of them? 回答1: I was able to fix the same problem by calling the method convert() as below image =

Python : OSError: [Errno 2] No such file or directory

老子叫甜甜 提交于 2020-01-02 01:37:07
问题 I am using pytesseract lib to extract text from image. This works fine when I am running code on localhost. But gives me above error when I deploy on openshift. Below is code what I have written so far. try: import Image except ImportError: from PIL import Image import pytesseract filePath = PATH_WHERE_FILE_IS_LOCATED # '/var/lib/openshift/555.../app-root/data/data/y.jpg' text = pytesseract.image_to_string(Image.open(filePath)) # this line produces error Traceback of above error is >>>