tesseract

图片文字OCR识别-tesseract-ocr

放肆的年华 提交于 2020-05-02 18:23:39
  帮助文件: https://github.com/tesseract-ocr/tesseract/blob/master/doc/tesseract.1.asc   下载地址: https://github.com/tesseract-ocr/tesseract/wiki   如何使用提供的工具来训练Tesseract 4.00: https://github.com/tesseract-ocr/tesseract/wiki/TrainingTesseract-4.00   1、介绍     图片文字的OCR识别有一款开源原件tesseract-ocr,最初是在linux上,当然现在也有windows版本,现在发展到4.0版本。   2、下载tesseract-ocr     下载地址: https://github.com/tesseract-ocr/tesseract/wiki     里面有linux版本、macOS版本还有windows版本     下面下载windows版本,如下图:          点击上面的链接,进入          下载完成        3、安装,设置环境变量     双击上的exe,进行安装                                        安装完后打开软件坐在目录,这里我选择的是默认目录C:\Program

Tess4J -4.0.2- Linux 实践 [解决:Tess4J

陌路散爱 提交于 2020-05-02 18:22:44
【本文编写于2018年7月5日】 Tess4J是Tesseract的Java JNA wrapper。本文介绍了在CentOS 7 操作系统中使用Tess4J的步骤及注意事项。在正式开始之前,先花一点篇幅,对相关的技术作一简要介绍。 一点点背景 Tesseract Tesseract 是一个著名的开源OCR引擎,支持100多种语言,可以开箱即用。还可以通过训练方式支持更多语言。Tesseract诞生于1984年,来自HP公司,2005年开源。自2006年起,由谷歌接手开发。截止目前,最新的稳定版本是2017年6月1日发布的3.05.01。还有一只比较活跃的基于LSTM(长短期记忆网络,是一种时间递归神经网络)的4.0版本,还在研发中,最新释放的是2018年6月26日的4.0.0-beta.3。Tesseract由C++开发。 站点: https://github.com/tesseract-ocr/tesseract Leptonica Tesseract作为OCR引擎,避免不了使用图像处理。Tesseract使用的图像处理主要由leptonica提供。Leptonica 包含众多图像处理和图像分析相关的功能。 站点: http://www.leptonica.com/ Java JNA Wrapper JNA 是 Java Native Access的缩写,顾名思义

linux (centos7)上装Tesseract-OCR最新版本(5.0)

拟墨画扇 提交于 2020-05-02 16:15:19
由于在服务器上安装tesseract yum只能拉到3.X版本 而测试来看4.0以上版本识别效果比3.x要好很多。于是只能通过编译代码形式安装最新版了 首先在机器上找个目录 打开官方git https://github.com/tesseract-ocr 打到4.1分支 我们在服务器上找个目录 git clone https://github.com/tesseract-ocr/tesseract.git 如果新机器就随手安装上工具包 yum install gtk2-devel yasm glibc.i686 libstdc++.so. 6 libgtk-x11- 2.0 .so libatk- 1.0 .so. 0 libcairo.so. 2 libcups.so. 2 libgdk-x11- 2.0 .so. 0 libgdk_pixbuf- 2.0 .so. 0 libgtk-x11- 2.0 .so. 0 libpango- 1.0 .so. 0 libpangocairo- 1.0 .so. 0 libICE.so. 6 libSM.so. 6 libmng.so. 1 libpng12.so. 0 libGLU.so. 1 -y 安装开发工具 yum groupinstall " Development Tools " 安装leptonica1.7(4

pytesseract Failed loading language \'eng\'

馋奶兔 提交于 2020-04-17 19:11:29
问题 I've seen a lot of other people getting this error, and I've tried a lot of different things to fix it. Nothing so far has worked. I have: Added the path to my Tesseract-OCR folder AND the tesseract.exe file to PATH Added an environment variable called TESSDATA_PREFIX which leads to the Tesseract-OCR folder Replaced the eng.traneddata file a couple times Added pytesseract.pytesseract.tesseract_cmd = r"C:\Program Files (x86)\Tesseract-OCR\tesseract.exe" to the program Tried running JUST the

Python验证码通过pytesser识别

▼魔方 西西 提交于 2020-04-08 07:53:19
Python安装包: 需要安装的包主要有两个: PIL 和 pytesser 、 tesseract (1)、安装PIL:下载地址:http://www.pythonware.com/products/pil/ 下载后是一个exe程序,直接双击安装 (2)、pytesser:下载地址:http://code.google.com/p/pytesser/ pytesser 模块的安装: 下载后得到 “pytesser.zip”,是一个压缩文件,使用方法: 1、在 “C:\Python27\Lib\site-packages” 路径下新建一个文件夹,命名 “pytesser” 。把 “pytesser.zip” 里的文件解压到该目录: 2、将 “pytesser.py” 改名为 “__init__.py”。 3、打开 “__init__.py” 文件,修改:tesseract_exe_name = 'C:\\Python27\\Lib\\site-packages\\pytesser\\tesseract' # Name of executable to be called at command line 4、pytesser 模块依赖于 PIL 模块,如果是按照上面的方法安装 PIL 的话,需要把 “init.py” 文件里的 “import Image” 改成 “from PIL

安装Treserocr遇到的问题

半城伤御伤魂 提交于 2020-04-08 07:46:48
相关链接: tesseract下载地址: http://digi.bib.uni-mannheim.de/tesseract 一、出现的问题 1.点击进去    进行下载 注意:其中文件名中带有dev的为开发版本,不带dev的为稳定版本,可以选择下载不带dev的版本,例如可以选择下载tesseract-ocr-setup-3.05.01.exe 。 2.下载完成后,会出现1-25这个页面    此时可以勾选Additional language data(download)选项来安装OCR识别支持的语言包,这样OCR便可以识别多国语言。然后一路点击Next按钮即可。 3.安装之后,直接使用pip在命令指示符里输入   pip install tesserocr pillow 提示有问题    二、相关解决 相关链接:https://digi.bib.uni-mannheim.de/tesseract/ 1.点击后,下载所需文件:tesserocr-2.2.2-cp36-cp36m-win_amd64.whl    2.安装之后看到对应的文件     3.在命令指示符(cdm)中输入:     pip install tesserocr-2.2.2-cp36-cp36m-win_amd64.whl 出现了这个错误:      告诉了我们,应该讲该文件放在对应的路径下 4

(-215:Assertion failed) !_src.empty() in function 'cv::cvtColor'

穿精又带淫゛_ 提交于 2020-04-06 08:49:15
问题 I am trying to recognize text from an image to then have the text outputted; however, this error spits out: Traceback (most recent call last): File "C:/Users/Benji's Beast/AppData/Local/Programs/Python/Python37-32/imageDet.py", line 41, in print(get_string(src_path + "cont.jpg") ) File "C:/Users/Benji's Beast/AppData/Local/Programs/Python/Python37-32/imageDet.py", line 15, in get_string img = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY) cv2.error: OpenCV(3.4.4) C:\projects\opencv-python\opencv

使用Tensorflow Object Detection API对集装箱号进行OCR识别

放肆的年华 提交于 2020-03-27 17:39:12
3 月,跳不动了?>>> 玄念 两年多之前我在“ex公司”的时候,有一个明确的项目需求是集装箱识别并计数,然后通过OCR识别出之前计数的每一个集装箱号,与其余业务系统的数据进行交换,以实现特定的整体需求。当时正好Tensorflow Object Detection API 发布了,就放弃了YOLO或者SSD的选项,考虑用TF实现Demo做POC验证了。 背景 之前也并未接触过Deep Learning相关的事情,为了验证这个需求可以实现并满足交付要求,从入门到了解到选择到学习到准备图片并标注到完成基本的Python Demo验证一个人前后差不多用了2个月时间(那时候用的还是12年中的MacBook Air),验证完成后,交给了C++和C#的小伙伴们去实现。在这个过程中感受到了Deep Learning的魅力与强大以及对于未来的无限可能,就带着我的研发小伙伴们走向这条路前进了,人脸、语音这些都尝试了,也都嵌入了已有都产品中,也不会因为只有第三方算法而各种踩坑了。 最近重装了Mac,重写个Demo验证下Inteld对于CPU的DL支持有多大改善,说实话,代码不重要,一点不复杂,我更想借这个Demo说一下做AI技术工程化落地的思考方法和实现过程。 问题分析 1、明确要具体解决的问题 这个需求有两个关键点,主要应用场景是在只有单摄像头监控的位置,实现集装箱装卸过程中:如何准确识别集装箱

python3使用Pillow、tesseract-ocr与pytesseract模块的图片识别的方法

戏子无情 提交于 2020-03-12 01:49:23
这篇文章主要介绍了python3使用Pillow、tesseract-ocr与pytesseract模块的图片识别的方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧 1.安装Pillow pip install Pillow 2.安装tesseract-ocr github地址: https://github.com/tesseract-ocr/tesseract 或本地下载地址:https://www.jb51.net/softs/538925.html windows: The latest installer can be downloaded here: tesseract-ocr-setup-3.05.01.exe and tesseract-ocr-setup-4.00.00dev.exe (experimental). ubuntu: sudo apt-get install tesseract-ocr traineddata文件路径: /usr/share/tesseract-ocr/tessdata/ 3.安装pytesseract pip install pytesseract 如不能使用pip直接安装可取搜索模块文件直接安装 遇到问题及解决: 1.FileNotFoundError:

浅谈OCR之Tesseract

别等时光非礼了梦想. 提交于 2020-03-08 15:04:26
光 学字符识别(OCR,Optical Character Recognition)是指对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程。OCR技术非常专业,一般多是印刷、打印行业 的从业人员使用,可以快速的将纸质资料转换为电子资料。关于中文OCR,目前国内水平较高的有清华文通、汉王、尚书,其产品各有千秋,价格不菲。国外 OCR发展较早,像一些大公司,如IBM、微软、HP等,即使没有推出单独的OCR产品,但是他们的研发团队早已掌握核心技术,将OCR功能植入了自身的 软件系统。对于我们程序员来说,一般用不到那么高级的,主要在开发中能够集成基本的OCR功能就可以了。这两天我查找了很多免费OCR软件、类库,特地整 理一下,今天首先来谈谈Tesseract,下一次将讨论下Onenote 2010中的OCR API实现。可以在 这里 查看OCR技术的发展简史。 测试代码下载 转载请注明出处: http://www.cnblogs.com/brooks-dotnet/archive/2010/10/05/1844203.html 1、Tesseract概述 Tesseract的OCR引擎最先由HP实验室于1985年开始研发,至1995年时已经成为OCR业内最准确的三款识别引擎之一。然而,HP不久便决定放弃OCR业务,Tesseract也从此尘封。 数年以后,HP意识到