Leptonica

Win10 + vs2017 编译并配置tesseract4.1.0

痞子三分冷 提交于 2021-02-16 08:54:15
  tesseract 是一个开源的OCR (Optical Character Recognition , 光学字符识别) 引擎,本文就介绍一下自己在编译 tesseract4.1.0时遇到的一些坑,希望能给大家带来一些帮助。 一、下载 tesseract   tesseract 是一个开源项目,可以在 GitHub 上下载源码: https://github.com/tesseract-ocr/tesseract/releases/   当然,也可以下载安装版的: https://github.com/UB-Mannheim/tesseract/wiki   安装版的下载完后直接安装,然后配置环境变量(这个后面会讲到)即可使用。这个方法笔者也尝试过,但是很遗憾,没能在 vs 上找到相关的库文件,也就是不能在 vs 中调用 tesseract 相关的函数方法,只能在控制台上使用,这就比较蛋疼了,暂时在网上也没找到相关的方法,所以只能下个源码包自己编译配置了,折腾了一天才搞定,不得不吐槽一下在 Windows 上想自己编译一个东西真是麻烦。 二、所需要用到的工具   在 Windows 上编译 tesseract 主要需要用到两个工具:cmake和 cppan。 2.1 cmake   cmake 是一个跨平台的编译工具 ,可以使用 cmake 在 Windows

基于OpenVINO的端到端DL网络-Tesseract5+VS2017+win10源码编译攻略

[亡魂溺海] 提交于 2021-02-09 09:04:36
一,记录我目前在win10 X64和VS2017的环境下成功编译Tesseract5.0的方式; 二,记录在VS2017 C++工程中调用 Tesseract4.0 的方法; 三,记录编译和调用 Tesseract4.0过程 中踩到的坑和相应的解决方案或看法。 最终结果: 识别为: ======================================================================================================================= 一、资料准备 1 下载 最新的CPPAN版本。解压缩后,将cppan.exe所在的路径添加到系统变量中; CPPAN是跨平台的C / C++ 依赖管理器。它建立在 CMake 的基础之上,并具有构建系统的能力。CPPAN 支持快速的脚本式编码和原型制作,以及处理大型项目。查找,共享和重用库,发布您的项目。把时间花在你的代码上,而不是管理依赖关系。CPPAN为您降低包时间到几秒钟!它支持简单的交叉编译,继承和推送你自己的设置,标志到每个依赖。 链接为 https://cppan.org/client/ 编译过程中相应的支持库是由cppan下载的,我们需要下载cppan并设置其环境变量 解压后 在系统变量里面选择PATH变量,将cppan

docker中基于centos7.3搭建tesseract5环境以及制作镜像

北战南征 提交于 2020-08-12 04:51:05
  由于需要离线安装tesseract,于是想到用docker镜像的方式部署tesseract。采用 docker commit 基于容器构建镜像。   总体思路是先拉一个基础的centos镜像,然后启动之后进入容器安装好tesseract之后commit为镜像。然后镜像save为tar包。这样就可以实现离线安装。(这也可以作为常见的一种制作自己的镜像的思路)   其实linux环境安装tesseract也是下面步骤,只是不用下载一个基础的centos镜像以及最后将容器制作为镜像。 0.准备文件 (1)tesseract源码文件: git下载地址: https://github.com/tesseract-ocr/tesseract (2)leptonica-1.79.0.tar.gz。 tesseract依赖该项目 (3)语言包 其实只需要 chi_sim.traineddata 和 eng.traineddata 可以从git下载。git有两个版本,一个fast版本、一个best版本。 fast: https://github.com/tesseract-ocr/tessdata_fast best: https://github.com/tesseract-ocr/tessdata_best   这两个的区别是fast版本语言库文件比较小,识别速度比较快

Linux(CentOS)下安装tesseract-ocr以及配置依赖leptonica

混江龙づ霸主 提交于 2020-08-10 15:33:01
下载 wget https://github.com/tesseract-ocr/tesseract/archive/4.1.0.tar.gz wget http://www.leptonica.org/source/leptonica-1.74.4.tar.gz 安装依赖: yum install autoconf automake libtool libjpeg-devel libpng-devel libtiff-devel zlib-devel 安装leptonica tar -xzvf leptonica-1.74.4.tar.gz cd leptonica-1.74.4.tar.gz ./configure --profix=/usr/local/leptonica make sudo make install 很多其他教程到这一步就直接开始安装 tesseract,实际上如果你照着教程走的话,再 configure 的时候就会报错:找不到 leptonica。所以我们要先配置一下 leptonica 的环境变量。 打开 /etc/profile vim /etc/profile 添加以下字段 PKG_CONFIG_PATH=$PKG_CONFIG_PATH:/usr/local/leptonica/lib/pkgconfig export PKG_CONFIG

Unable to load library 'tesseract': libtesseract.so: cannot open shared object file: No such file or directory

此生再无相见时 提交于 2020-05-25 07:16:46
问题 I've had tesseract and Tess4J running on my MBP for a while now. Today I started to migrate my app to the server and started installing everything on the server. Prior to running Tess4J in tomcat I tried to run a simple java program to make sure everything is fine and dandy. It's not... I'm on a centOS 64bit server I've installed tesseract and its working fine - tesseract myimage.jpg mytext produces data However, running my simple class that useses Tess4j produces this error: Exception in

Unable to load library 'tesseract': libtesseract.so: cannot open shared object file: No such file or directory

泄露秘密 提交于 2020-05-25 07:16:25
问题 I've had tesseract and Tess4J running on my MBP for a while now. Today I started to migrate my app to the server and started installing everything on the server. Prior to running Tess4J in tomcat I tried to run a simple java program to make sure everything is fine and dandy. It's not... I'm on a centOS 64bit server I've installed tesseract and its working fine - tesseract myimage.jpg mytext produces data However, running my simple class that useses Tess4j produces this error: Exception in

Tess4J -4.0.2- Linux 实践 [解决:Tess4J

陌路散爱 提交于 2020-05-02 18:22:44
【本文编写于2018年7月5日】 Tess4J是Tesseract的Java JNA wrapper。本文介绍了在CentOS 7 操作系统中使用Tess4J的步骤及注意事项。在正式开始之前,先花一点篇幅,对相关的技术作一简要介绍。 一点点背景 Tesseract Tesseract 是一个著名的开源OCR引擎,支持100多种语言,可以开箱即用。还可以通过训练方式支持更多语言。Tesseract诞生于1984年,来自HP公司,2005年开源。自2006年起,由谷歌接手开发。截止目前,最新的稳定版本是2017年6月1日发布的3.05.01。还有一只比较活跃的基于LSTM(长短期记忆网络,是一种时间递归神经网络)的4.0版本,还在研发中,最新释放的是2018年6月26日的4.0.0-beta.3。Tesseract由C++开发。 站点: https://github.com/tesseract-ocr/tesseract Leptonica Tesseract作为OCR引擎,避免不了使用图像处理。Tesseract使用的图像处理主要由leptonica提供。Leptonica 包含众多图像处理和图像分析相关的功能。 站点: http://www.leptonica.com/ Java JNA Wrapper JNA 是 Java Native Access的缩写,顾名思义

linux (centos7)上装Tesseract-OCR最新版本(5.0)

拟墨画扇 提交于 2020-05-02 16:15:19
由于在服务器上安装tesseract yum只能拉到3.X版本 而测试来看4.0以上版本识别效果比3.x要好很多。于是只能通过编译代码形式安装最新版了 首先在机器上找个目录 打开官方git https://github.com/tesseract-ocr 打到4.1分支 我们在服务器上找个目录 git clone https://github.com/tesseract-ocr/tesseract.git 如果新机器就随手安装上工具包 yum install gtk2-devel yasm glibc.i686 libstdc++.so. 6 libgtk-x11- 2.0 .so libatk- 1.0 .so. 0 libcairo.so. 2 libcups.so. 2 libgdk-x11- 2.0 .so. 0 libgdk_pixbuf- 2.0 .so. 0 libgtk-x11- 2.0 .so. 0 libpango- 1.0 .so. 0 libpangocairo- 1.0 .so. 0 libICE.so. 6 libSM.so. 6 libmng.so. 1 libpng12.so. 0 libGLU.so. 1 -y 安装开发工具 yum groupinstall " Development Tools " 安装leptonica1.7(4

Convert a windows BITMAP to a PIX (unsigned char buffer)

混江龙づ霸主 提交于 2020-01-16 19:08:32
问题 I'm taking a screenshot of a window in order to proccess it with Leptonica and later do some OCR with Tesseract The problem is, performance wise I would like to avoid writing and reading the BMP to the disc and just work in memory instead. This is how I make the screenshot: int width, height = 0; HDC hdcWindow; HDC hdcMemDC = NULL; HBITMAP hbmScreen = NULL; BITMAP bmpScreen; // Retrieve the handle to a display device context for the client // area of the window. //hdcScreen = GetDC(NULL); /

visual studio 2015 and tesseract 3.05 on x64

家住魔仙堡 提交于 2020-01-01 19:14:11
问题 well i really need help here. my problem is how can i add tesseract 3.05 and leptonica 1.73 libraries to visual studio 2015 x64 (windows 10). i manage to do that last summer with visual studio 2013 and the older version of leptonica and tesseract because it was kinda easy and all includes and lib was there i just had to give the path and download some dll. but now i couldn't even see the right include and lib that i should use. well i'm not pro in those things so please if anyone can help me