Tesseract-OCR

文字识别引擎试用:tesseract-ocr

馋奶兔 提交于 2021-02-17 01:04:32
tesseract-ocr 是一 个OCR引擎,在1985年到1995年由HP实验室开发,后来由google开发并且开源,支持多平台,支持多达40种语言,其中包括中文,支持训练,tesseract-ocr是一个命令行程序,但是也提供多种语言的包装器,如.Net 、Python、Ruby、C、Java,方便集成到程序中使用。 命令行调用很简单: tesseract.exe <image> <outputName> [-l lang] [configs] <image>: 要识别的图片路径 <outputName>: 命令行模式下,tesseract会把识别出来的文字结果保存在一个文本文件中,outputName是该文件的名字,如果值为“lixin”,那么结果会保存在程序根目录下的lixin.txt文件中。 [-l lang]: 默认情况下自带了英文的字典,如果想识别中文或者其他语言,需要在下载相应的语言包,并存放在程序“/tessdata”目录下,例如我下载了一个简体中文包,文件名为“chi_sim.traineddata”,解压到“tessdata”目录下,然后该值为:“-l chi_sim”。 [configs]: 配置项。 调用的例子: tesseract.exe d:\test.jpg resultFile –l chi_sim 经过测试,英文的识别率还是比较高的

Centos5.5 安装Tesseract-OCR

。_饼干妹妹 提交于 2019-11-29 21:15:32
安装Tesseract-OCR 准备工作: 编译环境: gcc gcc-c++ make(这个环境一般机器都具备,可以忽略) yum install gcc gcc-c++ make 依赖的包: autoconf automake libtool libjpeg-devel libpng-devel libtiff-devel zlib-devel leptonica(1.67以上) 1. autoconf automake libtool libjpeg-devel libpng-devel libtiff-devel zlib-devel 可以通过yum安装: yum install autoconf automake libtool yum install libjpeg-devel libpng-devel libtiff-devel zlib-devel 2. leptonica 需要源码编译安装 参考资料: http://paramountideas.com/tesseract-ocr-30-and-leptonica-installation-centos-55-and-opensuse-113 http://www.leptonica.org/source/README.html 下载 leptonica 包: http://www.leptonica.org