中文识别 tesseractor

匿名 (未验证) 提交于 2019-12-02 23:47:01

ubuntu安装tesseract
sudo apt-get install tesseract-ocr
默认没有安装识别中文语言,所以要想识别中文就要安装chi_sim库(只里就是只简单方法)

安装中文库chi_sim


ubuntu下安装非常简单,不过速度可能比较慢。

$ apt-get install tesseract-ocr

默认的安装目录是:/usr/share/tesseract-ocr/tessdata/

CentOS 下编译安装:

可以参考下面这篇文章上:

因为我的依赖都是装好的,如果发现有依赖没装,则参考如下的依赖列表:

sudo apt-get install g++  sudo apt-get install autoconf automake libtool sudo apt-get install autoconf-archive sudo apt-get install pkg-config sudo apt-get install libpng12-dev sudo apt-get install libjpeg8-dev sudo apt-get install libtiff5-dev sudo apt-get install zlib1g-dev  ### 训练工具需要下面的依赖  sudo apt-get install libicu-dev sudo apt-get install libpango1.0-dev sudo apt-get install libcairo2-dev

Leptonica

 $ wget http://www.leptonica.org/source/leptonica-1.72.tar.gz  $ tar xvzf leptonica-1.72.tar.gz  $ cd leptonica-1.72/  $ ./configure  $ make && make install

Leptonicatesseracttesseract

$ ./configure && make && make install 

tessdata

以中文字体库举例,下载改字体库(下面有链接)。

$ wget https://github.com/tesseract-ocr/langdata/tree/master/chi_sim](https://github.com/tesseract-ocr/langdata/tree/master/chi_sim

/usr/local/share/tessdata/

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!