java语言下利用tess4j开源库进行图片中的文本提取
后来发现了一个帖子:# Java OCR tesseract 图像智能字符识别技术 Java代码实现 一,tess4j 简单介绍 Tess4J是对tesseract -OCR API.的Java JNA 封装,使java能够通过调用Tess4J的API来使用tesseract -OCR 我有一篇博客也介绍了tesseract -OCR如何使用tesseract -OCR进行图片识别 java代码实现DOS命令使用tesseract -OCR开源引擎实现图片文字识别 二,tess4j环境准备 官网下载tess4j的jar包 https://sourceforge.net/projects/tess4j 解压之后目录结构如下,tess4j的iar包在dist目录里面 如果要进行中文字符识别,需要下载中文字库,可自行百度,我也提供了百度网盘链接 https://pan.baidu.com/s/1dmpqQ8Cm7Cd5zaLC0ZOZaw 三,Eclipse IDE下的代码实现 新建一个java项目 2.导入tess4j的dist文件夹下的tess4j jar包和lib文件夹下的全部jar包,注意,lib下有一个后缀为.properties的文件别导进去了,把那个删除掉就行,你或许会问会用到那么多jar包吗,因为jar包可能依赖于其他iar包,所以最好全导入进去,我遇到过一个错误