Windows下 训练Tesseract实现识别图片中的文字
介绍 Tesseract是一个基于Apache2.0协议开源的跨平台ocr引擎,支持多种语言的识别,在Windows和Linux上都有良好的支持. 源代码在这: 源码地址 有一个编译打包好的Windows安装包(里面带了官方训练好的英文库): Windows安装包下载tesseract-ocr-setup-4.00.00dev.exe 选装其它语言支持: 官方训练好的各种语言库 自己训练数据的工具jTessBoxEditorFX v2.0.1 官网是国外网站,下载速度非常慢,我打包了一个训练工具放在了CSDN(里面带了我准备的学习资源,如果你从官网下载,请自备资源): CSDN下载 官网下载 安装配置tesseract 安装命令行工具 下载来是一个这样的自解压文件,双击安装: 需要注意的是,有一步让选择添加语言支持的,是从国外网站下载文件的,慎选( 会卡很久,会卡很久,会卡很久 ) 安装包已经自带了英文数字识别的库,不用勾选! 配置环境变量 安装完后需要把安装目录添加到环境变量PATH里 另外:注意图中有个tessdata文件夹,这里面是放置训练结果的,之后自己训练的文件可以放到这里,如果下载别人的文件,也是放到这. 需要创建一个环境变量TESSDATA_PREFIX,内容为这个tessdata文件夹的路径. 注意: 环境变量有2个操作 解压训练工具