Python 图片文字识别
前言 最近一段时间比较忙,一直没有更新文章了。最近这两天,有一点空闲的时间,想到做一些东西。 一直对 Python 有一些爱好,也一直在写一些,想着就来做一些图像识别这一块的。 今天就先做一个图像文字识别的示例。 一、准备 做图像文字识别,是需要一些文字识别的引擎,对于这些 ORC 可以自己查资料看看。 在这里用的 ORC 是 tesseract-ocr ,所以要准备一些安装包。 Windows 下的 ORC 安装包: 1、tesseract-ocr-w64-setup-v4.1.0.20190314.exe (官方没有提供,从第三方下载exe); 2、语言包,默认是支持英文的,所以对于中午识别要下载语言包:chi_tra.traineddata、chi_sim.traineddata; 这些下载地址在 GitHub 上面都有,这里也把地址贴出来: https://digi.bib.uni-mannheim.de/tesseract/ (安装包) https://github.com/tesseract-ocr/tessdata (语言包) 不过这些国外网站,在没有翻墙下载太慢了。 下面就是安装 Python 包了: pytesseract 是 tesseract-ocr 的 API 包,安装了引擎需要用这个包进行调用。 Python 3.x pip install