光学字符识别

光学字符识别OCR-6 光学识别

浪尽此生 提交于 2020-01-12 04:22:35
经过前面的文字定位和文本切割,我们已经能够找出图像中单个文字的区域,接下来可以建立相应的模型对单字进行识别。 模型选择 在模型方面,我们选择了深度学习中的卷积神经网络模型,通过多层卷积神经网络,构建了单字的识别模型。 卷积神经网络是人工神经网络的一种,已成为当前图像识别领域的主流模型。 它通过局部感知野和权值共享方法,降低了网络模型的复杂度,减少了权值的数量,在网络结构上更类似于生物神经网络,这也预示着它必然具有更优秀的效果。 事实上,我们选择卷积神经网络的主要原因有: 1. 对原始图像自动提取特征 卷积神经网络模型可以直接将原始图像进行输入,免除了传统模型的人工提取特征这一比较困难的核心部分; 2. 比传统模型更高的精度 比如在MNIST手写数字识别任务中,可以达到99%以上的精度,这远高于传统模型的精度; 3. 比传统模型更好的泛化能力 这意味着图像本身的形变(伸缩、旋转)以及图像上的噪音对识别的结果影响不明显,这正是一个良好的OCR系统所必需的。 训练数据 为了训练一个良好的模型,必须有足够多的训练数据。幸运的是,虽然没有现成的数据可以用,但是由于我们只是做印刷字体的识别,因此,我们可以使用计算机自动生成一批训练数据。通过以下步骤,我们构建了一批比较充分的训练数据: 1. 更多细节 由于汉字的结构比数字和英文都要复杂,因此,为了体现更多的细节信息,我使用48

OCR技术(光学字符识别)

。_饼干妹妹 提交于 2019-12-26 14:08:02
什么是OCR? OCR英文全称是optical character recognition,中文叫光学字符识别。它是利用光学技术和计算机技术把印在或者写在纸上的 文字读取出来,并转换成一种计算机能够接受、人又可以理解的格式。文字识别是计算机视觉研究领域的分支之一, 而且这个课题已经是比较成熟了,并且在商业中已经有很多落地项目了。 比如汉王OCR,百度OCR,阿里OCR等等,很多企业 都有能力都是拿OCR技术开始挣钱了。其实我们自己也能感受到,OCR技术确实也在改变着我们的生活:比如一个手机APP 就能帮忙扫描名片、身份证,并识别出里面的信息;汽车进入停车场、收费站都不要人工登记了,都是用车牌识别技术; 我们看书时看到不懂的题,那个手机一扫,APP就能在网上帮你找到这题的答案。太多太多的应用了,OCR的应用在当今时代确实是百花齐放。 OCR的分类 如果要给OCR进行分类,我觉得可以分为两类:手写识别和印刷体识别。这两个可以认为是OCR领域两个大主题了,当然 印刷识别较手写体识别要简单得多,我们也能从直观上理解 印刷体大多都是规则的字体,因为这些字体都是计算机自己生成再通过打印技术印刷到纸上。在印刷体的识别上有其独特的干扰; 在印刷过程中字体很可能变得断裂或者墨水粘连,使得OCR识别异常困难。 当然这些都可以通过一些图像处理的技术帮他尽可能的还原,进而提高识别率。 总的来说