图像识别

百度智能云平台调用食物识别api Java实现

匿名 (未验证) 提交于 2019-12-02 21:52:03
1.2. 百度智能云简介 1.2.1 百度图像识别服务 百度图像识别服务,基于深度学习及大规模图像训练,准确识别图片中的物体类别、位置、置信度等综合信息。 1.2.2 菜品识别 支持识别5万种菜品,适用于识别只含有单个菜品的图片,接口返回菜品的名称、置信度、卡路里、百科信息等综合信息。支持自建菜品图库,适用于识别含有多个菜品的图片,接口返回菜品的名称、位置、相关性等综合信息。 1.2.3 菜品识别应用场景 根据拍摄照片,识别图片中菜品名称,获取菜品参考卡路里含量和百科信息,可结合识别结果进一步提供饮食推荐、健康管理方案等相关功能,增强用户体验,广泛应用于餐饮娱乐类和健康管理类APP中。根据拍摄照片,识别图片中菜品名称和位置,提高结算效率,减少人工录入成本,广泛应用于餐饮行业的智能结算中。 1.2.4 菜品识别接口介绍 接口能力:该请求用于菜品识别。即对于输入的一张图片(可正常解码,且长宽比适宜),输出图片的菜品名称、卡路里信息、置信度。 请求格式:POST方式调用(Content-Type为application/x-www-form-urlencoded,然后通过urlencode格式化请求体) 返回格式:JSON格式 请求限制: 请求图片需经过base64编码:图片的base64编码指将一副图片数据编码成一串字符串,使用该字符串代替图像地址。您可以首先得到图片的二进制

Python 图片文字识别

北城余情 提交于 2019-12-01 12:14:52
前言 最近一段时间比较忙,一直没有更新文章了。最近这两天,有一点空闲的时间,想到做一些东西。 一直对 Python 有一些爱好,也一直在写一些,想着就来做一些图像识别这一块的。 今天就先做一个图像文字识别的示例。 一、准备 做图像文字识别,是需要一些文字识别的引擎,对于这些 ORC 可以自己查资料看看。 在这里用的 ORC 是 tesseract-ocr ,所以要准备一些安装包。 Windows 下的 ORC 安装包: 1、tesseract-ocr-w64-setup-v4.1.0.20190314.exe (官方没有提供,从第三方下载exe); 2、语言包,默认是支持英文的,所以对于中午识别要下载语言包:chi_tra.traineddata、chi_sim.traineddata; 这些下载地址在 GitHub 上面都有,这里也把地址贴出来: https://digi.bib.uni-mannheim.de/tesseract/ (安装包) https://github.com/tesseract-ocr/tessdata (语言包) 不过这些国外网站,在没有翻墙下载太慢了。 下面就是安装 Python 包了: pytesseract 是 tesseract-ocr 的 API 包,安装了引擎需要用这个包进行调用。 Python 3.x pip install

deep_learning_CNN

最后都变了- 提交于 2019-11-30 16:11:15
AI学习笔记——卷积神经网络(CNN) image.png 上篇文章简单地地介绍了 神经网络和深度学习 ,在神经网络中,每一层的 每个 神经元都与下一层的 每个 神经元相连(如下图), 这种连接关系叫 全连接(Full Connected) 。如果以图像识别为例,输入就是是每个像素点,那么每一个像素点两两之间的关系(无论相隔多远),都被下一层的神经元"计算"了。 这种全连接的方法用在图像识别上面就显得太"笨"了,因为图像识别首先得找到图片中各个部分的"边缘"和"轮廓",而"边缘"和"轮廓"只与相邻近的像素们有关。 这个时候 卷积神经网络(CNN) 就派上用场了,卷积神经网络可以简单地理解为,用 滤波器(Filter) 将相邻像素之间的"轮廓"过滤出来。 image.png 卷积(Convolution) 卷积的滤波器(Filter)是如何工作的呢?以下图,一个6x6的图片被一个3x3的滤波器(可以看成一个窗口)卷积为例,3x3的滤波器先和6x6的图片最左上角的3x3矩阵 卷积 得到结果后,再向右移一步继续卷积( 窗口滑动 ),直到将整个图片过滤完成,输出一个4x4的矩阵(图片)。 image.png 这样有什么意义呢?如果如下图所示,被卷积的图片有明显的竖直轮廓(10和0之间有一轮廓,这条轮廓需要被标记出来),用3x3的竖直轮廓滤波器卷积之后,就能发现中间那条非常明显的竖直轮廓

到底什么是OCR

百般思念 提交于 2019-11-30 14:46:46
OCR(Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。 一个OCR识别系统,其目的很简单,只是要把影像作一个转换,使影像内的图形继续保存、有表格则表格内资料及影像内的文字,一律变成计算机文字,使能达到影像资料的储存量减少、识别出的文字可再使用及分析,当然也可节省因键盘输入的人力与时间。 从影像到结果输出,须经过影像输入、影像前处理、文字特征抽取、比对识别、最后经人工校正将认错的文字更正,将结果输出。 OCR识别技巧 1.分辨率的设置是文字识别的重要前提。一般来讲,扫描仪提供较多的图像信息,识别软件比较容易得出识别结果。但也不是扫描分辨率设得越高识别正确率就越高。选择300dpi或400dpi分辨率,适合大部分文档扫描。注意文字原稿的扫描识别,设置扫描分辨率时千万不要超过扫描仪的光学分辨率,不然会得不偿失。 2. 扫描时适当地调整好亮度和对比度值,使扫描文件黑白分明。这对识别率的影响最为关键,扫描亮度和对比度值的设定以观察扫描后的图像中汉字的笔画较细但又不断开为原则

人脸识别搭载人证核验访客让宁夏安防上一个台阶

妖精的绣舞 提交于 2019-11-30 14:46:31
非思丸智能在人脸识别领域中,大数据采集人证比对果真让小编不得不赞同,因为人脸识别搭载了人证核验访客的技术,特色管理改变了安防之本,成功上升一个台阶! 搭配成熟的人证比对系统,人证核验访客机内嵌最新人脸识别算法库,精度更高,识别速度更快,不依靠人工的方式观察来判断人与证件是否一致,避免身份核实过程中的漏洞产生,1-2秒即可完成一次身份证的验证过程。 人脸识别访客机能够将人脸比对+证件比对同时进行,双重保障,用证更安全,来访更高端;自带补补光,当捕捉到人脸的时候,光线自适应开启,灵活适应环境变化; 先进的人像搜索、跟踪、定位、捕捉技术,自动抓拍人脸,操作方便,使用效率更高,比对准确率达98%以上; 99%鉴别身份证真假,同时读取身份证信息;基于技术,通过身份证阅读器读取身份证相片跟现场人物进行头像识别比对,语音播报比对结果; 最新人脸比对算法,大幅提升在恶劣识别环境下(如光线暗、人像移动、动作随意等)的识别率; 独有的图像三维建模技术,比对速度更快,1-2秒内完成一次验证过程;验证结果实时自动保存,可以随时查询验证记录和导出记录; 非思丸智能人证核验产品提供标准SDK二次开发接口和协议,可快速的提供给各类有身份认证需要的应用系统进行接入和使用; 最大化降低行业应用成本,让用户花更低的价格使用上最好的产品,市场潜力大; 来源: https://my.oschina.net/u

垃圾分类图像识别API接口,小程序源码

落花浮王杯 提交于 2019-11-29 16:05:37
前几天分别分享了垃圾分类文字版接口和微信机器人、微信小程序源码,今天在分享一个垃圾分类图像识别接口和升级版小程序源码、支持拍摄和选择相册图片进行图像识别。另外文章底部附有三种演示代码和素材包方便测试。 先看效果图(仅供调用API的示例参考,UI可自行调整美化) 微信图片_20190715111928.jpg 垃圾分类图像识别API: https://www.tianapi.com/apiview/101 该接口支持垃圾分类图像识别,img参数应该传递经base64编码后的图片且字节大小不得大于3M。成功识别后返回一个列表,其中包含trust和lajitype参数。trust是图像可信度,单位是百分比,越接近100表示识别结果越可信。lajitype表示垃圾类别,其中0表示为可回收垃圾、1为有毒有害垃圾、2为厨余或湿垃圾、3为其他或干垃圾。 接口参数: 其中img应该是经过base64编码后的图片资源(天行数据也提供了图片转base64编码的接口,但不建议这么做),base64编码的调用方法非常简单,各编程语言都有对应的系统内置函数直接处理就行。当然img也支持直接传递图片url地址(暂未开放,根据大家反馈视情况放开),同时需指定imgtype=1即可。 1.png 返回示例: 返回参数中,trust表示可信度,最高为100,越接近100表示识别结果的可信度越高

It can be a face application using SeetaFace and Qt.

偶尔善良 提交于 2019-11-29 14:59:12
之前编译了一下SeetaFace的库,用于人脸检测、特征点定位和人脸识别的功能,然后昨天就用Qt写了一个软件用于实现。 工程的文件还是比较简单的,一个界面类和一个SeetaFace的线程类而已。这里主要涉及到Qt的多线程,Qt的多线程还是比较好用的,界面就比较简单。就是写单调的条条框框的。现在就先展示下界面和效果吧。 人脸检测 特征点定位 人脸识别:标签和相似分数 尝试下摄像头,角度稍微低头一点也还行,稍微遮一下丑也还勉强OK,所以性能还是蛮OK的,当然我的OK是指我自己觉得不错: 然后找一张小一点的人脸: OK,软件的功能大概如下: 加载数据有三种源头:图片、视频和摄像头,功能有三个:人脸检测、特征点定位、人脸识别;可实时调整人脸检测的参数、可以提取保存数据库里的图像(也就是暂且叫训练把,其实不对,但还是算啦,自娱自乐,不必那么较真)。 这其中,会涉及到Qt的多线程、文件操作等方面,然后写这个软件,大概是从昨天中午写到晚上12点多吧,中间包括去做其他事,所以如果是熟练的大神的话,估计都不屑于写这样的"小玩具"了吧。然后可能还需要优化,我只是写出来了,感觉速度也还能接受,所以就没去管软件优化问题了。 好了,大概就这样。 囡囡呀你会困惑 慢些脚步别忘了 慢慢的你会明白丢了的是什么 人生路本就是场获得与失的选择 迷路时想想当年阿婆怎么说 来源: https://blog.csdn

OCR文字识别可以帮助PDF文档处理吗

╄→尐↘猪︶ㄣ 提交于 2019-11-29 11:55:13
你曾遇到过PDF难题吗?比如,无法选择文本进行复制,或者搜索PDF文档中已有的单词时,却搜索不到任何结果,原因很简单,只要有正确的工具,问题就能轻松解决。 为什么PDF文档表现有所不同? PDF文档根据文件创建的方式,可分为三种不同的类型,文件最初的创建方式规定了PDF内容(文本、图像、表格)能否访问,或是否“锁定”在页面图像中。 想要理解PDF的结构,应该按照图层来理解。上面一层只是一张图片,如果你想访问文本,则需要有第二图层,即文本层,位于图片层下面,被隐藏了。 “真正”或数字创建的PDF文档 使用软件Microsoft Word、Excel,或者通过软件应用程序(虚拟打印机)中的“打印”功能创建,由文本和图像组成。可搜索,内容可访问,以便注释和重复使用。 “仅图像”或扫描的PDF文档 由一体化设备和办公室扫描仪上的扫描纸质文档创建,或者转换jpg或tiff图像为PDF时创建。 仅包含扫描的或者拍摄的页面图像,底下不带有文本层,内容“锁定”在快照图像中。不可进行搜索,内容不可访问。 可搜索的扫描PDF文档 文本层被添加到图像层,通常放在下面,可进行搜索,内容可访问,可进行注释和重复使用。可能会出现一些限制,比如图片元素和图像。 什么是OCR?它和处理PDF文档有何关联? 很多扫描仪都可以创建PDF文档,但也仅限于创建图像或文档快照,不过就是一堆黑白或彩色的点,称为光栅图像

CVAE-GAN论文学习-1

我怕爱的太早我们不能终老 提交于 2019-11-29 08:17:31
CVAE-GAN: Fine-Grained Image Generation through Asymmetric Training 摘要 我们提出了一个变分生成对抗网络,一个包含了与生成对抗网络结合的变分子编码器,用于合成细粒度类别的图像,比如具体某个人的脸或者某个类别的目标。我们的方法构建一张图片作为概率模型中的一个标签成分和潜在属性。通过调整输入结果生成模型的细粒度类别标签,我们能够通过随机绘制潜在属性向量中的值来生成指定类别的图像。我们方法的创新点在于两个方面: 首先是我们提出了在判别器和分类器网络中使用交叉熵损失,对于生成器网络则使用平均差异目标函数。这种不对称损失函数能够使得训练出来的GAN网络更稳定。 其次是我们使用了encoder网络去学习潜在空间和真实图片空间中的关系,并使用成对的特性去保持生成图像的结构。 我们使用人脸、花和鸟的自然图片来训练,并说明了提出的模型有能力去生成有着细粒度类别标签的真实且不同的样本。我们进一步将展示我们的模型应用于其他任务的效果,如图像修复、高分辨率以及用于训练更好的人脸识别模型的数据增强。 1. Introduction 构建自然图像的有效的生成模型是计算机视觉中的主要问题。它目标是根据潜在的自然图像分布来调整一些潜在向量来生成不同的真实图片。因此,期望的生成模型是能够捕获钱在的数据分布。这可以说是一个很难的任务

Tesseract图像识别OCR的学习1

喜欢而已 提交于 2019-11-28 16:15:11
领导让做一个识别发票的服务,之前都是写增删改查,完全没接触过图像识别这种高大上的东西,记录一下吧 新建一个项目,导入tess4j <dependency> <groupId>net.sourceforge.tess4j</groupId> <artifactId>tess4j</artifactId> <version>4.4.0</version> </dependency> 写一个测试类 package com.example.cor1.test; import net.sourceforge.tess4j.Tesseract; import net.sourceforge.tess4j.TesseractException; import java.io.File; public class Test1 { public static void main(String[] args) throws TesseractException { File test1 = new File("C:\\Users\\xxx\\Desktop\\tesseract\\test1.png"); Tesseract tesseract = new Tesseract(); tesseract.setLanguage("chi_sim"); String s = tesseract.doOCR