图像识别

业务领域建模Domain Modeling

二次信任 提交于 2019-12-05 12:19:56
♦ 1) Collect application domain information – focus on the functional requirements – also consider other requirements and documents 我的工程实践选题是《视频序列中人员检测与身份推断的系统设计》,这是一个根据视频序列进行人脸识别,并识别人员的年龄、性别、身高等信息之后进行人员身份推断的系统。 ♦ 2) Brainstorming – listing important application domain concepts – listing their properties/attributes – listing their relationships to each other 由上述的描述我们将系统的功能模块及主要的技术路线实现分类如下: 视频处理:对实时视频流进行视频的抽帧以及预处理 人脸匹配:人脸图像的边缘检测和匹配,确定这个人是否是已存入数据库的用户,若不是,则新建一个用户 特征识别:对视频中的人员特征进行提取,包括年龄、性别、衣着、行为 身份推断:按照提取的各项特征值进行人员身份的推断 以下是技术路线图: ♦ 3) Classifying the domain concepts into: – classes – attributes /

python人脸识别项目face-recognition

别说谁变了你拦得住时间么 提交于 2019-12-05 09:01:19
该项目基于Github上面的开源项目人脸识别face-recognition,主要是对图像和视频中的人脸进行识别,在开源项目给出的例子基础上对视频人脸识别的KNN算法进行了实现。 0x1 工程项目结构 0x2 项目中的3个py文件 recognize_people_from_image.py是对图片中的人脸进行识别. recognize_people_from_video.py是对视频中的人脸进行识别.特点:运行快,准确度低 recognize_people_from_video_knn.py是基于KNN算法对视频中的人脸进行识别.特点:运行慢,准确度高 0x3 最终测试效果 1)识别图片中的人脸: 2)识别视频中的人脸:(播放器截图) 视频完整效果图 https://github.com/Jackyongjian-Li/Faces-recognition/blob/master/output_video/4_1080p_2min_output.avi 0x4 Github完整项目文件 https://github.com/Jackyongjian-Li/Faces-recognition 来源: https://www.cnblogs.com/lyj-blogs/p/11917741.html

OpenCV 2.4+ C++ 人脸识别

橙三吉。 提交于 2019-12-04 23:38:24
机器学习 机器学习的目的是把数据转换成信息。 机器学习通过从数据里提取规则或模式来把数据转成信息。 人脸识别 人脸识别通过 级联分类器 对特征的分级筛选来确定是否是人脸。 每个节点的正确识别率很高,但正确拒绝率很低。 任一节点判断没有人脸特征则结束运算,宣布不是人脸。 全部节点通过,则宣布是人脸。 工业上,常用人脸识别技术来识别物体。 对图片进行识别 #include " opencv2/core/core.hpp " #include " opencv2/objdetect/objdetect.hpp " #include " opencv2/highgui/highgui.hpp " #include " opencv2/imgproc/imgproc.hpp " #include <iostream> #include <stdio.h> using namespace std; using namespace cv; string face_cascade_name = " haarcascade_frontalface_alt.xml " ; CascadeClassifier face_cascade; string window_name = " 人脸识别 " ; void detectAndDisplay( Mat frame ); int main( int

整理一下看过的图像识别的文章(人脸、车牌、验证码)

微笑、不失礼 提交于 2019-12-04 11:11:57
整理一下看过的图像识别的文章(人脸、车牌、验证码) 整理一下看过的图像识别的文章(人脸、车牌、验证码) 图像识别最近大热,尤其是人脸识别,BAT先后发力,这方面的研究论文真可谓是层出不穷,这里整理下本人最近看到的一些不错的,与大家一起学习~ 科普入门: 先上两篇科普性的文章,介绍图像识别、人脸识别技术和应用前景。 《 「人脸识别」很火,但你不知道的还有很多 》 本文从Facebook、Google、BAT等各大互联网巨头的人脸识别应用领域的角度,介绍了人脸识别的应用现状。 《 从How-Old.net到TwinsOrNot.net,看人脸识别技术是怎么 high 起来的 》 以前一阵玩疯了的How-Old.net为例简单介绍了人脸识别的过程、技术要点,一篇不错的技术科普文。 算法框架: 《 深度卷积神经网络CNNs的多GPU并行框架 及其在图像识别的应用 》 这篇文章来自于腾讯深度学习平台,分享了他们Deep CNNs的单机多GPU模型应用在图像识别上的经验教训,有深度。 《 CNN卷积神经网络应用于人脸识别(详细流程+代码实现) 》 本文偏向于实战,对到上手操作阶段的同学来说很有借鉴意义。优势就是代码!代码!代码! 《 人脸识别技术——Face Detection & Alignment 》 这里介绍一种MSRA在14年的最新技术: Joint Cascade Face

深度学习-神经网络

隐身守侯 提交于 2019-12-03 23:03:44
前言:前段时间学习了各种神经网络,今天做个小总结。以便以后自己复习! 一.RNN-循环神经网络 1.原理:根据“人的认知是基于过往的经验和记忆”这一观点提出。RNN之所以称为循环神经网路,即一个序列当前的输出与前面的输出也有关。具体的表现形式为网络会对前面的信息进行记忆并应用于当前输出的计算中,即隐藏层之间的节点不再无连接而是有连接的,并且隐藏层的输入不仅包括输入层的输出还包括上一时刻隐藏层的输出。如处理电影评论时,不能一次处理一条,而要将所有评论转化为一个大向量,再一次性处理。 2.结构: 每个方框可以看做是一个单元,每个单元做的事情也是一样的,用一句话解释RNN就是,一个单元结构重复使用。 3.应用:自然语言处理(NLP),文本生成(机器写小说),语言模型等。 4.简例: (1)生成莎士比亚文集:我们利用RNN循环神经网络,生成新的文本。 >>代码如下:<1>定义模型参数 <2>恢复模型 <3>结果: (2)识别mnist数据集:MNIST数据集是深度学习的经典入门demo,它是由6万张训练图片和1万张测试图片构成的,每张图片都是28*28大小(如下图),而且都是黑白色构成(这里的黑色是一个0-1的浮点数,黑色越深表示数值越靠近1),这些图片是采集的不同的人手写从0到9的数字。 在tensorflow中已经内嵌了mnist数据集,如下: >>代码如下: >>结果有: 二.CNN

13 opencv人脸识别

孤街浪徒 提交于 2019-12-03 15:46:05
https://www.pyimagesearch.com/2014/11/10/histogram-oriented-gradients-object-detection/ https://yongyuan.name/blog/pedestrian-detection-opencv.html 你知道OpenCV里面已经内置的行人检测方法吗?在OpenCV里面,有一个预先训练好了的HOG+线性SVM模型,能够对图像和视频中的行人进行检测。如果你还不熟悉方向梯度直方图HOG和线性SVM方法,我建议你阅读 方向梯度直方图和物体检测 这篇文章,在这篇文章中,我对该框架分了6步进行讨论。 来源: https://www.cnblogs.com/kekeoutlook/p/11802704.html

人脸识别性别的卷积神经网络

╄→尐↘猪︶ㄣ 提交于 2019-12-03 11:16:38
本文主要是实现了根据人脸识别性别的卷积神经网络,并对卷积过程中的提取特征进行了可视化. 卷积神经网络 卷积神经网络最早是为了解决图像识别的问题,现在也用在时间序列数据和文本数据处理当中,卷积神经网络对于数据特征的提取不用额外进行,在对网络的训练的过程当中,网络会自动提取主要的特征. 卷积神经网络直接用原始图像的全部像素作为输入,但是内部为非全连接结构.因为图像数据在空间上是有组织结构的,每一个像素在空间上和周围的像素是有关系的,和相距很远的像素基本上是没什么联系的,每个神经元只需要接受局部的像素作为输入,再将局部信息汇总就能得到全局信息. 权值共享和池化两个操作使网络模型的参数大幅的减少,提高了模型的训练效率. 卷积神经网络主要特点 权值共享: 在卷积层中可以有多个卷积核,每个卷积核与原始图像进行卷积运算后会映射出一个新的2D图像,新图像的每个像素都来自同一个卷积核.这就是权值共享. 池化: 降采样,对卷积(滤波)后,经过激活函数处理后的图像,保留像素块中灰度值最高的像素点(保留最主要的特征),比如进行 2X2的最大池化,把一个2x2的像素块降为1x1的像素块. 卷积网络的训练数据(112 * 92 * 3图形) 从data目录读取数据,famale存放女性图片,male存放男性图片 def read_img(list,flag=0): for i in range(len

遇到OCR文字识别软件转换的图像字体小了该怎么调整

ぃ、小莉子 提交于 2019-12-03 03:30:34
ABBYY PDF Transformer+转换的原始图像字体太小怎么办 ?为了获得最佳文本识别效果,请用较高的分辨率扫描用极小字体打印的文档,否则很容易在转换识别时出错。下面小编就给大家讲讲该怎么解决 OCR文字识别软件 这一问题。 1. 单击主工具栏中的 按钮或打开文件菜单并单击“从扫描仪创建”; 2. 指定分辨率值,扫描图像。 注意:您要先正确安装扫描仪软件,否则会弹出如下警告消息: 比较用不同分辨率获取的同一文档的不同图像: 想要了解关于ABBYY PDF Transformer+基础教程的更多内容,可点击进入 ABBYY中文教程 ,查找您想要知道的内容。 本文转载于: http://www.abbyychina.com/TFshiyongjiqiao/tf-tuxiang-zititaixiao.html 来源: oschina 链接: https://my.oschina.net/u/2459783/blog/788606

论文笔记:DeepFace: Closing the Gap to Human-Level Performance in Face Verification

匿名 (未验证) 提交于 2019-12-03 00:43:02
2014 CVPR Facebook AI研究院 简单介绍 人脸识别中,通常经过四个步骤,检测,对齐(校正),表示,分类 论文主要阐述了在对齐和表示这两个步骤上提出了新的方法,模型的表现超越了前人的工作 对齐方面主要使用了3D人脸模型来对齐人脸,表示方面使用了9层的一个CNN,其中使用了局部卷积 人脸对齐 已经存在一些人脸数据库的对齐版本(比如LFW-a),但是对齐人脸仍然是一件很困难的事,由于受到姿态(人脸的非平面性),非刚性表情等因素的影响。已经有很多方法成功用于人脸对齐,论文使用的方法是基于基准点的3D建模方法,把人脸转为3D的正脸。主要步骤为: 用LBP+SVR的方法检测出人脸的6个基准点,眼镜两个点,鼻子一个点,嘴巴三个点,如下图(a) 通过拟合一个对基准点的转换(缩放,旋转,平移)对图像进行裁剪,得到下图(b) 对图像定位67个基准点,并进行三角剖分,得到下图(c) 用一个3D人脸库USF Human-ID得到一个平均3D人脸模型(正脸),如图(d) 学习一个3D人脸模型和原2D人脸之间的映射P,并可视化三角块,如图(e) 通过相关的映射,把原2D人脸中的基准点转换成3D模型产生的基准点,得到如图(f)所示,最后的正脸就是图(g)。 人脸表示 如下图所示,训练了一个DNN来提取人脸图像的特征表示 C1和C3表示卷积层,M2表示最大池化层,“32x11x11x3

图片理解引擎算法实现简介

匿名 (未验证) 提交于 2019-12-03 00:30:01
本文来自 网易云社区 前言 基于文字的图片检索目前已经很成熟,但在很多情况下并不能满足用户的需求。比如,用户向在大街上看到别人拎了一个很漂亮的包包,也产生购买冲动,所以拍下了这个包包的照片,根据这幅照片找到这个包包的销售价格和商家。再比如,用户偶然看到一些不错的图片,想找到相同或相似的图片。再比如,人脸识别,通过图片获取该图片的内容信息。这些情况下,传统的图片搜索引擎无能为力。 一种基于图片内容的图片理解技术就非常必要了,图片理解引擎基本代表了图片检索和识别的主流技术。图片理解的目标是让计算机对图片内容进行准确完善的表述,目前这个目标还比较遥远,但是在其他方面图片理解已经有了较广泛的应用。目前图片理解引擎的主要应用场景有: 1 人脸理解; 2 商品或物体搜索。目前相似图片搜索引擎有: TinEye , Google , Baidu (百度识图)等等。商品图片搜索引擎有 Like (被 Google 收购), Ebay , Amazon ,淘淘搜等等。人脸理解方面代表的公司有 Google , Facebook 等。可见,目前主流的互联网公司均在图片理解方面进行了大量的投入。这些下面主要介绍下我在针对这三个方面所做的工作进展情况,也欢迎感兴趣同学一起讨论。 涉及的技术简介 图片理解,通常要对图片进行特征提取,利用这些特征对图片内容进行描述