图像深度

第1章【深度学习简介】--动手学深度学习【Tensorflow2.0版本】

馋奶兔 提交于 2019-12-18 06:48:26
项目地址:https://github.com/TrickyGo/Dive-into-DL-TensorFlow2.0 UC 伯克利李沐的《动手学深度学习》开源书一经推出便广受好评。很多开发者使用了书的内容,并采用各种各样的深度学习框架将其复现。 现在,《动手学深度学习》书又有了一个新的复现代码版本——TensorFlow2.0 版,短时间内成为了github上千star项目,欢迎关注。 深度学习简介 你可能已经接触过编程,并开发过一两款程序。同时你可能读过关于深度学习或者机器学习的铺天盖地的报道,尽管很多时候它们被赋予了更广义的名字:人工智能。实际上,或者说幸运的是,大部分程序并不需要深度学习或者是更广义上的人工智能技术。例如,如果我们要为一台微波炉编写一个用户界面,只需要一点儿工夫我们便能设计出十几个按钮以及一系列能精确描述微波炉在各种情况下的表现的规则。再比如,假设我们要编写一个电子邮件客户端。这样的程序比微波炉要复杂一些,但我们还是可以沉下心来一步一步思考:客户端的用户界面将需要几个输入框来接受收件人、主题、邮件正文等,程序将监听键盘输入并写入一个缓冲区,然后将它们显示在相应的输入框中。当用户点击“发送”按钮时,我们需要检查收件人邮箱地址的格式是否正确,并检查邮件主题是否为空,或在主题为空时警告用户,而后用相应的协议传送邮件。 值得注意的是,在以上两个例子中

PixelNet: Representation of the pixels, by the pixels, and for the pixels----2017论文翻译解读

淺唱寂寞╮ 提交于 2019-12-15 04:38:42
PixelNet: Representation of the pixels, by the pixels, and for the pixels. 图1.我们的框架通过对架构(最后一层)和训练过程(历元)的微小修改,将其应用于三个不同的像素预测问题。 请注意,我们的方法为分割(左),表面法线估计(中)和边缘检测(右)的语义边界恢复精细的细节。 Abstract 我们探索了一般像素级预测问题的设计原理,从低级边缘检测到中级表面法线估计到高级语义分割。诸如全卷积网络(FCN)之类的卷积预测因子通过通过卷积处理利用相邻像素的空间冗余而获得了非凡的成功。尽管计算效率高,但我们指出,由于 空间冗余限制了从相邻像素学习的信息 ,因此这些方法在学习过程中在统计上并不是有效的。 我们证明了像素的分层采样可以使(1)在批量更新过程中增加多样性,从而加快学习速度; (2)探索复杂的非线性预测因子,提高准确性; (3)有效地训练最先进的模型tabula rasa(即“从头开始”)以完成各种像素标记任务。 我们的单一体系结构可为PASCAL-Context数据集上的语义分割,NYUDv2深度数据集上的表面法线估计以及BSDS上的边缘检测提供最新结果。 1.Introduction 许多计算机视觉问题可以表述为密集的逐像素预测问题。 其中包括边缘检测[21、64、94]和光流[5、30、86]等低级任务

保存多张对应的映射图像(深度图像同理)和彩色图像

生来就可爱ヽ(ⅴ<●) 提交于 2019-12-13 16:14:24
#include <opencv2\opencv.hpp> #include<iostream> #include <Windows.h> #include "NuiApi.h" #include<cv.h> #include <d3d11.h> #include<cv.h> #include<cxcore.h> #include<highgui.h> using namespace std; using namespace cv; //最远距离(mm) const int MAX_DISTANCE = 3500; //最近距离(mm) const int MIN_DISTANCE = 200; const LONG m_depthWidth = 640; const LONG m_depthHeight = 480; const LONG m_colorWidth = 640; const LONG m_colorHeight = 480; const LONG cBytesPerPixel = 4; //像素位数 //计算内存大小 int main() { //彩色图像 Mat image_rgb; //深度图像 Mat image_depth; int m=1; //创建一个MAT image_rgb.create(480,640,CV_8UC3); image_depth

基于kinect1的RGB和depth数据获取并对齐

旧城冷巷雨未停 提交于 2019-12-13 15:49:52
在vs2010项目中,需要设置属性管理器-属性-VC++目录 包含目录中加入 $(KINECTSDK10_DIR)\inc; 库目录中加入 $(KINECTSDK10_DIR)\lib\x86 KINECTSDK10_DIR为Kinect所安装的路径 在链接器中设置附加依赖项,填入Kinect10.lib 对应的.dll 文件复制到 C:\Windows\SysWOW64 #include <opencv2\opencv.hpp> #include<iostream> #include <Windows.h> #include "NuiApi.h" #include<cv.h> #include <d3d11.h> using namespace std; using namespace cv; //最远距离(mm) const int MAX_DISTANCE = 3500; //最近距离(mm) const int MIN_DISTANCE = 200; const LONG m_depthWidth = 640; const LONG m_depthHeight = 480; const LONG m_colorWidth = 640; const LONG m_colorHeight = 480; const LONG cBytesPerPixel = 4; int

3D人脸识别

末鹿安然 提交于 2019-12-10 16:18:41
随着深度学习技术的进步,面部相关任务的研究也成为学术界和工业界的热门话题。众所周知的面部任务通常包括面部检测,面部识别,面部表情识别等,其主要使用2D RGB面部(通常包括一些纹理信息)作为输入; 3D扫描成像技术的出现为面部相关任务 - 3D面部开发了一条新的探索路线。 与许多2D面部相关的任务介绍性文献/评论文章相比,3D面部的入门知识还不够好。本文将回顾和介绍三维人脸相关的基础知识,并总结一些关于三维人脸识别与重建的基础入门文献。 3D人脸基础知识 一般而言,RGB,灰度和红外人脸图像是2D人脸,其主要是在特定视角下表示颜色或纹理的图像,并且没有空间信息。用于训练深度学习的图像通常是2D。 2.5D是在某个视角下拍摄的面部深度数据,但由于角度问题,它显示的表面不连续,也就是说,当你试图旋转面部时,会有一些像沟壑一样的空隙区域。这是因为拍摄时未捕获被遮挡部分的深度数据。 那么3D面孔呢?它通常由不同角度的多个深度图像组成,完全显示面部的表面形状,并且在具有一定深度信息的密集点云中的空间中呈现面部。 相机模型 相机模型包括四个坐标系:像素坐标,图像坐标,摄像机坐标,世界坐标(高中物理老师的头部没有闪光灯谈论参考系统),摄像机成像过程是三维的 真实三维空间中的点映射到成像平面(二维空间)的过程也称为投影变换。 相机坐标→图像坐标 相机坐标系到图像坐标系的过程可用小孔成像解释

Facelet-Bank for Fast Portrait Manipulation(腾讯优图:用于快速人像操作的 Facelet-Bank)

…衆ロ難τιáo~ 提交于 2019-12-10 10:07:14
本博客是腾讯优图 2018年 入选 cvpr 的论文 Facelet-Bank for Fast Portrait Manipulation 的翻译,因作者本人水平有限,部分地方翻译的可能不准确,还请读者不吝赐教,我一定马上改正! 摘要 随着智能手机和社交网络的普及,数字面部操纵已成为一种流行且引人入胜的操作图像的方式。 由于用户偏好,面部表情和配件种类繁多,因而需要通用且灵活的模型来适应不同类型的面部编辑。 在本文中,我们提出了一个基于端到端卷积神经网络的模型,该模型支持快速推理,编辑效果控制和快速局部模型更新。 另外,该模型使用具有不同属性的未配对图像集进行学习。 实验结果表明,我们的框架可以处理各种表情,配件和化妆效果。 它可以快速产生高分辨率和高质量的结果。 1.介绍 数字脸部操作旨在改变语义表达和有意义的属性,例如微笑和哀悼,或为人脸添加虚拟的妆容或者配件,比如小胡子,眼镜等。 随着智能电话和数码相机的日益普及,对实用,快速的系统的需求急剧增加。 面部操纵已成为计算机视觉和图形学火热的研究课 题[14、3、6、4、33、31、28]。举例说明: 先前的方法专门用于面部美化[19,8],反美化[10],表情操纵[28]和年龄发展[14]。 已有的解决方案,众所周知,对不同的脸部化妆或属性更改需要特殊的操作。 例如,面部美化或反美化处理肤色和纹理

基于深度模型的对象检测综述:Faster RCNN, R-FCN,以及SSD

喜你入骨 提交于 2019-12-10 09:47:33
基于深度模型的对象检测综述:RCNN,Fast RCNN,Faster ECNN, R-FCN,以及SSD1 XB D., xingbod@gmail.com 前言 随着自动驾驶汽车,智能视频监控,人脸检测和各种人员计数应用的兴起,对快速,准确的对象检测系统的需求日益增长。这些系统不仅涉及识别和分类图像中的每个对象,还涉及通过在图像周围绘制适当的边界框来对每个对象进行定位。与传统的计算机视觉的前身,图像分类相比,对象检测成为一项艰巨的任务。 但是,幸运的是,当前最成功的对象检测方法也是图像分类模型的扩展。Google Tensorflow 发布了新的对象检测API,附带了一些特定模型的结构和预训练模型(原论文请点击相应链接): Single Shot Multibox Detector (SSD) with MobileNets SSD with Inception V2 Region-Based Fully Convolutional Networks (R-FCN) with Resnet 101 Faster RCNN with Resnet 101 Faster RCNN with Inception Resnet v2 在本文,会简要介绍Faster R-CNN, R-FCN, and SSD。希望到本文结束时

Detecting GAN-generated Imagery using Color Cues

无人久伴 提交于 2019-12-09 21:07:17
Abstract     论文创新点:分析流行GAN网络结构得知,GAN网络生成得图片在颜色处理与真实摄像机拍摄的照片存在不同,主要表现在两方面。     实验结果:证明了两种线索能够有效区分GAN生成图像和用于训练GAN的真实图像。 1.Introduction     本片论文主要是研究GANs网络生成图片的取证检测,虽然他们用肉眼无法区分,但是GANs生成的图片在重要的一些方面和相机拍摄的图像还是存在差别的。通过研究生成器网络的结构,尤其注意到它是如何形成颜色的,并注意到两者有两个重要的区别:(这也就是摘要中的两个像素) 再某种方式限制饱和像素的频率,对生成器内部值是被规范化(Normalized)的来限制输出的大小。(First, the generator’s internal values are normalized to constrain the outputs, in a way which limits the frequency of saturated pixels.) 生成器的对通道的内部表示类似于彩色RGB三通道像素合成的方式,但是所使用的权重与摄像机的类似光谱灵敏度完全不相同。(Second, the generator’s multi-channel internal representation is collapsed to red,

深度学习暑期学校(加拿大、蒙特利尔,2016.8.1-7)

半世苍凉 提交于 2019-12-08 00:21:00
learning to see.pdf @lutingting 2016-11-04 16:15 字数 10899 阅读 4087 SIFT特征提取及匹配 数字图像处理 图像特征提取 SIFT特征提取及匹配 1.SIFT(Scale-invariant feature transform)算子的核心思想 2.什么是尺度空间呢? 2.1 一篇百度文库的文章关于尺度空间的分析 例子1 例子2 现实生活中的例子 2.2 SIFT中的尺度空间的概念 3.SIFT特征提取 3.1 尺度空间极值检测 3.1.1 尺度空间的建立(高斯金字塔的建立) 3.1.2 图像差分高斯金字塔(DoG)的建立 3.1.3 尺度空间中特征点的检测(DoG中极值点的检测) 3.2 关键点位置及尺度确定 3.3 关键点方向确定 3.4 特征向量生成 4.SIFT特征的匹配 5.下面是一些参考程序 5.1 5.2 1.SIFT(Scale-invariant feature transform)算子的核心思想 利用不同尺度的高斯核函数对图像进行平滑,即构造图像的尺度空间 比较不同尺度平滑后的图像差别,在某局部范围内,差别最大或者差别最小的像素点就是特征明显的点 由于SIFT特征的检测方式,使得它具有: 尺度不变性:在尺度空间内进行的特征点检测 2.什么是尺度空间呢? 2.1 一篇百度文库的文章关于尺度空间的分析

深度学习优质学习项目大放送!-AI Studio精选开源项目合集推荐

Deadly 提交于 2019-12-06 02:55:49
近期 在AI Studio上发现了不少优质的开源深度学习项目,从深度学习入门到进阶,涵盖了CV、NLP、生成对抗网络、强化学习多个研究方向,还有最新的动态图,都以NoteBook的方式直接开源出来,并且AI Studio还提供了免费算力,可直接在线运行跑训练任务,推荐深度学习开发者和学习者收藏和研究。 算力获取链接: https://aistudio.baidu.com/aistudio/questionnaire?activityid=667 A、 深度学习新手入门合集 本集合分为四小节,从零介绍了深度学习的的基础知识,包括机器学习、人工智能、深度学习三者的关系等;入门必备的数学知识,包括高等数学、线性代数、概率论信息论等精炼的必备前置知识;Python快速入门指南和PaddlePaddle快速入门,教大家学会Python,并给大家一步一步用代码展示PaddlePaddle的基本用法,房价预测和手写数字识别的demo,让完全零基础的同学,可以先通过这个入门合集学会基础的知识,进入后面的学习~小白必备,马上学起来~ Ø 新手入门第一课——什么是深度学习? https://aistudio.baidu.com/aistudio/projectdetail/150131 Ø 新手入门第二课——必备数学知识 https://aistudio.baidu.com/aistudio