图像尺寸

PS入门(2-1) 图像尺寸

二次信任 提交于 2019-12-02 15:16:02
2-1 图像尺寸 我们知道了显示器上的图像是由许多点构成的,这些点称为像素,意思就是“构成图像的元素” 但是要明白一点:像素作为图像的一种尺寸,只存在于电脑中,如同RGB色彩模式一样只存在于电脑中。像素是一种虚拟的单位,现实生活中是没有像素这个单位的。在现实中我们看到一个人,你能说他有多少像素高吗?不能,通常我们会说他有1.82米高,或者182厘米等。所用的都是传统长度单位。所谓传统长度单位就是指毫米、厘米、分米、米、公里、光年这样的单位。 这时就有一个问题出现,比如那个1.82米高度的人,在电脑中是多少像素呢? 这个问题先放下,我们针对这个问题来一个逆向思维,即电脑中的图像,那些多少多少像素的图像,用打印机打印出来是多大呢?如下左图。 这幅图片的尺寸是500×300像素,它在打印出来以后,在打印纸上的大小是多少厘米?或者是毫米或者是分米,总之那“传统长度”是多少呢? 使用菜单【图像 图像大小】,可看到如下右图的信息。 位于上面的像素大小我们都已经熟悉了,指的就是图像在电脑中的大小。其下的文档大小,实际上就是打印大小,指的就是这幅图像打印出来的尺寸。 可以看到打印大小为17.64×10.58厘米。它可以被打印在一张A4(有关A4的解释在后面)大小的纸上。 那是否就是说500像素等同于17.64厘米呢?那么1000像素打印大小是否就是17.64×2=35.28厘米呢?

任意图像尺寸变成目标尺寸(包含相应的boxes的变换)

怎甘沉沦 提交于 2019-12-02 06:30:59
def image_preporcess(image, target_size, gt_boxes=None): image = cv2.cvtColor(image, cv2.COLOR_BGR2RGB).astype(np.float32) ih, iw = target_size h, w, _ = image.shape scale = min(iw/w, ih/h) nw, nh = int(scale * w), int(scale * h) # 寻找最小的,即使准备将最大边转换为目标尺寸如416,但最小边肯定不能变到目标尺寸(416) image_resized = cv2.resize(image, (nw, nh)) # 将原始图像转换为需要的目标尺寸内,但不能完全填充完 image_paded = np.full(shape=[ih, iw, 3], fill_value=128.0) # 用128填充目标尺寸的矩阵 dw, dh = (iw - nw) // 2, (ih-nh) // 2 # 找出目标尺寸与原始图像转换后尺寸的差距的二分之一 image_paded[dh:nh+dh, dw:nw+dw, :] = image_resized # 将改变后的原始图像尺寸的数据填充到中间位置,因为其它位置已经被128填充 image_paded = image

一文搞懂 deconvolution、transposed convolution、sub-­pixel or fractional convolution

浪尽此生 提交于 2019-11-30 04:30:32
一文搞懂 deconvolution、transposed convolution、sub-­pixel or fractional convolution 目录 写在前面 什么是deconvolution convolution过程 transposed convolution过程 transposed convolution的计算 整除的情况 不整除的情况 总结 参考 博客: blog.shinelee.me | 博客园 | CSDN 写在前面 开篇先上图,图为deconvolution在像素级语义分割中的一种应用,直观感觉deconvolution是一个upsampling的过程,像是convolution的对称过程。 本文将深入deconvolution的细节,并通过如下方式展开: 先回答 什么是deconvolution?为什么会有transposed convolutionon、subpixel or fractional convolution这样的名字? 再介绍 各种情形下 transposed convolution是如何进行的,并提供一种统一的计算方法。 什么是deconvolution 首先要明确的是,deconvolution并不是个好名字,因为它存在歧义: deconvolution最初被定义为“inverse of convolution”或者

Faster R-CNN、SSD和YOLO

╄→гoц情女王★ 提交于 2019-11-29 06:31:10
最近做一些关于Faster R-CNN、SSD和YOLO模型选择和优化的项目,之前只了解Faster R-CNN系列目标检测方法,于是抽空梳理一下这几个检测模型。先上两张简单的精确度和运算量的对比图,有个粗略的了解,虽然图中缺了YOLO,参考价值仍然很大: 下面开始分别详述吧~ Faster R-CNN架构 传统目标检测方法大致分为如下三步: 深度学习特别是CNN的出现使得上述第二三步可以合并在一起做。Faster R-CNN步骤: (1)由输入图片产生的区域候选 (2)最后一层卷积输出的所有通道 (2)最后一层卷积输出的所有通道 pooling=> + (3)ROI pooling 候选区的产生 RPN的核心思想是使用卷积神经网络直接产生region proposal,使用的方法本质上就是滑动窗口。RPN的设计比较巧妙,RPN只需在最后的卷积层上滑动一遍,因为anchor机制和边框回归可以得到多尺度、多长宽比的region proposal,3*3滑窗对应的每个特征区域同时预测输入图像3种尺度(128,256,512),3种长宽比(1:1,1:2,2:1)的region proposal,这种映射的机制称为anchor: RPN 利用基网络对图像用一系列的卷积和池化操作进行特征提取,得到原始的feature maps(灰色区域),然后在原始的feature

Paper Reading:RCNN-SPP-Fast RCNN-Faster RCNN

一笑奈何 提交于 2019-11-29 00:54:11
本文对基于RCNN框架的几个模型进行介绍和总结。 [目标检测][base64str0] RCNN 论文:Rich feature hierarchies for accurate object detection and semantic segmentation 发表时间:2014 发表作者:(加州大学伯克利分校)Ross Girshick 发表刊物/会议:CVPR 本文具有很多比较重要的意义。 1、在 Pascal VOC 2012 的数据集上,能够将目标检测的验证指标 mAP 提升到 53.3%,这相对于之前最好的结果提升了整整 30%. 2、这篇论文证明了可以讲神经网络应用在自底向上的候选区域,这样就可以进行目标分类和目标定位。 3、这篇论文也带来了一个观点,那就是当你缺乏大量的标注数据时,比较好的可行的手段是,进行神经网络的迁移学习,采用在其他大型数据集训练过后的神经网络,然后在小规模特定的数据集中进行 fine-tune 微调。 候选区域与 CNN 结合 R-CNN利用候选区域与 CNN 结合做目标定位。其中借鉴了滑动窗口思想,R-CNN 采用对区域进行识别的方案。具体是: 给定一张输入图片,从图片中提取 2000 个类别独立的候选区域。 对于每个区域利用 CNN 抽取一个固定长度的特征向量。 再对每个区域利用 SVM 进行目标分类。 [R-CNN1]

工业相机选型

寵の児 提交于 2019-11-28 22:48:21
声明:本博文绝非本人原创,也绝不用于商业用途,只是对信息进行了收集整理。对博文中的图片、文字等信息等进行了来源标注。侵权请联系删除。 在阅读本文之前请先依顺序阅读先前博文: 摄影基础知识入门 工业相机基础知识 参数解释 http://www.csray.com/NewsDetail/900986.html 分辨率(这里说的是相机传感器成像大小):例如1024pixel x 1024pixel 帧率(面阵相机):每秒能拍摄的图像张数 行频(线阵相机):每秒采集的图像行数,实际上也是每秒拍摄的张数 像元尺寸:传感器上一个物理像元的尺寸,例如:7.4um x 7.4um 。 一般像元尺寸越小,制造难度越大,图像质量也越不容易提高。 传感器尺寸:像元尺寸乘以分辨率就是传感器尺寸 焦距:指平行光入射时从透镜光心到光聚集之焦点的距离 物距:物体到透镜光心的距离 光学放大倍率:一般的情况下是固定值,一般就是0.35倍-2.25倍或者是0.75倍-4.5倍 工作距离:也就是物距 曝光时间:为了将光投射到照相感光材料的感光面上,快门所要打开的时间 视场角:边缘的入射光线在镜头中心组成的角度 靶面尺寸:传感器成像的大小 精度:传感器一个像素所代表的实际物体的尺寸是多少 景深:在摄影机镜头或其他成像器前沿能够取得清晰图像的成像所测定的被摄物体前后距离范围 工业相机噪声 噪声是指成像过程中不希望被采集到的

【深度学习】卷积神经网络CNN基本原理

╄→гoц情女王★ 提交于 2019-11-28 15:21:06
为什么要用卷积神经网络? 传统神经网络的劣势 我们知道,图像是由一个个像素点构成,每个像素点有三个通道,分别代表RGB颜色,那么,如果一个图像的尺寸是(28,28,1),即代表这个图像的是一个长宽均为28,channel为1的图像(channel也叫depth,此处1代表灰色图像)。如果使用全连接的网络结构,即网络中的神经与与相邻层上的每个神经元均连接,那就意味着我们的网络有28 * 28 =784个神经元,hidden层采用了15个神经元,那么简单计算一下,我们需要的参数个数(w和b)就有:784*15*10+15+10=117625个,这个参数太多了,随便进行一次反向传播计算量都是巨大的,从计算资源和调参的角度都不建议用传统的神经网络。 卷积神经网络是什么? 三个基本层 卷积层(Convolutional Layer) 我们用传统的三层神经网络需要大量的参数,原因在于每个神经元都和相邻层的神经元相连接,但是思考一下,这种连接方式是必须的吗?全连接层的方式对于图像数据来说似乎显得不这么友好,因为图像本身具有“二维空间特征”,通俗点说就是局部特性。譬如我们看一张猫的图片,可能看到猫的眼镜或者嘴巴就知道这是张猫片,而不需要说每个部分都看完了才知道,啊,原来这个是猫啊。所以如果我们可以用某种方式对一张图片的某个典型特征识别,那么这张图片的类别也就知道了。这个时候就产生了卷积的概念

卷积神经网络概述

▼魔方 西西 提交于 2019-11-28 11:15:54
原文: http://blog.gqylpy.com/gqy/418 置顶:来自一名75后老程序员的武林秘籍——必读 (博主推荐) 来,先呈上武林秘籍链接: http://blog.gqylpy.com/gqy/401/ 你好,我是一名极客!一个 75 后的老工程师! 我将花两分钟,表述清楚我让你读这段文字的目的! 如果你看过武侠小说,你可以把这个经历理解为,你失足落入一个山洞遇到了一位垂暮的老者!而这位老者打算传你一套武功秘籍! 没错,我就是这个老者! 干研发 20 多年了!我也年轻过,奋斗过!我会画原理图,会画 PCB,会模拟,会数字!玩过 PLC,玩过单片机,会用汇编,会用 C!玩过 ARM,比如 PLC,STM32,和时下正在起飞的 NXP RT1052!搞过 DSP,比如 TMS320F28335!搞过 FPGA,不管 Xilinx 还是 Altera,也不管是 Verilog 还是 VHDL,或者直接画数字电路图!我懂嵌入式系统,比如 uCOS 和 Linux!我懂开源的硬件,比如 Arduino 和树莓派!我也搞软件,学了一堆上位机的语言C#,JAVA,Python,Kotlin,Swift!会写爬虫工具,又自学写APP,不管Android 还是 IOS! 可是这一切有什么用呢?土鸡瓦狗!不值一提!干技术的永远就是最苦逼的那个人! 我相信看到这里的你,应该是个 IT

相机光学(五)——对运动物体的曝光时间的计算

爷,独闯天下 提交于 2019-11-28 03:30:07
对于相机拍摄运动物体,很容易产生拖影,导致图像变得模糊。 那么控制不产生拖影的曝光计算公式如下: 曝光时间 <= 精度/运动平台的速度 或 放大倍率 = 视野 / 相机分辨率 v像 = 放大倍率 * 运动速度的平台 曝光时间 <= 像元尺寸/像 来源: CSDN 作者: 光电的一只菜鸡 链接: https://blog.csdn.net/qq_35789421/article/details/95190126

Android相机开发那些坑

大城市里の小女人 提交于 2019-11-26 18:07:59
版权声明:本文由王梓原创文章,转载请注明出处: 文章原文链接: https://www.qcloud.com/community/article/168 来源:腾云阁 https://www.qcloud.com/community 最近我负责开发了一个跟Android相机有关的需求,新功能允许用户使用手机摄像头,快速拍摄特定尺寸(1:1或3:4)的照片,并支持在拍摄出的照片上做贴纸相关的操作。由于之前没有接触过Android相机开发,所以在整个开发过程中踩了不少坑,费了不少时间和精力。这篇文章总结了Android相机开发的相关知识、流程,以及容易遇到的坑,希望能帮助今后可能会接触Android相机开发的朋友快速上手,节省时间,少走弯路。 一.Android中开发相机应用的两种方式 Android系统提供了两种使用手机相机资源实现拍摄功能的方法,一种是直接通过Intent调用系统相机组件,这种方法快速方便,适用于直接获得照片的场景,如上传相册,微博、朋友圈发照片等。另一种是使用相机API来定制自定义相机,这种方法适用于需要定制相机界面或者开发特殊相机功能的场景,如需要对照片做裁剪、滤镜处理,添加贴纸,表情,地点标签等。这篇文章主要是从如何使用相机API来定制自定义相机这个方向展开的。 二.相机API中关键类解析 通过相机API实现拍摄功能涉及以下几个关键类和接口: Camera