卷积神经网络

卷积神经网络之-VGGNet

空扰寡人 提交于 2020-01-24 05:45:31
更多内容请关注『 机器视觉 CV 』公众号 原文地址 VGGNet 是由牛津大学视觉几何小组(Visual Geometry Group, VGG)提出的一种深层卷积网络结构,他们以7.32%的错误率赢得了2014年ILSVRC分类任务的亚军(冠军由GoogLeNet以6.65%的错误率夺得)和25.32%的错误率夺得定位任务(Localization)的第一名(GoogLeNet错误率为26.44%) 论文地址: https://arxiv.org/abs/1409.1556 网络结构 在《Very Deep Convolutional Networks for Large-Scale Image Recognition》论文中,作者给出了 6 个 VGG 模型,对应不同的网络结构和深度,具体结构如下: 设计要点 预处理过程:图片每个像素中减去在训练集上的图片计算 RGB 均值 所有隐藏层都配备了 ReLU 激活 全局使用 3×3 小卷积,可以有效的减少参数,2 个 3×3 卷积可以替代一个 5×5 卷积,参数量变成 5×5 卷积的2×3×3/5×5=0.72 倍,3 个 3×3 卷积可以替换 1 个 7×7 卷积,参数量是 7×7 卷积的 3×3×3/7×7=0.6 倍。这样的连接方式使得网络参数量更小,而且多层的激活函数令网络对特征的学习能力更强。多个 3*3

深度学习入门知识梳理(四):卷积神经网络(CNN)

南楼画角 提交于 2020-01-24 05:13:58
文章目录 前言 1、卷积层 1.1、卷积运算 1.2、填充 1.3、步幅 2、池化层 2.1 池化层的特征 2.1 池化层的功能 前言   在卷积神经网络(CNN)中,卷积层的输入输出数据称为特征图。对应的,卷积层的输入数据称为输入特征图,输出数据称为输出特征图。   相较于全连接神经网络,卷积神经网络有两个比较大的特点:   (1)卷积网络有至少一个卷积层,用来提取特征。   (2)卷积网络的卷积层通过权值共享的方式进行工作,大大减少权值 的数量,使得在训练中在达到同样识别率的情况下收敛速度明显快于全连接网络。 1、卷积层 1.1、卷积运算   参考文章链接: 如何通俗易懂地解释卷积   一维卷积的数学定义如下: h ( x ) = ∫ − ∞ + ∞ f ( α ) g ( x − α ) d α = f ( x ) ∗ g ( x ) (1-1) h(x)=\int_{-\infty}^{+\infty} f(\alpha)g(x-\alpha)d\alpha=f(x)*g(x) \tag{1-1} h ( x ) = ∫ − ∞ + ∞ ​ f ( α ) g ( x − α ) d α = f ( x ) ∗ g ( x ) ( 1 - 1 )   可以从信号处理角度理解(需要有信号处理基础):f(x)为系统输入信号,g(x)为单位脉冲响应,h(x)为系统输出响应

学习笔记-卷积神经网络(3)

≯℡__Kan透↙ 提交于 2020-01-24 02:08:00
实现卷积神经网络 迁移学习 (1)下载神经网络开源的实现(代码和权重) (2)训练集少的情况下,冻结层,保留一个层来训练,在此之上再训练softmax层,改变softmax层的预测 (3)训练集多的情况下,冻结前面较少的层,训练后面的层,构建自己的输出单元。 (4)利用大量数据,重新训练每一层,更新每层的权重。 ——————————————————————————————————————— 计算机视觉现状 深度学习已经成功地应用于计算机视觉,自然语言处理,语音识别,在线广告等 1.手工工程 2.标签数据 —————————————————————————————————————— 目标检测-目标定位 1.训练集不仅包含神经网络需要预测的对象分类标签,还包含表示边界框(Bounding Box)的四个数字(边界框的中心点,框长和框宽) Example: 1.pedestrian 2.car 3.motorcycle 4.background Need to output:(Bx,By),Bh,Bw,class label(1-4) 窗口滑动目标检测 以某个步幅在图像中滑动窗口,遍历整张图片,判断目标是否在窗口中。每一个窗口利用卷积网络进行处理。计算成本较高,速度慢 通过卷积实现滑动窗口对象检测 输出精准的边界框 ——YOLO 主题思想:将图像进行网格划分

Deep Learning for Light Field Saliency Detection

北城余情 提交于 2020-01-24 01:07:19
这篇文章是用来解决显著性检测问题的,只不过他用来训练模型的数据集是Light Field Images,即4D的数据集,在了解4D数据集之前,我们先来了解一下3D的数据集,我们平用来训练模型的图片都是2D图片,而3D多出来的一个维度指的就是像素的深度,之前2D估计包含像素的亮度和颜色,像素的深度是通过像素的聚焦程度体现出来的,如图一中的(b)、(c)、(d)这些图片,这些图片中的某些区域聚焦清晰,表示其深度较浅,某些区域为散焦区域,像素模糊,代表深度较深,(a)为所有像素都清晰的图片,称之为all-focus images,相对应于all-focus image的(b)、(c)、(d)各自有不同深度信息的图片堆叠成一个focal stack。4D数据集便是既有all-focus images,又有相对应的focal stack,4D Saliency Detection便是利用4D数据集作为训练输入的显著性检测模型,目的是将focal stack中的深度信息融入到所提取的特征中,更加有利于显著物体的检测。 图一 之前就有的工作就表明,将图片的深度信息当作先验信息加入到显著性检测模型中会起到较大的作用,这由我们人眼观测物体的经验可以解释,我们对离我们距离不同的物体的关注程度是不一样的,所以深度信息也可以作为一种十分有用的特征来进行显著物体的检测

Pytorch常用包

偶尔善良 提交于 2020-01-23 20:14:08
torch:张量的有关运算。如创建、索引、连接、转置、加减乘除、切片等 torch.nn: 包含搭建神经网络层的模块(Modules)和一系列loss函数。如全连接、卷积、BN批处理、dropout、CrossEntryLoss、MSELoss等 torch.nn.functional:常用的激活函数relu、leaky_relu、sigmoid等 torch.autograd:提供Tensor所有操作的自动求导方法 torch.optim:各种参数优化方法,例如SGD、AdaGrad、Adam、RMSProp等 torch.utils.data:用于加载数据 torch.nn.init:可以用它更改nn.Module的默认参数初始化方式 torchvision.datasets:常用数据集。MNIST、COCO、CIFAR10、Imagenet等 torchvision.modules:常用模型。AlexNet、VGG、ResNet、DenseNet等 torchvision.transforms:图片相关处理。裁剪、尺寸缩放、归一化等 -torchvision.utils:将给定的Tensor保存成image文件 来源: CSDN 作者: 立志正常毕业的二狗子 链接: https://blog.csdn.net/qq_43270479/article/details

卷积神经网络

寵の児 提交于 2020-01-23 16:07:47
​卷积神经网络这个词,应该在你开始学习人工智能不久后就听过了,那究竟什么叫卷积神经网络,今天我们就聊一聊这个问题。 不用思考,左右两张图就是两只可爱的小狗狗,但是两张图中小狗狗所处的位置是不同的,左侧图片小狗在图片的左侧,右侧图片小狗在图片的右下方,这样如果去用图片特征识别出来的结果,两张图的特征很大部分是不同的,这不是我们希望的,那思考一下,为什么我们人就可以把它们都看成是可爱的小狗狗呢?这是因为平移不变性和空间层次结构,这两个概念是卷积神经网络中的概念。 平移不变性与模式的空间层次结构 这很好理解,我们要观察或者识别的物体,在图片上平行移动,我们都可以识别出来,因为无论他们在任何地方,都有相同的特征;我们识别物体的时候,先识别物体的局部特征信息,然后再脑袋中将局部信息组合起来,组合而成更高层次的特征信息,最终形成整体信息。比如上图,我们认出他们是可爱的狗狗,但脑袋在实际运转的过程中,是先看到了一些像素点(黑白红等),然后将像素点连接起来形成轮廓或特征(耳朵、眼睛、舌头),最后组合这些特征形成最后的结论(可爱的狗狗)。这就给我们了启发,我们在计算机图片识别的识别的时候,是不是可以借鉴这种机制呢,不一定需要图片全部的信息,而是识别图片的特征信息,再由这些特征,我们会将其组合成更大的特征,再组合,最终得出整体的特征信息,如下看一个经典的图: 我们的人脑在识别人脸的时候

卷积神经网络

回眸只為那壹抹淺笑 提交于 2020-01-22 22:19:29
​卷积神经网络这个词,应该在你开始学习人工智能不久后就听过了,那究竟什么叫卷积神经网络,今天我们就聊一聊这个问题。 不用思考,左右两张图就是两只可爱的小狗狗,但是两张图中小狗狗所处的位置是不同的,左侧图片小狗在图片的左侧,右侧图片小狗在图片的右下方,这样如果去用图片特征识别出来的结果,两张图的特征很大部分是不同的,这不是我们希望的,那思考一下,为什么我们人就可以把它们都看成是可爱的小狗狗呢?这是因为平移不变性和空间层次结构,这两个概念是卷积神经网络中的概念。 平移不变性与模式的空间层次结构 这很好理解,我们要观察或者识别的物体,在图片上平行移动,我们都可以识别出来,因为无论他们在任何地方,都有相同的特征;我们识别物体的时候,先识别物体的局部特征信息,然后再脑袋中将局部信息组合起来,组合而成更高层次的特征信息,最终形成整体信息。比如上图,我们认出他们是可爱的狗狗,但脑袋在实际运转的过程中,是先看到了一些像素点(黑白红等),然后将像素点连接起来形成轮廓或特征(耳朵、眼睛、舌头),最后组合这些特征形成最后的结论(可爱的狗狗)。这就给我们了启发,我们在计算机图片识别的识别的时候,是不是可以借鉴这种机制呢,不一定需要图片全部的信息,而是识别图片的特征信息,再由这些特征,我们会将其组合成更大的特征,再组合,最终得出整体的特征信息,如下看一个经典的图: 我们的人脑在识别人脸的时候

目标检测中多尺度:特征金字塔FPN_Feature Pyramid Networks for Object Detection

只谈情不闲聊 提交于 2020-01-21 19:09:49
原始内容来源于: https://blog.csdn.net/cdknight_happy/article/details/100528127 https://blog.csdn.net/WZZ18191171661/article/details/79494534 包含理解! 参考文献:https://arxiv.org/abs/1612.03144 代码实现:http://www.yueye.org/2018/faster-rcnn-coupled-with-fpn-in-tensorflow.html https://github.com/DetectionTeamUCAS/FPN_Tensorflow FPN:Feature Pyramid Networks for Object Detection 摘要 特征金字塔是目标识别系统能够进行 多尺度目标识别 的关键组件。但由于特征金字塔的内存占用和计算量很大,因此很多算法都不想使用它。 本文利用深度卷积网络本身固有的多尺度、层次化构建特征金字塔,只带来了很少的额外成本。本文开发了具有横向结构的从上到下的连接,用于在所有尺度上构建高层语义特征 。本文提出的网络叫做 FPN ,在很多应用中可以作为一个 通用的特征提取器 。将FPN和Faster R-CNN结合,我们的模型在不使用任何技巧的情况下

图像分类

帅比萌擦擦* 提交于 2020-01-20 12:25:15
图像分类 本教程源代码目录在 book/image_classification ,初次使用请您参考 Book文档使用说明 。 # 说明: 1.硬件环境要求: 本文可支持在CPU、GPU下运行 2.Docker镜像支持的CUDA/cuDNN版本: 如果使用了Docker运行Book,请注意:这里所提供的默认镜像的GPU环境为 CUDA 8/cuDNN 5,对于NVIDIA Tesla V100等要求CUDA 9的 GPU,使用该镜像可能会运行失败。 3.文档和脚本中代码的一致性问题: 请注意:为使本文更加易读易用,我们拆分、调整了train.py的代码并放入本文。本文中代码与train.py的运行结果一致,可直接运行 train.py 进行验证。 # 背景介绍 图像相比文字能够提供更加生动、容易理解及更具艺术感的信息,是人们转递与交换信息的重要来源。在本教程中,我们专注于图像识别领域的一个重要问题,即图像分类。 图像分类是根据图像的语义信息将不同类别图像区分开来,是计算机视觉中重要的基本问题,也是图像检测、图像分割、物体跟踪、行为分析等其他高层视觉任务的基础。图像分类在很多领域有广泛应用,包括安防领域的人脸识别和智能视频分析等,交通领域的交通场景识别,互联网领域基于内容的图像检索和相册自动归类,医学领域的图像识别等。 一般来说

第五章 卷积神经网络

我的未来我决定 提交于 2020-01-20 08:24:05
第五章 卷积神经网络 第五章 卷积神经网络 卷积 一维卷积 二维卷积 互相关 卷积的变种 卷积的数学性质 交换性 导数 卷积神经网络 用卷积来代替全连接 卷积层 汇聚层(池化层) 典型的卷积网络结构 参数学习 误差项的计算 几种典型的卷积神经网络 LeNet-5 AlexNet Inception 网络 残差网络 其它卷积方式 转置卷积 空洞卷积 第五章 卷积神经网络 卷积神经网络(Convolutional Neural Network,CNN或ConvNet)是一种具有局部连接、权重共享等特性的深层前馈神经网络。 卷积神经网络最早是主要用来处理图像信息。在用全连接前馈网络来处理图像时,会存在以下两个问题: (1)参数太多:如果输入图像大小为 100 × 100 × 3(即图像高度为 100,宽度 为 100,3 个颜色通道:RGB)。在全连接前馈网络中,第一个隐藏层的每个神经元到输入层都有 100 × 100 × 3 = 30, 000 个互相独立的连接,每个连接都对应一个权重参数。随着隐藏层神经元数量的增多,参数的规模也会急剧增加。这会导致整个神经网络的训练效率非常低,也很容易出现过拟合。 (2)局部不变性特征:自然图像中的物体都具有局部不变性特征,比如尺度缩放、平移、旋转等操作不影响其语义信息。而全连接前馈网络很难提取这些局部不变性特征,一般需要进行数据增强来提高性能。