卷积神经网络 | 易学教程

几个经典卷积神经网络

阅读更多关于几个经典卷积神经网络

从AlexNet论文说起，ImageNet Classification with Deep Convolutional Neural Networks。在ImageNet LSVRC-2010 2012表现突出 top-1误差率37.5%，以及top-5误差率17.0% 网络有6000万个参数和650,000个神经元网络结构五个卷积层，以及某些卷积层后的池化层，以及最后的三个全连接层引入正则化方法dropout ReLU修正线性单元的引入，比tanh等要快的多论文地址： https://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf 接下来的NIN论文，Network In Network NIN利用Global average pooling去掉了FC layer, 大大减少了模型大小利用网络中的网络思想论文地址： https://arxiv.org/pdf/1312.4400v3.pdf VGG模型论文，VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGE RECOGNITION 可以看成是加深版本的AlexNet. 都是conv layer + FC layer

基于深度学习的图像语义分割技术概述之4常用方法

阅读更多关于基于深度学习的图像语义分割技术概述之4常用方法

本文为论文阅读笔记，不当之处，敬请指正。 A Review on Deep Learning Techniques Applied to Semantic Segmentation: 原文链接 4 深度学习图像分割的常用方法深度学习在多种高级计算机视觉任务中的成功―特别是监督CNNs（Convolutional Neural Networks，卷积神经网络）在图像分类、物体检测方面的成功―鼓舞着研究人员探索此类网络对于像素级标记，如语义分割方面的能力。此类深度学习技术的突出优点，相比传统方法，，能够针对当前问题自动学习合适的特征表示。传统方法通常使用手动特征，为了使其适应新的数据集，通常需要专家经验和时间对特征进行调整。文章综述中所比较的基于深度学习的图像分割算法的特性（详情查看原文）。当前最成功的图像分割深度学习技术都是基于一个共同的先驱：FCN（Fully Convolutional Network，全卷积神经网络）。CNNs是非常高效的视觉工具，能够学习到层次化的特征。研究人员将全连接层替换为卷积层来输出一种空间域映射而非类的评分，从而将现存、周知的分类模型，如AlexNet，VGG，GoogleNet和ResNet等，转化为全卷积的模型。这些映射用分数阶卷积（fractionally strided convolutions，又名反卷积）来产生像素级标签输出。

FCN:Fully Convlutional Networks for semantic segmentation要点

阅读更多关于 FCN:Fully Convlutional Networks for semantic segmentation要点

FCN首先将深度学习引入到语义分割领域，网络的要点总结如下： 1. 将全连接层变为卷积，好处： ①传统的分类网络，比如LeNet、AlexNet等，只接受固定尺寸的输入并产生非空间输出，原因在于全连接层参数的限制，而且这些网络在通过全连接层把输入展开成向量的时候丢失了图片原有的空间信息。以VGG16和PASCAL数据集为例，网络去除了最后的分类层，并将所有的全连接层转化为上述的卷积层，然后添加了一层1x1x21的卷积层用于预测每个类别(包括背景)的得分，然后使用转置卷积进行双线性上采样，使得粗粒度输出(coarse outputs)变成像素密集的输出。 ②论文给出了这两种方式的时间性能比较，在GPU上， AlexNe t需要花费1.2毫秒来产生对一张227x227的图片预测，而 FCN版本花费了22毫秒对一张500x500的图片产生大小为 10x10 的预测，比AlexNet快了5倍多。使用跳层连接随着卷积神经网络层数的增加，每一层的感知野(reception field)也更广。但网络中低的层感知野小，能得到更多细节。图中所示为改造后的VGG16的简化图，图中只包含了输入层、由全连接层转化而来的卷积层以及Pooling层。对我们最初采用stride为32的上采样得到结果的模型我们称为FCN-32s ，为了进一步优化输出预测。

语义分割卷积神经网络快速入门

阅读更多关于语义分割卷积神经网络快速入门

原文地址： https://blog.goodaudience.com/using-convolutional-neural-networks-for-image-segmentation-a-quick-intro-75bd68779225 语义分割的目的是将图像中的每个像素映射至一个目标类。样例如下：上图中所有车辆被标记为相同的颜色，每个目标类都分别进行了分割，相比于分类，分割是一个更加复杂的问题。我们使用全卷积网络（FCNs）对图像进行分割，全卷积网络首次在这篇文章中提出，这是为数不多的可读的研究论文之一，它不会用数学符号、专业名词和深奥的术语压垮你。如果你之前使用过卷积神经网络（CNNs），一定要阅读一番。我会介绍两个重要的技巧，使你能够将用于图像分类的预训练 CNN 转换为 FCN 来执行图像分割。将全连接层（FC）转换为卷积层（CONV） FC 和 CONV 层唯一的不同在于 CONV 层中的神经元仅仅和输入中的局部区域相连接，CONV 块中的很多神经元共享参数。然而，这两个层中的神经元仍然要计算点积，所以它们的函数形式是相同的。因此，在 FC 和 CONV 层之间进行转换是可行的。来源： cs231n lecture notes 假设你的卷积层输出大小为7x7x512，紧跟一个有 4096 个神经元的 FC 层，则对于一个单独的输入图像来说，FC

卷积神经网络 + 机器视觉： L9_VGG_GoogleNet_ResNet (斯坦福课堂）

阅读更多关于卷积神经网络 + 机器视觉： L9_VGG_GoogleNet_ResNet (斯坦福课堂）

完整的视频课堂链接如下： https://www.youtube.com/watch?v=DAOcjicFr1Y&list=PL3FW7Lu3i5JvHM8ljYj-zLfQRF3EO8sYv&index=9 完整的视频课堂投影片连接： http://cs231n.stanford.edu/slides/2017/cs231n_2017_lecture9.pdf 前一课堂笔记连结：卷积神经网络 + 机器视觉：L8_Static_Tensorflow_Dynamic_Pytorch (斯坦福课堂） Menu this round （Case Study） AlexNet VGG net GoogleNet ResNet AlexNet 此神经网络大致结构（8层）： CONV1 >>> MAX POOL1 >>> NORM1 >>> CONV2 >>> MAX POOL2 >>> NORM2 >>> CONV3 >>> CONV4 >>> CONV5 >>> MAX POOL3 >>> Fully Connected6 >>> FC7 >>> FC8 ** 注意这边标注的是一个大致的 AlexNet 框架组成内容，并没有写出细节。开始估算整个神经网络需要占用的资源前，先回忆一下神经个数计算方法（点击），如果现在有个 input image: 227*227*3，使用 96 个

深度学习之艺术风格迁移

阅读更多关于深度学习之艺术风格迁移

近年来，由深度学习所引领的人工智能技术浪潮，开始越来越广泛地应用到社会各个领域。这其中，人工智能与艺术的交叉碰撞，不仅在相关的技术领域和艺术领域引起了高度关注。以相关技术为基础而开发的各种图像处理软件和滤镜应用更是一推出就立刻吸引了海量用户，风头一时无两。在这各种神奇的背后，最核心的就是基于深度学习的图像风格迁移(style transfer)。本博文就是介绍一个这样酷炫的深度学习应用：风格迁移。基于神经网络的风格迁移算法 “A Neural Algorithm of Artistic Style” 最早由 Gatys 等人在 2015 年提出，随后发表在 CVPR 2016 上。斯坦福大学的 Justin Johnson（cs231n 课程的主讲人之一）给出了 Torch 实现 neural-style。除此之外，这篇文章的作者另外还建立了一个在线艺术风格迁移的网站，deepart.io。在介绍主要内容之前，先直观看下什么是艺术风格迁移，如图 1 所示，给定内容图像（第一行左边图像）以及风格图像（左下角图像）可以生成特定风格下的混合图像。网络多次运算后，人眼很难判断出该图像是否为梵高或者毕加索的真迹。图1 生成的几种不同风格图像艺术风格迁移的核心思想就是，可以从一副图像中提取出“风格 style”（比如梵高的夜空风格）以及“内容 content”

Keras入门之二：Hello Keras on CNN with Lena

阅读更多关于 Keras入门之二：Hello Keras on CNN with Lena

这是第二个Keras的例子。是介绍了如何使用Keras构建一个卷积神经网络。通过这个例子，我之前在图像处理上固有的观念导致对卷积网络的工作原理有了稍微的误差，从而修正过来了。这种错误主要是对卷积之后网络变厚的理解，之前我总以为一个卷积核将3通道的图像卷积后仍然是3个通道。这是以前做图像处理的时候固有的想法，而不是神经网络工作的模式。神经网络的卷积实际上更多的是要从网络连接上来考虑这种卷积实现。时间关系先上代码，以后再修改 #=================== Test 2 Hello Keras on CNN ============================================================================== # 这是一个简单的卷积神经网络的例子。 from PIL import Image from keras.models import Sequential # 采用贯序模型 from keras.layers import Input, Dense, Dropout, Activation from keras.layers import Convolution2D, ZeroPadding2D, MaxPooling2D from keras.models import Model from keras

卷积神经网络 + 机器视觉：L7_进阶梯度下降_正则化_迁移学习（斯坦福课堂）

阅读更多关于卷积神经网络 + 机器视觉：L7_进阶梯度下降_正则化_迁移学习（斯坦福课堂）

完整的视频课堂链接如下： https://www.youtube.com/watch?v=_JB0AO7QxSA&list=PL3FW7Lu3i5JvHM8ljYj-zLfQRF3EO8sYv&index=7 完整的视频课堂投影片连接： http://cs231n.stanford.edu/slides/2017/cs231n_2017_lecture7.pdf 前一课堂笔记连结：卷积神经网络 + 机器视觉： L6_初始化_激励函数_BN_梯度下降（斯坦福课堂） Menu this round Fancier Optimization Regularization Transfer Learning 如果一个神经网络模型中，我们把学习效率 learning rate 总是调的很低，理论上只要时间允许的情况下，结果也总是可以达到预期的。但是现实很骨感，在迅速变迁的时代，学得不够快的模型又怎么能够满足以效率著称的科技公司们的胃口呢？因此必须有一个更好的办法加速这个学习过程，更快的找到 Hyperparameter 才行。虽然前面说的 Gradient Descent 理论上很完美，总是沿着梯度不断下滑，到最后就可以找到最小值，但是实际过程中越多维度越容易造成的坑坑巴巴路面总是让 GD 的路径扭来扭去，不直接快速的滑到低谷里，因此这边即将介绍一些方法来改进这个缺陷。最简单的 GD

CNN网络中卷积层的正向传播与反向传播理解

阅读更多关于 CNN网络中卷积层的正向传播与反向传播理解

在CNN网络模型是建立在传统神经网络结构上的，对于一个传统的神经网络其结构是这样的：从上面可以看出，其模型是全连接的。若是使用一幅512*512大小的图像作为输入，隐层1中含有10000个神经元，那么在不算偏置项的情况下，权值参数的个数就是512*512*10000个，如此巨大的参数量不计较内存其优化也是比较困难的。在此基础上学者推出了CNN网络模型，其较为经典的运用便是LeNet，下面是其结构展示：可以从上图中看出，其网络结构中主要存在两个之前没有的成分：卷积层（ConvNet）、池化层（PoolNet）。对于上图中的卷积层C1可以看到它包含的是6个卷积核，每个卷积核的大小是5*5，因而其参数量是6*(5*5+1)。相比之前的传统神经网络在参数量上就小了很多。说道卷积其具体的含义就是对图像使用掩膜进行运算，与传统图像处理中的中值滤波、均值滤波有类似性，可以使用下图进行解释：在上图中可以看到黄色的滑动窗口在图像矩阵中进行滑动，从而得到了最后的卷积结果。对于卷积之后图像的尺寸是有一个计算公式的，当下假设输入图像的尺寸 W H W H ，卷积核的尺寸为 W k H k W k H k ，填充用的 p a d d i n g = p p a d d i n g = p ，卷积的步长为 s t r i d e = s s t r i d e = s 。则生成的卷积结果尺寸 W

Faster R-CNN学习笔记

阅读更多关于 Faster R-CNN学习笔记

论文大部分转载自：https://blog.csdn.net/WZZ18191171661/article/details/79439212 论文题目： Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks 论文链接：论文链接论文代码：Matlab版本点击此处，Python版本点击此处作为一个目标检测领域的baseline算法， Faster-rcnn 值得去仔细理解里面的细节按照总分总的顺序剖析。图2 Faster-rcnn架构图（精简版）图3 Faster-rcnn架构图（细节版）一、目标检测的总体框架图4 目标检测框架图观察图4，你可以发现目标检测的框架中包含4个关键模块，包括region proposal（生成ROI）、feature extraction（特征提取网络）、classification（ROI分类）、regression（ROI回归）。而faster-rcnn利用一个神经网络将这4个模块结合起来，训练了一个端到端的网络。通过观察图1、图2、图3，我们可以得到如下的结论：Faster-rcnn主要包括4个关键模块，特征提取网络、生成ROI、ROI分类、ROI回归。特征提取网络

订阅卷积神经网络