深度神经网络

JULY-Record-update

血红的双手。 提交于 2019-11-28 05:44:18
2019/07/26~2019/07/29,关于学习的一些记录 神经网络和深度学习neural networks and deep-learning-中文_ALL(1) 张景,逻辑派,组织派,行为主义 专家系统 知识图谱 情感分析 云计算 目标检测与ImageAI 神经网络游乐场,Tinker With a Neural Network Right Here in Your Browser. Don’t Worry, You Can’t Break It. We Promise. 来源: https://www.cnblogs.com/hdu-2010/p/11394989.html

梯度弥散与梯度爆炸

北战南征 提交于 2019-11-27 18:56:39
问题描述 先来看看问题描述。 当我们使用sigmoid funciton 作为激活函数时,随着神经网络hidden layer层数的增加,训练误差反而加大了,如上图所示。 下面以2层隐藏层神经网络为例,进行说明。 结点中的柱状图表示每个神经元参数的更新速率(梯度)大小,有图中可以看出,layer2整体速度都要大于layer1. 我们又取每层layer中参数向量的长度来粗略的估计该层的更新速率,得到下图。 可以看出,layer2的速率都要大于layer1. 然后我们继续加深神经网络的层数。 可以得到下面的结论: 靠近输出层的hidden layer 梯度大,参数更新快,所以很快就会收敛; 而靠近输入层的hidden layer 梯度小,参数更新慢,几乎就和初始状态一样,随机分布。 在上面的四层隐藏层网络结构中,第一层比第四层慢了接近100倍!! 这种现象就是 梯度弥散(vanishing gradient problem) 。而在另一种情况中,前面layer的梯度通过训练变大,而后面layer的梯度指数级增大,这种现象又叫做 梯度爆炸(exploding gradient problem) 。 总的来说,就是在这个深度网络中, 梯度相当不稳定(unstable)。 直观说明 那么为何会出现这种情况呢? 现在我们来直观的说明一下。 在上面的升级网络中,我们随意更新一个参数,加上一个Δw

SqueezeNext: Hardware-Aware Neural Network Design

老子叫甜甜 提交于 2019-11-25 19:55:52
Abstract 在嵌入式系统上部署神经网络的主要障碍之一是现有神经网络的大内存和功耗。在这项工作中,我们介绍了SqueezeNext,这是一个新的神经网络架构系列,其设计是通过考虑先前的架构(如SqueezeNet)以及神经网络加速器的仿真结果来指导的。这个新网络能够将AlexNet在ImageNet基准测试中的准确度与112倍以下的参数相匹配,其中一个更深层次的变体能够实现VGG-19精度,仅有440万个参数(比VGG19小31倍)。与MobileNet相比,SqueezeNext还可以实现更好的前5级分类精度,参数减少1.3倍,但避免使用在某些移动处理器平台上无效的深度可分离卷积。 这种广泛的精度使用户能够根据目标硬件上的可用资源进行速度 - 精度权衡。使用嵌入式系统上的功率和推理速度的硬件仿真结果指导我们设计基线模型的变化,与SqueezeNet / AlexNet相比,能量效率提高2.59倍/8.26倍,能量效率高2.25倍/ 7.5倍,没有任何精度降低。 Introduction 深度神经网络已经改变了计算机视觉领域的广泛应用。 这部分可以通过新颖的神经网络架构,更多训练数据的可用性以及训练和推理的更快硬件实现。向基于深度神经网络的解决方案的过渡始于AlexNet [19],它大大赢得了ImageNet的挑战。IMAGENET分类挑战始于2010年