激活函数

Paper:Xavier参数初始化之《Understanding the difficulty of training deep feedforward neural networks》的翻译与解读

有些话、适合烂在心里 提交于 2020-04-11 15:07:34
Paper:Xavier参数初始化之《Understanding the difficulty of training deep feedforward neural networks》的翻译与解读 目录 Understanding the difficulty of training deep feedforward neural networks Abstract 5 Error Curves and Conclusions 误差曲线及结论 相关文章 Paper:Xavier参数初始化之《Understanding the difficulty of training deep feedforward neural networks》的翻译与解读 Paper:He参数初始化之《Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet C》的翻译与解读 DL之DNN优化技术:DNN中参数初始值优化【He初始化和Xavier初始化】的简介、使用方法详细攻略 Understanding the difficulty of training deep feedforward neural networks 原论文地址 : http://proceedings.mlr.press/v9

归一化激活层的进化:谷歌Quoc Le等人利用AutoML 技术发现新型ML模块

扶醉桌前 提交于 2020-04-10 15:17:14
最近,谷歌大脑团队和 DeepMind 合作发布了一篇论文,利用 AutoML 技术实现了归一化激活层的进化,找出了 BatchNorm-ReLU 的替代方案 EvoNorms,在 ImageNet 上获得 77.8% 的准确率,超越 BN-ReLU(76.1%)。 选自arXiv,作者:Hanxiao Liu,等机器之心编译,机器之心编辑部。 论文地址: https:// arxiv.org/abs/2004.0296 7 视频: https:// youtu.be/RFn5eH5ZCVo 批归一化和激活函数是深度神经网络的重要组成部分,二者的位置常常重合。以往的神经网络设计中通常对二者分别进行设计,而最近谷歌大脑和 DeepMind 研究人员合作提出了一种新方案: 将二者统一为一个计算图,从低级原语开始进行结构进化。研究者利用层搜索算法发现了一组全新的归一化-激活层 EvoNorms 。这些层中的一部分独立于批统计量(batch statistics)。 实验证明,EvoNorms 不仅在包括 ResNets、MobileNets 和 EfficientNets 在内的多个图像分类模型上效果显著,它还能很好地迁移到 Mask R-CNN 模型(进行实例分割)和 BigGAN(用于图像合成)。在多种情况下,EvoNorms 的性能显著优于基于 BatchNorm 和

基础的神经网络与反向传播

邮差的信 提交于 2020-04-09 14:58:09
算法原理 概述: 算法通过构建多层网络解决单层感知机的非线性可分无法分割问题,通过梯度下降法更新网络中的各个权值向量,使得全局的损失函数极小化,从而实现对任意复杂的函数的拟合,这在分类问题中表现为它能将任意复杂的数据划分开,在回归问题中表现为它能拟合任意复杂的回归函数 其中梯度下降的核心是误差反向传播算法,这个算法大大减少了梯度下降法的计算量,是多层神经网络得以复苏的功臣,它使得当前层的梯度项能往后一层传播,从而快速求得后一层的梯度 问题1:神经网络是如何解决非线性可分无法分割问题的? pla模型可以看做是神经网络的一个神经元,我们知道,pla能对数据空间划分一个超平面,简单的实现分类任务。但是pla这种只会切一刀的模型无法解决异或问题。 而神经网路可以通过增加一个2节点的隐藏层,就相当于是放置了两个pla,这两个pla互相独立,各自能在数据空间划分一个超平面,对于异或问题,它们将二维空间划分为3到4个平面(图2的A、B、C、D四个平面),然后隐藏层到输出层再对这些平面做一次分割将其分成两类(图3的橙色与蓝色),从而解决了非线性可分的异或问题 问题2:如何理解神经网络强大的拟合能力? 说真的,我觉得神经网络比决策树抽象太多了,不容易理解,下面只是我的一些肤浅的认识 ① 对于分类问题 ,用空间切割的思想进行理解,通过上述异或问题的例子我们看到,通过增加节点数

cs224u Autoencoders自编码

南笙酒味 提交于 2020-04-08 17:47:01
cs224u Autoencoders自编码 Autoencoders自编码器是一种机器学习模型,旨在学习预测自身输入的参数。 海报:业界AI课程分享,段智华邀你一起学习。本节分享课程:彭靖田,Google开发专家、华为深度学习团队核心成员,畅销书《深入理解TensorFlow》作者。 课程内容:1、快速掌握人工智能的理论基础与代码案例 2、4个典型人工智能模型实战,手把手教你模型训练和参数调优 3、全方位解密深度学习训练原理,实践可视化深度学习 4、使用人工智能解决实际问题的思路与技巧 PyToch实现AutoEncoder简介 torch_autoencoder模块使用PyToch实现一个简单的单层自动编码器: 假设隐藏层表示的h矩阵为100维,f是非线性激活函数(TorchAutoencoder的默认激活函数是tanh)。假设有两个权重矩阵Wxh和Whx。自动编码器的目标函数实现对输入与预测输出之间距离进行评估。例如,可以使用均方误差公式计算: 其中X是数据的输入矩阵(维度为m×n),X[i]对应于第i个数据,调用TorchAutoencod 来源: oschina 链接: https://my.oschina.net/u/4259099/blog/3224834

Reducing Overfitting in Deep CNNs

馋奶兔 提交于 2020-04-06 19:01:45
这是一篇不错的博文,感谢分享。 http://blog.csdn.net/yhl_leo/article/details/66969915 ================================================================================================================================= 大家好,今天我要讲的内容是在深度学习的卷积神经网络中,如何减弱过拟合问题的相关研究,最近刚好在修改论文,就把相关的方法和技术整理出来,对于怎样选择和设计网络模型具有一定的指导性,希望对大家有帮助。 内容主要分为三个模块,首先对过拟合问题的产生原因、以及解决方向进行简单的介绍,然后会就不同的解决方案,讲解一些解决方法;最后是简单说一下自己的一些研究工作(最后一部分略)。 在讲过拟合问题前,先简单介绍一下偏差和方差权衡的问题,假设存在一组观测数据 x , y x,y ,如果存在一组理想的映射,使得每个观测值经过该映射后,能够与它对应的预测值一一对应,这就是识别、分类以及回归问题的本质,这里我们先不管怎么去优化这个理想的映射中的未知参数,我们也意识到对于观测数据,本身其实也是有噪声的,我们假设观测数据满足这样一个分布模式,也就是观测值经过理想的映射后还含有一个随机的高斯噪声项 ϵ ϵ

【NLP面试QA】基本策略

☆樱花仙子☆ 提交于 2020-04-05 18:51:37
目录 防止过拟合的方法 什么是梯度消失和梯度爆炸?如何解决? 在深度学习中,网络层数增多会伴随哪些问题,怎么解决? 关于模型参数 模型参数初始化的方法 模型参数初始化为 0、过大、过小会怎样? 为什么说模型参数越小,模型越简单 正则化 Regularization 正则化方法 正则化如何解决过拟合的 如何在代码中加入正则化 关于梯度下降 Batch/Mini-Batch/SGD梯度下降 增大 batch size 的影响 优化算法(Momentum/RMSProp/Adam) 归一化 Normalization 深度学习中的 Internal Covariate Shift(内部协变量偏移) ICS 会导致什么问题 Normalization 的基本思想与通用框架 为什么 NLP 中用 Layer Normalization 效果较好而 CV 中 Batch Normalization 的效果较好 防止过拟合的方法 根据验证集分数设置 early_stoping 数据增强 dropout 正则化:正则化会使得参数值更小,模型更简单,从而避免过拟合,即奥卡姆剃刀原理 还有一些其他的方法,比如采用对抗训练的方法可以增强模型的鲁棒性和抗干扰能力,也能一定程度上防止过拟合 什么是梯度消失和梯度爆炸?如何解决? 由于梯度反向传播遵循链式求导法则,浅层网络的梯度包含深层网络梯度的累乘项

Pytorch_LSTM与GRU

半腔热情 提交于 2020-03-23 17:55:30
3 月,跳不动了?>>> RNN循环网络在序列问题处理中得到了广泛的应用。但使用标准版本的RNN模型时,常遇到梯度消失gradient vanishing和梯度爆炸gradient explosion问题。 RNN的缺点 RNN的梯度消失和梯度爆炸不同于其它网络,全连接网络和卷积网络每一层有不同参数,而RNN 的每个处理单元Cell(处理单个序列元素的操作称为处理单元Cell)共用同一组权重矩阵W。在上一篇介绍RNN网络算法时可以看到,处理单元之间是全连接关系,序列向前传播的过程中将不断乘以权重矩阵W,从而构成了连乘Wn,当W<1时,如果序列很长,则结果趋近0;当w>1时,经过多次迭代,数值将迅速增长。反向传播也有同样问题。 梯度爆炸问题一般通过“梯度裁剪”方法改善,而梯度消失则使得序列前面的数据无法起到应有的作用,造成“长距离依赖”(Long-Term Dependencies)问题,也就是说RNN只能处理短距离的依赖关系。 这类似于卷积神经网络在处理图像问题时加深网络层数,无法改进效果。尽管理论上可以通过调参改进,但难度很大,最后图像处理通过修改网络结构使用残差网络解决了这一问题。同样,RNN也改进了结构,使用LSTM和GRU网络。作为RNN的变种,它们使用率更高。 LSTM长短时记忆网络 LSTM是Long Short Term Memory Networks的缩写