正则化

深度学习100问之提高深度学习模型训练效果(调参经验)

元气小坏坏 提交于 2020-01-21 04:37:10
声明 1)本文仅供学术交流,非商用。所以每一部分具体的参考资料并没有详细对应。如果某部分不小心侵犯了大家的利益,还望海涵,并联系博主删除。 2)博主才疏学浅,文中如有不当之处,请各位指出,共同进步,谢谢。 3)此属于第一版本,若有错误,还需继续修正与增删。还望大家多多指点。大家都共享一点点,一起为祖国科研的推进添砖加瓦。 文章目录 声明 :zap: 0、前言 :art: 1、网络结构 :card_file_box: 2、数据 :rocket: 3、学习率 :wrench: 4、优化器 :tada: 5、初始化 :pencil: 6、训练轮数 :chart_with_upwards_trend: 7、dropout :heavy_plus_sign: 8、正则化 :goal_net: 9、预训练 :boom: 10、激活函数 :bento: 11、特征抽取 :recycle: 12、置乱训练数据 :dizzy: 13、批大小 :sparkles: 14、显卡 :rocket: 15、总结 ⚡️ 0、前言 最近在 炼丹 的时候验证病查找了一些提高深度学习网络模型训练效果的方法,和大家分享一下。 🎨 1、网络结构 首先我觉得最重要的就是确定你的大体网络结构,因为除了 CV 、 NLP 等主流方向,其他方向都是刚开始结合深度学习, 说好听点是创新点,说难听就是注水 。。

Machine Learning Andrew Ng -7. Regularization

折月煮酒 提交于 2020-01-20 20:48:09
7.1 The problem of over-fitting What is overfitting problem? generalize 泛化 :一个假设模型应用到新样本的能力 如何解决过度拟合? 7.2 Cost function 一般只对 θ 1 , θ 2 , . . . , θ n \theta_1,\theta_2,...,\theta_{n} θ 1 ​ , θ 2 ​ , . . . , θ n ​ 进行正则化 缩小参数 θ \theta θ 如果正则化参数 λ \lambda λ 选的过大,则会出现下图所示欠拟合的情况 如何选择正则化参数? 应用到 linear regression and logistic regression? 7.3 Regularized linear regression 7.4 Regularized logistic regression 如何改进梯度下降和其他高效算法使其应用到正则化逻辑回归中? 其中,逻辑回归的梯度下降法的迭代方式与线性回归看似相同,但实际上二者的 h θ ( x ) h_\theta(x) h θ ​ ( x ) 不同,因此是两种完全不同的方法。 老师说,学到这里,你已经比很多硅谷工程师强了(信了老师的鬼话哦つ﹏⊂ 来源: CSDN 作者: _BANA 链接: https://blog.csdn.net

机器学习(Machine Learning)- 吴恩达(Andrew Ng) 学习笔记(七)

早过忘川 提交于 2020-01-19 15:07:37
Regularization 正则化 The problem of overfitting 过拟合问题 什么是过拟合问题、利用正则化技术改善或者减少过拟合问题。 Example: Linear regression (housing prices) 线性回归中的过拟合 对5个训练集建立线性回归模型,分别进行如下图所示的三种分析。 如果拟合一条直线到训练数据(图一),会出现欠拟合(underfitting)/高偏差(high bias)现象(指没有很好地拟合训练数据)。 试着拟合一个二次函数的曲线(图二),符合各项要求。称为just right。 接着拟合一个四次函数的曲线(图三),虽然曲线对训练数据做了一个很好的拟合,但是显然是不合实际的,这种情况就叫做过拟合或高方差(variance)。 Overfitting: If we have too many features, the learned hypothesis may fit the training set very well( \(\sum_{i=1}^m(h_\theta(x^{(i)}) - y^{(i)})^2 \approx 0\) ), but fail to generalize to new example and fails to predict prices on new examples. 过拟合:

过拟合与正则化

时间秒杀一切 提交于 2020-01-19 14:20:04
过拟合:常见原因是特征维度过多 解决方法:减少特征维度,比如通过正则化,达到降低参数值的目的,等价于降维 L1正则化比L2正则化更容易产生稀疏参数值 L1的罚项为1次函数,其偏导是常数,所以梯度下降时是稳定靠近最优值 L2的罚项为2次函数,其偏导在最优值附近越来越小,所以梯度下降时越靠近最优值,收敛得越慢 相比之下L1更容易稀疏 来源: CSDN 作者: 厉害了我的汤 链接: https://blog.csdn.net/YD_2016/article/details/104036810

@。Tensorflow,纯新手入门笔记->回归算法、损失函数

吃可爱长大的小学妹 提交于 2020-01-16 09:24:44
第七节: 机器学习中第一个算法:回归算法 亮点: 1.因变量和自变量之间的关系实现数据的预测。 2.不同自变量对因变量影响的强度。(不就是k嘛) for example :对房价估计时,需要确定房屋面积(自变量)与其价格(因变量)之间的关系,可以利用这一关系来预测给定面积的房屋的价格。 可以有多个影响因变量的自变量。 一、线性回归 其中,X=(x1,​x2,…,xn) 为 n 个输入变量,W=(w1,w2,…,wn) 为线性系数,b 是偏置项。目标是找到系数 W 的最佳估计,使得预测值 Y 的误差最小。 亮点: 1.W很重要,要W最佳,使得误差最小。 2.最小二乘法,可以使得W最佳。即使预测值 (Yhat) 与观测值 (Y) 之间的差的平方和最小。 3.还有个b偏置 因此,这里尽量最小化损失函数: 根据输入变量 X 的数量和类型,可划分出多种线性回归类型: 简单线性回归(一个输入变量,一个输出变量),多元线性回归(多个输入变量,一个输出变量),多变量线性回归(多个输入变量,多个输出变量)。 二、逻辑回归 :用来确定一个事件的概率。通常来说,事件可被表示为类别因变量。事件的概率用 logit 函数(Sigmoid 函数)表示: 现在的目标是估计权重 W=(w1,w2,…,wn) 和偏置项 b。在逻辑回归中,使用最大似然估计量或随机梯度下降来估计系数。损失函数通常被定义为交叉熵项:

训练过程Trick合集

北城余情 提交于 2020-01-15 20:08:10
文章目录 1. 写代码之前要做的事情 2.设置端到端的训练评估框架 1)固定随机种子 2)简单化 3)绘制测试集损失 4)在初始阶段验证损失函数 5)初始化 6)人类基线 7)设置一个独立于输入的基线 8)过拟合一个batch 9)验证减少训练损失 10)在训练模型前进行数据可视化 11)可视化预测动态 12)使用反向传播来获得依赖关系 3.挑选模型 1)挑选模型 2)Adam方法是安全的 3)一次只复杂化一个 4)学习率设置 5)每轮训练数据乱序 6)batch_size选择 7)学习率和batchsize的关系 4.正则化 1)获取更多数据 2)数据扩增 3)有创意的扩增 4)预训练 5)跟监督学习死磕 6)输入低维一点 7)模型小一点 8)减小批尺寸 9)Dropout 10)权重衰减Weight Decay 11)早停法Early Stop 12)附加 5.调参 1)随机网格搜索 2)超参数优化 6.测试阶段 1)模型融合 2)TTA测试时增强 参考博客 1. 写代码之前要做的事情 训练神经网络前,别管代码,先从预处理数据集开始。我们先花几个小时的时间,了解 数据的分布 并找出其中的 规律 。 Andrej有一次在整理数据时发现了重复的样本,还有一次发现了图像和标签中的错误。所以先看一眼数据能避免我们走很多弯路。 由于神经网络实际上是数据集的压缩版本,因此您将能够查看网络

使用sklearn做特征工程

你离开我真会死。 提交于 2020-01-15 16:55:43
1 特征工程是什么?   有这么一句话在业界广泛流传:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。那特征工程到底是什么呢?顾名思义,其本质是一项工程活动,目的是最大限度地从原始数据中提取特征以供算法和模型使用。通过总结和归纳,人们认为特征工程包括以下方面:   特征处理是特征工程的核心部分,sklearn提供了较为完整的特征处理方法,包括数据预处理,特征选择,降维等。首次接触到sklearn,通常会被其丰富且方便的算法模型库吸引,但是这里介绍的特征处理库也十分强大!   本文中使用sklearn中的 IRIS(鸢尾花)数据集 来对特征处理功能进行说明。IRIS数据集由Fisher在1936年整理,包含4个特征(Sepal.Length(花萼长度)、Sepal.Width(花萼宽度)、Petal.Length(花瓣长度)、Petal.Width(花瓣宽度)),特征值都为正浮点数,单位为厘米。目标值为鸢尾花的分类(Iris Setosa(山鸢尾)、Iris Versicolour(杂色鸢尾),Iris Virginica(维吉尼亚鸢尾))。导入IRIS数据集的代码如下: 1 from sklearn.datasets import load_iris 2 3 #导入IRIS数据集 4 iris = load_iris() 5 6 #特征矩阵 7 iris.data

LogisticRegression逻辑斯特回归性能分析_学习曲线

岁酱吖の 提交于 2020-01-14 02:32:42
LogisticRegression逻辑斯特回归性能分析_学习曲线 L2正则化 # 我们在乳腺癌数据集上详细分析 LogisticRegression from sklearn . datasets import load_breast_cancer cancer = load_breast_cancer ( ) X_train , X_test , y_train , y_test = train_test_split ( cancer . data , cancer . target , stratify = cancer . target , random_state = 42 ) logreg = LogisticRegression ( ) . fit ( X_train , y_train ) print ( "Training set score: {:.3f}" . format ( logreg . score ( X_train , y_train ) ) ) print ( "Test set score: {:.3f}" . format ( logreg . score ( X_test , y_test ) ) ) ​ # C=1 的默认值给出了相当好的性能,在训练集和测试集上都达到 95% 的精度。但由于训练 # 集和测试集的性能非常接近

吴恩达深度学习课程疑难点笔记系列-改善深层神经网络-第1周

时光怂恿深爱的人放手 提交于 2020-01-14 00:26:34
本笔记系列参照吴恩达深度学习课程的视频和课件,并在学习和做练习过程中从CSDN博主 何宽 分享的文章中得到了帮助,再此表示感谢。 本周主要学习的内容有: 训练/开发/测试机、偏差/方差、机器学习基础、正则化、为什么正则化可以减少过拟合?、Dropout正则化、理解Dropout、其它正则化方法、正则化输入、梯度消失与梯度爆炸、神经网络的权重初始化、梯度的数值逼近、梯度检验、关于梯度检验实现的注记。 本周学习的主要疑难点: 1.偏差和方差 偏差和方差是针对泛化(Generalization)而言的,模型训练的过程是一个不断减小误差函数(Loss Function)的过程。而模型在训练数据集上取得的最小误差函数值与一般数据集(或者测试数据集)上取得的最小误差函数值的差异叫泛化误差(generalization error)。 泛化误差可以分解为偏差、方差和噪声之和。具体数学公式的推导可以查看西瓜书2.5节的推导过程。 偏差(Bias):度量了学习算法的期望预测与真实结果的偏离程度,即 刻画了学习算法本身的拟合能力 。 方差(Variance):度量了同样大小的训练集的变动所导致的学习性能的变化,即 刻画了数据扰动所造成的影响 。 噪声(Noise):表达了当前任务上学习任何算法所能达到的期望泛化误差的下届,即 刻画了学习问题本身的难度 我们可以从图1来理解偏差和方差的区别 图 1 图1

ML_learning02:线性回归

好久不见. 提交于 2020-01-13 23:09:33
理解线性模型: 是一种函数 目标是预测 从一个属性的线性组合中来学习 具备很好的 可解释性 :每个样本都给予了相应的权重表示重要性 线性回归 数据集:D={(x1,y1),(x2,y2),…,(xn,yn)}, 其中xi=(xi1;xi2;xi3;…;xid),yi∈Rxi=(xi1;xi2;xi3;…;xid),yi∈R 线性回归试图从样本X学得一个线性模型–>尽可能准确的预测实值输出Y, f ( x i ) = w x i + b f\left(x_i\right)=wx_i+b f ( x i ​ ) = w x i ​ + b 使得 f ( x i ) ≈ y i f(x_i)\approx y_i f ( x i ​ ) ≈ y i ​ 1、将f(x)与y之间的差别最小化 性能度量是衡量模型泛化能力的评价标准。 均方误差(MSE:mean squared error)是回归任务中最常用的性能度量, E ( w ) = 1 m ∑ i = 1 m ( f w ( x i ) − y i ) 2 E\left(w\right)=\frac1m\sum_{i=1}^m\left(f_w\left(x_i\right)-y_i\right)^2 E ( w ) = m 1 ​ i = 1 ∑ m ​ ( f w ​ ( x i ​ ) − y i ​ ) 2 使用MSE的原因