正则化 | 易学教程

深度学习100问之提高深度学习模型训练效果（调参经验）

阅读更多关于深度学习100问之提高深度学习模型训练效果（调参经验）

声明 1）本文仅供学术交流，非商用。所以每一部分具体的参考资料并没有详细对应。如果某部分不小心侵犯了大家的利益，还望海涵，并联系博主删除。 2）博主才疏学浅，文中如有不当之处，请各位指出，共同进步，谢谢。 3）此属于第一版本，若有错误，还需继续修正与增删。还望大家多多指点。大家都共享一点点，一起为祖国科研的推进添砖加瓦。文章目录声明 :zap: 0、前言 :art: 1、网络结构 :card_file_box: 2、数据 :rocket: 3、学习率 :wrench: 4、优化器 :tada: 5、初始化 :pencil: 6、训练轮数 :chart_with_upwards_trend: 7、dropout :heavy_plus_sign: 8、正则化 :goal_net: 9、预训练 :boom: 10、激活函数 :bento: 11、特征抽取 :recycle: 12、置乱训练数据 :dizzy: 13、批大小 :sparkles: 14、显卡 :rocket: 15、总结 ⚡️ 0、前言最近在炼丹的时候验证病查找了一些提高深度学习网络模型训练效果的方法，和大家分享一下。 🎨 1、网络结构首先我觉得最重要的就是确定你的大体网络结构，因为除了 CV 、 NLP 等主流方向，其他方向都是刚开始结合深度学习，说好听点是创新点，说难听就是注水。。

Machine Learning Andrew Ng -7. Regularization

阅读更多关于 Machine Learning Andrew Ng -7. Regularization

7.1 The problem of over-fitting What is overfitting problem? generalize 泛化：一个假设模型应用到新样本的能力如何解决过度拟合？ 7.2 Cost function 一般只对 θ 1 , θ 2 , . . . , θ n \theta_1,\theta_2,...,\theta_{n} θ 1 , θ 2 , . . . , θ n 进行正则化缩小参数 θ \theta θ 如果正则化参数 λ \lambda λ 选的过大，则会出现下图所示欠拟合的情况如何选择正则化参数？应用到 linear regression and logistic regression? 7.3 Regularized linear regression 7.4 Regularized logistic regression 如何改进梯度下降和其他高效算法使其应用到正则化逻辑回归中？其中，逻辑回归的梯度下降法的迭代方式与线性回归看似相同，但实际上二者的 h θ ( x ) h_\theta(x) h θ ( x ) 不同，因此是两种完全不同的方法。老师说，学到这里，你已经比很多硅谷工程师强了（信了老师的鬼话哦つ﹏⊂ 来源： CSDN 作者： _BANA 链接： https://blog.csdn.net

机器学习（Machine Learning）- 吴恩达（Andrew Ng）学习笔记（七）

阅读更多关于机器学习（Machine Learning）- 吴恩达（Andrew Ng）学习笔记（七）

Regularization 正则化 The problem of overfitting 过拟合问题什么是过拟合问题、利用正则化技术改善或者减少过拟合问题。 Example: Linear regression (housing prices) 线性回归中的过拟合对5个训练集建立线性回归模型，分别进行如下图所示的三种分析。如果拟合一条直线到训练数据（图一），会出现欠拟合(underfitting)/高偏差(high bias)现象（指没有很好地拟合训练数据）。试着拟合一个二次函数的曲线（图二），符合各项要求。称为just right。接着拟合一个四次函数的曲线（图三），虽然曲线对训练数据做了一个很好的拟合，但是显然是不合实际的，这种情况就叫做过拟合或高方差(variance)。 Overfitting: If we have too many features, the learned hypothesis may fit the training set very well( \(\sum_{i=1}^m(h_\theta(x^{(i)}) - y^{(i)})^2 \approx 0\) ), but fail to generalize to new example and fails to predict prices on new examples. 过拟合：

过拟合与正则化

阅读更多关于过拟合与正则化

过拟合：常见原因是特征维度过多解决方法：减少特征维度，比如通过正则化，达到降低参数值的目的，等价于降维 L1正则化比L2正则化更容易产生稀疏参数值 L1的罚项为1次函数，其偏导是常数，所以梯度下降时是稳定靠近最优值 L2的罚项为2次函数，其偏导在最优值附近越来越小，所以梯度下降时越靠近最优值，收敛得越慢相比之下L1更容易稀疏来源： CSDN 作者：厉害了我的汤链接： https://blog.csdn.net/YD_2016/article/details/104036810

@。Tensorflow，纯新手入门笔记->回归算法、损失函数

阅读更多关于 @。Tensorflow，纯新手入门笔记->回归算法、损失函数

第七节：机器学习中第一个算法：回归算法亮点： 1.因变量和自变量之间的关系实现数据的预测。 2.不同自变量对因变量影响的强度。（不就是k嘛） for example ：对房价估计时，需要确定房屋面积（自变量）与其价格（因变量）之间的关系，可以利用这一关系来预测给定面积的房屋的价格。可以有多个影响因变量的自变量。一、线性回归其中，X=(x1,x2,…,xn) 为 n 个输入变量，W=(w1,w2,…,wn) 为线性系数，b 是偏置项。目标是找到系数 W 的最佳估计，使得预测值 Y 的误差最小。亮点： 1.W很重要，要W最佳，使得误差最小。 2.最小二乘法，可以使得W最佳。即使预测值 (Yhat) 与观测值 (Y) 之间的差的平方和最小。 3.还有个b偏置因此，这里尽量最小化损失函数：根据输入变量 X 的数量和类型，可划分出多种线性回归类型：简单线性回归（一个输入变量，一个输出变量），多元线性回归（多个输入变量，一个输出变量），多变量线性回归（多个输入变量，多个输出变量）。二、逻辑回归：用来确定一个事件的概率。通常来说，事件可被表示为类别因变量。事件的概率用 logit 函数（Sigmoid 函数）表示：现在的目标是估计权重 W=(w1,w2,…,wn) 和偏置项 b。在逻辑回归中，使用最大似然估计量或随机梯度下降来估计系数。损失函数通常被定义为交叉熵项：

训练过程Trick合集

阅读更多关于训练过程Trick合集

文章目录 1. 写代码之前要做的事情 2.设置端到端的训练评估框架 1）固定随机种子 2）简单化 3）绘制测试集损失 4）在初始阶段验证损失函数 5）初始化 6）人类基线 7）设置一个独立于输入的基线 8）过拟合一个batch 9）验证减少训练损失 10）在训练模型前进行数据可视化 11）可视化预测动态 12）使用反向传播来获得依赖关系 3.挑选模型 1）挑选模型 2）Adam方法是安全的 3）一次只复杂化一个 4）学习率设置 5）每轮训练数据乱序 6）batch_size选择 7）学习率和batchsize的关系 4.正则化 1）获取更多数据 2）数据扩增 3）有创意的扩增 4）预训练 5）跟监督学习死磕 6）输入低维一点 7）模型小一点 8）减小批尺寸 9）Dropout 10）权重衰减Weight Decay 11）早停法Early Stop 12）附加 5.调参 1）随机网格搜索 2）超参数优化 6.测试阶段 1）模型融合 2）TTA测试时增强参考博客 1. 写代码之前要做的事情训练神经网络前，别管代码，先从预处理数据集开始。我们先花几个小时的时间，了解数据的分布并找出其中的规律。 Andrej有一次在整理数据时发现了重复的样本，还有一次发现了图像和标签中的错误。所以先看一眼数据能避免我们走很多弯路。由于神经网络实际上是数据集的压缩版本，因此您将能够查看网络

使用sklearn做特征工程

阅读更多关于使用sklearn做特征工程

1 特征工程是什么？　　有这么一句话在业界广泛流传：数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已。那特征工程到底是什么呢？顾名思义，其本质是一项工程活动，目的是最大限度地从原始数据中提取特征以供算法和模型使用。通过总结和归纳，人们认为特征工程包括以下方面：　　特征处理是特征工程的核心部分，sklearn提供了较为完整的特征处理方法，包括数据预处理，特征选择，降维等。首次接触到sklearn，通常会被其丰富且方便的算法模型库吸引，但是这里介绍的特征处理库也十分强大！　　本文中使用sklearn中的 IRIS（鸢尾花）数据集来对特征处理功能进行说明。IRIS数据集由Fisher在1936年整理，包含4个特征（Sepal.Length（花萼长度）、Sepal.Width（花萼宽度）、Petal.Length（花瓣长度）、Petal.Width（花瓣宽度）），特征值都为正浮点数，单位为厘米。目标值为鸢尾花的分类（Iris Setosa（山鸢尾）、Iris Versicolour（杂色鸢尾），Iris Virginica（维吉尼亚鸢尾））。导入IRIS数据集的代码如下： 1 from sklearn.datasets import load_iris 2 3 #导入IRIS数据集 4 iris = load_iris() 5 6 #特征矩阵 7 iris.data

LogisticRegression逻辑斯特回归性能分析_学习曲线

阅读更多关于 LogisticRegression逻辑斯特回归性能分析_学习曲线

LogisticRegression逻辑斯特回归性能分析_学习曲线 L2正则化 # 我们在乳腺癌数据集上详细分析 LogisticRegression from sklearn . datasets import load_breast_cancer cancer = load_breast_cancer ( ) X_train , X_test , y_train , y_test = train_test_split ( cancer . data , cancer . target , stratify = cancer . target , random_state = 42 ) logreg = LogisticRegression ( ) . fit ( X_train , y_train ) print ( "Training set score: {:.3f}" . format ( logreg . score ( X_train , y_train ) ) ) print ( "Test set score: {:.3f}" . format ( logreg . score ( X_test , y_test ) ) ) # C=1 的默认值给出了相当好的性能，在训练集和测试集上都达到 95% 的精度。但由于训练 # 集和测试集的性能非常接近

吴恩达深度学习课程疑难点笔记系列-改善深层神经网络-第1周

阅读更多关于吴恩达深度学习课程疑难点笔记系列-改善深层神经网络-第1周

本笔记系列参照吴恩达深度学习课程的视频和课件，并在学习和做练习过程中从CSDN博主何宽分享的文章中得到了帮助，再此表示感谢。本周主要学习的内容有：训练/开发/测试机、偏差/方差、机器学习基础、正则化、为什么正则化可以减少过拟合？、Dropout正则化、理解Dropout、其它正则化方法、正则化输入、梯度消失与梯度爆炸、神经网络的权重初始化、梯度的数值逼近、梯度检验、关于梯度检验实现的注记。本周学习的主要疑难点： 1.偏差和方差偏差和方差是针对泛化（Generalization）而言的，模型训练的过程是一个不断减小误差函数（Loss Function）的过程。而模型在训练数据集上取得的最小误差函数值与一般数据集（或者测试数据集）上取得的最小误差函数值的差异叫泛化误差（generalization error）。泛化误差可以分解为偏差、方差和噪声之和。具体数学公式的推导可以查看西瓜书2.5节的推导过程。偏差（Bias）：度量了学习算法的期望预测与真实结果的偏离程度，即刻画了学习算法本身的拟合能力。方差（Variance）：度量了同样大小的训练集的变动所导致的学习性能的变化，即刻画了数据扰动所造成的影响。噪声（Noise）：表达了当前任务上学习任何算法所能达到的期望泛化误差的下届，即刻画了学习问题本身的难度我们可以从图1来理解偏差和方差的区别图 1 图1

ML_learning02:线性回归

阅读更多关于 ML_learning02:线性回归

理解线性模型：是一种函数目标是预测从一个属性的线性组合中来学习具备很好的可解释性：每个样本都给予了相应的权重表示重要性线性回归数据集：D＝{(x1,y1),(x2,y2),…,(xn,yn)}, 其中xi=(xi1;xi2;xi3;…;xid),yi∈Rxi=(xi1;xi2;xi3;…;xid),yi∈R 线性回归试图从样本Ｘ学得一个线性模型–>尽可能准确的预测实值输出Ｙ, f ( x i ) = w x i + b f\left(x_i\right)=wx_i+b f ( x i ) = w x i + b 使得 f ( x i ) ≈ y i f(x_i)\approx y_i f ( x i ) ≈ y i １、将f(x)与ｙ之间的差别最小化性能度量是衡量模型泛化能力的评价标准。均方误差（MSE:mean squared error）是回归任务中最常用的性能度量， E ( w ) = 1 m ∑ i = 1 m ( f w ( x i ) − y i ) 2 E\left(w\right)=\frac1m\sum_{i=1}^m\left(f_w\left(x_i\right)-y_i\right)^2 E ( w ) = m 1 i = 1 ∑ m ( f w ( x i ) − y i ) 2 使用MSE的原因

订阅正则化