正则化 | 易学教程

正则化-多任务学习

阅读更多关于正则化-多任务学习

摘要：首先简单介绍多任务学习的方法，然后结合【1】给出权重自适应变化代价函数的原理与论文源码进行实现。使用Keras框架，参考论文链接。目录多任务学习简介不确定性加权的多任务学习主要参考文献【1】“Multi-Task Learning Using Uncertainty to Weigh Losses for Scene Geometry and Semantics”。【2】“Deep learning”，花书。 1. 多任务学习简介多任务学习通过合并几个任务重的样例提高模型的泛化能力，因此可作为一种正则化的手段。多任务学习的模型通常包括：1. 具体任务独立的参数；2. 所有任务共享的参数。训练过程中两部分参数同时更新。底层参数通常为共享参数，学习不同任务共有的底层表示。利用相同数据集的不同任务，底层表示可能存在某些统计关系，因此能缓解过拟合，提高泛化能力。多任务学习常见的代价函数是不同任务的加权和 L ( W ) = ∑ I = 1 n α i L i ( W ) L({\bf{W}})=\sum_{I=1}^n\alpha_iL_i({\bf{W}}) L ( W ) = I = 1 ∑ n α i L i ( W ) 其中 α i \alpha_i α i 是每个任务的权重，通常是手工选择或者用网格搜索的方式确定，属于额外的超参数。 2.

梯度下降法、正则化与逻辑回归

阅读更多关于梯度下降法、正则化与逻辑回归

1. 梯度下降法在介绍梯度下降法之前，先介绍下泰勒公式，泰勒公式的基本形式如下： $f(x)=f({{x}_{0}})+{{f}^{'}}({{x}_{0}})(x-{{x}_{0}})+\frac{1}{2}{{f}^{''}}({{x}_{0}}){{(x-{{x}_{0}})}^{2}}+\cdots $ 令 x= w t +1 ， w t +1 代表第 t +1 次参数向量的值；令 x 0 = w t ，代表第 t 次参数向量的值；其中 w 共有 k 个参数， w =[ w 1 , w 2, …, w k ] ；令 x - x 0 = △ w ，取一阶泰勒公式，则： $f({{\boldsymbol{w} }^{t+1}})\approx f({{\boldsymbol{w}}^{t}})+{{f}^{'}}({{\boldsymbol{w}}^{t}})\cdot \Delta \boldsymbol{w}$ 由于是梯度下降，所以 $f({\boldsymbol{w}^{t + 1}}) \le f({\boldsymbol{w}^t})$，所以 $\Delta \boldsymbol{w}=\text{-}\alpha \cdot {{f}^{'}}({{\boldsymbol{w}}^{t}})$ 令函数 f 为损失函数 J ，则 ${{\boldsymbol

利用sklearn进行特征选择

阅读更多关于利用sklearn进行特征选择

3种特征选择 Filter 过滤法，按照发散性或者相关性对各个特征进行评分，设定阈值或者待选择阈值的个数，选择特征。（先对数据集进行特征选择，然后再训练学习器） Wrapper 包装法，根据目标函数（通常是预测效果评分），每次选择若干特征，或者排除若干特征。（给定学习器选择最有利于其性能、“量身定做”的特征子集） Embedded 嵌入法，先使用某些机器学习的算法和模型进行训练，得到各个特征的权值系数，根据系数从大到小选择特征。类似于Filter方法，但是是通过训练来确定特征的优劣。（将特征选择过程与学习器训练过程融为一体，两者在同一个优化过程中完成，即在学习器训练过程中自动地进行了特征选择）特征选择的功能 ①减少特征数量、降维，使模型泛化能力更强，减少过拟合。 ②增强对特征和特征值之间的理解。一、Filter 1、删除低方差特征 Removing features with low variance 假设某特征的特征值只有0和1，并且在所有输入样本中，95%的实例的该特征取值都是1，那就可以认为这个特征作用不大。如果100%都是1，那这个特征就没意义了，可以对其进行删除。这种方法简单但不实用。假设我们想要删除超过80%的样本数都是0或都是1（假设是boolean features）的所有特征，由于boolean features是bernoulli随机变量

Analyzing and Improving the Image Quality of StyleGAN （StyleGAN2 ：分析和改善StyleGAN的图像质量）

阅读更多关于 Analyzing and Improving the Image Quality of StyleGAN （StyleGAN2 ：分析和改善StyleGAN的图像质量）

NVIDIA 实验室在 styleGAN1 之后所做了改进，论文标题： Analyzing and Improving the Image Quality of StyleGAN （分析和改善StyleGAN的图像质量），本文是论文的翻译，因为作者本人水平有限，部分地方翻译可能有不妥当之处，还请读者不吝赐教，相互交流，一起进步。摘要基于样式的GAN架构（StyleGAN）在数据驱动的无条件生成图像建模中产生了最新的结果。我们将揭露和分析其一些特征工件，并提出模型架构和训练方法方面的更改以解决这些问题。特别是，我们重新设计了生成器归一化，重新审视了渐进式增长，并对生成器进行了正则化，以鼓励从潜矢量到图像的映射中的良好条件。除了改善图像质量，该路径长度调节器还带来了额外的好处，即发生器变得非常易于反转。这使得可以可靠地检测图像是否由特定网络生成。我们进一步可视化了发生器如何充分利用其输出分辨率，并确定了容量问题，从而激励我们训练更大的模型以进一步提高质量。总体而言，我们改进的模型在现有的分发质量指标和感知的图像质量方面都重新定义了无条件图像建模的最新技术水平。 1.介绍通过生成方法，尤其是生成对抗网络（GAN）[15]生成的图像的分辨率和质量正在迅速提高[23，31，5]。目前，用于高分辨率图像合成的最新方法是StyleGAN [24]，它已被证明可以在各种数据集上可靠地工作

对于L1和L2正则化的理解

阅读更多关于对于L1和L2正则化的理解

首先我们先说明下L1和L2正则化的公式。 L1正则化公式： C = C 0 + λ n ∑ w ∣ w ∣ C=C_{0}+\frac{\lambda}{n} \sum_{w}|w| C = C 0 + n λ w ∑ ∣ w ∣ L2正则化公式： C = C 0 + λ 2 n ∑ w w 2 C=C_{0}+\frac{\lambda}{2 n} \sum_{w} w^{2} C = C 0 + 2 n λ w ∑ w 2 C0代表原始的代价函数首先先说一下他们的相同点，就是都可以防止过拟合。那么什么是过拟合呢？我们先用一张图来简单描述下。上面这张图就很很好的展现了数据呈现过拟合的例子，为了学习到每一个数据的分布，最终形成的拟合函数的波动非常大。在某些很小的区间里，函数值的变化很剧烈。这就意味着函数在某些小区间里的导数值（绝对值）非常大，由于自变量值可大可小，所以只有系数足够大，才能保证导数值很大。而正则化是通过约束参数的范数使其不要太大，所以可以在一定程度上减少过拟合情况。 L1正则化先看下L1正则化是如何解决这个问题的。 C = C 0 + λ n ∑ w ∣ w ∣ C=C_{0}+\frac{\lambda}{n} \sum_{w}|w| C = C 0 + n λ w ∑ ∣ w ∣ 首先我们对L1公式参数进行求导： ∂

机器学习——正则化

阅读更多关于机器学习——正则化

1、欠拟合与过拟合欠拟合模型不能很好的描述数据，不具备足够的灵活性来适应数据的左右特征模型在验证集的表现与在训练集的表现类似，都不理想过拟合模型具有足够的灵活性近乎完美地适应了数据的所有特征，但过多地学习了数据的噪音，在适应数据所有特征的同时也适应了随机误差模型在验证集的表现远远不如在训练集的表现图片来源于：https://www.cnblogs.com/jianxinzhou/p/4083921.html 2、正则化特征过多，同时只有非常少的训练数据，容易导致过拟合现象（代价函数非常接近0或者就等于0），这样的模型无法泛化到新的数据样本中。要解决过拟合的问题有以下2种方法： (1)减少选取的特征数量舍弃掉一部分较为不重要的特征，该方法的缺点是同时也失去了一部分有用信息 (2)正则化正则化中我们将保留所有的特征变量，但是会减小特征变量的数量级（参数数值的大小θ(j)）。在损失函数 J ( θ ) J(\theta) J ( θ ) 中加入一个惩罚项,从而实现参数值 θ \theta θ 较小，这些参数的值越小，通常对应于越光滑的函数，也就是更加简单的函数。因此就不易发生过拟合的问题。 L2参数正则化（岭回归）其中在损失函数中加入的惩罚项为： p = λ ∑ j = 1 n θ j 2 p=\lambda\displaystyle\sum_{j=1}^n

ng-深度学习-课程笔记-0: 概述

阅读更多关于 ng-深度学习-课程笔记-0: 概述

课程概述这是一个专项课程(Specialization)，包含5个独立的课程，学习这门课程后做了相关的笔记记录。 (1) 神经网络和深度学习 (2) 改善深层神经网络：超参数调试，正则化，优化 (3) 结构化机器学习项目 (4) 卷积神经网络 (5) 自然语言处理：搭建序列模型下面根据各部分的课程笔记列了个链接清单。 (1) 神经网络和深度学习了解NN的基础，如何建立NN，如何训练它，课程的最后建立一个DNN识别猫。第一周-介绍深度学习： http://www.cnblogs.com/liaohuiqiang/p/7639551.html 什么是神经网络，如何用神经网络做监督学习，为什么深度学习会兴起。第二周-神经网络中的逻辑回归： http://www.cnblogs.com/liaohuiqiang/p/7659719.html 二分类，逻辑回归，代价函数，梯度下降，计算图的导数计算，逻辑回归中的梯度下降，logistic代价函数的解释。第二周-Python和向量化： http://www.cnblogs.com/liaohuiqiang/p/7663616.html 向量化，向量化，向量化逻辑回归，python中的广播，python / numpy中的向量说明。第三周-浅层神经网络： http://www.cnblogs.com/liaohuiqiang/p

深度学习笔记目录

第一周：深度学习引言(Introduction to Deep Learning) 1.1 欢迎(Welcome) 1 1.2 什么是神经网络？(What is a Neural Network) 1.3 神经网络的监督学习(Supervised Learning with Neural Networks) 1.4 为什么神经网络会流行？(Why is Deep Learning taking off?) 1.5 关于本课程(About this Course) 1.6 课程资源(Course Resources) 1.7 Geoffery Hinton 专访(Geoffery Hinton interview) 第二周：神经网络的编程基础(Basics of Neural Network programming) 2.1 二分类(Binary Classification) 2.2 逻辑回归(Logistic Regression) 2.3 逻辑回归的代价函数（Logistic Regression Cost Function） 2.4 梯度下降（Gradient Descent） 2.5 导数（Derivatives） 2.6 更多的导数例子（More Derivative Examples） 2.7 计算图（Computation Graph） 2.8 计算图导数

正则化到底是怎么消除拟合的？这位大佬终于讲明白了，赞

阅读更多关于正则化到底是怎么消除拟合的？这位大佬终于讲明白了，赞

1、过拟合怎么产生的？模型训练之初，你压根不知道哪些特征会有用，于是你找了很多特征，以此来尽可能精确地去拟合训练数据。这样的结果往往就是，你用上了一些其实不重要的特征，虽然加上这些特征，会在训练集中表现很好，甚至拿到满分，但是我们的目标并不是让模型在训练集上取得满分，而是在正儿八经的测试集，这种大考中，取得优秀的表现。十有八九，我们第一次训练出来的模型，会出现过拟合，也就是说，在测试集表现的没有在训练集上好，甚至差不少。这是为什么？分析发现，我们在模型中使用的某些特征，本身就不具备普适性。但你通过训练集，还是学习到它了，因为你的模型，想法设法地拟合了所有的样本点，自然而然地就会出来很多特征参数，如下图，第三幅图的模型复杂程度远大于第一幅。图片来源于网络在这种不具备普遍性的情况下学习到它，自然会影响你测试集的效果，自然就做不出泛化能力强的模型，就产生了过拟合。当然了，并不是只要参数一多就会过拟合，还要看你的样本量。 2 、消除过拟合的通俗理解先不用管L1, L2正则到底是干啥的，它们之间有何区别等这样的问题。按照逻辑，遇到过拟合这个问题，直接解决过拟合就行。我们不妨先想想，如果想消除几个原来模型中的特征，你会怎么去做？比如我们学到了一个模型： y = tanh(w1x1 + w2x2 + w3x3 + w4x4) 如果想变弱或消除特征x3, 其实很简单的

正则化线性模型和线性回归的改进—岭回归

阅读更多关于正则化线性模型和线性回归的改进—岭回归

九、正则化线性模型 Ridge Regression 岭回归 Lasso 回归 Elastic Net 弹性网络 Early stopping 1.Ridge Regression（岭回归）岭回归是线性回归的正则化版本，即在原来的线性回归的cost function中添加正则项：以达到在拟合数据的同时，使模型权重尽可能小的目的，岭回归代价函数： a=0：岭回归退化为线性回归 2.Lasso Regression（Lasso 回归） Lasso 回归是线性回归的另一种正则化版本，正则项为权值向量 ℓ1范数。 Lasso 回归的代价函数：【注意】： Lasso Regression的代价函数在 θi=0处是不可导的. 解决方法：在 θi=0处用一个次梯度向量代替梯度，如下 Lasso Regression的次梯度向量 Lasso Regression有一个重要的型值是：倾向于完全消除不重要的权重例如：当a取值相对较大的时，高阶多项式退化为二次甚至是线性：高阶多项式特征的权重被置为0. 也就是说，Lasso Regression能够自动进行特征选择，并输出一个稀疏模型（只有少数特征的权重是非零的）。 3.Elastic Net（弹性网络）弹性网络在岭回归和Lasso回归中进行了折中，通过混合比(mix ratio) r 进行控制： r=0：弹性网络变为岭回归 r=1

订阅正则化