权重

从头学pytorch(六):权重衰减

蹲街弑〆低调 提交于 2019-12-28 20:49:00
深度学习中常常会存在过拟合现象,比如当训练数据过少时,训练得到的模型很可能在训练集上表现非常好,但是在测试集上表现不好. 应对过拟合,可以通过数据增强,增大训练集数量.我们这里先不介绍数据增强,先从模型训练的角度介绍常用的应对过拟合的方法. 权重衰减 权重衰减等价于 \(L_2\) 范数正则化(regularization)。正则化通过为模型损失函数添加惩罚项使学出的模型参数值较小,是应对过拟合的常用手段。我们先描述 \(L_2\) 范数正则化,再解释它为何又称权重衰减。 \(L_2\) 范数正则化在模型原损失函数基础上添加 \(L_2\) 范数惩罚项,从而得到训练所需要最小化的函数。 \(L_2\) 范数惩罚项指的是模型权重参数每个元素的平方和与一个正的常数的乘积。 线性回归一文 中的线性回归损失函数 \[ \ell(w_1, w_2, b) = \frac{1}{n} \sum_{i=1}^n \frac{1}{2}\left(x_1^{(i)} w_1 + x_2^{(i)} w_2 + b - y^{(i)}\right)^2 \] 为例,其中 \(w_1, w_2\) 是权重参数, \(b\) 是偏差参数,样本 \(i\) 的输入为 \(x_1^{(i)}, x_2^{(i)}\) ,标签为 \(y^{(i)}\) ,样本数为 \(n\) 。将权重参数用向量 \(

css学习1

安稳与你 提交于 2019-12-28 14:36:52
  选择器不多说,个人觉得选择器权重才是选择器的重点,只要知道浏览器在排查一长串选择器的时候,是从后往前排查的。   eg:div>ul li a em {....} 浏览器看到这一长串,为了节省效率,会从后往前排查,就是从em到div。   关于我怎么不截图:截的图粘贴不过来,886。 一、关于选择器权重    有时候你发现自己的样式没有在你的元素上表现出来,除了检查有没有写错选择器,还可以看看是不是优先级的问题。    1)关于优先级     !important > 行间样式 >id选择器 > class选择器 | 属性选择器 > 标签选择器 > 通配符选择器    2)权重      优先级是根据内部权重进行总结的。      选择器权重 !important 正无穷 行间样式 1000 id 100 class选择器|属性选择器|伪类选择器 10 标签选择器|伪元素选择器 1 通配符选择器 0       注意:这些权重的值都不是十进制而是 256进制 。       eg:.wrapper .top .nav ul li #id { } 权重值是:10+10+10+1+1+100 = 131         如果选出同一个元素的选择器串权重值一样,后面 覆盖 前面的。         如果.wrapper .top .nav ul li #id

卷积神经网络详解

假装没事ソ 提交于 2019-12-27 17:33:48
1 前言 在dl中,有一个很重要的概念,就是卷积神经网络CNN,基本是入门dl必须搞懂的东西。本文基本根据斯坦福的机器学习公开课、cs231n、与七月在线寒老师讲的5月dl班第4次课CNN与常用框架视频所写,是一篇课程笔记。本只是想把重点放在其卷积计算具体是怎么计算怎么操作的,但后面不断补充,故写成了关于卷积神经网络的通俗导论性的文章。有何问题,欢迎不吝指正。 2 人工神经网络 2.1 神经元 神经网络由大量的节点(或称“神经元”、“单元”)和相互连接而成。每个神经元接受输入的线性组合,进行非线性变换(亦称激活函数activation function)后输出。每两个节点之间的连接代表加权值,称之为权重(weight)。不同的权重和激活函数,则会导致神经网络不同的输出。 举个手写识别的例子,给定一个未知数字,让神经网络识别是什么数字。此时的神经网络的输入由一组被输入图像的像素所激活的输入神经元所定义。在通过激活函数进行非线性变换后,神经元被激活然后被传递到其他神经元。重复这一过程,直到最后一个输出神经元被激活。从而识别当前数字是什么字。 神经网络的每个神经元/单元如下 类似wx + b的形式,其中 a1~an为输入向量,当然,也常用x1~x n表示输入 w1~wn为权重 b为偏置 bias f 为激活函数 t 为输出 如果只是上面这样一说,估计以前没接触过的十有八九又必定迷糊了

卷积神经网络--CNN

◇◆丶佛笑我妖孽 提交于 2019-12-27 17:33:24
1.人工神经网络 神经网络由大量的节点(或称“神经元”、“单元”)和相互连接而成。每个神经元接受输入的线性组合,进行非线性变换(亦称激活函数activation function)后输出。每两个节点之间的连接代表加权值,称之为权重(weight)。不同的权重和激活函数,则会导致神经网络不同的输出。 举个手写识别的例子,给定一个未知数字,让神经网络识别是什么数字。此时的神经网络的输入由一组被输入图像的像素所激活的输入神经元所定义。在通过激活函数进行非线性变换后,神经元被激活然后被传递到其他神经元。重复这一过程,直到最后一个 输出神经元 被 激活 。从而识别当前数字是什么字。 神经网络的每个神经元/单元如下 类似wx + b的形式,其中 a1~an为输入向量,当然,也常用x1~xn表示输入 w1~wn为权重 b为偏置bias f 为激活函数 t 为输出 如果只是上面这样一说,估计以前没接触过的十有八九又必定迷糊了。事实上,在20世纪50/60年代,上述简单神经元被称之为感知机,可以把感知机理解为一个根据不同因素、以及各个因素的重要性程度而做决策的模型。 举个例子,这周末北京有一草莓音乐节,那去不去呢?决定你是否去有3个因素,这三个因素可以对应三个输入,分别用x1、x2、x3表示,此外,这三个因素对做决策的影响程度不一样,各自的影响程度用权重w1、w2、w3表示。一般来说

cs231n笔记:最优化

橙三吉。 提交于 2019-12-27 17:29:48
本节是cs231学习笔记: 最优化 ,并介绍了梯度下降方法,然后应用到逻辑回归中 引言   在上一节 线性分类器 中提到,分类方法主要有两部分组成:1.基于参数的评分函数。能够将样本映射到类别的分值。2.损失函数。用来衡量预测标签和真是标签的一致性程度。这一节介绍第三个重要部分: 最优化 (optimization)。损失函数能让我们定量的评估得到的权重W的好坏,而最优化的目标就是找到一个W,使得损失函数最小。工作流程如下图: (x,y) 是给定的数据集, W 是权重矩阵,通过初始化得到。向前传递到评分函数中得到类别的评分值并存储在向量 f 中。损失函数计算评分函数值 f 与类标签 y 的差值,正则化损失只是一个关于权重的函数。在梯度下降过程中,我们计算权重的梯度,然后使用梯度更新权重。一旦理解了这三个部分的关系,我们可以用更加复杂的评分函数来代替线性映射,比如神经网络、甚至卷积神经网络等,而损失函数和优化过程这两部分则相对保持不变。 梯度下降   梯度下降的思想是:要寻找某函数的最值,最好的方法就是沿着函数的梯度方向寻找,移动量的大小称为步长。梯度下降的公式如下: 我们常常听说过梯度上升、梯度下降,那么两者的区别又是什么呢?其实这两者是一样的,只是公式中的减法变成加法,因此公式为: 梯度上升是用来求函数的最大值,而梯度下降是用来求最小值。普通的梯度下降版本如下: #

深度学习-最优化笔记

徘徊边缘 提交于 2019-12-27 17:29:29
作者:杜客 链接:https://zhuanlan.zhihu.com/p/21360434 来源:知乎 著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。 译者注:本文 智能单元 首发,译自斯坦福CS231n课程笔记 Optimization Note ,课程教师 Andrej Karpathy 授权翻译。本篇教程由 杜客 翻译完成, 堃堃 和 李艺颖 进行校对修改。译文含公式和代码,建议PC端阅读。 原文如下 内容列表: 简介 损失函数可视化 最优化 策略#1:随机搜索 策略#2:随机局部搜索 策略#3:跟随梯度 译者注:上篇截止处 梯度计算 使用有限差值进行数值计算 微分计算梯度 梯度下降 小结 简介 在上一节中,我们介绍了图像分类任务中的两个关键部分: 基于参数的 评分函数。 该函数将原始图像像素映射为分类评分值(例如:一个线性函数)。 损失函数 。该函数能够根据分类评分和训练集图像数据实际分类的一致性,衡量某个具体参数集的质量好坏。损失函数有多种版本和不同的实现方式(例如:Softmax或SVM)。 上节中,线性函数的形式是 ,而SVM实现的公式是: 对于图像数据 ,如果基于参数集 做出的分类预测与真实情况比较一致,那么计算出来的损失值 就很低。现在介绍第三个,也是最后一个关键部分: 最优化Optimization

cs231n笔记(二) 最优化方法

佐手、 提交于 2019-12-27 17:29:20
回顾上一节中,介绍了图像分类任务中的两个要点: 假设函数。 该函数将原始图像像素映射为分类评分值。 损失函数 。该函数根据分类评分和训练集图像数据实际分类的一致性,衡量某个具体参数集的质量好坏。 现在介绍第三个要点,也是最后一个关键部分: 最优化Optimization 。最优化是寻找能使得损失函数值最小化的参数 W 的过程,一旦理解了这三个部分是如何相互运作的,我们将会回到第一个要点,然后将其拓展为一个远比线性函数复杂的函数:首先是神经网络,然后是卷积神经网络。而损失函数和最优化过程这两个部分将会保持相对稳定。 损失函数可视化 : 本节讨论的损失函数一般都是定义在高维度的空间中(比如,在 CIFAR-10 中一个线性分类器的权重矩阵大小是 $[10 \times 3073]$ ,就有 30730 个参数),这样要将其可视化就很困难。然而办法还是有的,在 1 个维度或者 2 个维度的方向上对高维空间进行切片,就能得到一些直观感受。例如,随机生成一个权重矩阵 W ,将其看做向量,该矩阵就与高维空间中的一个点对应。然后沿着某个维度方向前进的同时记录损失函数值的变化。换句话说,就是生成一个随机的方向 $W_1$ 并且沿着此方向计算损失值,计算方法是根据不同的 $a$ 值来计算 $L(W + aW_1)$ 。这个过程将生成一个图表,其 $x$ 轴是 $a$ 值,$y$ 轴是损失函数值

CSS 选择器权重计算规则

浪尽此生 提交于 2019-12-26 09:45:51
  其实,CSS有自己的优先级计算公式,而不仅仅是行间>内部>外部样式;ID>class>元素。 一、样式类型   1、行间 <h1 style="font-size:12px;color:#000;">我的行间CSS样式。</h1>     2、内联 <style type="text/css"> h1{font-size:12px; color:#000; } </style>    3、外部 <link rel="stylesheet" href="css/style.css"> 二、选择器类型    1、ID  #id    2、class  .class    3、标签  p   4、通用  *   5、属性  [type="text"]   6、伪类  :hover   7、伪元素  ::first-line   8、子选择器、相邻选择器 三、权重计算规则 第一等:代表内联样式,如: style=””,权值为1000。 第二等:代表ID选择器,如:#content,权值为0100。 第三等:代表类,伪类和属性选择器,如.content,权值为0010。 第四等:代表类型选择器和伪元素选择器,如div p,权值为0001。 通配符、子选择器、相邻选择器等的。如*、>、+,权值为0000。 继承的样式没有权值。 四、比较规则 1,0,0,0 > 0,99,99,99

Non-parallel Voice Conversion using Weighted Generative Adversarial Networks

你。 提交于 2019-12-25 12:07:50
会议:2019 interspeech 单位:Greece, University of Crete abstract 目的是基于非平行数据的many-to-many vc。基于博弈论(Game Theory) 的思想,把生成器的梯度乘一定的权重,使得生成器能够生成更加逼真的假样本以干扰判别器。 是StarGAN的一个变种,称为WeStarGAN-VC ,主观评测的语音质量和相似度分别提升75%和65%。 introduction vc是一个回归问题,传统的方法比如多元线性回归,GMM,JD-GMM,缺点是依赖平行数据;近年来的非线性方法,RBM,DNN,其中seq2seq的转换取得比较大的成果,但是seq2seq依赖于大量的外部数据和ASR。 CVAE(conditional variational autoencoder)最近被提出用于vc,它是VAE的一个扩展,encoder和decoder可以添加额外的输入。GAN网络在vc上的成功应用使得GAN-VC是一个很好的前景。Cycle-GAN【19】用对抗loss和cycle consistent loss同时学习了前向和反向的frame-to-frame的映射。StarGAN【21】是针对one-to-one mapping的一个改进,提出一个统一的模型结构可以同时训练multi-domain。

台大李宏毅PPT:什么是 Lifelong learning, Continual Learning, Never Ending Learning, Incremental Learning,CL

和自甴很熟 提交于 2019-12-25 03:05:22
文章目录 视频链接: 台大 李宏毅 PPT_lifelong learning / continual learning PPT中提及的论文: 1. 什么是灾难性遗忘? 2. 解决方法: 为什么不使用 multi-task training EWC (Elastic Weight Consolidation) Generation Datas Knowledge transfer 3. evaluation 评价方式 Model Expansion 模型扩张/增大 4. Curriculum Learning 课程学习(任务排序, 如何排序?) END 视频链接: https://www.youtube.com/watch?v=7qT5P9KJnWo&list=PLJV_el3uVTsOK_ZK5L0Iv_EQoL1JefRL4&index=25 台大 李宏毅 PPT_lifelong learning / continual learning PPT中提及的论文: 2017 EWC: Elastic-Weight-Consolidation https://arxiv.org/pdf/1612.00796.pdf github: https://github.com/yashkant/Elastic-Weight-Consolidation 2017 Continual