归一化

深度学习DeepLearning.ai系列课程学习总结:13. 超参数调优、Batch正则化理论及深度学习框架学习

寵の児 提交于 2019-12-03 17:27:06
转载过程中,图片丢失,代码显示错乱。 为了更好的学习内容,请访问原创版本: https://www.missshi.cn/api/view/blog/5a2273939112b35ff3000002 Ps:初次访问由于js文件较大,请耐心等候(5s左右) 在本文中,我们将了解一些机器学习中的超参数调优、Batch正则化及深度学习框架。 主要包括: 1. 超参数调试经验 2. 深层神经网络中隐藏层的归一化 3. Batch正则化 4. Softmax分类回归问题 5. 深度学习框架简介 超参数调试经验 在之前的学习中,我们已经了解到神经网路的涉及过程中,我们选择设置大量的超参数。 那么如果选择、调试这些超参数呢?接下来的内容将有助于你掌握这些技巧。 超参数有哪些呢? α α :学习速率 β β :momentum梯度下降法 β 1 , β 2 , ϵ β1,β2,ϵ :Adam优化算法 网络层数 每层中神经元数量 d e c a y _ r a t e decay_rate :学习速率衰减速度 Mini-batch size 其中,最需要调试的可能就是学习速率 α α 啦! 此时,可能是 β β ,Mini-batch size以及每层中神经元数量。 再然后,我们可以调试网络层数和 d e c a y _ r a t e decay_rate 。 对于 β 1 , β 2 , ϵ

Lucene搜索/索引过程笔记

為{幸葍}努か 提交于 2019-12-03 11:11:34
lucene索引文档过程: > 初始化IndexWriter > 构建Document > 调用IndexWriter.addDocument执行写入 > 初始化DocumentWriter。参数指定写出位置为内存 > 生成自增段ID > 调用DocumentWriter.addDocument(); 执行写入 > 写出FieldInfos到内存 > 写出FieldValues到内存 > 计算词元列表 > 排序词元列表 > 写出词元到内存文件 > 写出归一化变量到内存文件 > 全局变量segmentInfos添加新增段 > 增量合并段 > 调用IndexWriter.optimize()优化索引 > 合并内存中的段并将合并后的段写出到磁盘 > 如果当前索引里有多个索引,则合并这些索引 > 调用IndexWriter.close()关闭索引 归一化变量是什么? 干什么用的? 为什么要在searchable接口上放一个rewrite方法? 为什么Weight的创建要用query的createWeight,而不是直接new Weight(); 为什么search接口不返回一个包含查询结果的list,而是把查询过程包含在返回对象的构造方法里面? 为什么searcher不能带pageNo pageSize? 为什么要把搜索任务放在query头上?不同的query搜索逻辑有什么不一样?

Abstractive Summarization

匿名 (未验证) 提交于 2019-12-03 00:43:02
Abstractive Summarization A Neural Attention Model for Abstractive Sentence Summarization Alexander M. Rush et al., Facebook AI Research/Harvard EMNLP2015 sentence level seq2seq模型在2014年提出,这篇论文是将seq2seq模型应用在abstractive summarization任务上比较早期的论文。同组的人还发表了一篇NAACL2016(Sumit Chopra, Facebook AI Research_Abstractive sentence summarization with attentive recurrent neural networks)(作者都差不多),在这篇的基础上做了更多的改进,效果也更好。这两篇都是在abstractive summarization任务上使用seq2seq模型的经典baseline。 目标函数是negative log likelihood,使用mini-batch SGD优化 本文提出了3种encoder,重点在于Attention-based encoder bag-of-words encoder Conv encoder: 参考TextCNN

你真的懂one-hot编码吗

匿名 (未验证) 提交于 2019-12-03 00:39:02
一个很隐晦的问题 特征之间距离的计算或相似度的计算是非常重要的,而我们常用的距离或相似度的计算都是在欧式空间的相似度计算 ,计算余弦相似性,基于的就是欧式空间,所以 往往默认数据数据是连续的(可以计算距离?),并且是有序的。但是有时用数字表示的数据并不是有序的,而是随机分配的。 举个例子: 有一个离散型特征,代表工作类型,该离散型特征,共有三个取值,不使用one-hot编码,其表示分别是x_1 = (1), x_2 = (2), x_3 = (3)。两个工作之间的距离是,(x_1, x_2) = 1, d(x_2, x_3) = 1, d(x_1, x_3) = 2。那么x_1和x_3工作之间就越不相似吗?显然这样的表示,计算出来的特征的距离是不合理。那如果使用one-hot编码,则得到x_1 = (1, 0, 0), x_2 = (0, 1, 0), x_3 = (0, 0, 1),那么两个工作之间的距离就都是sqrt(2).即每两个工作之间的距离是一样的,显得更合理。 独热编码是啥 独热编码即 One-Hot 编码,又称一位有效编码,其方法是使用N位状态寄存器来对N个状态进行编码,每个状态都由他独立的寄存器位,并且在任意时候,其中只有一位有效。独热编码恰好是一种解决上述问题的好办法。不过数据也因此变得稀疏。 独热编码的好处: 解决了分类器不好处理属性数据的问题,

对极几何及单应矩阵

匿名 (未验证) 提交于 2019-12-03 00:30:01
1.本质矩阵 用两个相机在不同位置拍摄同一物体,两张照片中的景物有重叠部分,那么理论上这两张照片会存在一定的对应关系,本节任务是探索如何描述他们之间的对应关系--对极几何,属于立体视觉的部分。关于相机成像模型等部分这里不多介绍,默认理解这部分知识。 首先来看几个基本概念 图中的概念有: 极点e: 分别是左边相机中心在右图像平面上的像,右相机中心在左像平面上的像。 极平面: 两个相机中心和空间中某店p形成的平面。 极线l: 极平面分别和两个像平面的交线。 对极几何则是描述这几个量之间的对应关系。直观讲,从左图的角度看,如果不知道p点的深度信息,射线op是这个点可能出现的空间位置,因为该射线上的点都会投影到同一个像素点,同时,如果不知道p点的具体位置,那么当在右图的位置看时,极线 l' 就是点p可能出现的位置,即在这条线上的某个地方。如下图所示 回顾向量的知识 两个正交的向量的内积为0。假设左图到右图的位姿关系由R和t表示,那么由基本的刚体变换可以得到 另外 已知三向量 x, t 和 x' 共面,则 t 和 x 做外积得到一个垂直该平面的向量,因此上式为零没有问题,接下来 简单的代入即可。然后,向量的外积可以写成矩阵相乘的形式,即将其中一个向量写成反对称矩阵,如下图 那么将之前的t和x的外积也写成矩阵的形式可得 其中的矩阵E就是本质矩阵,最后一个式子为对极约束,形式非常简洁

数据处理中的归一化、标准化(Standardization)、中心化和正则化(Normalization)区别详解

匿名 (未验证) 提交于 2019-12-03 00:11:01
利用数据集对机器学习或深度学习模型进行训练前要对数据进行预处理,除了数据清洗(如处理数据缺失、数据异常等问题),还有一类数据预处理的方法经常用到,即数据的归一化、标准化和正则化等。作者在浏览了大量网上资料发现,很多人对这些概念不是很清楚,甚至有些机器学习和人工智能领域的培训老师也对这几个概念有些模糊。本文将详细介绍标题中所举的几个概念的意思,希望对大家的学习有所帮助! (1)归一化 归一化是数据scaling(缩放)中的一种,是把数据缩放到[0,1]或[-1,1]之间。常用的数据归一化方法是线性函数归一化,公式为: x’ = (x - X_min) / (X_max - X_min) 利用sklearn库实现方法为:(以鸢尾花数据集为例,下同) from sklearn . preprocessing import MinMaxScaler MinMaxScaler (). fit_transform ( iris . data ) 这种方法可将数据scaling到[0,1]之间,此外还有平均归一化和非线性归一化等,其中平均归一化公式如下: x’ = (x - μ) / (MaxValue - MinValue) 非线性归一化如下: 对数函数scaling:y = log10(x) 反余切函数scaling:y = atan(x) * 2 / π (2)标准化

Deep Facial Expression Recogniton: A survey笔记

匿名 (未验证) 提交于 2019-12-03 00:04:02
这篇文章是北邮的邓伟洪教授关于 Deep Facial Expression Recognition,DFER 的一篇综述性文章,该文章被 计算机视觉顶会CVPR 收录。 目前,FER(Facial Expression Recogniton)主要存在两个问题:一个就是缺少大量的数据来训练表情识别网络,一旦网络训练数据量过少,就会发生过拟合的现象,这点目前还没有有效的解决办法;另一个问题就是由于年龄、性别、道德背景等的差异,导致个体间的差异比较明显。除此之外,光照和姿态也会对FER产生较大的影响。 这篇文章详细介绍了解决FER目前存在的问题的一些方法。其中文章section1介绍了FER的发展历程,section2介绍了FER实验常用的数据集,section3介绍了FER系统识别的三个主要步骤,section4提供了一些主流的网络架构以及训练技巧,section5则讨论了一些其他相关的问题,section6主要论述了一下FER未来的挑战和机遇。下面以章节划分逐一介绍。 section2 FACIAL EXPRESSION DATABASES 该部分列举了FER可用的数据库。 主要有CK+、MMI、JAFFE、TED、FER2013、AFEW、SFEW、Multi-PIE、BU-3DFE、Oulu-CASIA、RaFD、KDEF、EmotionNet、RAF-DB、AffectNet

js实现数据归一化

匿名 (未验证) 提交于 2019-12-02 23:55:01
1、数据归一化是对原始数据的线性变换,使结果值映射到[0 - 1]之间。转换函数如下: 其中max为样本数据的最大值,min为样本数据的最小值。 2、js实现数据归一化 distributionInfo = [{ name: '映', value: 90 }, { name: '重', value: 80 }, { name: '传', value: 62 }, { name: '息', value: 55 }, { name: '有', value: 40 }, { name: '方', value: 38 }, { name: '线', value: 8 }] // 获取最大值 function getMaxV(distributionInfo) { let max = 0 for (let item of distributionInfo) { if (max < item.value) max = item.value } return max } // 获取最小值 function getMinV(distributionInfo) { let min = 1000000 for (let item of distributionInfo) { if (min > item.value) min = item.value } return min } // 归一化处理

L2范数归一化概念和优势

匿名 (未验证) 提交于 2019-12-02 23:48:02
\[{{\bf{X}}_2} = \left( {\frac{{{x_1}}}{{{{\left\| {\bf{x}} \right\|}_2}}},\frac{{{x_2}}}{{{{\left\| {\bf{x}} \right\|}_2}}}, \cdots ,\frac{{{x_n}}}{{{{\left\| {\bf{x}} \right\|}_2}}}} \right) = \left( {\frac{{{x_1}}}{{\sqrt {x_1^2 + x_2^2 + \cdots + x_n^2} }},\frac{{{x_2}}}{{\sqrt {x_1^2 + x_2^2 + \cdots + x_n^2} }}, \cdots ,\frac{{{x_n}}}{{\sqrt {x_1^2 + x_2^2 + \cdots + x_n^2} }}} \right)\] \[{\left\| {\bf{A}} \right\|_2} = \sqrt {{2^2} + {3^2} + {6^2}} = \sqrt {4 + 9 + 36} = \sqrt {49} = 7\] \[{{\bf{A}}_2} = \left( {\frac{2}{7},\frac{3}{7},\frac{6}{7}} \right)\] 图1 L2范数可以看作是向量的长度 L2范数有一大优势