过拟合

神经网络中的Max pooling 和 Average pooling

半世苍凉 提交于 2020-04-14 13:14:10
【推荐阅读】微服务还能火多久?>>> 在训练卷积神经网络模型时,经常遇到max pooling 和 average pooling,近些年的图像分类模型多数采用了max pooling,为什么都是使用max pooling,它的优势在哪呢? 一般情况下,max pooling的效果更好,虽然 max pooling 和 average pooling 都对数据做了sampling,但是感觉max pooling更像是做了特征选择,选出了分类辨识度更高的特征,提供了非线性,根据相关理论,特征提取的误差主要来自两个方面:(1)邻域大小受限造成的估计值方差增大;(2)卷积层参数误差造成估计均值的偏移。一般来说,average pooling 能减小第一种误差,更多地保留图像的背景信息,max pooling 能减小第二种误差,更多地保留纹理信息。average pooling 更侧重对整体特征信息进行sampling,在减少参数维度方面的贡献更大一些,更多地体现在信息的完整传递这个层面上,在一个很大很有代表性的模型中,比如DenseNet中的模块之间的连接大多采用 average pooling,在减少维度的同时,更有利信息传递到下一个模块进行特征提取。 average pooling 在全局平均池化操作中应用得也比较广,在ResNet和Inception结构中最后一层都使用了平均池化

神经网络中的Max pooling 和 Average pooling

会有一股神秘感。 提交于 2020-04-14 10:15:55
【推荐阅读】微服务还能火多久?>>> 在训练卷积神经网络模型时,经常遇到max pooling 和 average pooling,近些年的图像分类模型多数采用了max pooling,为什么都是使用max pooling,它的优势在哪呢? 一般情况下,max pooling的效果更好,虽然 max pooling 和 average pooling 都对数据做了sampling,但是感觉max pooling更像是做了特征选择,选出了分类辨识度更高的特征,提供了非线性,根据相关理论,特征提取的误差主要来自两个方面:(1)邻域大小受限造成的估计值方差增大;(2)卷积层参数误差造成估计均值的偏移。一般来说,average pooling 能减小第一种误差,更多地保留图像的背景信息,max pooling 能减小第二种误差,更多地保留纹理信息。average pooling 更侧重对整体特征信息进行sampling,在减少参数维度方面的贡献更大一些,更多地体现在信息的完整传递这个层面上,在一个很大很有代表性的模型中,比如DenseNet中的模块之间的连接大多采用 average pooling,在减少维度的同时,更有利信息传递到下一个模块进行特征提取。 average pooling 在全局平均池化操作中应用得也比较广,在ResNet和Inception结构中最后一层都使用了平均池化

骨干网链路异常?还是机房侧异常?

让人想犯罪 __ 提交于 2020-04-14 00:19:57
【今日推荐】:为什么一到面试就懵逼!>>> 本文作者:AIOps智能运维 作者简介 小拳拳 百度云高级研发工程师 负责百度云智能运维Noah外网质量监测平台的系统和策略研发,在网络监控方向有广泛实践经验。 干货概览 在此前介绍百度云智能运维Noah外网质量监测平台文章《百度网络监控实战:猎鹰一战成名(上)》中,我们简要介绍了一种网络异常类型—— 机房侧异常 (百度侧设备/链路异常)。该故障在数据上表现为多个省份访问某个百度机房服务不通畅,因此在猎鹰(百度外网监控平台)外网判障中,可以通过设置访问某机房出现异常的省份比例超过给定阈值,来判定机房侧异常的发生。 在外网故障统计中我们发现,运营商 骨干网链路 出现故障同样会导致多个省份到特定机房访问异常,在现有外网判障框架中,会将骨干网链路异常也判定为机房侧异常。然而,机房侧异常与骨干网链路异常无论是从起因还是数据表现上,都是存在一定差异的,两者的止损方式也不相同。因此,我们需要设计 判障策略 来区分两类异常,以便自动止损系统根据异常类型执行合适的外网止损方案。 在下文中,我们将为大家介绍骨干网链路及其异常表现,以及判障策略的设计思路。 什么是骨干网链路? 骨干网是运营商用来连接多个地域或地区的高速网络,因此骨干网的一个重要作用就是 承载跨地域传输的网络数据 。若干条跨地域连接的骨干网链路,共同组成了完整的运营商骨干网。

通俗讲解决策树:如何利用有效特征进行决策分类?

一世执手 提交于 2020-04-12 19:21:00
决策树 (Decision Tree) 是一种有监督学习方法,通过特征和标签构造一棵决策树,学习特征之间的规则,以解决分类和回归问题。 使用决策树进行决策的过程就是从根节点开始,测试待分类项中相应的特征属性,并按照其值选择输出分支,直到到达叶子节点,将叶子节点存放的类别作为决策结果。 决策树由以下 3 种元素构成: 根节点:包含样本全集 内部节点:对应特征属性测试 叶节点:决策结果 (标签) 决策树如何辨别好瓜和坏瓜? (此图摘自周志华西瓜书,本人白板手绘版) 以上面的西瓜为例,我们要如何辨别一个瓜是好瓜。特点是:纹理清晰,根蒂稍蜷,触感青绿,恰好,你构建了一棵决策树,立马判断这是好瓜还是坏瓜? 判断步骤如下: 根据纹理清晰,已知是清晰,那么向左边走,看第一步 接着,由纹理清晰到达第 2 层,由决策树图,我们可以看到,根蒂是稍蜷 接着到第 3 层,色泽的特征的青绿,由此,我们可以得出结论,这是一个好瓜。 根据上面的示例,我们可以很直观的得到一个实例的类别判断,只要告诉各个特征的具体值,决策树的判定过程就相当于从树中从根节点到某一个叶子节点的遍历。每一步如何遍历是由数据各个特征的具体特征属性决定。 那么,基于上面的一棵树,我们又有如下疑问,为什么根节点是纹理,而不是根蒂或者别的特征呢? 决策树又是基于什么标准来选择特征的?如果构建决策树? 决策树学习的 3 个步骤 基于上面的问题

【目标分类_长尾分布问题】BBN:Bilateral-Branch Network _ CVPR2020

六眼飞鱼酱① 提交于 2020-04-12 17:03:43
文章目录 一、视觉任务数据的特征 二、现有文献是怎么解决这类问题的 二、本文做法 三、方法 四、实验结果 论文路径: http://www.weixiushen.com/publication/cvpr20_BBN.pdf 代码路径: https://github.com/Megvii-Nanjing/BBN 一、视觉任务数据的特征 机器视觉的代表数据集有很多,如 ImageNet ILSVRC 2012, MS COCO, Places Database等。这些数据集中的数据量是大致均匀分布的,但实际中,存在大量的长尾分布数据,也就是少数类别有大部分数据,而多数类别只有小部分数据,如图1所示。 这样的数据分布会使得网络嫩姨获得良好的识别效果,原因有两个: 其一是 data-hungry limitation of models 其二是长尾分布数据的极端不平衡问题。 二、现有文献是怎么解决这类问题的 现有的文献中,常用的解决这种极度不平衡的方法是: class re-balancing 策略,比如 re-weighting 或 re-sampling。 正面作用: 能够调整网络的训练,通过在小批量内对样本重新取样或对样本损失重新加权,期望更接近于测试的分布,因此,类别的 re-balancing 可以直接影响深层网络分类器权重的更新,从而促进分类器的学习。 负面作用: re

Python机器学习笔记 集成学习总结

给你一囗甜甜゛ 提交于 2020-04-12 15:01:23
  集成学习(Ensemble learning)是使用一系列学习器进行学习,并使用某种规则把各个学习结果进行整合,从而获得比单个学习器显著优越的泛化性能。它不是一种单独的机器学习算法啊,而更像是一种优化策略。因为单个机器学习模型所能解决的问题有限,泛化能力差,但是通过构建组合多个学习器来完成学习任务往往能够获得奇效,这些学习器可以看成一个个基本单元,由他们组合最终形成一个强大的整体,该整体可以解决更复杂的问题,其思想可以形象的概括为 三个臭皮匠赛过诸葛亮 。   集成学习是机器学习的一大分支,他通过建立几个模型组合来解决单一预测问题。他的工作原理是生成多个分类器模型,各个独立的学习和做出预测。这些预测最后结合成单预测,最后由任何一个单分类做出预测。   集成学习的一般结构是,先产生一组个体学习器,再用某种结合策略将他们结合起来。   集成学习是一种技术框架,其按照不同的思路来组合基础模型,从而达到其利断金的目的。目前,有三种常用的集成学习框架:bagging ,Boosting和stacking。国内南京大学的周志华教授对集成学习有很深的研究,其在09年发表的一篇概述性论文《Ensemble Learning》对这三种集成学习框架有了明确的定义,大家可以百度搜索这篇论文。 集成学习优势   1,个体学习器之间存在一定的差异性,这会导致分类边界不同,也就是说可能存在错误

Paper:He参数初始化之《Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet C》的翻译与解读

社会主义新天地 提交于 2020-04-11 15:35:10
Paper:He参数初始化之《Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification》的翻译与解读 目录 Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification 4. Experiments on ImageNet Comparisons between ReLU and PReLU Comparisons of Single-model Results Comparisons of Multi-model Results Analysis of Results Comparisons with Human Performance from [22] 相关文章 Paper:Xavier参数初始化之《Understanding the difficulty of training deep feedforward neural networks》的翻译与解读 Paper:He参数初始化之《Delving Deep into Rectifiers: Surpassing Human-Level Performance on

机器学习项目完整的工作流程

你。 提交于 2020-04-11 13:13:30
一. 准备工作 1. 定义问题,收集数据集 2. 确定衡量成功的指标 对于平衡分类问题(每个类别的可能性相同),精度和ROC是常用的指标。 对于类别不平衡 问题,你可以使用准确率和召回率。 对于排序问题或多标签分类,你可以使用平均准确率均值。 自定义衡量成功的指标也很常见。 通过衡量成功的指标指引你选择损失函数,即模型要优化什么。 损失函数需要在只有小批量数据时即可计算(理想情况 下,只有一个数据点时,损失函数应该也是可计算的),而且还必须是可微的(否则无法用反向 传播来训练网络)。 衡量成功的指标和损失函数都是用来评估一个模型好坏的一个标准。指标常用来作为结果来评估。损失函数常用来在模型训练过程中来评估,因为损失函数是可微的,所以可以通过反向传播来训练。 3. 确定评估方法 留出验证集。数据量很大时可以采用这种方法。 K 折交叉验证。如果留出验证的样本量太少,无法保证可靠性,那么应该选择这种方法。 重复的 K 折验证。如果可用的数据很少,同时模型评估又需要非常准确,那么应该使用这种方法。 二. 特征工程 4. 数据预处理 收集数据 导入数据 合并数据、缺失值清洗等 5. 特征表示 要将数据集中的数据特征表示成计算机能够理解的数值形式。常用的表示方法是局部表示和分布式表示。 6. 传统的特征学习(表示学习) 特征选择 常用的特征: 从数据集中选择合适的特征; 自行设计特征

机器学习项目完整的工作流程

别等时光非礼了梦想. 提交于 2020-04-11 12:50:18
一. 准备工作 1. 定义问题,收集数据集 2. 确定衡量成功的指标 对于平衡分类问题(每个类别的可能性相同),精度和ROC是常用的指标。 对于类别不平衡 问题,你可以使用准确率和召回率。 对于排序问题或多标签分类,你可以使用平均准确率均值。 自定义衡量成功的指标也很常见。 通过衡量成功的指标指引你选择损失函数,即模型要优化什么。 损失函数需要在只有小批量数据时即可计算(理想情况 下,只有一个数据点时,损失函数应该也是可计算的),而且还必须是可微的(否则无法用反向 传播来训练网络)。 衡量成功的指标和损失函数都是用来评估一个模型好坏的一个标准。指标常用来作为结果来评估。损失函数常用来在模型训练过程中来评估,因为损失函数是可微的,所以可以通过反向传播来训练。 3. 确定评估方法 留出验证集。数据量很大时可以采用这种方法。 K 折交叉验证。如果留出验证的样本量太少,无法保证可靠性,那么应该选择这种方法。 重复的 K 折验证。如果可用的数据很少,同时模型评估又需要非常准确,那么应该使用这种方法。 二. 特征工程 4. 数据预处理 收集数据 导入数据 合并数据、缺失值清洗等 5. 特征表示 要将数据集中的数据特征表示成计算机能够理解的数值形式。常用的表示方法是局部表示和分布式表示。 6. 传统的特征学习(表示学习) 特征选择 常用的特征: 从数据集中选择合适的特征; 自行设计特征

【机器学习】贝叶斯线性回归(最大后验估计+高斯先验)

左心房为你撑大大i 提交于 2020-04-10 17:55:35
引言 如果要将极大似然估计应用到线性回归模型中,模型的复杂度会被两个因素所控制:基函数的数目(的维数)和样本的数目。尽管为对数极大似然估计加上一个正则项(或者是参数的先验分布),在一定程度上可以限制模型的复杂度,防止过拟合,但基函数的选择对模型的性能仍然起着决定性的作用。 上面说了那么大一段,就是想说明一个问题:由于极大似然估计总是会使得模型过于的复杂以至于产生过拟合的现象,所以单纯的使用极大似然估计并不是特别的有效。 当然,交叉验证是一种有效的限制模型复杂度,防止过拟合的方法,但是交叉验证需要将数据分为训练集合测试集,对数据样本的浪费也是非常的严重的。 贝叶斯回归 基于上面的讨论,这里就可以引出本文的核心内容:贝叶斯线性回归。 贝叶斯线性回归不仅可以解决极大似然估计中存在的过拟合的问题。 它对数据样本的利用率是100%,仅仅使用训练样本就可以有效而准确的确定模型的复杂度。 在极大似然估计线性回归中我们把参数看成是一个未知的固定值,而贝叶斯学派则把看成是一个随机变量。 线性回归模型是一组输入变量的基函数的线性组合,在数学上其形式如下: 这里就是前面提到的基函数,总共的基函数的数目为个,如果定义的话,那个上面的式子就可以简单的表示为: 以下是对应的目标输出,即样本为,并且假设样本集合满足正态分布,参数也满足正态分布,和分别对应于与样本集合的高斯分布方差。 则参数满足以下分布: