过拟合 | 易学教程

清华大学王奕森：Adversarial Machine Learning: Attack and D

阅读更多关于清华大学王奕森：Adversarial Machine Learning: Attack and D

本文作者：HelloDeveloper 嗨，大家好。这里是学术报告专栏，读芯术小编不定期挑选并亲自跑会，为大家奉献科技领域最优秀的学术报告，为同学们记录报告干货，并想方设法搞到一手的PPT和现场视频——足够干货，足够新鲜！话不多说，快快看过来，希望这些优秀的青年学者、专家杰青的学术报告，能让您在业余时间的知识阅读更有价值。人工智能论坛如今浩如烟海，有硬货、有干货的讲座却百里挑一。“AI未来说·青年学术论坛”系列讲座由中国科学院大学主办，百度全力支持，读芯术作为合作自媒体。承办单位为中国科学院大学学生会，协办单位为中国科学院计算所研究生会、网络中心研究生会、人工智能学院学生会、化学工程学院学生会、公共政策与管理学院学生会、微电子学院学生会。“AI未来说·青年学术论坛”第六期“机器学习”专场已于2019年6月23日下午在中科院举行。清华大学王奕森为大家带来报告《Adversarial MachineLearning: Attack and Defence》。 Yisen Wang obtained his Ph.D. degree from the Department of Computer Science and Technology at Tsinghua University. He is also a visiting scholar at Georgia Tech

如何让图卷积网络变深？腾讯AI Lab联合清华提出DropEdge

阅读更多关于如何让图卷积网络变深？腾讯AI Lab联合清华提出DropEdge

　　机器之心发布　　机器之心编辑部　　　　近年来，图神经网络的研究异常火爆，被各大顶会录取的文章数量爆炸式增长。然而，目前大部分图卷积网络，尤其是面向节点分类的网络，都是浅层网络。这些模型分类效果往往随着深度加深而变差（即使使用残差连接），这与用于图片分类的卷积网络动辄超过几十层的现象很不一致。图卷积神经网络变深之后难以训练的现象严重制约了其表达能力。所以，如何有效的训练超深图卷积网络是图学习研究的一个重大挑战。这项工作由腾讯 AI Lab 与清华大学合作完成。　　　　腾讯 AI Lab 和清华大学的这项研究表明，图神经网络无法做深由两个原因造成：过拟合 (Overfitting) 和过平滑（Oversmoothing）。为了解决这两个问题，文章提出了一种简洁但非常有效的方法：随机删边技术，DropEdge，极大提升了超深图卷积网络的训练效率和节点分类效果。值得注意的是，文章投稿到 openreview 的时候就引来了众多研究同行的关注。文章正式被接收后，图灵奖获得者 Yoshua Bengio 的团队成员 Petar Velikovi（注意力图网络 GAT 的发明者）在 openreview 平台上也给与了关注与好评。　　论文地址：https://openreview.net/forum?id=Hkx1qkrKPr 　　代码地址：https://github

骨干网链路异常？还是机房侧异常？

阅读更多关于骨干网链路异常？还是机房侧异常？

本文作者：AIOps智能运维作者简介小拳拳百度云高级研发工程师负责百度云智能运维Noah外网质量监测平台的系统和策略研发，在网络监控方向有广泛实践经验。干货概览在此前介绍百度云智能运维Noah外网质量监测平台文章《百度网络监控实战：猎鹰一战成名（上）》中，我们简要介绍了一种网络异常类型—— 机房侧异常（百度侧设备/链路异常）。该故障在数据上表现为多个省份访问某个百度机房服务不通畅，因此在猎鹰（百度外网监控平台）外网判障中，可以通过设置访问某机房出现异常的省份比例超过给定阈值，来判定机房侧异常的发生。在外网故障统计中我们发现，运营商骨干网链路出现故障同样会导致多个省份到特定机房访问异常，在现有外网判障框架中，会将骨干网链路异常也判定为机房侧异常。然而，机房侧异常与骨干网链路异常无论是从起因还是数据表现上，都是存在一定差异的，两者的止损方式也不相同。因此，我们需要设计判障策略来区分两类异常，以便自动止损系统根据异常类型执行合适的外网止损方案。在下文中，我们将为大家介绍骨干网链路及其异常表现，以及判障策略的设计思路。什么是骨干网链路？骨干网是运营商用来连接多个地域或地区的高速网络，因此骨干网的一个重要作用就是承载跨地域传输的网络数据。若干条跨地域连接的骨干网链路，共同组成了完整的运营商骨干网。图1所示是用于连接南北地域的一条骨干网链路——第二京汉广链路

scikit-learn Adaboost类库使用小结

阅读更多关于 scikit-learn Adaboost类库使用小结

　　　　在集成学习之Adaboost算法原理小结中，我们对Adaboost的算法原理做了一个总结。这里我们就从实用的角度对scikit-learn中Adaboost类库的使用做一个小结，重点对调参的注意事项做一个总结。 1. Adaboost类库概述　　　　scikit-learn中Adaboost类库比较直接，就是AdaBoostClassifier和AdaBoostRegressor两个，从名字就可以看出AdaBoostClassifier用于分类，AdaBoostRegressor用于回归。　　　　AdaBoostClassifier使用了两种Adaboost分类算法的实现，SAMME和SAMME.R。而AdaBoostRegressor则使用了我们原理篇里讲到的Adaboost回归算法的实现，即Adaboost.R2。　　　　当我们对Adaboost调参时，主要要对两部分内容进行调参，第一部分是对我们的Adaboost的框架进行调参，第二部分是对我们选择的弱分类器进行调参。两者相辅相成。下面就对Adaboost的两个类：AdaBoostClassifier和AdaBoostRegressor从这两部分做一个介绍。 2. AdaBoostClassifier和AdaBoostRegressor框架参数　　　

吴恩达机器学习课程记录

阅读更多关于吴恩达机器学习课程记录

笔记地址： http://www.ai-start.com/ml2014 线性回归回归问题损失函数一般为误差平方函数 mse 需要注意的事项：变量的归一化，以免不同的量纲不同。要保证这些特征都具有相近的尺度，这将帮助梯度下降算法更快地收敛。不同的初始化，可能会得到不同的局部最优解。如果初始化就在局部最低点，则不会更新相关的参数，梯度为0 梯度下降算法：学习率不用没必要自己减小，当慢慢接近局部最小值时候，梯度自然就小了求解梯度下降算法正规方程（矩阵求解）逻辑回归从线性回归那块演变过来用于分类的算法，不是回归，是分类算法。损失函数不再是mse，而是变为二元交叉熵损失函数。这是由于mse形式的损失函数，套用sigmoid激活函数后，整个损失函数是非凸的函数，这导致通过梯度下降算法求解到的可能是局部最优解，而不是全局最优解。因此，逻辑回归的损失函数变换为二元交叉熵损失函数，这是一个凸函数，最终能得到全局最优解。注意：逻辑回归的特征处理也需要归一化求解方法依然是梯度下降算法但有更高级的优化算法：共轭梯度法BFGS、限制变尺度法LBFGS等。运行速度要远远超过梯度下降法。在面临很大的机器学习问题时候，建议使用高级优化方法多标签分类问题转化为多个二分类问题初始化参数可以为0 正则化过拟合：通过学习得到的假设可能能够非常好地适应训练集（代价函数可能几乎为 0

【NLP面试QA】基本策略

阅读更多关于【NLP面试QA】基本策略

目录防止过拟合的方法什么是梯度消失和梯度爆炸？如何解决？在深度学习中，网络层数增多会伴随哪些问题，怎么解决？关于模型参数模型参数初始化的方法模型参数初始化为 0、过大、过小会怎样？为什么说模型参数越小，模型越简单正则化 Regularization 正则化方法正则化如何解决过拟合的如何在代码中加入正则化关于梯度下降 Batch/Mini-Batch/SGD梯度下降增大 batch size 的影响优化算法(Momentum/RMSProp/Adam) 归一化 Normalization 深度学习中的 Internal Covariate Shift（内部协变量偏移） ICS 会导致什么问题 Normalization 的基本思想与通用框架为什么 NLP 中用 Layer Normalization 效果较好而 CV 中 Batch Normalization 的效果较好防止过拟合的方法根据验证集分数设置 early_stoping 数据增强 dropout 正则化：正则化会使得参数值更小，模型更简单，从而避免过拟合，即奥卡姆剃刀原理还有一些其他的方法，比如采用对抗训练的方法可以增强模型的鲁棒性和抗干扰能力，也能一定程度上防止过拟合什么是梯度消失和梯度爆炸？如何解决？由于梯度反向传播遵循链式求导法则，浅层网络的梯度包含深层网络梯度的累乘项

机器学习工程师面试题集锦附指南：互联网篇

阅读更多关于机器学习工程师面试题集锦附指南：互联网篇

3 月，跳不动了？>>> 机器学习工程师是现在的热门职位，因为其极高的薪资成为很多技术人的晋升目标。本文总结了部分一线互联网公司机器学习工程师的面试题及面试指南，希望对各位技术人员的进阶之路有所帮助。阿里巴巴根据参加过阿里巴巴机器学习算法工程师面试的技术人员反馈，总共需要经过四轮面试，前两轮为技术考察，第三轮是交叉面试，最后一轮是人力面试。每轮面试大概持续时间为40到50分钟，面试内容由项目经验询问和基础机器学习算法询问两部分组成。基础机器学习算法主要包括LR和SVM有什么区别，libsvm和liblinear有什么区别，常用的统计量的含义，稀疏特征如独热编码，维度很大，输入神经网络怎么降维，FFM算法的原理，谈谈你对特征工程的认识，LR优化方法之间的区别，逻辑回归的概念， EM，K-means等问题。面试官会给出一些场景，询问求职者如何处理数据，如何建模。可能会碰到算法题和智力题，但数量不会很多。根据反馈，算法题可能会与数组相关，比如存在一个数组，大小为98，里面的元素均为[1,100]区间内，且无重复，不申请额外空间的情况下，在时间复杂度为O(N)情况下，找出确定的两个元素值。华为基础知识部分可能会让技术人员介绍几个简单的机器学习模型的主要思想，比如贝叶斯、SVM 等。除此之外，都是一些概念问题：决策树和adaboost的区别;介绍你曾经做过的项目

订阅过拟合