过拟合 | 易学教程

仅50张图片训练数据的AI分类技术PK，阿里拿下ECCV 2020竞赛冠军

阅读更多关于仅50张图片训练数据的AI分类技术PK，阿里拿下ECCV 2020竞赛冠军

出品 | AI科技大本营（ID:rgznai100）近日，两年一度的世界计算机视觉领域顶会ECCV 2020的各项挑战赛结果出炉，在图像分类赛中，阿里安全的高效AI分类技术超越三星、深兰科技、同济大学等国内外多支队伍的同类技术获得冠军。目前，阿里安全团队提出的“A visual inductive priors framework for data-efficient image classification”也已被ECCV 2020 Workshop VIPriors接收。人工智能的崛起以海量的带标签训练数据作为基石，海量数据可以保障AI模型的效果，但是数据的收集和标注需要昂贵的人力成本，进行训练则需要消耗大量计算资源。ECCV 2020分类比赛的难题是，与其他比赛动辄使用十几万的数据不同，ECCV 2020的分类比赛共有1000个类别，每个类别仅有50张图片作为训练数据。比赛要求选手在不使用任何预训练模型和额外数据情况下，从零训练模型。这意味着训练难度巨大，几乎是不可能完成的任务。不过，这也正是ECCV 2020为了考验参赛队伍如何对来之不易的训练数据进行充分利用，促使AI神经网络进行高效学习，降低神经网络训练过程中的人力和计算资源消耗，也就是说，参赛队伍要打造一个高效能、低成本的分类AI。阿里安全图灵实验室算法工程师夜清介绍，阿里安全智能算法团队从数据增强

量化投资中回测的12种坑，你掉进去了吗？

阅读更多关于量化投资中回测的12种坑，你掉进去了吗？

阅读了知乎的问答，颇有感触，总结下我的思考与观点。这是一个很扎心的问题，很多从业者，都面临着这个拷问，当然也包括我。我将尝试从量化投资的整个流程，从理论和经验上去定性分析，出现这个问题的各种原因，避免这些坑，期待实盘与回测尽可能一致。在分析的时候，主要基于实现CTA趋势跟踪策略的视角出发，并且兼顾股票和其他常见的投资策略。一、猜想与假设使用趋势跟踪策略的时候，一个基本的猜想就是，我们即将交易的品种是存在趋势的，趋势产生之后，会持续一段时间，才会反转。至于什么是趋势，这是个高深的问题，在以后的系列文章中，将会详细梳理。如果基于价值投资策略，一个基本的猜想就是，当股票的价格比较低，低于自身的内在价值的时候，股票价格会在一定时间内向内在价值收敛。如果是基于套利策略，一个基本的猜想就是，一个品种或者多个品种之间的价差会处在一定的合理范围之内，当价差太高的时候，就会下跌，当价差太小的时候，就会升高。任何量化投资的策略，其实都有一定的猜想与假设，包括那些基于机器学习、深度学习的量化投资策略，只是有些策略基于的猜想与假设，比较直观，符合现有的认知体系，大家容易接受；有些基于的猜想与假设，超出我们的认知范围，是黑匣子，大家没法理解。坑1、基于黑匣子的猜想与假设的策略，让我们更加怀疑实盘不如回测的表现我对于是基于经济、金融理论产生的策略还是基于数据驱动产生的策略本身并没有偏见，但是

常见CNN网络创新点

阅读更多关于常见CNN网络创新点

这篇文章主要介绍卷积神经网络1998年到2019年的20多种经典的网络，体会每种网络的前世今身以及包含的深邃思想。算是一个总结性的博客吧。。。目录一、1998年：LeNet 二、2012年：AlexNet 三、2013年：ZFNet 四、2014年:亚军——VGGNet 冠军——GoogLeNet 五、2015年：ResNet 六、2016年：DenseNet 七、2017年：SENet 一、1998年：LeNet 1988年，Yann LeCun（深度学习三巨头之一，2019年获得图灵奖）提出了用于手写字符识别的卷积网络模型LeNet5。其原理结构比较清晰，如图所示。当年，美国很多企业都采用了该模型用于识别现实场景中的数字，例如邮政编码、手写数字等，能够达到商用的程度，可见其在AI领域的开创性地位。在论文中，LeNet5被用于识别MNIST数据集提供的10个数字。MNIST数据集在人工智能领域的作用是非常重要的，是当时Google实验室的Corinna Cortes和纽约大学的Yann LeCun共同建立的手写数字数据库，由60000张训练图片和10000张测试图片组成。该数据集提供的图片像素统一为28×28，图片中字符像素最大为20×20。创新点：提出卷积神经网络二、 2012 年：AlexNet AlexNet是2012年提出的

阿里天池全国社保比赛心得

阅读更多关于阿里天池全国社保比赛心得

最近时间都忙于参加阿里天池的全国社会保险大数据应用创新大赛，终于结束，最终全国排名第7，总共是1336只队伍参加，还是很激动进了前10，今天想把一些体悟写一下，希望对后来参加的人有用。这个比赛是完成数据算法模型的开发设计，实现对各类医疗保险基金欺诈违规行为的准确识别，根据给出的数据情况，最开始有两个思路，1.从就诊记录入手，找到可疑的就诊记录，然后拼接到人上 2.直接构造人的可疑程度的行为特征。两者都试过，最终选择了后者，因为题目给出的欺诈标签主要是人的欺诈标签，并没有给出某次就诊行为的欺诈标签。另外，此次的评测指标是F1值，这个非常重要，你要知道你最终排名都是看的这个值。下面我从三个方面讲一下这次比赛的心得。一、特征可能没参加比赛前很难理解特征决定上限的这个真理，特征特征才是最重要的！一定要看特征重要度，要不断尝试，有些组合到一起反而降低，有些特征看着不重要，你把他去了可是结果却会出现下降的情况，因为特征和特征之间是有关系的。在重要特征做深入处理的收益远大于在次要特征中继续做。汇总信息有些时候会丢失信息，比如我们最开始将医院数据进行了汇总，计算每个人去一级医院，二级医院，三级医院的个数，反而没有把所有医院的维度扩充好。观察和了解你的数据很重要。观察数据发现患者同一天在同一个医院有药费，有治疗费分别出现不同的就诊id，包括挂号的费用也是不同的id

SparseNN中的优化

阅读更多关于 SparseNN中的优化

作者|The AI LAB 编译|VK 来源|Medium 对SparseNN模型的过拟合进行研究，并探索了多种正则化方法，如嵌入向量的max-norm/constant-norm、稀疏特征id的dropout、参数的freezing、嵌入收缩等。然而，据我们所知，在单次训练中，没有显著的减少过拟合的效果。正则化全连接层和稀疏参数随机梯度下降优化器使用小批量样本来更新全连接层和稀疏参数。给定一个小批量的例子，通常所有的全连接层参数都会被更新(假设没有gate或dropout)，而只有一小部分稀疏参数会在正向传播中被激活，从而在反向传播中被更新。例如，假设一个稀疏特征对用户在过去一周内单击的广告id进行编码，虽然我们可能有数百万个惟一的广告id，但是在一个小型批处理中(通常是100个样本)出现的广告id的数量与基数相比非常有限。正则化稀疏参数与全连接层参数的不同之处在于，我们需要在运行时识别小型批处理中已激活的稀疏参数，然后仅对这些参数进行正则化。在正则化全连接层参数时需要注意的一点是，全连接层中的偏差通常不需要正则化。因此，需要识别这些偏差，并将它们自动排除在正则化之外。 L2正则化 J(W)是经验损失，||W_dense||²是全连接层稀疏参数(也称为L2正则化器)的L2范数的平方；||W_sparse||²也是如此。参数W_i的损失L的梯度被分解为经验损失J和所谓的

《机器学习_07_03_svm_核函数与非线性支持向量机》

阅读更多关于《机器学习_07_03_svm_核函数与非线性支持向量机》

一.简介前两节分别实现了硬间隔支持向量机与软间隔支持向量机，它们本质上都是线性分类器，只是软间隔对“异常点”更加宽容，它们对形如如下的螺旋数据都没法进行良好分类，因为没法找到一个直线（超平面）能将其分隔开，必须使用曲线（超曲面）才能将其分隔，而核技巧便是处理这类问题的一种常用手段。 import numpy as np import matplotlib.pyplot as plt import copy import random import os os.chdir('../') from ml_models import utils from ml_models.svm import * from sklearn import datasets %matplotlib inline data, target = datasets.make_moons(noise=0.01) plt.scatter(data[:,0],data[:,1],c=target) plt.show() 二.核技巧核技巧简单来说分为两步：（1）将低维非线性可分数据 \(x\) ，通过一个非线性映射函数 \(\phi\) ，映射到一个新空间（高维度甚至是无限维空间）；（2）对新空间的数据 \(\phi(x)\) 训练线性分类器比如如下的情况：原始数据需要使用一个椭圆才能分隔开

深度残差网络（Deep residual network, ResNet）

阅读更多关于深度残差网络（Deep residual network, ResNet）

@ 目录一、前言二、深度网络的退化问题三、残差学习 3.1 残差网络原理 3.2 ResNet结构为什么可以解决深度网络退化问题？ 3.3 残差单元 3.4 ResNet的网络结构四、实验结果 ResNet-50 完整代码参考资料：一、前言深度残差网络（Deep residual network, ResNet）的提出是CNN图像史上的一件里程碑事件，让我们先看一下ResNet在ILSVRC和COCO 2015上的战绩： ResNet取得了5项第一，并又一次刷新了CNN模型在ImageNet上的历史, ImageNet分类Top-5误差：那么ResNet为什么会有如此优异的表现呢？其实ResNet是解决了深度CNN模型难训练的问题，从图2中可以看到14年的VGG才19层，而15年的ResNet多达152层，这在网络深度完全不是一个量级上，所以如果是第一眼看这个图的话，肯定会觉得ResNet是靠深度取胜。事实当然是这样，但是ResNet还有架构上的技巧，这才使得网络的深度发挥出作用，这个技巧就是残差学习（Residual learning）。论文名称：Deep Residual Learning for Image Recognition 论文作者：Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun 论文地址：

SparseNN中的优化

阅读更多关于 SparseNN中的优化

第8章多项式回归与模型泛化学习笔记中

阅读更多关于第8章多项式回归与模型泛化学习笔记中

目录 8-4 为什么要训练数据集与测试数据集为什么使用测试数据集过拟合 train test split的意义 8-5 学习曲线05-Learning-Curve 8-6 验证数据集与交叉验证使用交叉验证回顾网格搜索 cv参数留一法Loo-CV 8-4 为什么要训练数据集与测试数据集为什么使用测试数据集过拟合模型的泛化能力差 from sklearn.linear_model import LinearRegression from sklearn.pipeline import Pipeline from sklearn.preprocessing import PolynomialFeatures from sklearn.preprocessing import StandardScaler def PolynomialRegression(degree): return Pipeline([ ("poly", PolynomialFeatures(degree=degree)), ("std_scaler", StandardScaler()), ("lin_reg", LinearRegression()) ]) from sklearn.metrics import mean_squared_error poly100_reg =

阿里天池全国社保比赛心得

阅读更多关于阿里天池全国社保比赛心得

订阅过拟合