过拟合

仅50张图片训练数据的AI分类技术PK,阿里拿下ECCV 2020竞赛冠军

拥有回忆 提交于 2020-08-12 04:26:58
出品 | AI科技大本营(ID:rgznai100) 近日,两年一度的世界计算机视觉领域顶会ECCV 2020的各项挑战赛结果出炉,在图像分类赛中,阿里安全的高效AI分类技术超越三星、深兰科技、同济大学等国内外多支队伍的同类技术获得冠军。目前,阿里安全团队提出的“A visual inductive priors framework for data-efficient image classification”也已被ECCV 2020 Workshop VIPriors接收。 人工智能的崛起以海量的带标签训练数据作为基石,海量数据可以保障AI模型的效果,但是数据的收集和标注需要昂贵的人力成本,进行训练则需要消耗大量计算资源。ECCV 2020分类比赛的难题是,与其他比赛动辄使用十几万的数据不同,ECCV 2020的分类比赛共有1000个类别,每个类别仅有50张图片作为训练数据。比赛要求选手在不使用任何预训练模型和额外数据情况下,从零训练模型。这意味着训练难度巨大,几乎是不可能完成的任务。 不过,这也正是ECCV 2020为了考验参赛队伍如何对来之不易的训练数据进行充分利用,促使AI神经网络进行高效学习,降低神经网络训练过程中的人力和计算资源消耗,也就是说,参赛队伍要打造一个高效能、低成本的分类AI。 阿里安全图灵实验室算法工程师夜清介绍, 阿里安全智能算法团队从数据增强

量化投资中回测的12种坑,你掉进去了吗?

不打扰是莪最后的温柔 提交于 2020-08-12 00:50:13
阅读了知乎的问答,颇有感触,总结下我的思考与观点。 这是一个很扎心的问题,很多从业者,都面临着这个拷问,当然也包括我。我将尝试从量化投资的整个流程,从理论和经验上去定性分析,出现这个问题的各种原因,避免这些坑,期待实盘与回测尽可能一致。在分析的时候,主要基于实现CTA趋势跟踪策略的视角出发,并且兼顾股票和其他常见的投资策略。 一、猜想与假设 使用趋势跟踪策略的时候,一个基本的猜想就是,我们即将交易的品种是存在趋势的,趋势产生之后,会持续一段时间,才会反转。至于什么是趋势,这是个高深的问题,在以后的系列文章中,将会详细梳理。 如果基于价值投资策略,一个基本的猜想就是,当股票的价格比较低,低于自身的内在价值的时候,股票价格会在一定时间内向内在价值收敛。 如果是基于套利策略,一个基本的猜想就是,一个品种或者多个品种之间的价差会处在一定的合理范围之内,当价差太高的时候,就会下跌,当价差太小的时候,就会升高。 任何量化投资的策略,其实都有一定的猜想与假设,包括那些基于机器学习、深度学习的量化投资策略,只是有些策略基于的猜想与假设,比较直观,符合现有的认知体系,大家容易接受;有些基于的猜想与假设,超出我们的认知范围,是黑匣子,大家没法理解。 坑1、基于黑匣子的猜想与假设的策略,让我们更加怀疑实盘不如回测的表现 我对于是基于经济、金融理论产生的策略还是基于数据驱动产生的策略本身并没有偏见,但是

常见CNN网络创新点

大城市里の小女人 提交于 2020-08-12 00:28:56
这篇文章主要介绍卷积神经网络1998年到2019年的20多种经典的网络,体会每种网络的前世今身以及包含的深邃思想。算是一个总结性的博客吧。。。 目录 一、1998年:LeNet 二、2012年:AlexNet 三、2013年:ZFNet 四、2014年:亚军——VGGNet 冠军——GoogLeNet 五、2015年:ResNet 六、2016年:DenseNet 七、2017年:SENet 一、1998年:LeNet 1988年,Yann LeCun(深度学习三巨头之一,2019年获得图灵奖)提出了用于手写字符识别的卷积网络模型LeNet5。其原理结构比较清晰,如图所示。当年,美国很多企业都采用了该模型用于识别现实场景中的数字,例如邮政编码、手写数字等,能够达到商用的程度,可见其在AI领域的开创性地位。 在论文中,LeNet5被用于识别MNIST数据集提供的10个数字。MNIST数据集在人工智能领域的作用是非常重要的,是当时Google实验室的Corinna Cortes和纽约大学的Yann LeCun共同建立的手写数字数据库,由60000张训练图片和10000张测试图片组成。该数据集提供的图片像素统一为28×28,图片中字符像素最大为20×20。 创新点: 提出卷积神经网络 二、 2012 年:AlexNet AlexNet是2012年提出的

阿里天池全国社保比赛心得

二次信任 提交于 2020-08-11 23:45:34
最近时间都忙于参加阿里天池的全国社会保险大数据应用创新大赛,终于结束,最终全国排名第7,总共是1336只队伍参加,还是很激动进了前10,今天想把一些体悟写一下,希望对后来参加的人有用。这个比赛是完成数据算法模型的开发设计,实现对各类医疗保险基金欺诈违规行为的准确识别,根据给出的数据情况,最开始有两个思路,1.从就诊记录入手,找到可疑的就诊记录,然后拼接到人上 2.直接构造人的可疑程度的行为特征。两者都试过,最终选择了后者,因为题目给出的欺诈标签主要是人的欺诈标签,并没有给出某次就诊行为的欺诈标签。另外,此次的评测指标是F1值,这个非常重要,你要知道你最终排名都是看的这个值。下面我从三个方面讲一下这次比赛的心得。 一、特征 可能没参加比赛前很难理解 特征决定上限 的这个真理,特征特征才是最重要的! 一定要看特征重要度,要不断尝试,有些组合到一起反而降低,有些特征看着不重要,你把他去了 可是结果却会出现下降的情况,因为特征和特征之间是有关系的。 在重要特征做深入处理的收益远大于在次要特征中继续做。 汇总信息有些时候会丢失信息,比如我们最开始将医院数据进行了汇总,计算每个人去一级医院,二级医院,三级医院的个数,反而没有把所有医院的维度扩充好。 观察和了解你的数据很重要。观察数据发现患者同一天在同一个医院有药费,有治疗费分别出现不同的就诊id,包括挂号的费用也是不同的id

SparseNN中的优化

孤街醉人 提交于 2020-08-11 23:25:59
作者|The AI LAB 编译|VK 来源|Medium 对SparseNN模型的过拟合进行研究,并探索了多种正则化方法,如嵌入向量的max-norm/constant-norm、稀疏特征id的dropout、参数的freezing、嵌入收缩等。然而,据我们所知,在单次训练中,没有显著的减少过拟合的效果。 正则化全连接层和稀疏参数 随机梯度下降优化器使用小批量样本来更新全连接层和稀疏参数。给定一个小批量的例子,通常所有的全连接层参数都会被更新(假设没有gate或dropout),而只有一小部分稀疏参数会在正向传播中被激活,从而在反向传播中被更新。例如,假设一个稀疏特征对用户在过去一周内单击的广告id进行编码,虽然我们可能有数百万个惟一的广告id,但是在一个小型批处理中(通常是100个样本)出现的广告id的数量与基数相比非常有限。 正则化稀疏参数与全连接层参数的不同之处在于,我们需要在运行时识别小型批处理中已激活的稀疏参数,然后仅对这些参数进行正则化。 在正则化全连接层参数时需要注意的一点是,全连接层中的偏差通常不需要正则化。因此,需要识别这些偏差,并将它们自动排除在正则化之外。 L2正则化 J(W)是经验损失,||W_dense||²是全连接层稀疏参数(也称为L2正则化器)的L2范数的平方;||W_sparse||²也是如此。 参数W_i的损失L的梯度被分解为经验损失J和所谓的

《机器学习_07_03_svm_核函数与非线性支持向量机》

ぃ、小莉子 提交于 2020-08-11 21:24:16
一.简介 前两节分别实现了硬间隔支持向量机与软间隔支持向量机,它们本质上都是线性分类器,只是软间隔对“异常点”更加宽容,它们对形如如下的螺旋数据都没法进行良好分类,因为没法找到一个直线(超平面)能将其分隔开,必须使用曲线(超曲面)才能将其分隔,而核技巧便是处理这类问题的一种常用手段。 import numpy as np import matplotlib.pyplot as plt import copy import random import os os.chdir('../') from ml_models import utils from ml_models.svm import * from sklearn import datasets %matplotlib inline data, target = datasets.make_moons(noise=0.01) plt.scatter(data[:,0],data[:,1],c=target) plt.show() 二.核技巧 核技巧简单来说分为两步: (1)将低维非线性可分数据 \(x\) ,通过一个非线性映射函数 \(\phi\) ,映射到一个新空间(高维度甚至是无限维空间); (2)对新空间的数据 \(\phi(x)\) 训练线性分类器 比如如下的情况: 原始数据需要使用一个椭圆才能分隔开

深度残差网络(Deep residual network, ResNet)

让人想犯罪 __ 提交于 2020-08-11 19:49:37
@ 目录 一、前言 二、深度网络的退化问题 三、残差学习 3.1 残差网络原理 3.2 ResNet结构为什么可以解决深度网络退化问题? 3.3 残差单元 3.4 ResNet的网络结构 四、实验结果 ResNet-50 完整代码 参考资料: 一、前言 深度残差网络(Deep residual network, ResNet)的提出是CNN图像史上的一件里程碑事件,让我们先看一下ResNet在ILSVRC和COCO 2015上的战绩: ResNet取得了5项第一,并又一次刷新了CNN模型在ImageNet上的历史, ImageNet分类Top-5误差: 那么ResNet为什么会有如此优异的表现呢?其实ResNet是解决了深度CNN模型难训练的问题,从图2中可以看到14年的VGG才19层,而15年的ResNet多达152层,这在网络深度完全不是一个量级上,所以如果是第一眼看这个图的话,肯定会觉得ResNet是靠深度取胜。事实当然是这样,但是ResNet还有架构上的技巧,这才使得网络的深度发挥出作用,这个技巧就是残差学习(Residual learning)。 论文名称:Deep Residual Learning for Image Recognition 论文作者:Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun 论文地址:

SparseNN中的优化

旧城冷巷雨未停 提交于 2020-08-11 19:13:23
作者|The AI LAB 编译|VK 来源|Medium 对SparseNN模型的过拟合进行研究,并探索了多种正则化方法,如嵌入向量的max-norm/constant-norm、稀疏特征id的dropout、参数的freezing、嵌入收缩等。然而,据我们所知,在单次训练中,没有显著的减少过拟合的效果。 正则化全连接层和稀疏参数 随机梯度下降优化器使用小批量样本来更新全连接层和稀疏参数。给定一个小批量的例子,通常所有的全连接层参数都会被更新(假设没有gate或dropout),而只有一小部分稀疏参数会在正向传播中被激活,从而在反向传播中被更新。例如,假设一个稀疏特征对用户在过去一周内单击的广告id进行编码,虽然我们可能有数百万个惟一的广告id,但是在一个小型批处理中(通常是100个样本)出现的广告id的数量与基数相比非常有限。 正则化稀疏参数与全连接层参数的不同之处在于,我们需要在运行时识别小型批处理中已激活的稀疏参数,然后仅对这些参数进行正则化。 在正则化全连接层参数时需要注意的一点是,全连接层中的偏差通常不需要正则化。因此,需要识别这些偏差,并将它们自动排除在正则化之外。 L2正则化 J(W)是经验损失,||W_dense||²是全连接层稀疏参数(也称为L2正则化器)的L2范数的平方;||W_sparse||²也是如此。 参数W_i的损失L的梯度被分解为经验损失J和所谓的

第8章 多项式回归与模型泛化 学习笔记中

一世执手 提交于 2020-08-11 18:32:34
目录 8-4 为什么要训练数据集与测试数据集 为什么使用测试数据集 过拟合 train test split的意义 8-5 学习曲线05-Learning-Curve 8-6 验证数据集与交叉验证 使用交叉验证 回顾网格搜索 cv参数 留一法Loo-CV 8-4 为什么要训练数据集与测试数据集 为什么使用测试数据集 过拟合 模型的泛化能力差 from sklearn.linear_model import LinearRegression from sklearn.pipeline import Pipeline from sklearn.preprocessing import PolynomialFeatures from sklearn.preprocessing import StandardScaler def PolynomialRegression(degree): return Pipeline([ ("poly", PolynomialFeatures(degree=degree)), ("std_scaler", StandardScaler()), ("lin_reg", LinearRegression()) ]) from sklearn.metrics import mean_squared_error poly100_reg =

阿里天池全国社保比赛心得

坚强是说给别人听的谎言 提交于 2020-08-11 18:10:48
最近时间都忙于参加阿里天池的全国社会保险大数据应用创新大赛,终于结束,最终全国排名第7,总共是1336只队伍参加,还是很激动进了前10,今天想把一些体悟写一下,希望对后来参加的人有用。这个比赛是完成数据算法模型的开发设计,实现对各类医疗保险基金欺诈违规行为的准确识别,根据给出的数据情况,最开始有两个思路,1.从就诊记录入手,找到可疑的就诊记录,然后拼接到人上 2.直接构造人的可疑程度的行为特征。两者都试过,最终选择了后者,因为题目给出的欺诈标签主要是人的欺诈标签,并没有给出某次就诊行为的欺诈标签。另外,此次的评测指标是F1值,这个非常重要,你要知道你最终排名都是看的这个值。下面我从三个方面讲一下这次比赛的心得。 一、特征 可能没参加比赛前很难理解 特征决定上限 的这个真理,特征特征才是最重要的! 一定要看特征重要度,要不断尝试,有些组合到一起反而降低,有些特征看着不重要,你把他去了 可是结果却会出现下降的情况,因为特征和特征之间是有关系的。 在重要特征做深入处理的收益远大于在次要特征中继续做。 汇总信息有些时候会丢失信息,比如我们最开始将医院数据进行了汇总,计算每个人去一级医院,二级医院,三级医院的个数,反而没有把所有医院的维度扩充好。 观察和了解你的数据很重要。观察数据发现患者同一天在同一个医院有药费,有治疗费分别出现不同的就诊id,包括挂号的费用也是不同的id