【论文介绍】MEAL V2

拜拜、爱过 提交于 2021-02-08 08:25:38
作者:Stan Kriventsov
编译:ronghuaiyang
转载自:AI公园
原文链接:


https://mp.weixin.qq.com/s/001DpmGeapE3HECzFPVvEwmp.weixin.qq.com
导读
一篇知识蒸馏+对抗训练的文章。


作者使用最近提出的MEAL技术(包括从多个大型老师网络使用蒸馏通过对抗学习得到更小的学生网络学习),使用224×224输入,在ImageNet上提升了ResNet-50的精度到80.67%, 没有外部训练数据和网络体系结构的修改。

从文章中我们能学到什么?

即使是一个相对较小的网络也可以通过训练用正确的方法达到大得多的网络的准确性。

在某种程度上,这并不奇怪,因为现代深层神经网络被设计成过参数化的,利用“彩票假说”描述的大量的随机初始化配置,一个更小的网络足以达到同样的性能,但是,在实践中可以实现还是非常了不起的。

先决条件(为了更好地理解论文,我们应该熟悉什么?)

  • 知识蒸馏
  • 对抗训练

讨论

集成技术,或集成学习,由多个ML模型的组合预测组成,是一种已知的提高预测精度的方法。它被广泛应用于Kaggle竞赛中,在这些竞赛中,即使以巨大的计算负载为代价,也要获得最佳的精度。然而,在大多数实际应用中,由于在预测期间运行每个模型所需的费用和时间,集成并不被广泛使用。

MEAL技术的想法,是从多个大型神经网络(教师)中提炼知识到一个更小的学生网络,从而创建一个计算高效的新模型,并具有集成模型的效果。学生网络与一个额外的鉴别器网络一起训练,该鉴别器网络用于区分学生网络各层产生的输出和每个输入的教师网络的相应输出。

本文作者简化了MEAL技术,只考虑每个网络的最终输出层的相似性(KL)的损失,并利用所有的教师网络的平均softmax概率,而不仅仅是使用一个教师网络在每一步进行训练。

使用这种方法,作者能够训练原始ResNet-50架构,在没有修改,没有外部训练数据以及各种技巧,比如AutoAugment,mixup,label smoothing的情况下,等达到精度(224×224输入图像)80.67%,这是目前为止这个架构迄今为止最好的结果。

本文表明,通过使用更大的(380×380)图像(81.72%)或使用更多的数据增强,如CutMix(80.98%),可以进一步提高该精度。

即使对小的MobileNet V3小和EfficientNet b0模型,这里提出的训练技术可以提升原始ImageNet精度约2.2%,显示了训练更小的模型可以达到几乎与大型网络一致的准确性的潜力,从而实现推理阶段的性能提升。

现在考虑到overparameterized最深层神经网络(为了找到一个更好的模型利用“彩票假说(https://www.dl.reviews/2020/01/03/lottery-ticket-hypothesis/)”),这似乎是一个非常简洁的方式扩展生成的模型在保持精度。

希望通过进一步的研究来证实这种方法在实际工作中的可行性。

—END—

英文原文:https://medium.com/deep-learning-reviews/meal-v2-boosting-vanilla-resnet-50-to-80-top-1-accuracy-on-imagenet-without-tricks-1b8f18343323


机器学习/深度学习算法/自然语言处理交流群

已建立机器学习算-自然语言处理微信交流群!想要进交流群进行学习的同学,可以直接加我的微信号:HIT_NLP。加的时候备注一下:知乎+学校+昵称 (不加备注不会接受同意,望谅解),想进pytorch群,备注知乎+学校+昵称+Pytorch即可。然后我们就可以拉你进群了。群里已经有非得多国内外高校同学,交流氛围非常好。

强烈推荐大家关注机器学习算法与自然语言处理账号和机器学习算法与自然语言处理微信公众号,可以快速了解到最新优质的干货资源。

推荐阅读

ACL-2021交流群

NAACL2021-交流群

【招人】腾讯广告业务线

赛尔笔记 | 篇章级机器翻译简介

GPT“高仿”系列开源了!最大可达GPT-3大小,还能自主训练

ACL 2021投稿避坑指南

我,大学没毕业,在OpenAI搞AI,想教教你如何提升“研究品味”

推荐几本经典AI书籍!

赛尔原创@AAAI 2021 | 纠结于联合学习中的建模方法?快来看看图网络显式建模!

如何提高PyTorch“炼丹”速度?这位小哥总结了17种方法,可直接上手更改的那种

斯坦福CS224W《图机器学习》2021开课!Jure Leskovec大牛主讲,附课程PPT下载

ICLR2021放榜!录取860篇,接受率为28.7%!

计算机视觉中的Transformer

第二十届中国计算语言学大会(CCL 2021)技术评测任务征集

完全图解GPT-2:看完这篇就够了(二)

完全图解GPT-2:看完这篇就够了(一)

IJCAI 2020今日开幕,杰出论文奖、卓越研究奖、约翰·麦卡锡奖等8项大奖公布!

研究品味锻炼!

一份Python线性代数讲义

全面回顾2020年图机器学习进展,12位大神论道、寄望2021年大爆发!

第二十届中国计算语言学大会(CCL 2021) 征稿启事

NTU-Xavier Bresson 图神经网络入门视频

2020年arXiv十大热门论文来了!不止GPT-3、SimCLR、YOLOv4...

每日论文速递:自然语言处理相关(1月7日更新版)

权值衰减和L2正则化傻傻分不清楚?

斯坦福大学——人工智能本科4年课程清单

超过500个附代码的AI/机器学习/深度学习/计算机视觉/NLP项目

Awesome Transformer for Vision Resources List库

2020 Top10计算机视觉论文总结:论文,代码,解读,还有demo视频!

摘要数据整理仓库,6个数据集!

156个参考文献!Visual Transformer 调研survey

NLP生成任务痛点!58页generation评价综述

机器学习画图模板ML Visuals更新

谷歌最新28页高效 Transformer 模型综述

Papers with Code 2020 全年回顾

最新14页《图神经网络可解释性》综述论文

陶大程等人编写!最新41页深度学习理论综述

使用PyTorch时,最常见的4个错误

加拿大蒙特利尔大学助理教授刘邦招收2021/2022年博士生

【EMNLP2020】基于动态图交互网络的多意图口语语言理解框架

一文搞懂 PyTorch 内部机制

AAAI 2021论文接收列表放出!!!

易学教程内所有资源均来自网络或用户发布的内容,如有违反法律规定的内容欢迎反馈
该文章没有解决你所遇到的问题?点击提问,说说你的问题,让更多的人一起探讨吧!