Hinton新作!越大的自监督模型,半监督学习需要的标签越少
来源:AI科技评论 编译:青暮 本文介绍了Hinton团队发表在NeurIPS 2020上的一项研究工作,一作是Ting Chen,研究人员首次在ImageNet上尝试了半监督学习的典型范式,并取得了优越的结果。此外,他们还发现,网络的规模越大,需要的标签数据越少。 论文地址:https://arxiv.org/abs/2006.10029 仅使用1%的标签(每类≤13个标签图像),本文提出的方法即可达到73.9%ImageNet top-1准确率,与以前的SOTA相比,标签效率提高了10倍。 使用10%的标签,本文的方法可以达到77.5%的top-1准确率,优于使用100%标签的标准监督训练。 “无监督预训练、监督微调”范式 充分利用少量标记示例和大量未标记示例进行学习是机器学习的一个长期存在的问题。 人们曾经提出一种半监督学习来试图解决这个问题,其中涉及无监督或自监督的预训练,然后进行有监督的微调。 这种方法在预训练期间以与任务无关的方式利用未标记的数据,仅在有监督微调时使用带标签的数据。 这种方法在计算机视觉上很少受关注,但是在自然语言处理中已成为主流。例如,人们首先在未标记的文本(例如Wikipedia)上训练大型语言模型,然后在一些带标记的示例中对该模型进行微调。 基于视觉表示的自监督学习的最新进展,Ting Chen等人对ImageNet上的半监督学习进行了深入研究