PyTorch FGSM Attack 对抗样本生成
要阅读 带有插图的文章版本 请前往 http://studyai.com/pytorch-1.4/beginner/fgsm_tutorial.html 如果你正在阅读这篇文章,希望你能体会到一些机器学习模型是多么的有效。研究不断推动ML模型变得更快、更准确和更高效。 然而,设计和训练模型的一个经常被忽视的方面是安全性和健壮性,特别是在面对希望欺骗模型的对手时。 本教程将提高您对ML模型的安全漏洞的认识,并将深入了解对抗性机器学习的热门话题。 您可能会惊讶地发现,在图像中添加不可察觉的扰动会导致截然不同的模型性能。 鉴于这是一个教程,我们将通过一个图像分类器的例子来探讨这个主题。 具体来说,我们将使用第一种也是最流行的攻击方法-快速梯度符号攻击(Fast Gradient Sign Attack ,FGSM)来欺骗MNIST分类器。 威胁模型(Threat Model) 有很多种类的对抗性攻击,每种攻击都有不同的目标和攻击者的知识假设。但是,总体目标 是在输入数据中增加最少的扰动量,以导致期望的错误分类。攻击者的知识有几种假设,其中两种假设是: 白盒子(white-box) 和 黑盒子(black-box)。 白盒子 攻击假定攻击者拥有对模型的全部知识和访问权限,包括体系结构、输入、输出和权重。 黑盒子 攻击假设攻击者只能访问模型的输入和输出,而对底层架构或权重一无所知。