Is Robustness the Cost of Accuracy 读书报告

简介

在图像分类领域，深度学习模型已经得到了广泛的应用，并且取得了卓越的性能。分类的准确度长期以来都是评价图像分类模型性能的最核心甚至唯一标准。但最近研究表明，即使是充分训练好的深度神经网络模型也很容易被对抗攻击算法攻破。所以模型的鲁棒性应该作为除了准确率之外的另一个重要的指标

由此就有一个重要的命题被提出了：模型的准确性和鲁棒性之间是否存在关联？会有什么样的关联？这也是本论文重点关注的问题。

论文中选取了基于 ImageNet 的 18 个模型进行具体的实验，用于评估这些模型的鲁棒性以及与准确率之间的关系。

18个模型

为了合理的衡量模型的鲁棒性，总体上使用两种方式来进行评估。

第一种方式就是选取某种特定的对抗攻击方式，如 FGSM, C&W 等，对模型进行攻击，然后找出其最小的攻击扰动大小，从而计算得到最小的对抗距离。这种方法是对模型鲁棒性的上边界的估计。

第二种方法采用一种更加泛化的方式对模型本身的鲁棒性进行评估，而不依赖于特定攻击。本文中使用的就是 CLEVER score。该方法基于局部利普希兹常数和极值定理对模型鲁棒性下边界进行估计。

这里具体阐述一下论文中这些指标的测量方式。

首先攻击成功率是通过利用多种对抗攻击方式，并且限制攻击中扰动参数的大小来实现的。比如使用 FGSM，显示其扰动大小参数为 0.1 0.2 0.5 从而可以分别得到不同扰动范围下的攻击成功率。

攻击扰动大小指的就是成功实现某一攻击所需要的扰动的大小。其中使用 l2 和 l-infinite 参数作为距离的衡量。在扰动大小评估中，使得对抗攻击能够 100% 成功，并且通过二分搜索的方法找到最小的扰动参数的限制。

而对于对抗样本的迁移性的，文中使用各模型生成的对抗样本去分别攻击其他模型从而得到每一种模型对于迁移攻击的抵抗性和适应能力。

这里截取部分代表性的图表展示。包括攻击成功率，攻击扰动大小，以及模型迁移性的一些分析。

各模型攻击成功率和攻击扰动距离

准确率与扰动距离之间的关系

用第 i 行模型生成的对抗样本攻击第 j 列的模型的成功率

通过对这18个模型的大量实验和分析，可以得到以下几个重要结论：

本文最大的贡献应该是对大量的DNN模型做了大量的实验，并且对准确率和鲁棒性之间的关系进行了探究，这是之前未曾有人做过的。