27-11

如何找攻击样本

1. 基于梯度的攻击

这是最常见、最基础的一类攻击方法,利用模型的梯度信息来生成扰动

  • 原理:利用反向传播,计算损失函数相对于输入图像的梯度。这个梯度表示了如果对图像的像素进行微小改变,会如何影响模型的预测结果。通过沿着这个梯度方向对图像进行调整,可以最大化模型的损失,从而导致模型分类错误
  • 代表算法
    • 快速梯度符号法(FGSM, Fast Gradient Sign Method):一种非常高效的单步攻击。它计算损失函数对输入图像的梯度,然后沿着梯度的正负号方向给图像加上一个微小的扰动
    • 基本迭代方法(BIM, Basic Iterative Method)/FGSM 迭代版:FGSM 的多次迭代版本。它在每一步迭代中都计算梯度并进行小幅调整,以更精确地将图像推向模型的决策边界之外
  • 优点:计算效率高,生成速度快
  • 缺点:生成的对抗样本可能不够隐蔽,有时会留下人眼可见的痕迹