如何找攻击样本
1. 基于梯度的攻击
这是最常见、最基础的一类攻击方法,利用模型的梯度信息来生成扰动
- 原理:利用反向传播,计算损失函数相对于输入图像的梯度。这个梯度表示了如果对图像的像素进行微小改变,会如何影响模型的预测结果。通过沿着这个梯度方向对图像进行调整,可以最大化模型的损失,从而导致模型分类错误
- 代表算法:
- 快速梯度符号法(FGSM, Fast Gradient Sign Method):一种非常高效的单步攻击。它计算损失函数对输入图像的梯度,然后沿着梯度的正负号方向给图像加上一个微小的扰动
- 基本迭代方法(BIM, Basic Iterative Method)/FGSM 迭代版:FGSM 的多次迭代版本。它在每一步迭代中都计算梯度并进行小幅调整,以更精确地将图像推向模型的决策边界之外
- 优点:计算效率高,生成速度快
- 缺点:生成的对抗样本可能不够隐蔽,有时会留下人眼可见的痕迹