PatchBackdoor: Backdoor Attack against Deep Neural Networks without Model Modification

Tsinghua 2023 WWW

发表于 2024/02/03 更新于 2024/02/03

The difference between existing attacks and PatchBackdoor.

作者 Zhiwei Chen

3 分钟阅读

不用修改模型的后门攻击

开源代码： https://github.com/XaiverYuan/PatchBackdoor 思路很清晰，优化目标为一个固定位置的Patch，这个Patch会导致Target的分类结果

Workflow in Github

上图为开源社区中展示的Workflow，很好的解释了其优化Patch的思路，类似于对抗样本优化Variable。

下图为WWW论文中展示的Workflow。

Workflow in WWW

论文中的Real-world Condition c是什么？

主要是为了实现Physical-world Feasibility，使这个Patch能在物理世界对victim模型实现攻击

Our key idea is to model the digital-physical gap with a differentiable transformation, and optimizing the backdoor patch using this transformation

数字世界到物理世界要经过shape和color的transform校准。校准通过建立digital到physical的颜色和shape实现，用一个校准板和arUco这个透视工具。实现物理到数字的颜色以及形状的“映射”。

Real-world Condition c在实现上，其实就是在物理世界放一块校准板，这个校准板的位置未来会放上优化好的Patch。由校准板就可以确定其在数字世界Patch的触发器位置。当优化完成后，又通过校准板的映射关系，可以打印出一个Color转换好的物理的Patch，这个Patch放在原位置上，就可以实现攻击了。

Experiment

实验在多个模型下，都表现出了可观(90%)的攻击成功率。对比方法为5%和10%的BadNet。还在物理世界做了实验，但实验数据使自己手机的，攻击成功率为100%，干净样本准确度为90.73%。

个人观点：

完全不能够修改模型，提出了物理世界到数字世界的转换方法，都大大提高了该方法在现实世界中的实用性。
实用性还有几个方面可以改进：
1. 实验假设掌握了完整的数据集
2. 实验假设掌握了模型的参数，从而可以获得梯度信息
3. 没有说明干净模型的训练是否采用了数据增强，从直觉上，数据增强是很影响此方法的

Trustworthy Machine Learning, Backdoor Attack

本文由作者按照 CC BY 4.0 进行授权

不用修改模型的后门攻击

论文中的Real-world Condition c是什么？

Experiment

热门标签