寻找后门攻击最有效的网络层。现有的 FL 攻击和防御方法通常关注整个模型。 他们都没有认识到后门关键(BC)层的存在——控制模型漏洞的一小部分层。 攻击 BC 层可达到与攻击整个模型相同的效果,但被最先进 (SOTA) 防御检测到的机会要小得多。
方法很简单,文章重复的地方比较多。
为了证明 BC 层的存在,作者首先在干净的数据集上训练一个良性的五层 CNN 模型,直到它收敛。 然后在中毒数据(嵌入触发器)上训练良性模型的副本并获得恶意模型。 作者将良性模型中的每一层替换为恶意模型中的同一层,并测量后门攻击成功率,这表示识别嵌入触发器作为目标标签的样本的准确性。本文提出了层替换分析,这是一种使用前向和后向层替换来识别 BC 层的通用原位方法。进一步设计了两种新的后门攻击方法:分层中毒攻击和分层翻转攻击。
具体方式:
- 首先训练得到一个良性模型,然后在这个良性模型上训练后门数据,得到带有后门的模型。
- 使用良性模型替换后门模型的每一层,计算每一层替换后后门准确率的损失。
- 然后将损失从大到小排序,在良性模型中,依次替换损失最大的层,知道后门准确率到达阈值。
已识别的 BC 层提供了一个新的视角,可以对 FL 进行更精确、更隐蔽的后门攻击。 本节介绍两种具有后门关键层意识的攻击方法:同时攻击基于距离和基于反转的防御方法的分层中毒(LP)攻击和攻击基于符号的防御方法的分层翻转(LF)攻击 。
LP攻击:模拟聚类筛选的过程,如果被筛除,就减少加入的层数,并且引入加权项,不是完全替换,而是加权替换。
LF攻击:
翻转符号。