LlaMA 3 系列博客
构建安全的GenAI/LLMs核心技术解密之大模型对抗攻击(一)
构建安全的GenAI/LLMs核心技术解密之大模型对抗攻击(二)
构建安全的GenAI/LLMs核心技术解密之大模型对抗攻击(三)
模型红队
人类红队功能强大,但难以扩展,可能需要大量培训和特殊专业知识。现在想象一下,可以学习一个红队模型Pred,与目标大模型p进行对抗,触发不安全的反应。基于模型的红队的主要挑战是如何判断攻击何时成功,以便可以构建适当的学习信号来训练红队模型。
假设有一个质量好的分类器来判断模型输出是否有害,可以将其用作奖励并训练红队模型以产生一些输入,这些输入可以最大化目标模型输出上的分类器得分(Perez et al. 2022)。r(x,y)是这样一个红队分类器,可以判断是否输出y 给定测试输入是有害的x。查找对抗性攻击示例遵循一个简单的三步过程:
- 来自红队大模型的测试输入样本x~Pred(.)。
- 使用目标LLM(y|x)生成输出y,对于每个测试用例x。