- 随着发布给公众的大语言模型(LLMs)数量的增加,迫切需要了解这些模型从第三方定制的微调数据中学习的安全性影响。
- 论文研究了在包含不安全内容的噪声定制数据上微调的LLMs的行为,这些数据集包含偏见、毒性和有害性
- 发现虽然对齐的LLMs可以轻松学习这些不安全内容,但当随后在更安全的内容上进行微调时,它们相对于其他示例更容易遗忘这些内容。
- 受到遗忘差异的启发,作者引入了“ForgetFilter”算法,该算法根据模型对数据的遗忘信号强度过滤不安全的数据。
- 论文证明ForgetFilter算法确保了在定制微调中的安全性,而不损害下游任务性能,这与顺序安全微调不同。
- 在抑制LLMs在定制微调过程中吸收不安全内容方面,ForgetFilter优于替代策略,如重播和道德自我纠正,例如毒性评分中不应用任何安全措施的下降了75%,比使用自我纠正下降了62%。