1、目的 确保大模型的行为与人类价值观、人类真实意图和社会伦理相一致 2、大模型有害行为 无法正确遵循指令生成虚假信息产生有害、有误导性、有偏见的表达 3、评估标准 有用性诚实性无害性 4、更细化的对齐标准 行为对齐:要求AI能够做出符合人类期望的行为意图对齐:要求AI能够与人类意图对齐道德对齐:要求AI避免设计非法、不道德、有害的话题,在回应中优先考虑用户安全、道德准确性和行为边界 5、人类对齐方法 基于人类反馈的强化学习监督微调红队攻击