测试大模型的幻觉
Factuality prompt
1:建立factuality prompt测试集合
“Factuality prompt”是指用于引导语言模型生成与事实相符的文本的输入提示,它通过提供明确的问题或句子,帮助模型聚焦于生成准确的信息,从而提高生成内容的事实准确性。如果一个factuality prompt是“根据维基百科,爱因斯坦的出生年份是什么?”,那么model会利用这个提示来生成一个准确的回答,同时确保生成的内容是基于事实的。
测试集中包含了8000个热点的事实prompt和8000个非事实prompt。
2、自动化评估指标
设计了命名实体(NE)相关错误、文本蕴含(Entailment)比率和生成质量评估用于量化大型语言模型在开放式文本生成中的事实准确性。
- 命名实体(NE)相关错误:该指标基于命名实体的生成情况进行评估。具体来说,如果生成的文本中包含的命名实体在事实知识来源(如维基百科)中不存在,则认为模型发生了“幻觉”或事实错误。通过计算生成文本中错误命名实体的比例,可以评估模型的事实准确性。
- 文本蕴含