https://arxiv.org/pdf/2411.16594
1. LLM-as-a-judge 的引入
- 传统的评估方法(如 BLEU 和 ROUGE)在处理生成内容的有用性、无害性等细腻属性时表现不足。
- 随着大语言模型(LLM)的发展,提出了 “LLM-as-a-judge”(LLM 作为评估者)的新范式,用于对任务进行评分、排序或选择。
2. LLM-as-a-judge 的分类框架
论文提出了一个全面的分类框架,分为以下三个维度:
(1)评估什么:
- 关注属性:包括有用性(helpfulness)、无害性(harmlessness)、可靠性(reliability)和相关性(relevance)等。