如何评估大型语言模型（LLM）？

01 简介 Introduction

随着ChatGPT和其他大型语言模型（LLMs）的发布，可用模型数量大量增加，现在几乎每天都有新的LLMs发布。尽管如此，当下仍然没有一个通用的标准来评估这些大型语言模型的质量。本文将回顾现有的大型语言模型（LLMs）和基于LLMs的体系化评估框架。此外，我们还将尝试分析LLMs哪些因素应该受到评估。

Source: Cobus Greyling

02 为什么急需一个全面的LLMs评估框架？

在某项技术发展的早期阶段，大家很容易确定哪些地方需要改进。然而，随着技术进步和各种新的替代方案出现，我们越来越难确定哪种方案选择最好。因此，拥有一个可靠的评估框架来准确评判LLMs的质量变得非常重要。

对于LLMs，当下迫切需要一个真正的评估框架。这种框架可用于以下三种方式评估LLMs：

能够帮助管理机构和其他相关机构评估模型的安全性、准确性、可靠性或可用性问题。
目前，这些大型科技公司似乎在盲目地争先恐后发布LLMs，许多公司只是在其产品上附加免责声明来试图撇清责任。因此制定一个全面的评估框架将有助于这些公司更负责任地发布这些模型。
如果拥有一个全面的评估框架，能够帮助这些LLMs的用户确定在哪里以及如何微调这些大模型，并使他们清楚应该使用哪些额外的数据来完成部署。

在接下来的内容中，我们将会回顾当前的模型评估模式。

03 现有的LLMs评估框架有哪些？

评估大语言模型来确定它们在各种应用中的质量和实用性是比较重要的。市面上已经存在多个评估LLMs的框架，但是没有一个框架足够全面，可以覆盖所有自然语言处理任务。让我们看一下这些现有的主流评估框架。

框架名称	评估时考虑的因素	框架链接
Big Bench	泛化能力	github.com/google/BIG-…
GLUE Benchmark	语法、释义、文本相似度、推理、文本关联性、解决代词引用问题的能力	gluebenchmark.com/
SuperGLUE Benchmark	自然语言理解、推理，理解训练数据之外的复杂句子，连贯和规范的自然语言生成，与人对话，常识推理（日常场景、社会规范和惯例），信息检索，阅读理解	super.gluebenchmark.com/
OpenAI Moderation API	过滤有害或不安全的内容	platform.openai.com/docs/api-re…
MMLU	跨各种任务和领域的语言理解	github.com/hendrycks/t…
EleutherAI LM Eval	在最小程度的微调情况下，使用小样本进行评估，并能够在多种任务发挥性能的能力。	github.com/EleutherAI/…
OpenAI Evals	github.com/EleutherAI/… 文本生成的准确性，多样性，一致性，鲁棒性，可转移性，效率，公平性	github.com/openai/eval…
Adversarial NLI (ANLI)	鲁棒性，泛化性，对推理的连贯性解释，在类似示例中推理的一致性，资源使用方面的效率（内存使用、推理时间和训练时间）	github.com/facebookres…
LIT (Language Interpretability Tool)	以用户定义的指标进行评估的平台。了解其优势、劣势和潜在的偏见	pair-code.github.io/lit/
ParlAI	准确率，F1分数，困惑度（模型在预测序列中下一个单词的表现），按相关性，流畅性和连贯性等标准进行人工评估，速度和资源利用率，鲁棒性（评估模型在不同条件下的表现，如噪声输入、对抗攻击或不同水平的数据质量），泛化性	github.com/facebookres…
CoQA	理解文本段落并回答出现在对话中的一系列相互关联的问题。	stanfordnlp.github.io/coqa/
LAMBADA	预测一段文本的最后一个词。	zenodo.org/record/2630…
HellaSwag	推理能力	rowanzellers.com/hellaswag/
LogiQA	逻辑推理能力	github.com/lgw863/Logi…
MultiNLI	了解不同体裁的句子之间的关系	cims.nyu.edu/~sbowman/mu…
SQUAD	阅读理解任务	rajpurkar.github.io/SQuAD-explo…

04 现有评估框架存在的问题

上述评估大型语言模型的方法各有其优势。然而，有几个重要因素使得以上这些方法似乎都并不足够完善：

以上任何一个框架都没有将安全性作为评估因素考虑在内。尽管“OpenAI Moderation API”在某种程度上涉及这个问题，但这并不足够。
上述框架在评估模型因素方面是分散的。它们中没有一个因素是足够全面综合的。

在下一节中，我们将尝试列出所有应该在一个综合的评估框架中存在的重要因素。

05 在评估LLMs时应考虑哪些因素？

经过审查现有的大模型评估框架存在的问题之后，下一步是确定在评估大型语言模型（LLMs）的质量时应考虑哪些因素。我们听取12名数据科学专业人员的意见，这12名专家对LLMs的工作原理和工作能力有一定的了解，并且他们曾经尝试过测试多个LLMs。该调查旨在根据他们的理解列出所有重要因素，并在此基础之上评估LLMs的质量。

最终，我们发现有几个关键因素应该被考虑：

1. 真实性

LLMs生成的结果准确性至关重要。包括事实的正确性以及推理和解决方案的准确性。

2. 速度

模型产生结果的速度很重要，特别是当大模型需要部署到关键功能（critical use cases）时。虽然在某些情况下速度较慢的大模型可能可以可接受，但这些rapid action团队需要速度更快的模型。

3. 正确的语法和可读性

LLMs必须以具备可读性的格式生成自然语言。确保正确、合适的语法和句子结构至关重要。

4. 没有偏见

LLMs必须不受与性别、种族和其他因素相关的社会偏见影响。

5. 回溯回答的参考来源

了解模型回答的来源对于我们来说是十分必要的，以便我们可以重复检查其 basis。如果没有这个，LLMs的性能将始终是一个黑匣子。

6. 安全和责任

AI模型的安全保障是必要的。尽管大多数公司正在努力使这些大模型安全，但仍然有显着的改进空间。

7. 理解上下文

当人类向AI聊天机器人咨询有关个人生活的建议时，重要的是该模型需要基于特定的条件提供更好的解决方案。在不同的上下文中提出同样的问题可能会有不同的答案。

8. 文本操作

LLMs需要能够执行基本的文本操作，如文本分类、翻译、摘要等。

9. 智商

智商是用来评判人类智力的一项指标，也可以应用于机器。

10. 情商

情商是人类智力的另一方面，也可应用于LLMs。具有更高情商的模型将更安全地被使用。

11. 具备多功能

模型可以涵盖的领域和语言数量是另一个重要因素，可以用于将模型分类为通用AI或特定领域的AI。

12. 实时更新

一个能够实时进行信息更新的模型可以做出更大范围的贡献，产生更好的结果。

13. 成本

开发和运维成本也应该考虑在内。

14. 一致性

相同或类似的提示应该产生相同或几乎相同的响应，否则确保部署于商业环境的质量将会很困难。

15. 提示工程的需要程度

需要使用多少详细和结构化的提示工程才能获得最佳响应，也可以用来比较两个模型。

06 总结

大型语言模型（LLMs）的发展彻底改变了自然语言处理领域。然而，当下仍需一个全面性的和标准化的评估框架来评估这些模型的质量。现有的框架提供了有价值的参考，但它们缺乏全面性和标准化，并且没有将安全作为评估因素。

可靠的评估框架应该考虑诸如真实性、速度、正确的语法和可读性、没有偏见、回溯回答的参考来源、安全和责任、理解上下文、文本操作、智商、情商、具备多功能和实时更新等因素。开发这样的框架将帮助这些公司更负责任地发布LLMs，并能够确保其质量、可用性和安全性。与相关机构和专家合作，建立一个真实和全面的LLMs评估框架是十分有必要的。

如何系统的去学习大模型LLM ？

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。

但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的 AI大模型资料 包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

😝有需要的小伙伴，可以V扫描下方二维码免费领取🆓

在这里插入图片描述

AI大模型系统学习路线图

在这里插入图片描述

阶段1：AI大模型时代的基础理解

目标：了解AI大模型的基本概念、发展历程和核心原理。
内容：
- L1.1 人工智能简述与大模型起源
- L1.2 大模型与通用人工智能
- L1.3 GPT模型的发展历程
- L1.4 模型工程
  - L1.4.1 知识大模型
  - L1.4.2 生产大模型
  - L1.4.3 模型工程方法论
  - L1.4.4 模型工程实践
- L1.5 GPT应用案例

阶段2：AI大模型API应用开发工程

目标：掌握AI大模型API的使用和开发，以及相关的编程技能。
内容：
- L2.1 API接口
  - L2.1.1 OpenAI API接口
  - L2.1.2 Python接口接入
  - L2.1.3 BOT工具类框架
  - L2.1.4 代码示例
- L2.2 Prompt框架
  - L2.2.1 什么是Prompt
  - L2.2.2 Prompt框架应用现状
  - L2.2.3 基于GPTAS的Prompt框架
  - L2.2.4 Prompt框架与Thought
  - L2.2.5 Prompt框架与提示词
- L2.3 流水线工程
  - L2.3.1 流水线工程的概念
  - L2.3.2 流水线工程的优点
  - L2.3.3 流水线工程的应用
- L2.4 总结与展望

阶段3：AI大模型应用架构实践

目标：深入理解AI大模型的应用架构，并能够进行私有化部署。
内容：
- L3.1 Agent模型框架
  - L3.1.1 Agent模型框架的设计理念
  - L3.1.2 Agent模型框架的核心组件
  - L3.1.3 Agent模型框架的实现细节
- L3.2 MetaGPT
  - L3.2.1 MetaGPT的基本概念
  - L3.2.2 MetaGPT的工作原理
  - L3.2.3 MetaGPT的应用场景
- L3.3 ChatGLM
  - L3.3.1 ChatGLM的特点
  - L3.3.2 ChatGLM的开发环境
  - L3.3.3 ChatGLM的使用示例
- L3.4 LLAMA
  - L3.4.1 LLAMA的特点
  - L3.4.2 LLAMA的开发环境
  - L3.4.3 LLAMA的使用示例
- L3.5 其他大模型介绍

阶段4：AI大模型私有化部署

目标：掌握多种AI大模型的私有化部署，包括多模态和特定领域模型。
内容：
- L4.1 模型私有化部署概述
- L4.2 模型私有化部署的关键技术
- L4.3 模型私有化部署的实施步骤
- L4.4 模型私有化部署的应用场景

辅助学习书籍PDF资源：

在这里插入图片描述

学习计划：

阶段1：1-2个月，建立AI大模型的基础知识体系。
阶段2：2-3个月，专注于API应用开发能力的提升。
阶段3：3-4个月，深入实践AI大模型的应用架构和私有化部署。
阶段4：4-5个月，专注于高级模型的应用和部署。
请根据您的个人进度和时间安排，适当调整学习计划。记得在学习过程中，理论与实践相结合，不断进行项目实践和反思，以加深理解和技能的掌握。

学习是一个过程，只要学习就会有挑战。天道酬勤，你越努力，就会成为越优秀的自己。

如果你能在15天内完成所有的任务，那你堪称天才。然而，如果你能完成 60-70% 的内容，你就已经开始具备成为一名大模型 AI 的正确特征了。