汇总大语言模型LLM的评测基准数据集(BenchMarks)

文章目录

  • 0. 引言
  • 1. 知识与语言理解
    • 1.1 MMLU
    • 1.2 ARC
    • 1.3 GLUE
    • 1.4 Natural Questions
    • 1.5 LAMBADA
    • 1.5 HellaSwag
    • 1.6 MultiNLI
    • 1.7 SuperGLUE
    • 1.8 TriviaQA
    • 1.9 WinoGrande
    • 1.10 SciQ
  • 2. 推理能力
    • 2.1 GSM8K
    • 2.2 DROP
    • 2.3 CRASS
    • 2.4 RACE
    • 2.5 BBH
    • 2.6 AGIEval
    • 2.7 BoolQ
  • 3. 多轮开放式对话
    • 3.1 MT-bench
    • 3.2 QuAC
  • 3. 综述抽取与生成能力
    • 3.1 ACI-BENCH
    • 3.2 MS-MARCO
    • 3.3 QMSum
    • 3.4 PIQA
  • 4. 内容审核和叙事控制
    • 4.1 ToxiGen
    • 4.2 HHH
    • 4.3 TruthfulQA
    • 4.4 RAI
  • 5. 编程能力
    • 5.1 CodeXGLUE
    • 5.2 HumanEval
    • 5.3 MBPP


0. 引言

本文列出 llm 常见的一些 BenchMarks(评测基准)数据集,总有一款适合你!有用的话欢迎关注~

1. 知识与语言理解

1.1 MMLU

Massive Multitask Language Understanding,评测 57个不同学科的通用知识。

  • 目的: 评估 LLM 在广泛主题领域的理解和推理能力。
  • 相关: 非常适合需要广泛的世界知识和解决问题能力的多方面人工智能系统。
  • 原文:《Measuring Massive Multitask Language Understanding》
  • 资源:
    • MMLU GitHub
    • MMLU Dataset

1.2 ARC

AI2 Reasoning Challenge,测试小学科学问题的LLM,要求具备深厚的一般知识和推理能力。

  • 目的: 评估回答需要逻辑推理的复杂科学问题的能力。
  • 相关: 适用于教育人工智能应用程序、自动化辅导系统和一般知识评估。
  • 原文:《Think you have Solved Question Answering? Try ARC, the AI2 Reasoning Challenge》
  • 资源:
    • ARC Dataset: HuggingFace
    • ARC Dataset: Allen Institute

1.3 GLUE

General Language Understanding Evaluation,来自多个数据集的各种语言任务的集合,旨在衡量整体语言理解能力。

  • 目的: 对不同语境下的语言理解能力进行全面评估。
  • 相关: 对于需要高级语言处理的应用程序(如聊天机器人和内容分析)至关重要。
  • 原文:《GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding》
  • 资源:
    • GLUE Homepage
    • GLUE Dataset

1.4 Natural Questions

收集人们在谷歌上搜索的现实世界问题,与相关的维基百科页面配对以提取答案。

  • 目的: 测试从网络资源中找到准确的长短答案的能力。
  • 相关: 对于搜索引擎、信息检索系统和人工智能驱动的问答工具至关重要。
  • 原文:《Natural Questions: A Benchmark for Question Answering Research》
  • 资源:
    • Natural Questions Homepage
    • Natural Questions Dataset: Github

1.5 LAMBADA

LAnguage Modelling Broadened to Account for Discourse Aspects,测试语言模型基于长上下文理解和预测文本的能力。

  • 目的: 评估模型对叙事的理解及其在文本生成中的预测能力。
  • 相关: 对于人工智能在叙事分析、内容创作和长篇文本理解方面的应用非常重要。
  • 原文:《The LAMBADA Dataset: Word prediction requiring a broad discourse context》
  • 资源:
    • LAMBADA Dataset: HuggingFace

1.5 HellaSwag

通过要求 LLM 以需要理解复杂细节的方式完成段落来测试自然语言推理。

  • 目的: 评估模型生成符合上下文的文本延续的能力。
  • 相关: 在内容创建、对话系统和需要高级文本生成功能的应用程序中很有用。
  • 原文:《HellaSwag: Can a Machine Really Finish Your Sentence?》
  • 资源:
    • HellaSwag Dataset: GitHub

1.6 MultiNLI

Multi-Genre Natural Language Inference,由 433K 个句子对组成的基准,涵盖各种英语数据的流派,测试自然语言推理。

  • 目的: 评估 LLM 根据陈述推理正确类别的能力。
  • 相关: 对于需要高级文本理解和推理的系统至关重要,如自动推理和文本分析工具。
  • 原文:《A Broad-Coverage Challenge Corpus for Sentence Understanding through Inference》
  • 资源:
    • MultiNLI Homepage
    • MultiNLI Dataset

1.7 SuperGLUE

GLUE 基准的高级版本,包含更具挑战性和多样性的语言任务。

  • 目的: 评估语言理解和推理的更深层次。
  • 相关: 对于需要高级语言处理能力的复杂人工智能系统非常重要。
  • 原文:SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems
  • 资源:
    • SuperGLUE Dataset: HuggingFace

1.8 TriviaQA

阅读理解测试,包含来自 Wikipedia 的复杂文本中的问题,要求进行情境分析。

  • 目的: 评估在复杂文本中筛选上下文并找到准确答案的能力。
  • 相关: 适用于知识提取、研究和详细内容分析方面的人工智能系统。
  • 原文:《TriviaQA: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension》
  • 资源:
    • TriviaQA GitHub
    • TriviaQa Dataset

1.9 WinoGrande

基于 Winograd Schema Challenge 的大规模问题集,测试句子中的上下文理解情境。

  • 目的: 评估 LLM 掌握微妙上下文和文本细微变化的能力。
  • 相关: 对于处理叙事分析、内容个性化和高级文本解释的模型至关重要。
  • 原文:《WinoGrande: An Adversarial Winograd Schema Challenge at Scale》
  • 资源:
    • WinoGrande GitHub
    • WinoGrande Dataset: HuggingFace

1.10 SciQ

主要包含物理、化学和生物学等自然科学的多项选择题。

  • 目的: 测试回答基于科学的问题的能力,通常需要额外的支持文本。
  • 相关: 适用于教育工具,尤其是在科学教育和知识测试平台中。
  • 原文:《Crowdsourcing Multiple Choice Science Questions》
  • 资源:
    • SciQ Dataset: HuggingFace

2. 推理能力

2.1 GSM8K

包含 8.5K 个小学数学问题,需要基本到中级的数学运算。

  • 目的: 测试 LLM 解决多步数学问题的能力。
  • 相关性: 有助于评估人工智能解决基本数学问题的能力,在教育背景下很有价值。
  • 原文: 《Training Verifiers to Solve Math Word Problems》
  • 资源:
    • GSM8K Dataset

2.2 DROP

Discrete Reasoning Over Paragraphs,一个对抗性创建的阅读理解基准,要求模型浏览参考文献并执行添加或排序等操作。

  • 目的: 评估模型理解复杂文本和执行离散运算的能力。
  • 相关: 适用于需要逻辑推理的高级教育工具和文本分析系统。
  • 原文:《DROP: A Reading Comprehension Benchmark Requiring Discrete Reasoning Over Paragraphs》
  • 资源:
    • DROP Dataset

2.3 CRASS

Counterfactual Reasoning Assessment,评估 LLM 的反事实推理能力,重点关注“假设”场景。

  • 目的: 评估模型根据给定数据理解和推理备选场景的能力。
  • 相关: 对于人工智能在战略规划、决策和场景分析中的应用非常重要。
  • 原文:《CRASS: A Novel Data Set and Benchmark to Test Counterfactual Reasoning of Large Language Models》
  • 资源:
    • CRASS Dataset

2.4 RACE

Large-scale ReAding Comprehension Dataset From Examinations,来自中国学生参加的英语考试的阅读理解问题集。

  • 目的: 测试 LLM 对复杂阅读材料的理解以及他们回答考试水平问题的能力。
  • 相关: 在语言学习应用程序和考试准备教育系统中很有用。
  • 原文:《RACE: Large-scale ReAding Comprehension Dataset From Examinations》
  • 资源:
    • RAC Dataset

2.5 BBH

Big-Bench Hard,BIG Bench的一个子集,专注于需要多步骤推理的最具挑战性的任务。

  • 目的: 用需要高级推理技能的复杂任务挑战 LLM。
  • 相关: 对于评估人工智能在复杂推理和解决问题方面的能力上限很重要。
  • 原文:《Challenging BIG-Bench Tasks and Whether Chain-of-Thought Can Solve Them》
  • 资源:
    • BIG-Bench-Hard GitHub: Dataset and Prompts
    • BBH Dataset: HuggingFace

2.6 AGIEval

一系列标准化考试,包括 GRE、GMAT、SAT、LSAT 和公务员考试等标准化测试的集合。

  • 目的: 评估 LLM 在各种学术和专业场景中的推理能力和解决问题的技能。
  • 相关: 有助于在标准化测试和专业资格背景下评估人工智能能力。
  • 原文:《AGIEval: A Human-Centric Benchmark for Evaluating Foundation Models》
  • 资源:
    • AGIEval Github: Dataset and Prompts
    • AGIEval Datasets: HuggingFace

2.7 BoolQ

收集了来自谷歌搜索的15000多个真实的是/否问题,以及维基百科的文章。

  • 目的: 测试 LLM 从可能不明确的上下文信息中推断正确答案的能力。
  • 相关: 对于问答系统和基于知识的人工智能应用至关重要,准确的推理是关键。
  • 原文:《BoolQ: Exploring the Surprising Difficulty of Natural Yes/No Questions》
  • 资源:
    • BoolQ Dataset: HuggingFace

3. 多轮开放式对话

3.1 MT-bench

专为评估聊天助手在维持多轮对话中的熟练程度而设计。

  • 目的: 测试模型在多个回合中进行连贯和上下文相关对话的能力。
  • 相关: 对于开发复杂的会话代理和聊天机器人至关重要。
  • 原文:《Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena》
  • 资源:
    • MT-bench Human Annotation Dataset

3.2 QuAC

Question Answering in Context,包含14000个对话和100000个问答对,模拟学生与教师的互动。

  • 目的: 在对话中用上下文相关的、有时无法回答的问题来挑战 LLM。
  • 相关: 适用于对话式人工智能、教育软件和上下文感知信息系统。
  • 原文:《QuAC : Question Answering in Context》
  • 资源:
    • QuAC Homepage and Dataset

3. 综述抽取与生成能力

3.1 ACI-BENCH

Ambient Clinical Intelligence Benchmark,包含来自各个医疗领域的医生-病人对话和相关的临床笔记。

  • 目的: 挑战模型根据会话数据准确生成临床笔记。
  • 相关: 对医疗保健中的人工智能应用至关重要,尤其是在自动化文档和医疗分析中。
  • 原文:《ACI-BENCH: a Novel Ambient Clinical Intelligence Dataset for Benchmarking Automatic Visit Note Generation》
  • 资源:
    • ACI-BENCH Dataset

3.2 MS-MARCO

MAchine Reading COmprehension Dataset, 从真实网络查询中提取的自然语言问题和答案的大规模集合。

  • 目的: 测试模型准确理解和响应真实世界查询的能力。
  • 相关: 对于搜索引擎、问答系统和其他面向消费者的人工智能应用程序至关重要。
  • 原文:《MS MARCO: A Human Generated MAchine Reading COmprehension Dataset》
  • 资源:
    • MS-MARCO Dataset

3.3 QMSum

Query-based Multi-domain Meeting Summarization,针对特定查询从会议内容中提取和总结重要信息的基准。

  • 目的: 评估模型从会议内容中提取和总结重要信息的能力。
  • 相关: 适用于商业智能工具、会议分析应用程序和自动摘要系统。
  • 原文:《QMSum: A New Benchmark for Query-based Multi-domain Meeting Summarization》
  • 资源:
    • QMSum Dataset

3.4 PIQA

Physical Interaction: Question Answering,通过假设性场景和解决方案测试对物理世界的知识和理解。

  • 目的: 衡量模型处理物理交互场景的能力。
  • 相关: 对于机器人、物理模拟和实际问题解决系统中的人工智能应用非常重要。
  • 原文:《PIQA: Reasoning about Physical Commonsense in Natural Language》
  • 资源:
    • PIQA Dataset: GitHub

4. 内容审核和叙事控制

4.1 ToxiGen

一个关于少数群体的恶毒和善意言论的数据集,重点关注隐含的仇恨言论。

  • 目的: 测试模型识别和避免产生有毒内容的能力。
  • 相关: 对内容审核系统、社区管理和人工智能伦理研究至关重要。
  • 原文:《ToxiGen: A Large-Scale Machine-Generated Dataset for Adversarial and Implicit Hate Speech Detection》
  • 资源:
    • TOXIGEN Code and Prompts: GitHub
    • TOXIGEN Dataset: HuggingFace

4.2 HHH

Helpfulness, Honesty, Harmlessness,评估语言模型与有用性、诚实性和无害性等道德标准的一致性。

  • 目的: 评估模型在交互场景中的道德反应。
  • 相关: 对于确保人工智能系统促进积极互动和遵守道德标准至关重要。
  • 原文:《A General Language Assistant as a Laboratory for Alignment》
  • 资源:
    • HH-RLHF Datasets: GitHub
    • 最近进程:
      • 《Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback》
      • 《Red Teaming Language Models to Reduce Harms: Methods, Scaling Behaviors, and Lessons Learned》

4.3 TruthfulQA

评估 LLM 在回答容易产生错误信念和偏见的问题时的真实性的基准。

  • 目的: 测试模型提供准确无偏信息的能力。
  • 相关: 对于提供准确和公正信息至关重要的人工智能系统来说很重要,例如在教育或咨询方面。
  • 原文:TruthfulQA: Measuring How Models Mimic Human Falsehoods
  • 资源:
    • TruthfulQA Dataset: GitHub

4.4 RAI

Responsible AI,用于评估聊天优化模型在会话环境中的安全性的框架

  • 目的: 评估人工智能驱动的对话中潜在的有害内容、IP泄露和安全漏洞。
  • 相关: 对于开发安全可靠的对话式人工智能应用程序至关重要,尤其是在敏感领域。
  • 原文:《A Framework for Automated Measurement of Responsible AI Harms in Generative AI Applications》

5. 编程能力

5.1 CodeXGLUE

评估LLM在代码理解和生成、代码补全和翻译等各种任务中的能力。

  • 目的: 评估代码智能,包括理解、修复和解释代码。
  • 相关: 对于软件开发、代码分析和技术文档中的应用程序至关重要。
  • 原文:《CodeXGLUE: A Machine Learning Benchmark Dataset for Code Understanding and Generation》
  • 资源:
    • CodeXGLUE Dataset: GitHub

5.2 HumanEval

包含编程挑战,评估 LLM 基于指令编写功能性代码的能力。

  • 目的: 测试根据给定需求生成正确有效的代码。
  • 相关: 对于自动化代码生成工具、编程助手和编码教育平台非常重要。
  • 原文:《Evaluating Large Language Models Trained on Code》
  • 资源:
    • HumanEval Dataset: GitHub

5.3 MBPP

Mostly Basic Python Programming,包括1000个适合初级程序员的 Python 编程问题。

  • 目的: 评估解决基本编程任务的熟练程度和对 Python的理解。
  • 相关: 适用于初级编码教育、自动代码生成和入门级编程测试。
  • 原文:《Program Synthesis with Large Language Models》
  • 资源:
    • MBPP Dataset: HuggingFace

欢迎关注本人,我是喜欢搞事的程序猿; 一起进步,一起学习;

欢迎关注知乎/CSDN:SmallerFL

也欢迎关注我的wx公众号(精选高质量文章):一个比特定乾坤
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/37324.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

vue3中获取Excel和csv文件中的内容

1.效果 2.安装 npm install xlsxyarn add xlsx 3.引入使用 <el-upload ref"uploadRef" :on-change"changeFile" :show-file-list"false" class"mr10" accept".csv, .xlsx, .xls"action"#" :auto-upload&quo…

滚动表格(vue版本)【已验证可正常运行】

演示图 注&#xff1a;以下代码来自于GPT4o&#xff1a;国内官方直连GPT4o 代码 <template><div><div class"alarmList-child" ref"alarmList" mouseenter.stop"autoRoll(1)" mouseleave.stop"autoRoll()"><div…

基于DPU的Ceph存储解决方案

1. 方案背景和挑战 Ceph是一个高度可扩展、高性能的开源分布式存储系统&#xff0c;设计用于提供优秀的对象存储、块存储和文件存储服务。它的几个核心特点是&#xff1a; 弹性扩展&#xff1a;Ceph能够无缝地水平扩展存储容量和性能&#xff0c;只需添加新的存储节点即可&am…

【AUTOSAR 基础软件】DEM模块详解(诊断故障管理)

文章包含了AUTOSAR基础软件&#xff08;BSW&#xff09;中DEM模块相关的内容详解。本文从ISO标准&#xff0c;AUTOSAR规范解析&#xff0c;ISOLAR-AB配置以及模块相关代码分析四个维度来帮读者清晰的认识和了解DEM这一基础软件模块。文中涉及的ISOLAR-AB配置以及模块相关代码都…

查询DBA_TEMP_FILES报错,删除临时表空间报错ORA-60100

SYMPTOMS 查询DBA_TEMP_FILES报错如下图 ORA-01157: cannotidentify/ock data fle 201 -see DBWR trace fle ORA-01110: data fle 20 1: D:APPADMINISTRATORIORADATA MARTIDATAFILE 01157,00000-"cannotidentify/ock data fle %s -see DBWR trace fle"*Cause: The b…

2024年湖北省安全员-C证证考试题库及湖北省安全员-C证试题解析

题库来源&#xff1a;安全生产模拟考试一点通公众号小程序 2024年湖北省安全员-C证证考试题库及湖北省安全员-C证试题解析是安全生产模拟考试一点通结合&#xff08;安监局&#xff09;特种作业人员操作证考试大纲和&#xff08;质检局&#xff09;特种设备作业人员上岗证考试…

云计算:重塑数字时代的基石

目录 一、引言 二、云计算的定义与特点 三、云计算的发展历程 四、云计算的应用场景 五、云计算面临的挑战 六、云计算的未来发展趋势 七、结语 一、引言 随着信息技术的飞速发展&#xff0c;云计算已经逐渐渗透到我们生活的方方面面。从个人用户的在线存储、在线办公&…

应用案例 | 如何监测高价值货物在物流运输过程中受到的振动和冲击?全面保障货物安全

一、货物运输 不同种类的货物对运输的要求不同&#xff0c;钢铁、煤炭、矿石等大宗物资通常对运输要求较低&#xff0c;而电子产品、IT 产品、家电等高价值敏感类货物则更强调运输的安全性和时效性&#xff0c;往往希望能尽可能安全和快速送达这类货物&#xff0c;使之尽快进入…

laravel对接百度智能云 实现智能机器人

创建API Key和 Secret Key进入网址&#xff1a;百度智能云千帆大模型平台 如下图操作&#xff1a; 填写完毕点击确认后&#xff0c;即可得到sk和ak 后端接口实现代码&#xff1a; //调用百度智能云第三方机器人接口public function run($text) {$curl curl_init();curl_setop…

阿一网络安全培训中心专门为你准备了一份WScan使用教程

下载地址&#xff1a;https://github.com/chushuai/wscan/releases 版本的选择 Windows就选windows_amd64 Linux就选linux_amd64 mac就选darwin_amd64 下载好后&#xff0c;运行一次exe会生成一个config.yaml文件 把该文件中plugins下面的所有插件的enabled设置为True。&…

数据库使用笔记

1.mysql数据库频繁访问导致连接超时 解决办法一&#xff1a; 优化查询&#xff1a;检查并优化SQL查询语句&#xff0c;减少不必要的数据库调用。增加连接池大小&#xff1a;如果应用程序使用连接池&#xff0c;可以考虑增加连接池的最大连接数。&#xff08;注&#xff1a;不能…

Nginx网站服务详解(设置并发数、实现不同虚拟主机等)

一、nginx的最大并发数设置已经状态收集模块 [root192 nginx]# cat nginx.conf # For more information on configuration, see: # * Official English Documentation: http://nginx.org/en/docs/ # * Official Russian Documentation: http://nginx.org/ru/docs/user ngin…

单源最短路径问题(Dijstra)

#include<iostream> using namespace std; #define MAX 500 #define INT 999 typedef struct {char vex[MAX];int Edge[MAX][MAX];int vexnum,arcnum; }MGraph; void InitMG(MGraph &MG) {cout<<"输入顶点数和边数&#xff1a;";cin>>MG.vexnu…

SOBEL图像边缘检测器的设计

本项目使用FPGA设计出SOBEL图像边缘检测器&#xff0c;通过分析项目在使用过程中的工作原理和相关软硬件设计进行分析详细介绍SOBEL图像边缘检测器的设计。 资料获取可联系wechat 号&#xff1a;comprehensivable 边缘可定义为图像中灰度发生急剧变化的区域边界,它是图像最基本…

linux中find命令和exec的强大组合用法

如何将 find 命令与 exec 一起使用 Find 是一个已经非常强大的命令&#xff0c;用于根据许多条件搜索文件。exec 命令使您能够处理 find 命令的结果。 我在这里分享的例子只是一瞥。find-exec 命令组合在一起为您提供了在 Linux 命令行中执行操作的无限可能。 find 和 exec 命令…

Llama 3 模型微调的步骤

环境准备 操作系统&#xff1a;Ubuntu 22.04.5 LTS Anaconda3&#xff1a;Miniconda3-latest-Linux-x86_64 GPU&#xff1a; NVIDIA GeForce RTX 4090 24GStep 1. 准备conda环境 创建一个新的conda环境&#xff1a; conda create --name llama_factory python3.11激活刚刚创…

[每周一更]-(第103期):GIT初始化子模块

文章目录 初始化和更新所有子模块分步骤操作1. 克隆包含子模块的仓库2. 初始化子模块3. 更新子模块 查看子模块状态提交子模块的更改处理子模块路径错误的问题 该问题的缘由是因为&#xff1a;在写某些代码的时候&#xff0c;仓库中有些文件夹&#xff0c;只提交了文件夹名称到…

使用 Ubuntu x86_64 平台交叉编译适用于 Linux aarch64(arm64) 平台的 QT5(包含OpenGL/WebEngine支持) 库

使用 Ubuntu AMD64 平台交叉编译适用于 Linux ARM64 平台的 QT5(包含 OpenGL/WebEngine 支持) 库 目录 使用 Ubuntu AMD64 平台交叉编译适用于 Linux ARM64 平台的 QT5(包含 OpenGL/WebEngine 支持) 库写在前面前期准备编译全流程1. 环境搭建2. 复制源码包并解压&#xff0c;创…

在Mac上恢复丢失或未保存的Word文档的5种有效方法

“救命&#xff01;我想在Mac上恢复丢失的Word文档。就在 1 小时前&#xff0c;我错误地删除了它们&#xff0c;并清空了垃圾桶。这些Word文档对我来说非常重要。我不知道如何恢复它们&#xff0c;谁能帮我&#xff1f;提前致谢&#xff01; 没有什么比忘记保存 Word 文档或在…

3d模型里地毯的材质怎么赋予?---模大狮模型网

在进行3D建模时&#xff0c;赋予地毯逼真的材质是营造现实感和增强场景氛围的重要步骤。模大狮将介绍在常见的3D建模软件中&#xff0c;如何有效地为地毯赋予各种材质&#xff0c;以及一些实用的技巧和注意事项。 一、选择合适的地毯材质 在3D建模中&#xff0c;地毯的材质选择…