LLM评测数据集

1. C-Eval

  • 数据集源地址: C-Eval Official Repository

  • 数据范围: 该数据集包括学科类知识测试,涵盖广泛的学科知识,例如数学、物理、化学等。

  • 数据集大小及数据形式: 数据集包含13,948道单选题,题目均为中文。

  • 论文地址: C-Eval: A Multi-level, Multi-task Benchmark Dataset in Chinese

  • 评测代码地址: C-Eval Evaluation Code

  • 评测排行榜: 可以在C-Eval的官方仓库找到详细的评测结果。

2. CMMLU

  • 数据集源地址: 官方未提供单独的仓库,一般在相关研究论文和GitHub上可以找到具体实现和示例。

  • 数据范围: 包含中文学科知识测试,类似于英文的MMLU,涵盖文学、历史、物理等多个领域。

  • 数据集大小及数据形式: 具体题目数量和形式未详细披露,题目主要为中文文本。

  • 论文地址: 暂无明确论文地址,可参考相关领域的研究论文。

  • 评测代码地址: 具体评测代码可参见相关研究项目和GitHub仓库。

  • 评测排行榜: 未明确提供官方排行榜,但在相关研究中会展示模型在该数据集上的表现。

3. GaoKao

  • 数据集源地址: Gaokao Official Repository

  • 数据范围: 涵盖高考试题,包括选择题、填空题和解答题,涉及语文、数学、英语等。

  • 数据集大小及数据形式: 数据集大小不一,通常分为多个子集。具体数量和形式取决于每年的高考试卷。

  • 论文地址: GAOKAO-Benchmark: Evaluating Large Language Models with Chinese Gaokao

  • 评测代码地址: GAOKAO Evaluation Code

  • 评测排行榜: 官方仓库和论文中可以找到模型在GaoKao数据集上的评测结果。

4. MMLU (Massive Multitask Language Understanding)

  • 数据集源地址: MMLU Official Repository

  • 数据范围: 英文学科知识测试,包含57个领域,涵盖人文科学、理工科、社科等。

  • 数据集大小及数据形式: 包括57个领域的12,554个问题,数据主要为选择题形式。

  • 论文地址: Measuring Massive Multitask Language Understanding

  • 评测代码地址: MMLU Evaluation Code

  • 评测排行榜: 可以在官方仓库找到最新的评测结果和排行榜。

5. GSM8K (Grade School Math 8K)

  • 数据集源地址: GSM8K Official Repository

  • 数据范围: 专注于小学数学问题解决,涵盖基本数学技能。

  • 数据集大小及数据形式: 包括8,000条问题和解决方案,问题主要以文本形式给出,答案为详细的解题步骤。

  • 论文地址: Training Verifiers to Solve Math Word Problems

  • 评测代码地址: GSM8K Evaluation Code

  • 评测排行榜: 官方仓库和论文中展示了模型在GSM8K数据集上的评测结果。

请注意,数据集的具体细节和最新信息可能随时间变化,请参考相关链接和官方资源获取最新的更新。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/24516.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【一百一十】【算法分析与设计】[SDOI2009] HH的项链,树状数组应用,查询区间的种类数,树状数组查询区间种类数

P1972 [SDOI2009] HH的项链 [SDOI2009] HH的项链 题目描述 HH 有一串由各种漂亮的贝壳组成的项链。HH 相信不同的贝壳会带来好运,所以每次散步完后,他都会随意取出一段贝壳,思考它们所表达的含义。HH 不断地收集新的贝壳,因此&am…

SMS - 基于阿里云实现手机短信验证码登录(无需备案,非测试)

目录 SMS 环境调试 从阿里云云市场中购买第三方短信服务 调试短信验证码功能 实战开发 封装组件 对外接口 调用演示 SMS 环境调试 从阿里云云市场中购买第三方短信服务 a)进入阿里云首页,然后从云市场中找到 “短信” (一定要从 云…

如何实现网站HTTPS访问

在当今网络安全至关重要的时代,HTTPS已经成为网站安全的基本标准。HTTPS(超文本传输安全协议)通过在HTTP协议基础上加入SSL加密层,确保了数据在用户浏览器和服务器之间的传输是加密的,有效防止数据被窃取或篡改&#x…

calico node一直not ready

背景 我司某个大数据集群在做完添加到集群联邦管理后,该集群的calico-node全部处于not ready 状态,导致集群中节点之前的跨节点容器网络不通。 操作 将大数据所在的k8s集群添加到集群联邦的控制平面后,我们为了做各个子集群之间的容器网络…

换热器设计参数的选用

1 换热管类型 光管:适用于任何条件;应用面广 螺纹管:壳程流体的膜传热系数相当于管程传热系数1/3~3/5的场合;强化壳程传热系数,提高总传热系数;结垢速率低,结垢周期长。 波纹管:管…

使用 PAI-DSW x Free Prompt Editing图像编辑算法,开发个人AIGC绘图小助理

教程简述 在本教程中,您将学习在阿里云交互式建模平台PAI-DSW x Free Prompt Editing(CVPR2024中选论文算法)图像编辑算法,开发个人AIGC绘图小助理,实现文本驱动的图像编辑功能单卡即可完成AIGC图片风格变化、背景变化…

Java 的分支

分支控制有三种:单分支,双分支,多分支。 单分支 基本语法: if (条件表达式){执行代码块; }程序示例: import java.util.Scanner;public class If01 {public static void main(String[] args) {Scanner sc new Sca…

【JAVA WEB实用技巧与优化方案】如何通过javacore、heapdump来排查JVM线程和内存问题

文章目录 介绍什么是javacore ? javacore可以用来做哪些分析?什么是HeapDump?一、输出JAVACORE 和 DUMP文件1.输出JAVACORE通过`kill -3 [pid]` 来输出javacore通过jstack 输出Javacore文件2.输出 dump 文件二、javacore文件和heapdump文件的分析工具使用详情javacore 工具i…

Cesium开发环境搭建(一)

1.下载安装Node.js 进入官网地址下载安装包 Node.js — Download Node.js https://cdn.npmmirror.com/binaries/node/ 选择对应你系统的Node.js版本,这里我选择的是Windows系统、64位 安装完成后,WINR,输入node --version,显示…

React + SpringBoot实现图片预览和视频在线播放,其中视频实现切片保存和分段播放

图片预览和视频在线播放 需求描述 实现播放视频的需求时,往往是前端直接加载一个mp4文件,这样做法在遇到视频文件较大时,容易造成卡顿,不能及时加载出来。我们可以将视频进行切片,然后分段加载。播放一点加载一点&am…

tcp aimd 窗口的推导

旧事重提,今天用微分方程的数值解观测 tcp aimd 窗口值。 设系统 AI,MD 参数分别为 a 1,b 0.5,丢包率由 buffer 大小,red 配置以及线路误码率共同决定,设为 p,窗口为 W,则有&…

云原生技术助力某国际化商业集团打造数字化转型新引擎

某国际化商业集团(以下简称:集团),成立于1988年,现已发展成为拥有总资产800多亿元,员工13000多人,涵盖港口码头、石油化工、国际贸易等产业于一体的国际化现代化企业集团,连续多年进…

HAL STM32F1 通过查表方式实现SVPWM驱动无刷电机测试

HAL STM32F1 通过查表方式实现SVPWM驱动无刷电机测试 📍相关篇《基于开源项目HAL STM32F4 DSP库跑SVPWM开环速度测试》 ✨针对STM32F1系列,没有专门的可依赖的DSP库,为了实现特定函数的浮点运算快速计算,通过查表方式来实现&#…

番外篇 | 利用华为2023最新Gold-YOLO中的Gatherand-Distribute对特征融合模块进行改进

前言:Hello大家好,我是小哥谈。论文提出一种改进的信息融合机制Gather-and-Distribute (GD) ,通过全局融合多层特征并将全局信息注入高层,以提高YOLO系列模型的信息融合能力和检测性能。通过引入MAE-style预训练方法,进一步提高模型的准确性。🌈 目录 🚀1.论文解…

如何解锁植物大战僵尸杂交版v2.0.88所有植物

如何解锁植物大战僵尸杂交版v2.0.88所有植物 前言安装相关软件快速解锁方法 前言 经过探索植物大战僵尸杂交版植物解锁和关卡有关,所以通过所有关卡就可以解锁所有植物。 安装相关软件 1.安装植物大战僵尸 2.安装Hex Editor Neo 快速解锁方法 本文参考如何修改…

<vs2022><问题记录>visual studio 2022使用console打印输出时,输出窗口不显示内容

前言 本文为问题记录。 问题概述 在使用visual studio 2022编写代码时,如C#,在代码中使用console.writeline来打印某些内容,以便于观察,但发现输出窗口不显示,而代码是完全没有问题的。 解决办法 根据网上提供的办法…

深入解析力扣183题:从不订购的客户(LEFT JOIN与子查询方法详解)

在本篇文章中,我们将详细解读力扣第183题“从不订购的客户”。通过学习本篇文章,读者将掌握如何使用SQL语句来解决这一问题,并了解相关的复杂度分析和模拟面试问答。每种方法都将配以详细的解释,以便于理解。 问题描述 力扣第18…

Java Web学习笔记23——Vue项目简介

Vue项目简介: Vue项目-创建: 命令行:vue create vue-project01 图形化界面:vue ui 在命令行中切换到项目文件夹中,然后执行vue ui命令。 只需要路由功能。这个路由功能,开始不是很理解。 创建项目部保存…

html+css示例

HTML HTML(超文本标记语言)和CSS(层叠样式表)是构建和设计网页的两种主要技术。HTML用于创建网页的结构和内容,而CSS用于控制其外观和布局。 HTML基础 HTML使用标签来标记网页中的不同部分。每个标签通常有一个开始…

【原创】海为PLC与RS-WS-ETH-6传感器的MUDBUS_TCP通讯

点击“蓝字”关注我们吧 一、关于RS-WS-ETH-6传感器的准备工作 要完成MODBUS_TCP通讯,我们必须要知道设备的IP地址如何分配,只有PLC和设备的IP在同一网段上,才能建立通讯。然后还要选择TCP的工作模式,来建立设备端和PC端的端口号。接下来了解设备的报文格式,方便之后发送…