Holistic Evaluation of Language Models

本文是LLM系列文章,针对《Holistic Evaluation of Language Models》的翻译。

语言模型的整体评价

  • 摘要
  • 1 引言
  • 2 前言
  • 3 核心场景
  • 4 一般指标
  • 5 有针对性的评估
  • 6 模型
  • 7 通过提示进行调整
  • 8 实验和结果
  • 9 相关工作和讨论
  • 10 缺失
  • 11 不足和未来工作
  • 12 结论

摘要

语言模型(LM)正在成为几乎所有主要语言技术的基础,但它们的功能、局限性和风险并没有得到很好的理解。我们提出了语言模型的整体评价(HELM),以提高语言模型的透明度。首先,我们对LM感兴趣的潜在场景(即用例)和度量(即需求)的广阔空间进行分类。然后,我们根据覆盖率和可行性选择一个广泛的子集,注意缺失或代表性不足的部分(例如,被忽视的英语方言的问题回答、可信度指标)。其次,我们采用多指标方法:我们尽可能(87.5%的时间)为16个核心场景中的每一个测量7个指标(准确性、校准、稳健性、公平性、偏差、毒性和效率),确保超出准确性的指标不会半途而废,并确保模型和指标之间的权衡清楚地暴露出来。我们还基于26个有针对性的场景进行了7次有针对性评估,以更深入地分析特定方面(如知识、推理、记忆/版权、虚假信息)。第三,我们对所有42个场景中的30个突出语言模型(跨越开放、有限访问和封闭模型)进行了大规模评估,其中包括21个以前未在主流LM评估中使用的场景。在HELM之前,平均只有17.9%的核心HELM场景对模型进行了评估,一些突出的模型没有共享一个共同的场景。我们将其提高到96.0%:现在,所有30个模型都在标准化条件下的一组核心场景和指标上进行了密集的基准测试。我们的评估涵盖了25个关于不同场景、指标和模型之间相互作用的顶级发现。为了实现完全透明,我们公开发布了所有原始模型提示和完成,以进行进一步分析,并提供了一个通用的模块化工具包,用于轻松添加新的场景、模型、指标和提示策略。我们打算让HELM成为社区的活基准,不断更新新场景、指标和模型。

1 引言

2 前言

3 核心场景

4 一般指标

5 有针对性的评估

6 模型

7 通过提示进行调整

8 实验和结果

9 相关工作和讨论

10 缺失

11 不足和未来工作

12 结论

语言模型改变了人工智能,开创了基础模型的范式。现代语言模型的影响远远超出了研究范围,语言模型正在迅速产品化,成为重要的、无处不在的语言技术,我们预计这种技术在不久的将来只会增加。目前,我们对语言模型缺乏透明度,鉴于其快速增长和迅速发展的影响,这一点尤其令人担忧:作为一个社区,我们不了解语言模型的整体。因此,我们在这项工作中推动了整体评估,因为我们认为整体评估是为语言模型提供必要透明度的关键手段。
透明度带来信任和标准。将基准视为社会变革的模型,因为它们指导了人工智能系统的发展,我们更广泛的目标是将基础模型从不成熟的新兴技术转变为支持人类繁荣的可靠工具。考虑到这一目标,我们认识到人工智能基准测试的历史和轨迹与制度特权相一致。基准制定议程并引导进步:我们应该追求全面、多元和民主的基准。考虑到基准驱动变革的低调但重要的力量,这反过来表明基准设计赋予了力量,我们展望了HELM的目标及其局限性。我们希望社区将对HELM进行询问、采纳和改进,以实现全面评估的目标。通过这种方式,我们希望对语言模型和其他类别的基础模型进行全面评估,将产生有用、负责任和有益于社会的技术。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/63600.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

小疆智控CANOpen转PROFINET网关连接EA180C CANOPEN总线型伺服配置案例

1、首先新建一个工程,在CanOpen转Profinet网关配置软件中添加主站设备,如下图; 2、在CanOpen转Profinet网关设备点击导入EA180C CANOPEN总线型伺服 EDS 文件,右键添加从属设备; 3、设备设置站地址,如图&…

云原生架构:在云环境中构建弹性应用

随着云计算技术的快速发展,云原生架构已经成为现代软件开发的热门话题。作为一种在云环境中构建和运行应用程序的方法论,云原生架构强调弹性、可扩展性和灵活性,使开发者能够更好地应对复杂的业务需求。本文将深入探讨云原生架构的核心概念、…

ESLint如何在vue3项目中配置和使用

目录 问题描述: 配置: 注意: 问题描述: 在用vite创建vue3项目时已经选择了添加ESLint,创建完成后使用 pnpm install命令(或者npm i)安装了项目依赖之后,ESLint在项目中需要怎样配…

TDesign表单rules通过函数 实现复杂逻辑验证输入内容

Element ui 中 我们可以通过validator 绑定函数来验证一些不在表单model中的值 又或者处理一下比较复杂的判断逻辑 TDesign也有validator 但比较直观的说 没有Element那么好用 这里 我们给validator绑定了我们自己的checkAge函数 这个函数中 只有一个参数 value 而且 如果你的…

vue 加载图片不显示

解决vue加载图片不显示问题 加载图片前边加上require require通常用于引入静态资源,如图片、样式文件等。 navList: [{ title: "大盘行情", imgSrc: require ("../../public../../public/imgs/nav1.png") , linkto: "" },{ title: &q…

一种改进多旋翼无人机动态仿真的模块化仿真环境研究(Matlab代码实现)

💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。 ⛳️座右铭&a…

RustDesk最新版本编译与打包

本文环境 主要参考: https://www.yuque.com/shikangsi/efy0cp/wei3g1?https://blog.csdn.net/hualuohuakai2014/article/details/121605631 问题 flutter 生成 bridge 文件。 先安装工具,再生成ffi文件。 PS C:\Users\Administrator> cargo ins…

ChatGPT 总结前端HTML, JS, Echarts都包含哪些内容

AIGC ChatGPT ,BI商业智能, 可视化Tableau, PowerBI, FineReport, 数据库Mysql Oracle, Office, Python ,ETL Excel 2021 实操,函数,图表,大屏可视化 案例实战 http://t.csdn.cn/zBytu

Web3.0:重新定义互联网的未来

💗wei_shuo的个人主页 💫wei_shuo的学习社区 🌐Hello World ! Web3.0:重新定义互联网的未来 Web3.0是指下一代互联网,也称为“分布式互联网”。相比于Web1.0和Web2.0,Web3.0具有更强的去中心化、…

京东API接口解析,实现获得JD商品评论

要获取京东商品评论,需要使用京东的开放平台API接口。以下是一个基本的示例,解析并实现获取JD商品评论的API接口。 首先,你需要访问京东开放平台并注册一个开发者账号。注册完成后,你需要创建一个应用并获取到API的权限。 在获取…

SQL Server开启变更数据捕获(CDC)

一、CDC简介 变更数据捕获(Change Data Capture ,简称 CDC):记录 SQL Server 表的插入、更新和删除操作。开启cdc的源表在插入、更新和删除操作时会插入数据到日志表中。cdc通过捕获进程将变更数据捕获到变更表中,通过…

【OpenCV入门】第六部分——腐蚀与膨胀

文章结构 腐蚀膨胀开运算闭运算形态学方法梯度运算顶帽运算黑帽运算 腐蚀 腐蚀操作可以让图像沿着自己的边界向内收缩。OpenCV通过”核“来实现收缩计算。“核”在形态学中可以理解为”由n个像素组成的像素块“,像素块包含一个核心(通常在中央位置&…

构建现代应用:Java中的热门架构概览

文章目录 1. 三层架构2. Spring框架3. 微服务架构4. Java EE(Enterprise Edition)5. 响应式架构6. 大数据架构7. 领域驱动设计(Domain-Driven Design,DDD)8. 安卓开发架构结论 🎉欢迎来到Java学习路线专栏~…

如何伪造http头,让后端认为是本地访问

0x00 前言 这个知识点纯粹就是为了ctf准备的,很少有系统会出现这种情况。 0x01 正文 1.host头 如果后端从host取值来判断是否是本地就可以通过此方法进行绕过: host: 127.0.0.12.X-Forwarded-For X-Forwarded-For(XFF)是用来…

使用Arrays.asList生成的List集合,操作add方法报错

早上到公司,刚到工位,测试同事就跑来说"功能不行了,报服务器异常了,咋回事";我一脸蒙,早饭都顾不上吃,要来了测试账号复现了一下,然后仔细观察测试服务器日志,发现报了一个…

芯探科技--泛自动驾驶激光雷达解决方案

泛自动驾驶应用领域: 无人配送车 无人叉车 服务机器人 无人清扫车 …… 泛自动驾驶激光雷达解决方案介绍 在中低速移动过程中,类似无人配送车、无人叉车、服务型机器人、无人清扫车等具有自动驾驶功能的车辆,其需要对周围的环境进行探测,进而实现…

【已解决】激活虚拟环境报错:此时不应有Anaconda3\envs\[envs]\Library\ssl\cacert.pem。

新建虚拟环境后,进入虚拟环境的时候出现这样的报错: 此时不应有Anaconda3 envs yolov5 Library ssl cacert.pem。 但是之前装的虚拟环境也还能再次激活,base环境也无任何问题,仅新装的虚拟环境无法激活。 查遍了百度谷歌&#xff…

eclipse/STS(Spring Tool Suite)安装CDT环境(C/C++)

在线安装 help -> eclipse marketplace 可以发现,我所使用eclipse给我推荐安装的CDT是10.5版本 离线安装 下载离线安装包 下载地址:https://github.com/eclipse-cdt/cdt/blob/main/Downloads.md 可以看到利息安装包主要有如下四大类,…

Springboot整合ClickHouse

一、快速开始 1、添加依赖 <dependency><groupId>ru.yandex.clickhouse</groupId><artifactId>clickhouse-jdbc</artifactId><version>0.3.1-patch</version> </dependency> <dependency><groupId>com.alibaba&…

【typeof instanceof Object.prototype.toString constructor区别】

几个数据类型判断区别 typeofinstanceofObject.prototype.toStringconstructor typeof 它返回的是一个字符串&#xff0c;表示未经过计算的操作数的类型 typeof(undefined) //"undefined"typeof(null) //"object"typeof(100) //"number"typeof…