评估大型语言模型:综述


论文地址:https://arxiv.org/pdf/2310.19736v2.pdf

github: tjunlp-lab/awesome-llms-evaluation-…

发表团队:Tianjin University


摘要

  1. 将LLM评估划分三点:知识和能力评估、一致性评估和安全性评估。
  2. 特定领域化评估
  3. benchmark
  4. 评估机构
  5. 评估数据集

目标

知识和能力评估、一致性评估和安全性评估。除了对这三个方面的评估方法和基准进行全面梳理外,我们还整理了LLM在专业领域的评估概要,并讨论了涵盖LLM能力、一致性、安全性评估的综合评估平台的构建和适用性。

背景

大型语言模型 (LLM) 在广泛的任务中表现出了卓越的能力。它们引起了极大的关注并被部署在众多下游应用中。然而,就像一把双刃剑一样,法学硕士也存在潜在的风险。它们可能会遭受私人数据泄露或产生不适当、有害或误导性内容。此外,法学硕士的快速进步引发了人们对在没有足够保障的情况下可能出现的超级智能系统的担忧。为了有效发挥法学硕士能力并确保其安全、有益的发展,对法学硕士进行严格、全面的评估至关重要。这项调查致力于为法学硕士的评估提供一个全景视角。

方法

  1. 知识和能力评估
    1. QA
    2. 知识填空
    3. 推理
      1. 常识
      2. 逻辑
      3. 多跳
      4. 数学
    4. 工具使用
  2. 一致性评估
    1. 伦理道德
    2. 偏见
    3. 毒性
  3. 安全性评估
    1. 鲁棒性评估
      1. Prompt
      2. Task 任务
      3. 一致性
    2. 风险评估
      1. 行为风险
      2. Agent 评估
  4. 领域化评估、
    1. 生物&医学
    2. 教育
    3. 法考
    4. 计算机
    5. 金融

结论

LLM的发展速度令人震惊,在众多任务上取得了显着进展。然而,尽管迎来了人工智能的新时代,我们对这种新颖的智能形式的理解仍然相对有限。

划定这些LLM的能力界限、了解他们在各个领域的表现并探索如何更有效地发挥他们的潜力至关重要。这就需要一个全面的基准框架来指导法学硕士的发展方向。 这项调查系统地阐述了LLM的核心能力,包括知识和推理等关键方面。此外,我们深入研究一致性评估和安全性评估,包括道德问题、偏见、毒性和真实性,以确保LLM的安全、可信和道德应用。

同时,我们探索LLM在不同领域的潜在应用,包括生物学、教育、法律、计算机科学和金融。最重要的是,我们提供一系列流行的基准评估,以帮助研究人员、开发人员和从业者理解和评估法学硕士的表现。

我们预计这项调查将推动LLM评估的发展,为引导这些模型的可控发展提供明确的指导。这将使LLM能够更好地为社区和世界服务,确保他们在各个领域的应用程序安全、可靠和有益。我们怀着热切的期待,迎接LLM发展和评估的未来挑战。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/132988.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

在jupyter中使用R

如果想在Jupyter Notebook中使用R语言,以下几个步骤操作可行: 1、启动Anaconda Prompt 2、进入R的安装位置,切换到R的安装位置:D:\Program Files\R\R-3.4.3\bin,启动R,具体代码操作步骤如下,在…

vue的rules验证失效,部分可以部分又失效的原因

vue的rules验证失效,部分可以部分又失效的原因 很多百度都有,但是我这里遇到了一个特别的,那就是prop没有写全,导致验证某一个失效 例子: 正常写法 el-form-item....多个省略<el-form-item label"胶币" prop"cost"><el-input v-model"form.…

1200*D. Same Differences(数学推公式)

Problem - 1520D - Codeforces 解析&#xff1a; 统计 a [ i ] - i #include<bits/stdc.h> using namespace std; #define int long long const int N2e55; int t,n,a[N]; signed main(){scanf("%lld",&t);while(t--){scanf("%lld",&n);…

AI芯片架构体系综述:芯片类型CPU\GPU\FPGA\ASIC以及指令集CSIS\RISC介绍

大模型的发展意味着算力变的越发重要&#xff0c;因为大国间科技竞争的关系&#xff0c;国内AI从业方在未来的一段时间存在着算力不确定性的问题&#xff0c;与之而来的是许多新型算力替代方案的产生。如何从架构关系上很好的理解计算芯片的种类&#xff0c;并且从计算类型、生…

【1106】记录

有关python环境&#xff01;&#xff01;&#xff01; 1、python解释器就是 python 3.7.2 之类的。 VSCode 是代码编辑器。 下图的每一个都是可选的python环境&#xff0c;Python 3.8.3&#xff08;‘base’&#xff09;是下载在电脑上的python环境&#xff08;下载miniConda时…

【LeetCode】318. 最大单词长度乘积

318. 最大单词长度乘积 难度&#xff1a;中等 题目 给你一个字符串数组 words &#xff0c;找出并返回 length(words[i]) * length(words[j]) 的最大值&#xff0c;并且这两个单词不含有公共字母。如果不存在这样的两个单词&#xff0c;返回 0 。 示例 1&#xff1a; 输入…

js深度学习(三)

循环 var i0 for(;i<10;){ console.log(i) i } while(i<10){ console.log(i) i } var i100; for(;i--;){ console.log(i) }2、引用值 typeof&#xff1a;number string boolean Object(object/array/null出现是为了指定为空对象/)undefined function typeof a >unde…

2021年电工杯数学建模B题光伏建筑一体化板块指数发展趋势分析及预测求解全过程论文及程序

2021年电工杯数学建模 B题 光伏建筑一体化板块指数发展趋势分析及预测 原题再现&#xff1a; 国家《第十四个五年规划和 2035 年远景目标纲要》中提出&#xff0c;将 2030 年实现“碳达峰”与 2060 年实现“碳中和”作为我国应对全球气候变暖的一个重要远景目标。光伏建筑一体…

如何对ppt文件设置修改权限?

PPT文件会应用在会议、演讲、课件等工作生活中&#xff0c;当我们制作好了PPT之后&#xff0c;保护内容防止在演示时出错是很重要的&#xff0c;那么如何将PPT文件设置成禁止修改模式呢&#xff1f;今天分享几个方法给大家。 方法一 将PPT文件直接保存或者另存为一份文件&…

微信小程序文件上传wx.uploadFile

网页版查看了一下负载要求是这样 wx.uploadFile({url: ${wx.getStorageSync(apiUrl)}//sysFileInfo/upload?token${wx.getStorageSync(token)}, // 仅为示例&#xff0c;非真实的接口地址filePath: files[0].url,name: file,formData: {secretFlag: Y },success: (res) > {…

【漏洞复现】Django _2.0.8_任意URL跳转漏洞(CVE-2018-14574)

感谢互联网提供分享知识与智慧&#xff0c;在法治的社会里&#xff0c;请遵守有关法律法规 文章目录 1.1、漏洞描述1.2、漏洞等级1.3、影响版本1.4、漏洞复现1、基础环境2、漏洞扫描3、漏洞验证 1.5、修复建议 说明内容漏洞编号CVE-2018-14574漏洞名称Django任意URL跳转漏洞漏洞…

力扣(LeetCode)容器装水问题

题目描述 给你 n 个非负整数 a1&#xff0c;a2&#xff0c;...&#xff0c;an&#xff0c;每个数代表坐标中的一个点 (i, ai) 。在坐标内画 n 条垂直线&#xff0c;垂直线 i 的两个端点分别为 (i, ai) 和 (i, 0)。找出其中的两条线&#xff0c;使得它们与 x 轴共同构成的容器可…

LeetCode|动态规划|392. 判断子序列、115. 不同的子序列、 583. 两个字符串的删除操作

目录 一、392. 判断子序列 1.题目描述 2.解题思路 3.代码实现(双指针解法) 4.代码实现&#xff08;动态规划解法&#xff09; 二、115. 不同的子序列 1.题目描述 2.解题思路 3.代码实现&#xff08;C语言版本&#xff09; 4.代码实现&#xff08;C版本&#xff09; …

PyTorch入门学习(十二):神经网络-搭建小实战和Sequential的使用

目录 一、介绍 二、先决条件 三、代码解释 一、介绍 在深度学习领域&#xff0c;构建复杂的神经网络模型可能是一项艰巨的任务&#xff0c;尤其是当您有许多层和操作需要组织时。幸运的是&#xff0c;PyTorch提供了一个方便的工具&#xff0c;称为Sequential API&#xff0c…

R语言piecewiseSEM结构方程模型在生态环境领域实践技术应用

结构方程模型&#xff08;Sructural Equation Modeling&#xff0c;SEM&#xff09;可分析系统内变量间的相互关系&#xff0c;并通过图形化方式清晰展示系统中多变量因果关系网&#xff0c;具有强大的数据分析功能和广泛的适用性&#xff0c;是近年来生态、进化、环境、地学、…

「Verilog学习笔记」异步复位的串联T触发器

专栏前言 本专栏的内容主要是记录本人学习Verilog过程中的一些知识点&#xff0c;刷题网站用的是牛客网 分析 这道题目里我们有两个需要明确的点&#xff1a; 1. 什么是异步复位 2. 什么是串联的T触发器 关于第一个点&#xff0c;可以看我的这篇文章&#xff0c;已经整理好了&a…

通过GFlags工具来复现因为野指针、内存越界等造成的程序崩溃

系列文章目录 C程序异常调查专栏 文章目录 系列文章目录前言一、GFlags是什么&#xff1f;二、如何获取GFlags三、使用步骤1.确认GFlags是否已经安装2.以管理员权限启动Command prompt3.GFlags有效设定4.检查GFlags有效设定是否成功5.根据客户复现步骤运行程序 总结 前言 客户…

无线发射芯片解决方案在智能家居中的应用

随着物联网的发展&#xff0c;智能家居已经成为一个热门话题。智能家居利用无线技术来实现设备之间的互联互通&#xff0c;提供更智能、更便利的生活体验。无线发射芯片解决方案在智能家居中扮演着关键的角色&#xff0c;它们为智能家居设备之间的通信提供了稳定、高效的连接&a…

RabbitMQ(高级特性) 设置队列所有消息存活时间

RabbitMQ可以设置消息的存活时间&#xff08;Time To Live&#xff0c;简称TTL&#xff09;&#xff0c;当消息到达存活时间后还没有被消费&#xff0c;会被移出队列。RabbitMQ可以对队列的所有消息设置存活时间&#xff0c;也可以对某条消息设置存活时间。 Configuration pub…

cronet 库各个调用栈记录

处理 alt-svc 头&#xff1a; * frame #0: dc64e44 net::HttpStreamFactory::ProcessAlternativeServices(this0x0000000282c37b10, session0x0000000138822400, network_isolation_key0x00000001369bf390, headers0x00000002824d5220, http_server0x000000016e3c0590) at ht…