论文阅读:A Survey on Evaluation of Large Language Models-鲁棒性相关内容

A Survey on Evaluation of Large Language Models

只取了鲁棒性相关的内容
在这里插入图片描述
LLMs:《A Survey on Evaluation of Large Language Models大型语言模型评估综述》理解智能本质(具备推理能力)、AI评估的重要性(识别当前算法的局限性+设

对抗鲁棒性是衡量大型语言模型(LLMs)在面对故意设计的、旨在误导或破坏模型性能的输入时的稳定性和安全性的关键指标。

  1. 对抗鲁棒性的定义与重要性:对抗鲁棒性关注的是LLMs在遭遇敌意提示或恶意输入时能否维持其性能和安全性。

  2. 对抗性文本攻击的评估:研究者们通过创建统一的基准测试,如PromptBench,对LLMs在不同层次上的对抗性文本攻击进行了评估,发现这些模型在面对精心设计的对抗性输入时存在脆弱性。

  3. 视觉-语言模型的鲁棒性:对于结合了视觉和语言信息的模型,研究者们评估了它们在视觉输入上的鲁棒性,并指出了视觉信息处理中的潜在风险。

  4. OOD评估的全面概述:研究者们提供了对神经网络NLP模型的分布外(OOD)评估的全面概述,包括对抗性鲁棒性、领域泛化和数据集偏见等方面。

  5. 新的对抗性基准数据:为了更好地评估和理解LLMs的对抗鲁棒性,研究者们引入了新的基准数据集,如AdvGLUE++,这些数据集旨在通过新的评估协议来深入检查模型的伦理和安全性。

  6. 语义解析的鲁棒性研究:基于提示的语义解析任务的鲁棒性也得到了实证研究,揭示了在使用大型预训练语言模型时可能遇到的问题。

  7. 推荐系统的鲁棒性:在大型语言模型时代,推荐系统的鲁棒性问题也受到了关注,研究者们探讨了这一领域的挑战和机遇。

  8. GLUE-X数据集:为了评估自然语言理解模型的OOD泛化能力,研究者们扩展了GLUE数据集,创建了GLUE-X,这是一个专门用于评估模型在面对分布外数据时的泛化能力的测试。

通过这些研究,我们了解到LLMs在对抗鲁棒性方面还有很大的提升空间,需要进一步的研究和技术创新来提高模型的稳定性和安全性。


下面是原出处:
在这里插入图片描述
在这里插入图片描述
3.2.1 Robustness鲁棒性:两方面考察(分布外泛化OOD+对抗鲁棒性)、评估ChatGPT(AdvGLUE+ANLI+DDXPlus+AdvGLUE++,PromptBench基准)、两方面脆弱(语言输入的对抗性提示+视觉输入)
评估系统面对意外输入的稳定性是鲁棒性研究的核心,主要从对抗鲁棒性和出分布泛化两方面考察大语言模型,发现当前模型对对抗性提示和视觉输入显著脆弱,提示模型在部署中面临安全隐患,需要继续提高模型的鲁棒性。

鲁棒性研究系统在面对意外输入时的稳定性。

具体来说,分布外(out- distribution, OOD) (Wang et al., 2022)和对抗性鲁棒性是鲁棒性的两个热门研究课题。Wang等人(2023c)是一项早期工作,使用AdvGLUE (Wang等人,2021)、ANLI (Nie等人,2019)和DDXPlus (Fansi Tchango等人,2022)数据集等现有基准,从对抗性和OOD角度评估了ChatGPT和其他LLMs。卓等人(2023b)评估了语义解析的鲁棒性。Yang等人(2022)通过扩展GLUE (Wang等人,2018)数据集来评估OOD的鲁棒性。本研究的结果强调了当操纵视觉输入时对整个系统安全的潜在风险。

对于视觉语言模型,Zhao等人(2023b)对视觉输入上的LLMs进行了评估,并将其转移到其他视觉语言模型上,揭示了视觉输入的脆弱性。

Li等人(2023b)概述了语言模型的OOD评估:对抗性鲁棒性、领域泛化和数据集偏差。作者对三个研究线进行了比较和统一,总结了每个研究线的数据生成过程和评估方案,并强调了未来工作的挑战和机遇。

对于对抗鲁棒性,朱等人(2023)通过提出一个名为PromptBench的统一基准,评估了LLM对提示的鲁棒性。他们全面评估了多个级别(字符、单词、句子和语义)的对抗性文本攻击。结果表明,当面对对抗性输入时,现代LLM容易受到对抗性提示的攻击,强调了模型的鲁棒性的重要性。至于新的对抗性数据集,王等人(2023a)引入了AdvGLUE++基准数据集来评估对抗鲁棒性,并实施了一个新的评估协议,通过越狱系统提示来审查机器道德。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/50410.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

C++参悟:accumulate 累加器

accumulate 累加器 一、概述二、快速代码版1. 简单的容器求和2. 带自定义求和器去求和3. 重载 运算符号 一、概述 accumulate 有两个参数版本如下&#xff1a; template< class InputIt, class T > T accumulate( InputIt first, InputIt last, T init );template<…

ComfyUI 、ComfyUI-Manager、ComfyUI-Translation语言包、Insightface、Crystools资源监测器安装

简单介绍ComfyUI、ComfyUI-Manager、ComfyUI-Translation语言包、Insightface、Crystools资源监测器安装&#xff0c;并通过ComfyUI-Manager安装缺失的节点。 1、ComfyUI安装 打开https://github.com/comfyanonymous/ComfyUI&#xff0c;找到Installing中 Direct link to do…

phpenv安装redis扩展

1、下载dll文件 https://pecl.php.net/package/redis 我的是php8.1, 安装最新版的 DLL文件 &#xff12;、将dll文件放到php安装目录的ext目录下 3、在php.ini中增加配置后重启服务 [Redis] extension php_redis.dll

VMware安装(有的时候启动就蓝屏建议换VM版本)

当你开始使用虚拟化技术来管理和运行多个操作系统时&#xff0c;VMware 是一个强大且广泛使用的选择。本篇博客将指导你如何安装 VMware Workstation Pro&#xff0c;这是一个功能强大的虚拟机软件&#xff0c;适用于个人和专业用户。 一、下载 VMware Workstation Pro 访问官网…

JavaScript青少年简明教程:函数及其相关知识(上)

JavaScript青少年简明教程&#xff1a;函数及其相关知识&#xff08;上&#xff09; 在JavaScript中&#xff0c;函数是一段可以重复使用的代码块&#xff0c;它执行特定的任务并可能返回结果。 内置函数&#xff08;Built-in Functions&#xff09; 内置函数是编程语言中预先…

ES里面常用的查询语句有哪些?

【编程电子书大全】链接: https://pan.baidu.com/s/1yhPJ9LmS_z5TdgIgxs9NvQ?pwdyyds > 提取码: yyds Elasticsearch&#xff08;ES&#xff09;中常用的查询语句包括以下几类&#xff1a; 1. Match 查询 用于全文搜索&#xff0c;匹配指定字段中的文本。 GET /index_na…

PLC网关:开启工业4.0时代的智能工厂之路

PLC即可编程逻辑控制器&#xff0c;是工业自动化领域的核心设备&#xff0c;广泛应用于各个工业领域。从PLC问世至今&#xff0c;一直表现出强大的生命力和高速增长态势&#xff0c;2020年全球PLC市场的销售量已经达到了百亿RMB级别。 随着行业智能化、数字化推广&#xff0c;…

【Vulnhub系列】Vulnhub_Seattle_003靶场渗透(原创)

【Vulnhub系列靶场】Vulnhub_Seattle_003靶场渗透 原文转载已经过授权 原文链接&#xff1a;Lusen的小窝 - 学无止尽&#xff0c;不进则退 (lusensec.github.io) 一、环境准备 1、从百度网盘下载对应靶机的.ova镜像 2、在VM中选择【打开】该.ova 3、选择存储路径&#xff0…

Nginx系列-12 Nginx使用Lua脚本进行JWT校验

背景 本文介绍Nginx中Lua模块使用方式&#xff0c;并结合案例进行介绍。案例介绍通过lua脚本提取HTTP请求头中的token字段&#xff0c;经过JWT校验并提取id和name信息&#xff0c;设置到http请求头中发向后段服务器。 默认情况下&#xff0c;Nginx自身不携带lua模块&#xff0…

Computer Analysis and Visualisation CITS2401

1. Outline In this project, we will continue from our Project 1 where we implemented a malicious credit card transaction detection system. But instead of iuww520iuww520​​​​​​​iuww520​​​​​​​iuww520​​​​​​​iuww520​​​​​​​iuww520​…

什么是海外云手机?海外云手机有什么用?

在跨境电商的浪潮中&#xff0c;如何高效引流成为了卖家们关注的焦点。近期&#xff0c;越来越多的卖家开始借助海外云手机&#xff0c;通过TikTok平台吸引流量&#xff0c;从而推动商品的海外销售。那么&#xff0c;究竟什么是海外云手机&#xff1f;海外云手机又能为跨境电商…

存储过程

1、概念 完成特定功能的sql语句的集合。把定义好的sql集合在一个特定的sql函数当中&#xff0c;每次执行调用函数即可&#xff0c;还可以实现传参的调用 2、作用 执行速度比sql语句执行速度更快&#xff0c;执行效率也更高 客户端可以随时调用发放&#xff0c;也可以随时修…

商家转账到零钱保姆级申请教程

大多数商家在申请微信支付的“商家转账到零钱”过程中都免不了遇到问题&#xff0c;更有不少商家因为屡次驳回严重耽误项目工期。为了帮助商户顺利开通该接口&#xff0c;根据我们上万次成功开通的经验整理这篇攻略以供参考&#xff1a; 一、前期准备 1. 确认主体资格&#xf…

跨境电商独立站术语盘点(一)独立站建站篇

跨境新手总是被一些跨境专业术语弄得头晕脑胀&#xff0c;不懂得查&#xff0c;查了又忘&#xff0c;忘了又得继续查…… 本期【跨境干货】&#xff0c;笔者特地为大家整理汇总了跨境电商独立站常用网站建站方面的专业术语&#xff0c;帮助你了解建站相关知识&#xff01;赶紧收…

安装python插件命令集合

安装python插件pyecharts库 pip install pyecharts -i https://pypi.tuna.tsinghua.edu.cn/simple 安装python插件pandas库 pip install pandas -i https://pypi.tuna.tsinghua.edu.cn/simple PyCharm 中安装步骤&#xff1a;

数据结构之队列详解

1.队列的概念以及结构 队列&#xff1a;只允许在一端进行插入数据操作&#xff0c;在另一端进行删除数据操作的特殊线性表&#xff0c;队列具有先进先出FIFo(Frist in Frist out)的特性 入队列&#xff1a;进行插入才操作的一端称为队尾 出队列&#xff1a;进行删除操作的一…

谷粒商城实战笔记-编码经验积累

文章目录 1. 先理解需求&#xff0c;后写代码惨痛经历教训 2. 前后端都要校验惨痛经历教训 3&#xff0c;避免使用JOIN查询以提高性能4&#xff0c;用常量类代替魔法数字 1. 先理解需求&#xff0c;后写代码 惨痛经历 几年前&#xff0c;我所在的团队负责为开发一个在线预订系…

1比25万基础电子地图(广西版)

我们为你分享过四川、云南、江西、贵州、重庆、青海、西藏、新疆、甘肃、黑龙江、吉林、湖北、广东和内蒙古的1比25万基础电子地图&#xff0c;现在再为你分享广西版的电子地图。 如果你需要这些省份的1比25万基础电子地图&#xff0c;请在文末查看该数据的领取方法。 1比25万…

flutter开发实战-go_router使用

flutter开发实战-go_router使用 一、go_router介绍与特性 go_router是一个Flutter的第三方声明式路由插件&#xff0c;使用路由器API提供一个方便的、基于url的API&#xff0c;用于在不同屏幕之间导航。可以定义URL模式、使用URL导航、处理深度链接以及许多其他与导航相关的场…

【Spring Boot】Spring 的安全框架:Spring Security

Spring 的安全框架&#xff1a;Spring Security 1.Spring Security 初识1.1 核心概念1.2 认证和授权1.2.1 验证&#xff08;authentication&#xff09;1.2.2 授权&#xff08;authorization&#xff09; 1.3 模块 2.核心类2.1 Securitycontext2.2 SecurityContextHolder2.2.1 …