“大型”基础模型中幻觉的调查

Abstract

基础模型 (FM) 中的幻觉是指生成偏离事实或包含捏造信息的内容。这篇调查论文广泛概述了近期旨在识别、阐明和解决幻觉问题的努力,特别关注“大型”基础模型(LFM)。该论文对LFM特有的各种类型的幻觉现象进行了分类,并建立了评估幻觉程度的评估标准。它还研究了减轻 LFM 幻觉的现有策略,并讨论了该领域未来研究的潜在方向。本质上,本文对 LFM 中幻觉相关的挑战和解决方案进行了全面的研究。

Introduction

以 GPT-3(Brown 等人,2020)和稳定扩散(Rombach 等人,2022)为代表的基础模型(FM)标志着机器学习和生成人工智能领域新时代的开始。研究人员引入了“基础模型”一词来描述机器学习模型,这些模型是在广泛、多样且未标记的数据上进行训练的,使它们能够熟练地处理各种一般任务。这些任务包括语言理解、文本和图像生成以及自然语言对话。

1.1 什么是基础模型

基础模型是指在大量未标记数据上训练的大规模人工智能模型,通常通过自我监督学习。这种训练方法产生的多功能模型能够在各种任务中表现出色,包括图像分类、自然语言处理和问答,从而达到显着的准确性水平。

这些模型擅长涉及生成能力和人类互动的任务,例如生成营销内容或根据最少的提示制作复杂的艺术品。然而,为企业应用程序调整和实施这些模型可能会遇到一定的困难(Bommasani 等人,2021)。

1.2 什么是基础模型中的幻觉?

基础模型上下文中的幻觉是指模型生成的内容并非基于事实或准确信息的情况。当模型生成的文本包含虚构、误导性或完全捏造的细节、事实或主张,而不是提供可靠和真实的信息时,就会出现幻觉。

出现此问题的原因是该模型能够根据从训练数据中学到的模式生成听起来合理的文本,即使生成的内容与现实不符。幻觉可能是无意的,可能是由多种因素造成的,包括训练数据的偏差、模型无法访问实时或最新信息,或者模型在理解和生成上下文准确响应方面的固有局限性。

解决基础模型和大语言模型中的幻觉至关重要,尤其是在事实准确性至关重要的应用中,例如新闻、医疗保健和法律背景。研究人员和开发人员正在积极研究减轻幻觉并提高这些模型的可靠性和可信度的技术。随着最近图 2 中这个问题的出现,解决这些问题变得更加重要。

2023年3月至2023年9月大型基础模型(LFM)“幻觉”论文的演变

1.3 为什么进行这项调查?

近年来,学术界和工业界对 LFM 的兴趣显着增加。此外,他们的主要挑战之一是幻觉。 (Ji et al., 2023) 中的调查描述了自然语言生成中的幻觉。在大模型时代,(Zhang et al., 2023c)做了另一项伟大的及时调查,研究大语言模型的幻觉。然而,除了LLM之外,图像、视频、音频等其他基础模型也存在幻觉问题。因此,在本文中,我们对基础模型所有主要模式的幻觉进行了首次全面调查。

1.3.1 我们的贡献

  1. 我们对 LFM 幻觉领域的现有工作进行了简洁的分类,如图 1 所示。
  2.  我们在第 2 至 5 节中对大型基础模型 (LFM) 进行了广泛的检查。
  3.  我们涵盖了所有重要方面,例如一 检测,二.减轻,三.任务,四。数据集和 v. 评估指标,如表 1 所示。
  4. 我们最后还提供了我们在该领域的观点和未来可能的方向。我们将定期更新相关的开源资源,可访问 https://github.com/vr25/hallucination-foundation-model-survey

1.3.2 幻觉的分类

如图1所示,我们将LFM大致分为以下四种类型:文本,二。图像,三。视频,以及 iv.声音的。

本文遵循以下结构。基于上述分类,我们描述了所有四种模式的幻觉和缓解技术:文本(第 2 节),ii。图像(第 3 节),iii。视频(第 4 节),以及 iv。音频(第 5 节)。在第 6 节中,我们简要讨论幻觉并不总是坏事,因此,在创意领域,它们非常适合制作艺术品。最后,我们给出了解决这个问题的一些未来可能的方向以及第 7 节中的结论。

2 Hallucination in Large Language Models
----
2 大语言模型中的幻觉

如图 4 所示,当大语言模型做出捏造的回答时,就会出现幻觉。

2.1 LLMs

SELFCHECKGPT(Manakul et al., 2023)是一种在生成大语言模型中进行零资源黑盒幻觉检测的方法。该技术侧重于识别这些模型生成不准确或未经验证的信息的实例,而不依赖于额外的资源或标记数据。它旨在通过提供一种无需外部指导或数据集即可检测和解决幻觉的机制来增强大语言模型的可信度和可靠性。 (Mündler et al., 2023) 探讨了大语言模型中自相矛盾的幻觉。并通过评估、检测和缓解技术解决这些问题。它指的是大语言模型生成自相矛盾的文本的情况,导致不可靠或无意义的输出。这项工作提出了评估此类幻觉发生的方法,在大语言模型生成的文本中检测它们,并减轻其影响,以提高大语言模型生成的内容的整体质量和可信度。

PURR(Chen et al., 2023)是一种旨在有效编辑和纠正语言模型中的幻觉的方法。 PURR 利用去噪语言模型损坏来有效识别和纠正这些幻觉。这种方法旨在通过减少幻觉内容的流行来提高语言模型输出的质量和准确性。

幻觉数据集:幻觉通常与语言模型 (LM) 中的知识差距有关。然而,(Zhang et al., 2023a)提出了一个假设,即在某些情况下,当语言模型试图合理化先前产生的幻觉时,它们可能会产生可以独立识别为不准确的错误陈述。因此,他们创建了三个问答数据集,其中 ChatGPT 和 GPT-4 经常提供不正确的答案,并附有至少包含一个错误断言的解释。

HaluEval(Li et al., 2023b)是一个综合基准,旨在评估大语言模型的幻觉。它可以作为一种工具,系统地评估大语言模型在不同领域和语言的幻觉方面的表现,帮助研究人员和开发人员衡量和提高这些模型的可靠性。

使用外部知识缓解幻觉:使用交互式问题知识对齐(Zhang et al., 2023b)提出了一种减轻语言模型幻觉的方法。他们提出的方法侧重于将生成的文本与相关事实知识对齐,使用户能够交互式地指导模型的响应产生更准确、更可靠的信息。该技术旨在通过让用户参与对齐过程来提高语言模型输出的质量和真实性。 LLMAUGMENTER(Peng 等人,2023)利用外部知识和自动反馈改进大语言模型。它强调需要解决大语言模型生成内容中的局限性和潜在的事实错误。该方法涉及结合外部知识源和自动反馈机制,以提高LLMs输出的准确性和可靠性。通过这样做,本文旨在减少事实错误并提高LLMs生成文本的整体质量。同样,(Li et al., 2023d)引入了一个名为“知识链”的框架,为LLMs奠定结构化知识库的基础。接地是指将LLMs生成的文本与结构化知识连接起来以提高事实准确性和可靠性的过程。该框架采用分层方法,将多个知识源链接在一起,以提供背景并增强对LLMs的理解。这种方法旨在提高LLMs生成的内容与结构化知识的一致性,降低生成不准确或幻觉信息的风险。

与较大的同行相比,参数较少的小型开源LLMs通常会遇到严重的幻觉问题(Elaraby 等人,2023)。这项工作的重点是评估和减轻 BLOOM 7B 中的幻觉,它代表了研究和商业应用中使用的较弱的开源LLMs。他们推出了 HALOCHECK,这是一个轻量级的无知识框架,旨在评估LLMs的幻觉程度。此外,它还探索了知识注入和师生方法等方法来减少低参数LLMS的幻觉问题。

此外,与法学硕士相关的风险可以通过与网络系统进行比较来减轻(Huang 和 Chang,2023)。它强调了LLMs中缺乏关键要素“引用”,而“引用”可以提高内容透明度和可验证性,并解决知识产权和道德问题。

使用提示技术减轻幻觉:“消除幻觉”是指减少LLM产生不准确或幻觉信息。 (Jha et al., 2023) 中提出了使用迭代提示引导的正式方法来消除 LLM 的幻觉。他们采用形式化方法通过迭代提示来指导生成过程,旨在提高LLM输出的准确性和可靠性。该方法旨在减轻幻觉问题并增强LLM生成内容的可信度。

2.2 多语言LLMs

大规模多语言机器翻译系统在多种语言之间直接翻译方面表现出了令人印象深刻的能力,这使得它们对现实世界的应用程序具有吸引力。然而,这些模型可能会生成幻觉翻译,这在部署时会带来信任和安全问题。现有的幻觉研究主要集中在高资源语言的小型双语模型上,在跨不同翻译场景的大规模多语言模型中理解幻觉方面存在差距。

为了解决这一差距,(Pfeiffer et al., 2023)对传统神经机器翻译模型的 M2M 系列和可提示翻译的多功能 LLM ChatGPT 进行了全面分析。该调查涵盖了广泛的条件,包括 100 多个翻译方向、各种资源水平以及以英语为中心的对以外的语言。

2.3 特定领域的LLMs

医学、银行、金融、法律和临床环境等关键任务领域的幻觉是指生成或感知到虚假或不准确信息的情况,可能导致严重后果。在这些领域,可靠性和准确性至关重要,任何形式的幻觉,无论是数据、分析还是决策,都可能对结果和运营产生重大和有害的影响。因此,强有力的措施和系统对于最大限度地减少和预防这些高风险领域的幻觉至关重要。

医学:LLMs的幻觉问题,特别是在医学领域,产生看似合理但不准确的信息可能是有害的。为了解决这个问题,(Umapathi 等人,2023)引入了一个新的基准和数据集,称为 Med-HALT(医学领域幻觉测试)。它专门用于评估和减轻LLMs的幻觉。它包含来自不同国家医疗检查的多样化跨国数据集,并包括创新的测试方法。 Med-HALT 包括两类测试:推理测试和基于记忆的幻觉测试,旨在评估LLMs在医学背景下解决问题和信息检索的能力。

法律:ChatLaw(Cui 等人,2023)是专门针对法律领域的开源LLMs。为了确保高质量的数据,作者创建了精心设计的法律领域微调数据集。针对法律数据筛选过程中的模型幻觉问题,他们提出了一种向量库检索与关键词检索相结合的方法。这种方法有效地减少了在法律背景下仅依靠矢量数据库检索进行参考数据检索时可能出现的不准确性。

3 大图像模型中的幻觉Hallucination in Large Image Models

采用Siamese结构的对比学习模型(Wu et al., 2023)在自我监督学习中表现出了令人印象深刻的表现。它们的成功取决于两个关键条件:存在足够数量的正对,以及它们之间存在充足的差异。如果不满足这些条件,这些框架可能缺乏有意义的语义区别,并且容易过度拟合。为了应对这些挑战,我们引入了幻觉器,它可以有效地生成额外的正样本以增强对比度。 Hallucinator 是可微分的,在特征空间中运行,使其能够在预训练任务中进行直接优化,并产生最小的计算开销。

受LLMs的启发,为复杂的多模态任务增强 LVLM 的努力面临着一个重大挑战:物体幻觉,其中 LVLM 在描述中生成不一致的物体。这项研究(Li et al., 2023e)系统地研究了 LVLM 中的物体幻觉,并发现这是一个常见问题。视觉指令,尤其是频繁出现或同时出现的物体,会影响这个问题。现有的评估方法也受到输入指令和 LVLM 生成方式的影响。为了解决这个问题,该研究引入了一种称为 POPE 的改进评估方法,为 LVLM 中的物体幻觉提供更稳定和灵活的评估。

指令调整的大视觉语言模型 (LVLM) 在处理各种多模式任务(包括视觉问答 (VQA))方面取得了重大进展。然而,生成详细且视觉上准确的响应仍然是这些模型的挑战。即使像 InstructBLIP 这样最先进的 LVLM 也表现出很高的幻觉文本率,包括 30% 的不存在对象、不准确的描述和错误的关系。为了解决这个问题,该研究(Gunjal et al., 2023)引入了 MHalDetect1,这是一个多模态幻觉检测数据集,旨在训练和评估旨在检测和预防幻觉的模型。 MHalDetect 包含 VQA 示例的 16,000 个详细注释,使其成为第一个用于检测详细图像描述中的幻觉的综合数据集。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/182744.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

手撕A*算法(详解A*算法)

A*算法原理 全局路径规划算法,根据给定的起点和终点在全局地图上进行总体路径规划。 导航中使用A*算法计算出机器人到目标位置的最优路线,一般作为规划的参考路线 // 定义地图上的点 struct Point {int x,y; // 栅格行列Point(int x, int y):x(x),y(y){…

java学习part18抽象类

Java抽象类 详解-CSDN博客 111-面向对象(高级)-抽象类与抽象方法的使用_哔哩哔哩_bilibili 1.概念 2.抽象类 抽象类不能实例化,可以有属性,也可以有方法。 方法可以实现或者只声明不实现,要加一个abstract abstract class A{//定义一个抽…

springboot整合redis+自定义注解+反射+aop实现分布式锁

1.定义注解 import java.lang.annotation.*; import java.util.concurrent.TimeUnit;/** Author: best_liu* Description:* Date: 16:13 2023/9/4* Param * return **/ Retention(RetentionPolicy.RUNTIME) Target({ElementType.METHOD}) Documented public interface RedisLo…

Go语言基础:包、函数、语句和注释解析

一个 Go 文件包含以下几个部分: 包声明导入包函数语句和表达式 看下面的代码,更好地理解它: 例子 package mainimport "fmt"func main() { fmt.Println("Hello World!") }例子解释 第 1 行: 在 Go 中&am…

基于SSM的仓库管理系统的设计与实现

末尾获取源码 开发语言:Java Java开发工具:JDK1.8 后端框架:SSM 前端:Vue 数据库:MySQL5.7和Navicat管理工具结合 服务器:Tomcat8.5 开发软件:IDEA / Eclipse 是否Maven项目:是 目录…

15个超级实用的Python操作,肯定有你意想不到的!

文章目录 1)映射代理(不可变字典)2)dict 对于类和对象是不同的3) any() 和 all()4) divmod()5) 使用格式化字符串轻松检查变量6) 我们可以将浮点数转换为比率7) 用globals()和locals()显示现有的全局/本地变量8) import() 函数9) …

【LeetCode刷题】--90.子集II

90.子集II class Solution {public List<List<Integer>> subsetsWithDup(int[] nums) {List<List<Integer>> ans new ArrayList<>();List<Integer> list new ArrayList<>();//排序后便于去重Arrays.sort(nums);dfs(0,nums,ans,lis…

fastReID论文总结

fastReID论文总结 fastReIDReID所面临的挑战提出的背景概念&#xff1a;所谓ReID就是从视频中找出感兴趣的物体&#xff08;人脸、人体、车辆等&#xff09;应用场景&#xff1a;存在的问题&#xff1a;当前的很多ReID任务可复用性差&#xff0c;无法快速落地使用解决方式&…

基于SpringBoot实现的教务查询系统

一、系统架构 前端&#xff1a;html | js | css | jquery | bootstrap 后端&#xff1a;springboot | springdata-jpa 环境&#xff1a;jdk1.7 | mysql | maven 二、代码及数据库 三、功能介绍 01. 登录页 02. 管理员端-课程管理 03. 管理员端-学生管理 04. 管理员端-教师管理…

史上最全接单平台集锦,程序员不容错过!

非典型程序员不是每天都累成狗&#xff0c;天天”996"甚至”007“。可能&#xff0c;面临着上班摸鱼没事干&#xff0c;下班躺尸打游戏的无聊境况。那么&#xff0c;如果你也是这样的程序员&#xff0c;有没有什么安排可以打发时间&#xff1f; 闲着还不如挣钱~心情好的时…

【QML】qml+gstreamer显示的同时录像,避免卡顿

1. 问题 使用QML的CameravideoRecorder(Camera)VideoOutput实现显示加录像功能。在Ubuntu上运行正常&#xff0c;视频流畅。但是在开发板上&#xff08;RK3568&#xff09;上出现明显卡顿&#xff0c;无法正常录像。 2. 解决方案 将摄像头数据通过gstreamer共享内存到某个位…

cddd 安装指南(pip install cddd)

pip install cddd 这个命令可能会报错&#xff0c;因为要求是TensorFlow1.10.0 TensorFlow1.10.0对应的Python版本是3.6&#xff0c;所以如果你的Python版本是3.6以上是不行的.....

OpenCV实现手势音量控制

前言&#xff1a; Hello大家好&#xff0c;我是Dream。 今天来学习一下如何使用OpenCV实现手势音量控制&#xff0c;欢迎大家一起前来探讨学习~ 一、需要的库及功能介绍 本次实验需要使用OpenCV和mediapipe库进行手势识别&#xff0c;并利用手势距离控制电脑音量。 导入库&am…

Python内置函数与标准库函数的详细解读

一、内置函数与标准库函数的区分 Python 解释器自带的函数叫做内置函数&#xff0c;这些函数可以直接使用&#xff0c;不需要导入某个模块。 Python 解释器也是一个程序&#xff0c;它给用户提供了一些常用功能&#xff0c;并给它们起了独一无二的名字&#xff0c;这些常用功能…

C++初阶 | [五] 内存管理

摘要&#xff1a;new and delete&#xff0c;定位new&#xff0c;&#xff08;C内存管理的方式&#xff09;&#xff0c;malloc/free和new/delete的区别&#xff0c;内存泄漏 关于内存&#xff1a; 栈又叫堆栈——非静态局部变量/函数参数/返回值等等&#xff0c;栈是向下增长…

华为OD机试 - 园区参观路径(Java JS Python C)

题目描述 园区某部门举办了Family Day,邀请员工及其家属参加; 将公司园区视为一个矩形,起始园区设置在左上角,终点园区设置在右下角; 家属参观园区时,只能向右和向下园区前进,求从起始园区到终点园区会有多少条不同的参观路径。 输入描述 第一行为园区的长和宽; 后…

Linux详解——安装JDK

目录 一、下载jdk 二、tar包安装 三、rpm包安装 一、下载jdk 1.下载jdk https://www.oracle.com/technetwork/java/javase/downloads/index.html 2.通过CRT|WinSCP工具将jdk上传到linux系统中 二、tar包安装 # 1.将JDK解压缩到指定目录 tar -zxvf jdk-8u171-linux…

FreeRTOS学习之路,以STM32F103C8T6为实验MCU(2-12:内存管理)

学习之路主要为FreeRTOS操作系统在STM32F103&#xff08;STM32F103C8T6&#xff09;上的运用&#xff0c;采用的是标准库编程的方式&#xff0c;使用的IDE为KEIL5。 注意&#xff01;&#xff01;&#xff01;本学习之路可以通过购买STM32最小系统板以及部分配件的方式进行学习…

MyBatis使用教程详解<下>

回顾上一篇博文,我们讲了如何使用注解/XML的方式来操作数据库,实际上,一个Mapper接口的实现,这两种方式是可以并存的. 上一篇博文中,我们演示的都是比较简单的SQL语句,没有设计到复杂的逻辑,本篇博文会讲解复杂SQL的实现及一些细节处理.话不多说,让我们开始吧. 一. #{}和${} …

CLion安装与配置教程

目录 一、下载并安装CLion1、下载1、官网&#xff1a;2、注意&#xff1a; 2、安装1、下载完成后&#xff0c;直接点击安装包安装&#xff0c;即可。2、开始安装&#xff0c;然后下一步3、可以在此处自定义地址&#xff0c;然后下一步4、根据系统版本选择&#xff0c;然后下一步…