如何解决大模型的「幻觉」问题?

如何解决大模型的「幻觉」问题?

  • 如何解决大模型的「幻觉」问题?
    • 幻觉产生原因?
      • 模型原因
      • 数据层面
    • 幻觉怎么评估?
      • Reference-based(基于参考信息)
        • 基于模型的输入、预先定义的目标输出
        • 基于模型的输入
      • Reference-Free(无参考信息)
        • 基于IE(信息抽取)
        • 基于QA(问题回答)
        • 基于NLI(自然语言推理)
        • 基于Factualness Classification Metric(使用一个度量标准)
      • 人工评估
      • GPT 自动评估
    • 幻觉解决方案?
      • 幻觉修正
      • 幻觉缓解
      • 幻觉相关研究

 


如何解决大模型的「幻觉」问题?

在大型语言模型中,「幻觉」是指模型生成不符合现实或上下文的信息。

这些信息可能与输入内容直接冲突,或者在没有足够证据支持的情况下创造出无法验证的事实。

 


幻觉产生原因?

模型原因

  • 模型结构:较弱的backbone如 RNN,可能导致严重的幻觉问题。

  • 解码算法:使用不确定性较高的采样算法如 top-p,会诱导 LLMs 出现更严重的幻觉问题。

    解码算法,是指在语言模型生成文本时,如何从模型提供的可能的词汇中选择下一个词的方法。

    这就像是在写作时,每次选择下一个词语的过程。

    使用不确定性较高的采样算法,可以理解为写作时故意加入一些随机性。

    就像一个作家决定掷骰子来决定他的下一个句子会说些什么,这种方式有时可以让文本更有创意,但也更可能让内容变得没有逻辑或者不真实。

  • 暴露偏差:训练和测试阶段不匹配的问题可能导致 LLMs 出现幻觉,特别是生成很长的内容

    暴露偏差,是一个发生在训练模型时的问题。

    可以把它想象成一个学生在学校里只练习了选择题,但考试时却是问答题。

    因为学生没有被教授如何回答问答题,他可能就会在考试时遇到困难。

    同理,如果在训练语言模型时给它的任务和它在实际使用时的任务不一样,它生成的文本可能就会出现问题,特别是当要生成很长的内容时,这种不匹配的问题就会更明显。

  • 参数知识:在预训练阶段学习的错误知识,将会产生严重的幻觉问题

    参数知识指的是,语言模型在学习阶段(预训练阶段)所获取的信息和知识。

    如果在这个阶段,模型学习到了错误的信息,比如错误的事实或者不正确的写作方式,那么它生成的文本就可能会包含很多错误,就像一个学生在考试前复习了错误的资料,考试时就会写出很多错误的答案。

    比如问 GPT 3 + 2 = 4,是错的(经典美国小学生错误),这种错误一多,GPT就觉得是正确的。

数据层面

训练数据收集过程中,爬虫检索的数据可能包含虚假信息,从而让模型记忆了错误的知识。

过多的重复信息,也可能导致模型的知识记忆出现偏差,导致幻觉。

网络上的数据,主观的信息特别多,不清洗用不了。
 


幻觉怎么评估?

幻觉评估是指,评估和量化模型,在生成文本时,产生的不真实或不准确内容的频率和严重性。

具体的评估方法可以分为:

  • 基于参考信息(Reference-based)
  • 无参考信息(Reference-free)

Reference-based(基于参考信息)

这类方法依赖于与生成文本相关的参考信息,以评估模型的输出。

使用一些已知的、正确的文本作为参考,以此来评估和比较模型生成的文本。

基于模型的输入、预先定义的目标输出

使用一些统计学指标(如ROUGE、BLEU)来评估模型输出和目标参考信息(通常是正确的文本)之间的相似度。

这个目标输出通常是人类生成的文本,它被视为正确的回答。

例如,在一个摘要任务中,模型生成的摘要会与一个人类编写的摘要进行比较。

基于模型的输入

这种方法仅仅依靠模型的输入信息来评估生成的文本。

它不需要一个预定义的目标输出作为参考,而是评估模型输出的文本是否符合输入条件。

这在那些输出可以有多种正确形式的任务中特别有用。

例如,当生成一个故事或解释一个概念时,可能有多种准确和有信息量的方式来表达同一个概念。

可以使用 Knowledge F1 分数来衡量生成内容中知识点的准确性。

Reference-Free(无参考信息)

不依赖于任何预先定义的正确文本。这种评估方法直接分析生成文本的质量,无需将其与任何参考文本进行比较。

这些方法特别适用于那些难以获得或定义“正确答案”的场景,或者当希望评估模型是否能够独立生成高质量内容时。

例如,评估模型是否能够创建事实上准确的新闻报道,即使没有可用的参考新闻报道来比较。

基于IE(信息抽取)

将知识限定为可以用三元组(人物 - 出生地 - 城市)形式表达的关系和事件。

利用额外的信息抽取模型来提取这些知识点,然后使用另一个模型对这些信息进行验证。

问题

  • 可能存在IE模型的错误传播问题,信息抽取模型并不完美,有时会提取错误的信息
  • 知识被限定在三元组形式(太过简化),不足以完全捕捉复杂的信息或关系
基于QA(问题回答)

这个过程大致可以分为三步:

  • 生成问题和答案对:首先使用一个 大语言模型 来回答一个问题。然后,用另一个 问题生成模型 根据这个答案来创造一个新的问题。这样,就得到了一对问题和答案。

  • 使用源信息回答问题:接着,模型会尝试用一些已知的信息来回答第一步中生成的问题。

  • 比较答案:最后,通过比较第一步中生成的答案和第二步中模型给出的答案,来评估模型是否准确。

问题:这个方法可能会有两个主要问题。

  • 首先,如果QA或QG模型本身有误,这些错误就会影响整个过程
  • 其次,由于源信息不可能包含所有知识,所以对于某些问题,模型可能无法给出准确的答案
基于NLI(自然语言推理)

这个方法通过判断一个给定的信息(称为源信息)是否能够,支撑或包含生成的文本(即模型产生的内容)来工作。

问题:使用现成的NLI模型来检查事实可能不太准确。

这个方法只能检查源信息能否支持生成的文本,但不能评估那些需要更广泛世界知识的内容。

此外,这种方法是基于整个句子的,可能无法进行更细致的检查。

而且,幻觉问题(即模型产生的不真实内容),能否从源信息推断出来的问题并不完全相同。

基于Factualness Classification Metric(使用一个度量标准)
  1. 创建数据集:首先,需要准备一批数据,这些数据包括了真实(factual)和虚假(illusory,也就是“幻觉”)的信息。这些数据被用来表示什么是正确的信息,什么又是错误或虚构的信息。

  2. 训练模型:接着,使用这批数据来训练一个机器学习模型。这个模型的目的是学会区分真实和虚假的信息。它通过分析数据中的特征,学习判断信息的真实性。

  3. 评估新文本:一旦模型被训练好,就可以用它来评估新生成的文本。这个过程涉及到将新文本输入到模型中,模型会根据它所学到的,判断这些文本是更倾向于真实信息还是虚假信息。

这个方法是通过训练一个专门的模型来自动判断文本信息的真实性。

它可以帮助识别那些可能误导或不准确的内容,从而提高信息的质量和可信度。

人工评估

直接由专业的评估人员,评估生成文本的质量,这通常被认为是最可靠的方法,但也是成本最高的。

GPT 自动评估

在某些情况下使用经过训练的语言模型(如GPT-4)来辅助评估。

问题:但是GPT4也存在着严重的幻觉问题,即使经过retrival-augment,检索回来的 人工评估 信息也有可能是错误的。


上图介绍的是一个自动评估GPT模型性能的框架。

这个评估过程大致如下:

  1. 准备数据集:首先需要有一个预先定义好的数据集,它包含了各种类型的问题和对应的标准答案。这些数据通常是以JSON格式存储的,就像图中给出的示例那样。

  2. 设置评估环境:使用图中提供的用户界面,需要ChatGPT API Key。这是因为评估过程需要通过API与ChatGPT模型进行交互,以获得其对问题的回答。

  3. 选择问题进行评估:从数据集中选择特定的问题类型或者所有问题进行评估

  4. 运行评估:系统会自动使用ChatGPT模型来回答选定的问题,并将模型的回答与标准答案进行比较。

  5. 计算评分:评估系统会根据模型的回答和标准答案的一致性来给出分数。在图中提到,如果一个回答部分正确,可能会得到0.5分的评分。

  6. 分析结果:评分结果可以帮助你了解GPT模型在不同类型的问题上的表现,哪些做得好,哪些需要改进。

  7. 改进模型:根据评估结果,你可以调整和优化你的模型,比如重新训练,调整参数,或者引入新的数据以提高准确性。

  8. 使用工具和脚本:图中提供的GitHub链接自动评估的工具和脚本

 


幻觉解决方案?

幻觉修正

arXiv.org 上相关论文研究:

  • 人在回路的幻觉消除:利用人类的输入来指导模型,减少错误信息的生成。
  • 利用多智能体辩论显著提升LM的事实性和推理能力:通过让多个AI模型相互辩论来提高生成文本的事实性和推理能力。
  • 训练小模型后处理幻觉问题:使用额外的小型模型来校正主模型生成的答案。
  • 通过推理时干预诱导LLM生成符合事实的答案:在模型进行推理时进行干预,以确保生成的答案是基于事实的。
  • 工具增强的LLM自动纠正:使用工具来自动检测和纠正模型的错误。
  • 零资源黑盒事实错误纠正:在没有额外信息的情况下纠正错误。
  • 基于外部知识和自动反馈提升事实性:使用外部知识库和自动化的反馈机制来增强模型的事实性。
  • 事实性增强的语言模型:开发了特别强调事实性的语言模型。

幻觉缓解

构建高质量数据集

  1. 加权可信数据:在训练模型的时候,给那些来源可靠的数据(比如维基百科)更多的重视,而对那些不那么可靠的数据(比如假新闻)不予考虑。
  2. 筛选数据:用模型帮助我们检查数据集,找出那些可能让模型产生错误信息的数据,并将其删除。

优化模型结构

  1. 融入人类偏置的设计:想象一下,如果你要制作一个能理解和处理信息的模型,你会想让它像人类那样思考。这里的建议就是在模型的设计中加入一些类似于人脑处理信息的方式。比如用图神经网络(GNN)这样的技术,它可以帮助模型更好地理解和组织复杂的信息,就像人脑那样。

  2. 减少生成时的随机性:想象你在写故事,但是要确保故事里的事实都是正确的。如果你让故事内容太随机,可能会出现一些不真实或不相关的部分。这个建议是说,在生成信息时,减少这种随机性或多样性,可以帮助确保模型生成的内容更加真实可靠。

  3. 使用检索增强:这个方法就像是在写作时查阅资料一样。通过查找和参考现有的信息和数据,模型可以更准确地生成相关的内容。这样做可以减少那些毫无根据或者不真实的“幻觉”内容的出现。

优化训练方式

  1. 可控文本生成:将幻觉的程度作为一个可控的属性,利用可控文本生成技术进行控制。

    这就像是有一个调节器,可以控制故事里虚构成分的多少。如果你想要更多基于现实的内容,就减少虚构元素;反之亦然。这样做可以更好地控制模型生成的内容,确保它既有创意又贴近现实。

  2. 提前规划骨架,再生成内容:先画一个简单的草图,然后再根据这个草图来完善和细化。先确定大致的结构或主题,然后再生成具体的内容,这样可以帮助模型更有组织、更准确地生成信息。

  3. 强化学习:这有点像训练宠物。你给模型一个任务,如果它做得好,就给它奖励;如果做得不好,就不给奖励。通过这种方式,模型学会了如何生成更准确、更少错误的内容。

  4. 多任务学习:这就像是让模型同时学习多种技能。比如,除了学习生成文本,它还可以学习其他任务,比如理解文本的情感。这样多方面的学习可以帮助模型更全面,更少出错。

  5. 后处理:这就好比是在写完文章后再进行校对。设计一个小模型,专门用来检查和修正已经生成的内容中的错误,确保最终的输出更加准确无误。

幻觉相关研究

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/595228.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Elasticsearch基本操作之索引操作

本文说下Elasticsearch基本操作之索引操作 文章目录 概述创建索引创建索引示例重复创建索引示例 查看索引查看所有索引查看单个索引 删除索引删除索引 概述 由于是使用命令来操作Elasticsearch,可以使用kibana,postman和apifox等工具 我使用了apifox来执…

【bug】【VSCode】远程终端TERMINAL打不开

【bug】【VSCode】远程终端TERMINAL打不开 可能的原因现象分析解决 可能的原因 昨天晚上vscode在打开多个TERMINAL的情况下,挂了一晚上,今早上来看的时候全都lost connections…。然后关闭再打开就出现了如上现象。 早上一来到实验室就要debug… 现象…

西北工业大学计算机组成原理实验报告——verilog前两次

说明 为了有较好的可读性,报告仅仅粘贴关键代码。该PDF带有大纲功能,点击大纲中的对应标题,可以快速跳转。 实验目标 掌握单周期CPU执行指令的流程和原理;学习使用verilog HDL语言实现单周期CPU, 并通过功能仿真;提…

k8s之pod

pod是k8s中最小的资源管理组件 pod也是最小化运行容器化的应用的资源管理对象 pod是一个抽象的概念,可以理解成一个或者多个容器化应用的集合 pod可以是一个或者多个 在一个pod中运行一个容器(最常用的方式) 在一个pod中同时运行多个容器…

第二证券:长期布局重要窗口或至 险资看涨A股

新年伊始,稳妥资金对2024年权益商场出资更为达观。多家险资组织告诉上海证券报记者,在经历了2023年的震动调整行情后,2024年A股商场机遇大于危险,商场体现或将显着优于2023年。 详细来看,两方面要素支撑权益商场向好&…

总结MySQL 的一些知识点:MySQL 排序

🌷🍁 博主猫头虎(🐅🐾)带您 Go to New World✨🍁 🦄 博客首页——🐅🐾猫头虎的博客🎐 🐳 《面试题大全专栏》 🦕 文章图文…

[每周一更]-(第56期):不能不懂的网络知识

作为程序员,在网络方面具备一定的知识和技能是非常重要的。以下是一些程序员需要熟练掌握的网络知识: 基础网络概念: IP地址:了解IPv4和IPv6地址的格式和分配方式,以及常见的IP地址分类。子网掩码:理解子…

Vue3 使用路由 Router

Vue3 使用路由 Router 之前几篇博文说了一下 vue 的基本语法和 vue 的传参,今天这篇博文稍微说一下 vue3 里面使用路由。 介绍 众所周知,vue 是用来构建单页面应用的前端框架,大于大多数此类型应用来讲,都推荐使用官方支持的 vue…

宋仕强论道之华强北后山寨手机时代(三十六)

今天继续讲华强北山寨手机,跟手机配套周边产品。华强北,作为中国电子产品的集散地和创新中心,一直以来都是电子产品和数码产品的聚集地。在早期,赛格市场以其走私、翻新的电脑和电脑周边产品而闻名。赛格大厦以前5楼以上都是做电脑…

乒乓球廉价底板评测之五F勒布伦打法讨论

菲利克斯勒布伦的直拍打法让直板又焕发了青春,那他的打法又有什么特点呢?和中国众多直板选手的区别在哪呢?这篇微博我们简单分一下。 首先说下他的器材,纤维板中置碳,淘宝上的版本是碳在大芯两侧,是七层板&…

Unity中URP下统一不同平台下的z值

文章目录 前言一、ComputeFogFactor 来计算雾效混合因子二、UNITY_Z_0_FAR_FROM_CLIPSPACE 来统一计算不同平台下的Z值1、DirectX平台2、GL平台下(在Unity.2022.LTS下,该功能没有完善)3、Opengl下 前言 在之前的文章中,我们实现了URP下的雾效…

电动汽车BMS PCB制板的技术分析与可制造性设计

随着电动汽车行业的迅猛发展,各大厂商纷纷投入巨资进行技术研发和创新。电动汽车的核心之一在于其电池管理系统(Battery Management System, BMS),而BMS的心脏则是其印刷电路板(PCB)。通过这篇文章探讨电动…

Graphics Control

Graphics Control提供了一个易于使用的图形设置管理解决方案,帮助您加快开发。它附带了一个常用设置库,如分辨率、垂直同步、全屏模式、光晕、颗粒、环境光遮挡等。我们的可自定义设置面板UI预制件为您提供了一个可用的UI面板,支持完整的游戏手柄和键盘输入。图形控制还附带…

Spark---RDD介绍

文章目录 1.Spark核心编程2.RDD介绍2.1.RDD基本原理2.2 RDD特点1.弹性2.分布式 :数据存储在大数据集群的不同节点上3.数据集 :RDD封装了计算逻辑,并不保存数据4.数据抽象 :RDD是一个抽象类,具体实现由子类来实现5. 不可…

CCF模拟题 202312-1 仓库规划

问题描述 试题编号: 202312-1 试题名称: 仓库规划 时间限制: 1.0s 内存限制: 512.0MB 问题描述: 输入格式 输出格式 样例输入 4 2 0 0 -1 -1 1 2 0 -1样例输出 3 1 0 3样例解释 Java实现代码: import …

macbook录屏快捷键大全,教你快速录制视频

“有人知道macbook电脑有录屏快捷键吗,现在录屏的速度太慢了,每次打开都要浪费不少时间,要是有录屏快捷键,应该会快很多,有哪位大佬知道吗?教教我!” 无论是在工作还是生活中,电脑已…

生活中危险的气体:一氧化碳与二氧化碳中毒的症状及安全预防措施

一氧化碳和血红蛋白亲和力超过氧气,会占用血红蛋白,导致缺氧。 二氧化碳会和血浆结合,导致血液pH值不正常,抑制呼吸,导致窒息。 通俗点说:一氧化碳是中毒,二氧化碳则是窒息。 一氧化碳中毒 …

通过Vue自定义指令实现前端埋点

在营销活动中,通过埋点可以获取用户的喜好及交互习惯,从而优化流程,进一步提升用户体验,提高转化率。 在之前的埋点方案实现中,都是在具体的按钮或者图片被点击或者被曝光时主动通过事件去上报埋点。这种方法在项目中…

K8Spod组件

一个pod能包含几个容器 一个pause容器(基础容器/父容器/根容器) 一个或者多个应用容器(业务容器) 通常一个Pod最好只包含一个应用容器,一个应用容器最好也只运行一个业务进程。 同一个Pod里的容器都是运行在同一个node节点上的,并且共享 net、…

javaweb学习笔记

JSP 动态网页,指的是随时间、地点、用户操作改变的网页 架构 CS架构 client-server 缺点:每一台客户端都需要安装客户端软件,如果升级全要升级,如果坏了就得维护 优点:响应快,界面美观 BS架构 browser-…