【AI学习】Lilian Weng:Extrinsic Hallucinations in LLMs(LLM 的外在幻觉)

来自OpenAI 的 Lilian Weng的《Extrinsic Hallucinations in LLMs》
Date: July 7, 2024 | Estimated Reading Time: 30 min | Author: Lilian Weng

文章链接:https://lilianweng.github.io/posts/2024-07-07-hallucination/

大概看了一下,这篇文章的核心内容和观点是讨论大型语言模型(LLM)中的外在幻觉问题。外在幻觉是指模型生成不真实、捏造、不一致或无意义的内容。同样重要的是,当模型不知道某个事实时,它应该这么说。
文章主要探讨了外在幻觉的原因、检测方法和减少幻觉的策略。

原因:

  1. 训练前数据问题: 预训练数据语料库可能包含过时、缺失或不正确的信息。
  2. 微调新知识: 微调阶段可能引入新的错误信息。(1) LLM 学习具有新知识的微调示例的速度比其他具有与模型预先存在的知识一致的知识的示例慢;(2) 一旦最终学习了具有新知识的例子,它们就会增加模型的幻觉倾向。

幻觉检测:

  • FactualityPrompt: 通过事实和非事实提示组成,使用Wikipedia文档或句子作为事实基础的知识库。
  • 幻觉NE错误和蕴涵比率: 使用实体检测模型和文档级接地,测量未出现在真值文档中的命名实体的比例。
  • FActScore: 将长格式生成分解为多个原子事实,并根据Wikipedia等知识库分别验证每个事实。

减少幻觉的策略:

  1. 检索增强评估: 使用检索来使模型生成奠定基础,有助于减少幻觉。
  2. SAFE: 搜索增强事实评估器,使用语言模型作为代理,在多步骤过程中选代地发出Google搜索查询。
  3. FacTool: 检测各种任务中的事实错误,包括基于知识的QA、代码生成、数学问题解决和科学文献综述。
  4. SelfCheckGPT: 依赖于对来自黑盒LLM的多个样本的事实性错误的一致性检查。
  5. 未知知识的校准: 提示模型生成对无法回答或未知问题的回答可能会触发幻觉。

抗幻觉方法:

  • RAG: 检索增强生成,通过检索相关文档,然后使用相关文档作为额外的上下文生成。
  • RARR: 使用研究和修订进行改造归因,追溯性地使LLM能够通过EditingforAttribution支持对外部证据的归因。
  • FAVA: 使用增强知识进行事实验证,检索相关文档,然后编辑模型输出以避免幻觉错误。

事实性微调:

  • TopicPrefix: 在每个句子前面附加主题以提高对事实的认识。
  • 句子完成损失: 专注于句子的后半部分,因为句子的后半部分包含更多事实知识。

归因微调:

  • WebGPT: 结合文档检索与微调的GPT模型,旨在回答长篇问题以减少幻觉并实现更好的事实准确性。
  • GopherCite: 使用搜索引擎创建支持资料和教学模型来提供参考。

文章最后提供了一个评估基准的附录,列出了用于衡量LLMs中幻觉的各种数据集。

将文章通过在线翻译,转换了贴在下面,供大家参考

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/880382.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

深度学习与应用:行人跟踪

**实验 深度学习与应用:行人跟踪 ** ------ **1、 实验目的** ------ - 了解行人跟踪模型基础处理流程 - 熟悉行人跟踪模型的基本原理 - 掌握 行人跟踪模型的参数微调训练以及推理的能力 - 掌握行人跟踪模型对实际问题的应用能力,了解如何在特定的场景和…

MT6765/MT6762(R/D/M)/MT6761(MT8766)安卓核心板参数比较_MTK联发科4G智能模块

联发科Helio P35 MT6765安卓核心板 MediaTek Helio P35 MT6765是智能手机的主流ARM SoC,于2018年末推出。它在两个集群中集成了8个ARM Cortex-A53内核(big.LITTLE)。四个性能内核的频率高达2.3GHz。集成显卡为PowerVR GE8320,频率…

Snap 发布新一代 AR 眼镜,有什么特别之处?

Snap 发布新一代 AR 眼镜,有什么特别之处? Snap 简介 新一代的 AR 眼镜特点 Snap 简介 Snap 公司成立于 2010 年,2017 年美国东部时间 3 月 2 日上午 11 时许,在纽交所正式挂牌交易,股票代码为 “SNAP”。其旗下的核…

vue循环渲染动态展示内容案例(“更多”按钮功能)

当我们在网页浏览时,常常会有以下情况:要展示的内容太多,但展示空间有限,比如我们要在页面的一部分空间中展示较多的内容放不下,通常会有两种解决方式:分页,“更多”按钮。 今天我们的案例用于…

自建数据库VS云数据库:从《中国数据库前世今生》看未来数据管理的抉择

自建数据库VS云数据库:从《中国数据库前世今生》看未来数据管理的抉择 在数字化时代的滚滚洪流中,数据库作为核心数据管理工具,始终扮演着至关重要的角色。最近观看了纪录片《中国数据库前世今生》,让我对数据库技术的发展有了更…

11. Map和Set

一、二叉搜索树 1. 概念 二叉搜索树又称二叉排序树,它或者是一棵空树,或者是具有以下性质的二叉树: 若它的左子树不为空,则左子树上所有节点的值都小于根节点的值若它的右子树不为空,则右子树上所有节点的值都大于根…

Python爬虫之requests模块(一)

Python爬虫之requests模块(一) 学完urllib之后对爬虫应该有一定的了解了,随后就来学习鼎鼎有名的requests模块吧。 一、requests简介。 1、什么是request模块? requests其实就是py原生的一个基于网络请求的模块,模拟…

甘蔗茎节检测系统源码分享

甘蔗茎节检测检测系统源码分享 [一条龙教学YOLOV8标注好的数据集一键训练_70全套改进创新点发刊_Web前端展示] 1.研究背景与意义 项目参考AAAI Association for the Advancement of Artificial Intelligence 项目来源AACV Association for the Advancement of Computer Vis…

Dependency Check:一款针对应用程序依赖组件的安全检测工具

关于Dependency Check Dependency-Check 是一款软件组合分析 (SCA) 工具,可尝试检测项目依赖项中包含的公开披露的漏洞。它通过确定给定依赖项是否存在通用平台枚举 (CPE) 标识符来实现此目的。如果找到,它…

【HTTP】请求“报头”,Referer 和 Cookie

Referer 描述了当前这个页面是从哪里来的(从哪个页面跳转过来的) 浏览器中,直接输入 URL/点击收藏夹打开的网页,此时是没有 referer。当你在 sogou 页面进行搜索时,新进入的网页就会有 referer 有一个非常典型的用…

绝了,自从用了它,我每天能多摸鱼2小时!

大家好,我是可乐。 俗话说的好:“摸鱼一时爽,一直摸鱼一直爽”。 作为一个程序员,是否有过调试代码熬到深夜?是否有过找不到解决方案而挠秃头顶? 但现在你即将要解放了,用了这款工具——秘塔…

PicoQuant公司的PicoHarp 300停产公告

尊敬的用户,您们好! 今天,我们完成了PicoHarp 300最后一份订单,这也是自第一台PicoHarp 300号售出20年后的最后一份订单。 PicoHarp 300作为市场上第一款USB-TCSPC设备,PicoHarp 300已售出约1600台,为Pic…

SpringCloudEureka简介

背景 SpringCloudEureka是基于NetfliEureka做了二次封装,负责微服务架构的服务治理功能。 SpringCloud通过为Eureka增加SpringBoot风格的自动化配置,只需要简单的引入依赖和注解配置,就能让SpringBoot构建的微服务应用轻松和Eureka服务治理体…

安卓13去掉下拉菜单的Dump SysUI 堆的选项 android13删除Dump SysUI 堆

总纲 android13 rom 开发总纲说明 文章目录 1.前言2.问题分析3.代码分析3.1 位置13.2 位置24.代码修改5.编译6.彩蛋1.前言 客户需要去掉下拉菜单里面的Dump SysUI 堆图标,不让使用这个功能。 2.问题分析 android的下拉菜单在systemui里面,这里我们只需要定位到对应的添加代…

找到你的工具!5款免费可视化报表工具对比分析

选择合适的可视化工具对于分析和展示数据至关重要,以下是五款免费的可视化工具,它们各具特色,能够适应各种需求。本文将介绍每款工具的优势与不足,帮助你找到最合适的解决方案。 1. 山海鲸可视化 介绍:山海鲸可视化是…

【Linux】当前进展

驱动层日志添加了下文件目录,函数,代码行的打印(这里要小心,驱动目录源代码打印日志里边添进程号可能有问题,因为在驱动初始化的时候,内核还没有创建进程,不过猜测可以先不打印进程相关信息&…

计算机网络34——Windows内存管理

1、计算机体系结构 2、内存管理 分为连续分配管理和非连续分配管理 在块内存在的未使用空间叫内部碎片,在块外存在的未使用空间叫外部碎片 固定分区分配可能出现内部碎片,动态分区分配可能出现外部碎片 3、逻辑地址和实际地址的互相转换 4、缺页中断 …

算法.图论-并查集

文章目录 1. 并查集介绍2. 并查集的实现2.1 实现逻辑2.2 isSameSet方法2.3 union方法(小挂大优化)2.4 find方法(路径压缩优化) 3. 并查集模板4. 并查集习题4.1 情侣牵手4.2 相似字符串组 1. 并查集介绍 定义: 并查集是一种树型的数据结构,用于处理一些不…

SentencePiece进行文本分类

SentencePieces 前言 Step1:故事 SentencePiece 是一个无监督的文本分词器和 detokenizer(还原回去的?)主要用于词汇表大小是预定的文本生成系统中它拓展了原始句子的训练,实现子词单元如 BPE 和 unigram language model技术亮点 纯数据驱动&#xff…

Azure Kinect 人体跟踪关节

Azure Kinect 人体跟踪关节 azure kinect dk 提取人体骨骼 要在Azure Kinect DK上提取人体骨骼,你需要使用Azure Kinect SDK和OpenPose库。以下是一个简化的代码示例,展示如何集成这两个库来提取骨骼关键点: 首先,确保你已经安装…