大模型笔记:幻觉 hallucination

1 介绍

  • “幻觉” (Hallucination),指模型生成自然流畅,语法正确但实际上毫无意义且包含虚假信息即事实错误的文本,以假乱真,就像人产生的幻觉一样。 

举个例子就是,即使现在的chatgpt-4,你问他一些有确切答案的问题,他也会“说胡话”

看起来语法语义上没什么问题,但那个赛季上港是21胜5平4负积68分(数据来自懂球帝)

2 幻觉分类

  • 内部幻觉 (intrinsic hallucination) 
    • 生成的文本与给定源文本出现不忠实 (unfaithfulness) 或不一致 (inconsistency) 的现象
    • 常见于文本摘要任务中,生成的摘要与原文不一致
  • 外部幻觉 (extrinsic hallucination)
    • 生成内容在源文本中并未提及,虽然不能找出相关证据,但也不能断言这就是错误的

3 幻觉的成因

  • 生成的文本 𝑌 由源文本 𝑋 和语言模型里的先验知识 𝐾 共同决定
    • 由于一般认为给定的源文本都是事实正确的 ground-truth,所以出现的幻觉一般都会归结于语言模型本身包含了错误事实。
      • 语言模型中的先验知识都来自于训练语料,用于训练语言模型的大数据语料库在收集时难免会包含一些错误的信息
      • 这些错误知识都会被学习,存储在模型参数中
      • 模型生成文本时会优先考虑自身参数化的知识,所以更倾向生成幻觉内容
  • 另一方面,模型训练和推理时的差异,也是导致推理时更容易生成幻觉的原因之一
    • 训练通常是teacher forcing,以 ground-truth 作为后续预测 token 的前缀输入
      • 机器学习笔记:RNN值Teacher Forcing_teach learning rnn-CSDN博客
    • 推理则根据历史序列生成来预测下一个 token

4 不一致性(inconsistency)的分类

“不一致” (inconsistency)——用来描述这些文本生成的幻觉问题的另一个更常见的术语

  • 模型自身不一致 (self-inconsistency) 
    • 模型生成的回复与对话历史或与自身已生成回复相矛盾(内部幻觉)
      • 与对话历史的不一致性问题一般来自于历史信息的遗忘,包含与已生成文本相矛盾
        • 这是人设 (persona) 对话中常见的问题
        • 赋予系统一个固定角色,在聊天过程中模型的人设信息会发生变化
  • 外部不一致 (external inconsistency)
    • 对话系统为了生成角色一致且信息丰富的回复,会将包含显式角色信息的外部数据引入系统以辅助模型生成

5 幻觉的评估

5.1 统计的方法

  • 直接计算生成文本和参考目标文本之间的词汇匹配度
    • ROUGE
    • BLEU
    • 精确率&召回率。。。

5.1.1 缺点

  • 大模型的回复往往不唯一,输入与输出是一对多的映射
  • 在实际应用中,覆盖所有可能的输出几乎不可能

5.2 基于模型方法的评估

  • 主要基于自然语言推理 (Natural Language Inference, NLI)
    • 即判断一项假设(生成文本)是否蕴含于前提(参考文本)
    • 基于 NLI 的指标将幻觉分数定义为源文本与生成文本之间的蕴含概率
      • 需要先收集相关蕴含关系的数据集来训练这样一个判别模型

5.2.1 缺点

基于模型的评估方法整体上比词级别的统计方法要适用得多,然而文本蕴含模型只能返回一个分数,无法定位具体生成文本的哪些部分是错误的

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/733189.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

计算机网络 八股

计算机网络体系结构 OSI:物理层、数据链路层、网络层、运输层、会话层、表示层、应用层

【FFmpeg】ffmpeg 命令行参数 ⑤ ( 使用 ffmpeg 命令提取 音视频 数据 | 保留封装格式 | 保留编码格式 | 重新编码 )

文章目录 一、使用 ffmpeg 命令提取 音视频 数据1、提取音频数据 - 保留封装格式2、提取视频数据 - 保留封装格式3、提取视频数据 - 保留编码格式4、提取视频数据 - 重新编码5、提取音频数据 - 保留编码格式6、提取音频数据 - 重新编码 一、使用 ffmpeg 命令提取 音视频 数据 1…

如何批量加密U盘?U盘如何批量设置密码?

但U盘数量较多时,加密U盘的工作就会非常麻烦。这时你需要使用U盘批量加密工具。那么,如何批量加密U盘? 批量加密U盘 想要实现U盘批量加密,我们需要使用专业的U盘批量加密工具,如U盘内存卡批量只读加密专家。它支持批量…

Xargs命令详解: 构建和执行命令的必备工具

xargs,在Unix和大多数类Unix的操作系统中,被广泛使用来从标准输入构建和执行命令。在一些场合下,某些命令无法直接接收标准输入作为参数,而xargs命令将能够用来解决这个问题。 Xargs的功能理解 xargs命令的主要作用是读取来自标…

RabbitMQ发布确认高级版

1.前言 在生产环境中由于一些不明原因,导致 RabbitMQ 重启,在 RabbitMQ 重启期间生产者消息投递失败, 导致消息丢失,需要手动处理和恢复。于是,我们开始思考,如何才能进行 RabbitMQ 的消息可靠投递呢&…

代码随想录训练营第41天 | 动态规划:01背包理论基础、动态规划:01背包理论基础(滚动数组)、LeetCode 416.分割等和子集

动态规划:01背包理论基础 文章讲解:代码随想录(programmercarl.com) 视频讲解:带你学透0-1背包问题!_哔哩哔哩_bilibili 动态规划:01背包理论基础(滚动数组) 文章讲解:代码随想录(…

std::timed_mutex解释

std::timed_mutex 是 C11 标准库中引入的一种互斥量(mutex)类型,它允许线程在尝试获取锁时设置超时时间。如果在超时时间内无法获取锁,线程可以选择放弃锁或者执行其他操作。 std::timed_mutex 类似于 std::mutex,但是…

Dutree:Linux 文件系统磁盘使用追踪工具

在 Linux 系统中,对文件系统的磁盘使用情况进行跟踪和管理是至关重要的。dutree 是一个功能强大的工具,它能够以可视化的方式展示文件系统中的目录和文件的大小,帮助用户更好地了解磁盘空间的使用情况。本文将介绍 dutree 工具的使用方法、功…

Cocos Creator 2d光照

godot游戏引擎是有2d光照的,用起来感觉还是很强大的,不知道他是怎么搞的,有时间看看他们怎么实现的。 之前一直以为cocos社区里面没有2d光照的实现,偶然看到2d实现的具体逻辑,现在整理如下, 一&#xff1…

nextjs上的DDD架构

背景 新入职公司,需要快速把之前杂乱无章的首页(有复杂业务,nextjs)搭一个靠谱的架构,否则基本没办法把事情继续推进了(核心流程需要持续大量适配到不同的后端实现上)。 个人客户端出身&#x…

【java】22:try-catch 异常处理

try-catch 方式处理异常说明 public static void main(String[] args) { int num1 10; int num2 0; try { int res num1 / num2; } catch (Exception e) { System.out.println(e.getMessage()); } } 注意事项 1)如果异常发生了,则异常发生后面的代码不会执行&…

AWK命令详解: 源于UNIX的强大文本处理神器

AWK,1977年由Alfred Aho,Peter J. Weinberger和Brian Kernighan共同在贝尔实验室创建,是一个强大的文本分析工具,跨越了几十年的发展,一直在UNIX和类UNIX系统中广为使用。 AWK的功能理解 AWK主要用于在文本文件中搜索…

前后端分离项目Docker部署指南(下)

目录 前言: 一.安装nginx 创建目录 上传nginx.conf至/data/nginx/conf文件夹中 运行启动容器 上传静态资源文件 ​编辑 访问结果 前言: 在上一篇博客中,我们深入探讨了如何使用Docker部署一个前后端分离的项目中的后端部分。我们构建…

基于qt的图书管理系统----05其他优化

参考b站:视频连接 源码github:github 目录 1 优化借阅记录显示2 时间显示为年月日3 注册接口 1 优化借阅记录显示 现在只能显示部分信息,把接的书名和人的信息全部显示 在sql语句里替换为这一句即可实现查询相关联的所有信息 QString str…

单例九品--第七品

单例九品第七品 上一品引入写在前边代码部分实现思路的评注与思考下一品的设计思考 上一品引入 第六品着重解决了因为链接顺序造成的未定义问题,通过强制对象完成编译期初始化和使用基本类型代替抽象类型,使得全局对象的缺省初始化从不平凡变为平凡初始…

全量知识系统问题及SmartChat给出的答复 之18 三个子系统 之1

Q56.全量 知识系统中的三个子系统 下是全量知识系统的三个子系统的内部需要的内容。请仔细阅读上述内容,先设计一段程序能表示上述信息中你能了解到的部分。 1、数据系统{ projection-语法 key-value }里程牌:数据及数据类型 区划技术板块:…

2024 年 AI 辅助研发发展与趋势研究

引言 这几年,人工智能(AI)技术火得不行,它渗透到了我们生活的方方面面。从帮助我们识别图片、理解语音,到推荐我们喜欢的内容,甚至自动驾驶汽车,AI都在大显身手。特别是在研发领域,…

软考笔记--软件可靠性设计

保障软件可靠性最有效、最经济、最重要的手段是在软件设计阶段采取措施进行可靠性控制。为了从根本上提高软件的可靠性,降低软件后期修改的成本和难度,人们提出了可靠性设计的概念。可靠性设计其实就是在常规软件设计中,应用各种方法和技术&a…

蓝桥杯倒计时 36天-DFS练习

文章目录 飞机降落仙境诅咒小怂爱水洼串变换 飞机降落 思路&#xff1a;贪心暴搜。 #include<bits/stdc.h>using namespace std; const int N 10; int t,n; //这题 N 比较小&#xff0c;可以用暴力搜搜复杂度是 TN*N! struct plane{int t,d,l; }p[N]; bool vis[N];//用…

基于springboot实现大学外卖管理系统项目【项目源码+论文说明】

基于springboot实现大学外卖管理系统演示 摘要 如今&#xff0c;信息化不断的高速发展&#xff0c;社会也跟着不断进步&#xff0c;现今的社会&#xff0c;各种工作都离不开信息化技术&#xff0c;更离不开电脑的管理。信息化技术也越来越渗透到各小型的企业和公司中&#xff…