大模型与大模型的幻觉问题

参考

大模型中的涌现
OpenAI 科学家:幻觉是大模型与生俱来的特性,而非缺陷
大模型「幻觉」,看这一篇就够了|哈工大华为出品

大模型

什么是大模型

大语言模型(LLM)是基于海量文本数据训练的深度学习模型。它不仅能够生成自然语言文本,还能够深入理解文本含义,处理各种自然语言任务,如文本摘要、问答、翻译等。
2023年,大语言模型及其在人工智能领域的应用已成为全球科技研究的热点,其在规模上的增长尤为引人注目,参数量已从最初的十几亿跃升到如今的一万亿。
大模型的模型发展如下图

在这里插入图片描述

涌现

参考:大模型中的涌现

什么是涌现?先从蚂蚁开始说起。蚂蚁是自然界中一种个体非常简单,但是群体能力非常强大的生物。单只蚂蚁的行为模式很简单,但是蚂蚁群体可以发挥出惊人的智慧,能完成非常复杂的任务,比如建造庞大的蚁穴、合作捕猎等。

一只蚂蚁的智能是有限的,但是一群蚂蚁结合起来,会形成一个有智能的群体。这种集体智慧并不是蚂蚁个体简单相加得到的。蚂蚁集合在一起,产生了一加一大于二的效果。这就是涌现现象。

涌现的定义

涌现的定义
涌现是一个描述在复杂系统中出现的新的、无法简单从其组成部分推导出的性质或结构的术语。它通常用于指代当系统的各个部分相互作用时,产生的新的、通常是不可预测的整体特性。这些特性不能还原为单个组成部分的简单总和,而是在系统层面上“突现”的。
在历史上,涌现这一概念由不同的学者以不同的方式定义。例如,哲学家乔治·亨利·刘易斯在19世纪创造了这个词,以描述那些不能仅仅通过组合各个部分来理解的复杂现象。而现代学者,如杰弗里·戈斯坦和彼得·科宁,进一步细化了涌现的定义,强调它是在系统自组织过程中出现的新的、连贯的结构、模式或性质。
涌现可以分为几个不同的类别,包括弱涌现和强涌现。弱涌现指的是系统中的新特性虽然不能从单个组成部分推导出来,但仍然可以还原为这些组成部分的某种组合。相比之下,强涌现则认为新特性是完全无法还原的,它们是超越组成部分总和的。
在现实世界中,涌现现象的例子包括天气系统、生态系统、经济市场、以及社会行为等。在这些系统中,单个元素(如空气分子、生物个体、交易或个人)的相互作用会产生新的、宏观层面上的性质(如风暴、生态平衡、经济周期或社会运动),这些性质在单个元素层面上是无法预见的。
涌现理论对于多个领域,如物理学、生物学、经济学、社会学和计算机科学等,都具有重要的启发意义。它提醒我们,当研究复杂系统时,需要考虑到各个组成部分之间的相互作用,并且要意识到整体可能会呈现出无法从部分推导出的新特性。

总结下:涌现即大量个体组成的整体,表现出个体不具备的能力。
在这里插入图片描述
什么是大模型中的涌现?在较小的模型中不出现,而在较大的模型中出现的能力,称为涌现。

我们看这张图片,它包含8张子图。分别在是八个不同的子任务下测试大模型的few-shot的能力。横轴是模型的规模(注意这里是用training FLOPs来衡量,而不是用参数量来衡量),纵轴的模型的表现,用一些评估指标来衡量,比如accuracy。可以很明显地看到,training FLOPs在10的22次方处,是一个发生涌现的临界点。在这个数之前,模型的表现平平无奇,和随机猜测差不多。而在这个数之后,模型的效果得到了突飞猛进般的提升。

第一篇整体分析LLM涌现能力的人是jason wei,在此之前,他先后发表了instruction tuning和CoT(思维链)的论文。这个顺序关系很自然,先是instruction tuning,然后是思维链,最后上升到了涌现的高度。关于instruction tuning和CoT,也是值得讲的内容,后面看有没有机会分享这些方面的内容。

涌现,是复杂科学下的一个概念。

复杂科学

什么是复杂科学?复杂科学,就是运用跨学科方法,研究不同复杂系统之中的涌现行为和统一性规律的学科。复杂科学关键词如下:混沌、分形、复杂网络、自由意志、熵增。
在这里插入图片描述

复杂科学的很多概念,起初不被主流科学界认可。很多人认为复杂科学里的很多概念是伪科学,是因为它无法用科学里流行的还原论来解释。
还原论是说“如果你理解了整体的各个部分,以及把这些部分整合起来的机制,你就能够理解这个整体”。但涌现不是这样,涌现指的是,整体拥有个体不具备的特征。

我再举个简单的例子:假如时间回到20年前,我们不知道怎么造航空母舰。突然间我们获得了一艘退役的航空母舰,于是我们把航空母舰拆开,每个部分每个零件都去研究透彻。然后我们依葫芦画瓢,可以造出一艘几乎一样的航空母舰。这就是还原论。还原论的对立面是什么?是即使你研究透每一个零件,拼在一起仍然不能组成航空母舰。这是坏的情况。或者另外一个极端情况是,你拼接好了,组成一艘航空母舰之后,不仅成功造了一艘航空母舰,而且这艘航空母舰竟然还会说话。这就是涌现。

如何解决大模型的「幻觉」问题?

方向一:什么是大模型「幻觉」

大模型出现幻觉,简而言之就是“胡说八道”。
用文中的话来讲,是指模型生成的内容与现实世界事实或用户输入不一致的现象。
研究人员将大模型的幻觉分为事实性幻觉(Factuality Hallucination)和忠实性幻觉(Faithfulness Hallucination)。
在这里插入图片描述

△左,事实性幻觉;右,忠实性幻觉
事实性幻觉,是指模型生成的内容与可验证的现实世界事实不一致。

比如问模型“第一个在月球上行走的人是谁?”,模型回复“Charles Lindbergh在1951年月球先驱任务中第一个登上月球”。实际上,第一个登上月球的人是Neil Armstrong。
事实性幻觉又可以分为事实不一致(与现实世界信息相矛盾)和事实捏造(压根没有,无法根据现实信息验证)。

忠实性幻觉,则是指模型生成的内容与用户的指令或上下文不一致。

比如让模型总结今年10月的新闻,结果模型却在说2006年10月的事。
忠实性幻觉也可以细分,分为指令不一致(输出偏离用户指令)、上下文不一致(输出与上下文信息不符)、逻辑不一致三类(推理步骤以及与最终答案之间的不一致)。

OpenAI 科学家 Andrej Karpathy关于大模型幻觉

在 Karpathy 看来:
从某种意义上说,大语言模型的全部工作恰恰就是制造幻觉,大模型就是「造梦机」。
另外,Karpathy 的另一句话,更是被许多人奉为经典。他认为,与大模型相对的另一个极端,便是搜索引擎。
「大模型 100% 在做梦,因此存在幻觉问题。搜索引擎则是完全不做梦,因此存在创造力问题」。
总而言之,LLM 不存在「幻觉问题」。而且幻觉不是错误,而是 LLM 最大的特点。只有大模型助手存在幻觉问题。

方向二:造成大模型「幻觉」的原因

那么致使大模型产生幻觉的原因都有哪些?

在这里插入图片描述
在这里插入图片描述

方向三:大模型幻觉的检测基准

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

方向四:大模型幻觉解决该问题的方法

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

论文链接:https://arxiv.org/abs/2311.05232

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/592769.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【数据结构】手撕排序(排序的概念及意义、直接插入和希尔排序的实现及分析)

目录 一、排序的概念及其运用 1.1排序的概念 1.2排序运用 1.3 常见的排序算法 二、插入排序 2.1基本思想: 2.2直接插入排序: 2.3步骤: 2.4直接插入排序的实现 三、希尔排序( 缩小增量排序 ) 3.1希尔排序的发展历史 3.2 希尔…

子进程继承了内存映射mmap导致flock文件锁泄露

背景 想要利用文件锁在进程退出时自动释放的机制,让守护进程管擦某些资源的释放,并执行相关清理/重启工作。然而发现守护进程在父进程退出时永远饿死。 问题伪代码 主进程子进程 安装信号捕获,每当有信号时print并退出,对子进…

解决跨域问题(SpringBoot)

“什么是跨域?” 跨域 (Cross-Origin) 是指在浏览器的同源策略(Same-Origin Policy)下,一个网页的源(指协议、域名、端口号的组合)与另一个网页的源不同。因此,不同源的…

提升WiFi安全的有效措施

今天买了一个USB无线网卡,想知道这个黑客攻击WiFi的基本流程是怎么样的,买回来意外就发生了,哈哈:这个网卡只支持2GWiFi网络类型,并且不支持WPA3网络加密方式。 你不能希望黑客永远是一个有很多钱的人,或许…

如何提高提问的水平?

以下是由 Google Bard 的回答。 提高提问水平,可以从以下几个方面入手: 明确问题的目的。 提问之前,先明确自己想通过提问达到什么目的。是想获得某个信息?是想了解某个概念?还是想解决某个问题?明确目的&…

综合场景搭建、在线分享,这款地理空间数据管理软件功能太多了!

《四维轻云》是一款轻量化的地理空间数据管理云平台,支持地理空间数据的在线管理、编辑及分享。平台具有项目管理、数据上传、场景搭建、发布分享、SDK开发等功能模块,支持多用户在线协作管理,实现了轻量化、便捷化的空间数据应用。 一、发布…

YOLOv5改进Shape-IoU损失函数:元旦假期最新 IoU论文 | 考虑边界框形状和比例的更准确的指标,YOLO性能提升

💡本篇内容:YOLOv5改进Shape-IoU损失函数:元旦假期最新 IoU论文 | 考虑边界框形状和比例的更准确的指标,YOLO性能提升 💡🚀🚀🚀本博客 改进源代码改进 适用于 YOLOv5 按步骤操作运行改进后的代码即可 💡论文地址:https://arxiv.org/abs/2312.17663 2023年12月…

linux下超级程序!在linux界面实现类图像化界面的操作体验!

linux下超级程序!在linux界面实现类图像化界面的操作体验! 本期带来一个超级程序!在linux界面实现类图像化界面的操作体验。具体功能代码如下: 1500行完整代码想要完成部署,只需在本地创建一个LinuxGJ.sh的文件,然后…

vue+ts element-plu是页码器根据屏幕宽度变化,解决刷新后初始化值问题

实现思路&#xff1a;组件挂载后执行初始化操作&#xff0c;初始化添加事件监听器&#xff0c;当浏览器窗口大小发生变化时会调用这个函数handleResize <el-pagination v-model:current-page"currentPage" background :total"total" layout"prev,…

Go中interface != nil不一定不是nil

摘要&#xff1a; interface{} 值 ! nil不一定不是nil&#xff0c;应使用reflect库判断是否是nil。 测试示例&#xff1a; // todo interface ! nil 不一定 不是nil var value map[string]interface{} reqMap : make(map[string]interface{}) reqMap["key"] valu…

Vue.js 3.4版本发布:解析速度提升2倍,双向绑定革新等新功能

引言 随着2024年的来临,Vue团队的领军人物Evan You宣布了Vue.js 3.4的发布。这个版本不仅仅是修复了一些bug,还带来了一些非常实用的新功能和性能提升。 解析速度提升2倍 这次更新中,Vue.js 3.4实现了解析速度的大幅提升。尤其是在构建模板和脚本的源代码映射时,单文件组…

优维科技2024战略定位:新一代运维核心系统提供商

01 经济复苏「走远路」 过去几年&#xff0c;全球经济持续低迷&#xff0c;2024会迎来转机吗&#xff1f; 回顾2023年&#xff0c;尽管经济复苏动能式微&#xff0c;但全球经济因有效控制通胀而展现出来的韧性&#xff0c;让包括中国在内的大部分经济体躲过了深度衰退的陷阱&…

C语言所有操作符总结

目录 算术操作符&#xff1a; 移位操作符&#xff1a; 位操作符&#xff1a; 赋值操作符&#xff1a; 单目操作符&#xff1a; 关系操作符&#xff1a; 逻辑操作符&#xff1a; 以及特殊的操作符&#xff08;条件&#xff0c;逗号&#xff0c;下标&#xff0c;调用&…

鸿蒙开发第一天

一、开发准备工作 1、开发工具的安装 1&#xff09;下载地址&#xff1a;https://developer.huawei.com/consumer/cn/deveco-studio/ 2&#xff09;查询API文档链接&#xff1a;https://developer.huawei.com/consumer/cn/doc/harmonyos-references-V2/syscap-00000014080893…

Spring之bean的实例化方式

1.使用构造方法实例化bean&#xff08;利用反射&#xff09; import lombok.Data;Data public class People {private String name;private Integer age;private String eat; }<?xml version"1.0" encoding"UTF-8"?> <beans xmlns"http:/…

【MySQL】关于日期转换的方法

力扣题 1、题目地址 1853. 转换日期格式 2、模拟表 表: Days Column NameTypedaydate day 是这个表的主键。 3、要求 给定一个Days表&#xff0c;请你编写SQL查询语句&#xff0c;将Days表中的每一个日期转化为"day_name, month_name day, year"格式的字符串…

【C语言】编程世界的不朽基石与未来展望

C语言&#xff0c;一种经久不衰的高级编程语言&#xff0c;自1972年由Dennis Ritchie在AT&T贝尔实验室开发以来&#xff0c;已深深扎根于编程语言的发展历程中。它既是计算机科学史上的一个重要里程碑&#xff0c;也是现代软件开发的核心支柱。从操作系统到嵌入式系统的构建…

一篇关于大模型在信息抽取(实体识别、关系抽取、事件抽取)的研究进展综述

信息提取&#xff08;IE&#xff09;旨在从普通自然语言文本中提取结构化知识&#xff08;如实体、关系和事件&#xff09;。最近&#xff0c;生成式大型语言模型&#xff08;LLMs&#xff09;展现了在文本理解和生成方面的卓越能力&#xff0c;使得它们能够广泛应用于各种领域…

Java解析xml文档,判断对象是一个json是jsonArray还是jsonObject

有一篇xml文档&#xff0c;如下&#xff1a; 现在需要解析出其中的内容&#xff0c;首先需要明确的是&#xff0c;文档是由一个个的标签嵌套形成的&#xff0c;例如整个xml文件是由许多DescriptorRecord标签构成&#xff0c; <DescriptorRecord DescriptorClass "1&…

基于ssm的旅游网页开发与设计+jsp论文

摘 要 信息数据从传统到当代&#xff0c;是一直在变革当中&#xff0c;突如其来的互联网让传统的信息管理看到了革命性的曙光&#xff0c;因为传统信息管理从时效性&#xff0c;还是安全性&#xff0c;还是可操作性等各个方面来讲&#xff0c;遇到了互联网时代才发现能补上自古…