【人工智能】减轻 LLM 幻觉的 7 大策略

一、说明

   大型语言模型 (LLM) 的引入为人工智能 (AI) 和机器学习 (ML) 领域带来了重大的范式转变。凭借其显着的进步,LLM 现在可以生成不同主题的内容,解决复杂的查询,并大大提高用户满意度。然而,随着他们的进展,一个新的挑战浮出水面:幻觉。当 LLM 产生错误、无意义或脱节的文本时,就会发生这种现象。此类事件给利用这些模型的组织带来了潜在的风险和挑战。特别令人担忧的是涉及传播错误信息或制造攻击性材料的情况。

   截至2024年1月,公开模型的幻觉率约为3%-16%[1]。在本文中,我们将描述有效降低这种风险的各种策略

二、上下文提示工程/调优

   提示工程是设计和优化馈送到大型语言模型的指令以检索最佳结果的过程。需要专业知识和创造力的结合来制作最佳提示,以引起 LLM 的特定反应或行为。 设计包含明确指令、上下文提示或特定框架技术的提示有助于指导 LLM 生成过程。通过提供清晰的指导和上下文,GPT 提示工程减少了歧义,并帮助模型生成更可靠和连贯的响应。

2.1 提示的元素

   这些是构成精心设计的提示的元素列表:

  •    上下文: 介绍背景细节或提供简要介绍有助于法学硕士理解主题,并作为讨论的起点。
  •    指示: 精心设计清晰简洁的问题可确保模型的回答始终集中在所需的主题上。例如,人们可能会要求模型“用简单的英语用不到 100 个单词总结本章”。
  •    输入示例:为模型提供具体示例有助于生成量身定制的响应。例如,如果客户抱怨“我收到的产品损坏了”,该模型可以提出适当的回复并建议潜在的报销选择。
  •    输出格式: 指定响应所需的格式,例如项目符号列表、段落或代码片段,可以指导 LLM 相应地构建其输出。例如,人们可能会要求“使用编号列表的分步说明”。
  •    推理:根据模型的响应迭代调整和细化提示可以显著提高输出质量。例如,思维链提示将多步骤问题分解为中间步骤,从而实现超越标准提示方法的复杂推理能力。
  •    提示微调: 根据特定用例或领域调整提示可提高模型在特定任务或数据集上的性能。
  •    通过交互式查询进行优化: 根据模型的响应迭代调整和完善提示可以提高输出质量,并使 LLM 能够使用推理来推导出最终答案,从而显着减少幻觉。

2.2 正提示框架

   据观察,使用积极的指令而不是消极的指令会产生更好的结果(即“做”而不是“不做”)。
   负框架示例:一次不要向用户询问超过 1 个问题。积极框架的示例:当您向用户询问信息时,一次最多询问 1 个问题。

   另请参阅: LLM 在制作有说服力的错误信息方面是否比人类更聪明?

三、检索增强生成 (RAG)

   检索增强生成 (RAG) 是为 LLM 模型提供特定领域和最新知识的过程,以提高模型响应的准确性和可审计性。这是一种强大的技术,它将提示工程与从外部数据源进行上下文检索相结合,以提高 LLM 的性能和相关性。通过将模型建立在附加信息的基础上,它可以实现更准确和上下文感知的响应。

   这种方法对各种应用程序都有好处,例如问答聊天机器人、搜索引擎和知识引擎。通过使用 RAG,LLM 可以提供具有源归因的准确信息,从而增强用户信任并减少对新数据进行持续模型训练的需要。

四、模型参数调整

   不同的模型参数(如温度、频率惩罚和 top-p)会显著影响 LLM 创建的输出。 较高的温度设置鼓励更多的随机性和创造力,而较低的设置使输出更具可预测性。提高频率惩罚值会提示模型更谨慎地使用重复的单词。同样,增加存在惩罚值会增加生成输出中尚未使用的单词的可能性。

   top-p 参数通过设置单词选择的累积概率阈值来调节响应多样性。总体而言,这些参数允许进行微调,并在生成不同的响应和保持准确性之间取得平衡。因此,调整这些参数会降低模型想象答案的可能性。

五、模型开发/扩充

5.1 微调预训练的 LLM

   微调是我们使用较小的、特定于任务的标记数据集训练预训练模型的过程。通过对特定于任务的数据集进行微调,LLM可以掌握该领域的细微差别。这在具有专业术语、概念或结构的领域(例如法律文件、医学文本或财务报告)中尤为重要。因此,当面对来自特定领域或任务的看不见的示例时,模型可能会做出预测或生成具有更高准确性和相关性的输出。

5.2 完全定制的LLM

   LLM 模型只能从头开始开发,这些知识是准确且与其领域相关的。这样做将有助于模型更好地理解特定主题内的关系和模式。这将减少幻觉的机会,尽管不能完全消除幻觉。然而,建立自己的LLM在计算上是昂贵的,并且需要大量的专业知识。

六、人工监督

   最好由主题专家进行人工监督,并结合强大的审查流程来验证语言模型生成的输出,特别是在幻觉可能产生重大后果的敏感或高风险应用程序中,可以极大地帮助处理错误信息。人工审稿人可以在幻觉文本传播或在关键环境中使用之前识别和纠正它。

七、一般用户教育和意识

   让用户和利益相关者了解语言模型的局限性和风险,包括它们产生误导性文本的可能性,这一点至关重要。我们应该鼓励用户仔细评估和验证输出,尤其是在准确性至关重要的情况下。制定并遵守管理语言模型使用的道德准则和政策非常重要,尤其是在误导性信息可能造成伤害的领域。我们必须为负责任的人工智能使用制定明确的指导方针,包括内容审核、错误信息检测和防止冒犯性内容。

   对减轻LLM幻觉的持续研究承认,虽然完全消除可能具有挑战性,但实施预防措施可以大大降低其频率。至关重要的是,要强调负责任和深思熟虑地参与人工智能系统的重要性,并培养更高的意识,以保持有效利用技术而不造成伤害的必要平衡。

八、结论

   大型语言模型 (LLM) 中幻觉的普遍存在带来了重大挑战,尽管进行了各种实证努力来减轻它们。虽然这些战略提供了宝贵的见解,但彻底消除的根本问题仍未得到解答。

   我希望这篇文章能阐明 LLM 中的幻觉,并提供解决它们的策略。请在下面的评论部分告诉我您的想法。

参考:

[1] https://huggingface.co/spaces/vectara/leaderboard

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/701188.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

CentOS 7 定时任务 + Shell 脚本自动备份 MySQL 数据库(一次 Halo 建站数据库丢失的教训)

文章目录 前置条件创建备份脚本设置 Cron 任务测试备份脚本备份安全和维护一键恢复自动清除备份文件常见问题总结 TIP: 原文链接阅读体验更佳:CentOS 7 自动备份 MySQL 数据库 最近抽空简单搭了一个博客,目前内容较少,后续陆续发…

信息系统服务:演绎数字时代的征程

信息系统服务作为数字化时代的基石,已经在人类社会的各个领域发挥着重要作用。本文将从信息系统服务的起源、发展和演化过程,通过生动的例子和准确客观的历史事实,探讨信息系统服务对人类社会的影响与变革。 1. 起源:信息处理的初…

Supermaven惊艳亮相:300,000个Tokens的超大上下文窗口,能否超越Copilot成为代码补全新王者?

当我看到GitHub宣布Copilot的年经常性收入突破1亿美元时,我意识到代码补全技术已经迈入了新的时代。 大型模型的崛起使得这些工具变得更加智能和实用,吸引了越来越多的开发者加入AI编码的行列。 在这个背景下,Supermaven发布了。这是第一个…

软件设计模式:适配器模式详解

引言 在软件设计中,经常会面临需要整合不同接口或系统的情况。适配器模式(Adapter Pattern)是一种解决这类问题的常见设计模式。本文将深入介绍适配器模式的概念、使用场景,并通过Java代码示例进行说明。 适配器模式概述 适配器…

TikTok直播网络不稳定是什么原因

在当今社交媒体平台中,TikTok以其独特的视频内容和社交互动功能而备受欢迎。然而,尽管TikTok为用户提供了直播功能,但一些用户可能会遇到TikTok直播网络不稳定的问题。那么,TikTok直播网络不稳定的原因是什么呢?以下是…

(每日持续更新)信息系统项目管理(第四版)(高级项目管理)考试重点整理第11章 项目成本管理(五)

博主2023年11月通过了信息系统项目管理的考试,考试过程中发现考试的内容全部是教材中的内容,非常符合我学习的思路,因此博主想通过该平台把自己学习过程中的经验和教材博主认为重要的知识点分享给大家,希望更多的人能够通过考试&a…

关于Arrays类中asList(T... a)泛型参数辨析

前提 我们需要知道两点 (1)T指的是泛型类型,它只能是引用类型,何为引用类型?在java中除了基本数据类型(如byte、short、int、long、float、double、boolean、char)之外的所有类型都是引用类型…

车载电子测试学习内容

搜集了一些车载测试的学习内容,大家可以参考。

从ChatGPT到Sora,来了解大模型训练中的存储

1 从chatGPT到Sora 2022年底,OpenAI推出人工智能聊天机器人ChatGPT,开启了大模型领域的“竞速跑”模式。2024年2月15日,随着视频生成模型Sora的横空出世,OpenAI再度掀起热潮。 Sora将视频生成内容拉到了一个全新的高度&#xff0c…

todolist

一开始想自己写个todolist的网页,一直没时间,直接拿这个博客记录了,因为仅我可见比较麻烦,就放在全部可见记录了 目录 2024年3月todoes了解一下深入学习k8s,比如pod运行多个容器 ,编写自己的镜像 2024年2月…

osmnx笔记:从OpenStreetMap中提取点和边的shp文件(FMM文件准备内容)

1 导入库 import osmnx as ox import time from shapely.geometry import Polygon import os import numpy as np 2 提取Openstreetmap 的graph Gox.graph_from_place(Huangpu,Shanghai,China,network_typedrive,simplifyTrue) ox.plot_graph(G) 3 提取graph中的点和边 gdf…

冯诺依曼体系结构 计算机组成的金字塔

01 冯诺依曼体系结构:计算机组成的金字塔 学习计算机组成原理,到底是在学些什么呢?这个事儿,一两句话还真说不清楚。不过没关系,我们先从“装电脑”这个看起来没有什么技术含量的事情说起,来弄清楚计算机到…

4 种策略让 MySQL 和 Redis 数据保持一致

先阐明一下 MySQL 和 Redis 的关系:MySQL 是数据库,用来持久化数据,一定程度上保证数据的可靠性;Redis 是用来当缓存,用来提升数据访问的性能。 关于如何保证 MySQL 和 Redis 中的数据一致(即缓存一致性问…

2_怎么看原理图之协议类接口之UART笔记

通信双方先约定通信速率,如波特率115200 一开始时,2440这边维持高电平 1> 开始发送时,由2440将(RxD0)高电平拉低,并持续一个T的时间(为了让PC机可以反应过来),T1/波…

汇编语言movs指令学习

字符串传送指令(Move String Instruction) movs 该指令是把指针DS:SI所指向的字节、字或双字传送给指针ES:DI所指向内存单元,并根据标志位DF对寄存器DI和SI作相应增减。该指令的执行不影响任何标志位。 记不清这指令是8086就有的,还是386以后新加的&…

C# OpenVINO PaddleSeg实时人像抠图PP-MattingV2

目录 效果 项目 代码 下载 C# OpenVINO 百度PaddleSeg实时人像抠图PP-MattingV2 效果 项目 代码 using OpenCvSharp; using Sdcb.OpenVINO; using System; using System.Diagnostics; using System.Drawing; using System.Security.Cryptography; using System.Text; us…

一种新型的AlGaN/GaN HEMTs小信号建模与参数提取方法

来源:A new small-signal modeling and extraction methodin AlGaN/GaN HEMTs(SOLID-STATE ELECTRONICS 07年) 摘要 本文提出了一种新型的用于GaN HEMTs(氮化镓高电子迁移率晶体管)的小信号等效电路,包含2…

C++面试:磁盘文件系统、虚拟文件系统与文件缓存

目录 磁盘文件系统(Disk File System) 1. NTFS(New Technology File System) 2. EXT4(Fourth Extended File System) 3. HFS(Hierarchical File System Plus) 虚拟文件系统&…

Edting While Playing 瓦片地图编辑器开发整合导入自定义贴图 DEVC++ VS2022都可复制粘贴运行

接 多种类型图片模块读取-CSDN博客 与 Editing While Playing 使用 Easyx 开发的 RPG 地图编辑器 tilemap eaitor-CSDN博客 整合实现平面贴图纹理自定义 操作同上 导入步骤: 先运行程序,然后关闭,同目录下有四个文件夹, 把…

模型评估方式

文章目录 一、有监督-分类模型1、混淆矩阵2、分类模型的精度和召回率3、ROC曲线与AUC 二、有监督-回归模型1、均方误差MSE2、 R 2 R^2 R2决定系数3、回归模型代码示例 三、无监督模型1、kmeans求解最优k值的方法:轮廓系数、肘部法2、GMM的最优组件个数:A…