翻译: 大语言模型LLMs能做什么和不能做什么 保存笔记What LLMs can and cannot do

在这里插入图片描述
生成式 AI 是一项惊人的技术,但它并非万能。在这个视频中,我们将仔细看看大型语言模型(LLM)能做什么,不能做什么。我们将从我发现的一个有用的心理模型开始,了解它能做什么,然后一起看看 LLM 的一些具体限制。我发现理解这些限制可以降低你在尝试使用它们做它们不擅长的事情时被绊倒的机会,所以让我们深入了解一下。如果你想弄清楚引导 LLM 能做什么,这里有一个问题,我发现它提供了一个有用的心理框架。那就是我会问自己,一个刚毕业的大学生,只遵循提示中的指令,能完成你想要的任务吗?例如,一个刚毕业的大学生能遵循指令阅读一封电子邮件来判断它是否是投诉吗?嗯,我认为一个刚毕业的大学生可能做得到,LLM 也能做得相当好。或者,一个刚毕业的大学生能阅读一篇餐馆评论来判断它是正面还是负面情绪吗?我认为他们也能做得很好,LLM 也是如此。

在这里插入图片描述
这是另一个例子,一个刚毕业的大学生能在没有关于首席运营官或你的公司的任何信息的情况下撰写新闻稿吗?嗯,这个刚毕业的大学生刚从大学毕业。他们只是刚刚认识你,对你或你的业务一无所知,所以他们最好能做的可能是写一个非常通用的、不太令人满意的新闻稿,就像这样。

在这里插入图片描述
但另一方面,如果你给他们更多关于你的业务和首席运营官的背景信息,那么我们可以问,这个刚毕业的大学生在给定基本相关背景的情况下能写新闻稿吗?我认为他们可能做得相当好,大型语言模型也是如此。

在这里插入图片描述

当你设想 LLM 做很多一个刚毕业的大学生可能做的事情时,想象这个刚毕业的大学生具有他们所知道的大量背景知识,互联网上的大量一般知识。但他们必须在没有访问网络搜索引擎的情况下完成这个任务,他们对你或你的业务一无所知。为了清晰,这个心理模型思维实验中,刚毕业的大学生必须在没有针对公司或你的业务的特定培训的情况下完成任务。而且,每次你引导你的 LLM 时,LLM 实际上不会记住之前的对话。因此,就好像你每次都得到一个不同的刚毕业的大学生来完成每个任务,所以你无法随着时间训练他们了解你的业务的细节或你希望他们写作的风格。这个关于刚毕业的大学生能做什么的经验法则是一个不完美的经验法则,有些大学毕业生能做的事情 LLM 不能做,反之亦然。但我发现这是一个思考 LLM 能做什么和不能做什么的有用起点。

虽然我们在这张幻灯片上专注于引导 LLM 能做的事情,但下周当我们谈论生成式 AI 项目时,我们将讨论一些稍微更强大的技术,可能能够扩展你能用生成式 AI 做的事情,超出这个刚毕业的大学生的概念。
在这里插入图片描述

现在,让我们来看看 LLM 的一些具体限制。首先是知识截止点。LLM 对世界的了解在其训练时就被冻结了。更准确地说,一个在 2022 年 1 月之前抓取互联网数据训练的模型,将不会有关于更近期事件的信息。因此,如果你问这样一个模型,2022 年最卖座的电影是什么?它会说它不知道。即使现在我们早已过了 2022 年,我们知道最卖座的电影是《阿凡达:水之道》。

在这里插入图片描述

大约在 2023 年 7 月,有研究室声称发现了一种名为 LK-99 的室温超导体。你可能在一些新闻中看到了这张照片,这个说法后来被证明并不完全正确。但如果你问一个 LLM 关于 LK-99 的问题,即使它在新闻中被广泛报道,如果 LLM 只从 2022 年 1 月之前的互联网文本中学习,它就不会知道这件事。所以这就是所谓的知识截止点,LLM 只知道到某个时刻为止的世界。当它被训练时,或者互联网文本最后一次被下载用于 LLM 的训练时。

在这里插入图片描述

LLM 的第二个限制是它们有时会编造事情,我们称之为幻觉。我发现,如果我让 LLM 给我一些历史上著名人物的引语,它经常会编造引语。例如,如果你让它给出莎士比亚写的关于碧昂斯的三个引语。由于莎士比亚早在碧昂斯之前就已经去世,我不认为莎士比亚对碧昂斯说过任何话。但 LLM 会自信地给你回复一些引语,比如她的声音像太阳一样照耀,或者全场向女王致敬,她是最值得爱的。所以这些是幻想的莎士比亚式引语。

在这里插入图片描述

或者,如果你让它列出在加利福尼亚审理的关于 AI 的法庭案件,它可能会给出听起来很权威的答案,就像这样。在这种情况下,第一个案例是真实的,确实有 Waymo 诉 Uber 一案,但我无法找到 Ingersoll 诉 Chevron 一案,所以第二个案例是幻想的。有时 LLM 可以以非常自信、权威的语气编造事情。这可能会误导人们认为这个编造的事情可能是真实的。幻觉可能会带来严重的后果。有一位律师不幸地使用 ChatGPT 生成了一个法律案件的文本,并实际上提交给了法庭,他并不知道他提交给法庭的是一个充满编造案件的非法文件。在这个《纽约时报》的标题中,我们看到了这个让人尴尬的法庭听证会。

依赖人工智能的律师表示,她没有意识到聊天机器人可能会误导她,而这位特定的律师因为提交了包含虚构内容的联合诉讼文件而受到了处罚。

在这里插入图片描述
因此,如果你要将其用于具有实际后果的文件,了解其限制是很重要的。LLM 也有一个技术限制,即输入长度,也就是提示的长度是有限的,它能生成的文本的输出长度也是有限的。许多 LLM 最多只能接受几千个词的提示,因此你可以给它的上下文总量是有限的。所以,如果你让它总结一篇论文,而论文的长度远超过这个输入长度限制,LLM 可能会拒绝处理该输入。在这种情况下,你可能必须一次给它论文的一部分,并要求它一次总结论文的一部分。

在这里插入图片描述
或者有时你也可以找到一个输入限制长度更长的 LLM,有些可以接受多达数万个词。从技术上讲,LLM 对所谓的上下文长度有限制,而上下文长度实际上是对总输入+输出大小的限制。

在这里插入图片描述

当我使用 LLM 时,我很少让它生成如此多的输出以至于真正遇到输出长度的限制。但如果我有许多许多千字的上下文想给它,我有时确实会遇到输入长度的限制。

在这里插入图片描述
最后,生成式 AI 的一个主要限制是它们目前对结构化数据处理不好。所谓的结构化数据,我指的是表格数据,像你可能会存储在 Excel 或 Google 表格中的那种数据。例如,这里有一个带有房屋大小(平方英尺)和房价数据的房价表。如果你将所有这些数字输入到 LLM,然后问它,我有一栋 1,000 平方英尺的房子,你认为合适的价格是多少?LLM 在这方面并不擅长,相反,如果你把大小称为输入 A,价格称为输出 B,那么监督学习将是一种更好的技术,用以估算价格作为大小的函数。

这是另一个结构化数据的例子,表格数据显示不同访客可能访问你的网站的时间,你向他们提供产品的价格,以及他们是否购买了它。同样,监督学习将是一种比尝试将所有这些时间、价格和购买信息复制粘贴到大型语言模型的提示中更好的技术。

在这里插入图片描述

与结构化数据相比,生成式 AI 更适合处理非结构化数据。结构化数据指的是你会存储在电子表格中的表格数据,而非结构化数据指的是文本、图像、音频、视频。生成式 AI 确实适用于所有这些类型的数据,尽管影响最大,这就是为什么我们在这门课程中主要关注文本数据。

在这里插入图片描述
最后,大型语言模型可能会偏见输出,有时也可能输出有害或其他有害的言论。例如,大型语言模型是在互联网上的文本上训练的。不幸的是,互联网上的文本可能反映了社会中存在的偏见。所以如果你让一个 LLM 完成句子,外科医生走到停车场拿出了,LLM 可能会输出他的车钥匙,但你会说护士走到停车场拿出了,它可能会说她的手机。所以

在这种情况下,LLM 假设外科医生是男性,护士是女性,而我们清楚地知道外科医生和护士可以是任何性别。因此,如果你在可能导致此类偏见带来伤害的应用中使用 LLM,我会小心使用我们的提示方式和应用 LLM,以确保我们不会助长这种不受欢迎的偏见。最后,有些 LLM 有时也会输出有毒或其他有害的言论。例如,有些 LLM 有时会教人们如何做不受欢迎的,有时甚至是非法的行为。幸运的是,所有主要的大型语言供应商一直在努力提高这些模型的安全性,因此大多数模型随着时间的推移变得更加安全。如果你使用主要 LLM 供应商的网络界面,实际上随着时间的推移变得越来越难让它们输出这些类型的有害言论。所以这就总结了引导 LLM 能做和不能做的事情。正如我提到的,下周我们将看一些克服这些限制的技术,使 LLM 能做的事情更广泛、更强大。但首先,让我们看一些关于引导 LLM 的技巧。

参考

https://www.coursera.org/learn/generative-ai-for-everyone/lecture/VYXx5/what-llms-can-and-cannot-do

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/201144.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【Azure 架构师学习笔记】- Azure Databricks (2) -集群

本文属于【Azure 架构师学习笔记】系列。 本文属于【Azure Databricks】系列。 接上文 【Azure 架构师学习笔记】- Azure Databricks (1) - 环境搭建 前言 在上文中提到了ADB 的其中一个核心就是集群,所以这里专门研究一下ADB 的集群。 ADB 集群 首先了解一下ADB…

《SpringBoot项目实战》第六篇—接口防抖(防重复提交)的一些方式

系列文章导航 第一篇—接口参数的一些弯弯绕绕 第二篇—接口用户上下文的设计与实现 第三篇—留下用户调用接口的痕迹 第四篇—接口的权限控制 第五篇—接口发生异常如何统一处理 第六篇—接口防抖(防重复提交)的一些方式 本文参考项目源码地址:summo-springboot-i…

SpringBoot基础知识

SpringBoot简介 回顾什么是Spring Spring是一个开源框架,2003 年兴起的一个轻量级的Java 开发框架,作者:Rod Johnson 。 Spring是为了解决企业级应用开发的复杂性而创建的,简化开发。 Spring是如何简化Java开发的 为了降低Ja…

记录:Unity脚本的编写9.0

目录 射线一些准备工作编写代码 突然发现好像没有写过关于射线的内容,我就说怎么总感觉好像少了什么东西(心虚 那就在这里写一下关于射线的内容吧,将在这里实现射线检测鼠标点击的功能 射线 射线是一种在Unity中检测碰撞器或触发器的方法&am…

22、pytest多个参数化的组合

官方实例 # content of test_multi_parametrie.py import pytestpytest.mark.parametrize("x",[0,1]) pytest.mark.parametrize("y",[2,3]) def test_foo(x,y):print("{}-{}".format(x,y))pass解读与实操 要获得多个参数化参数的所有组合&…

什么是HTTP/2?它与HTTP/1.x相比有什么改进?

聚沙成塔每天进步一点点 ⭐ 专栏简介 前端入门之旅:探索Web开发的奇妙世界 欢迎来到前端入门之旅!感兴趣的可以订阅本专栏哦!这个专栏是为那些对Web开发感兴趣、刚刚踏入前端领域的朋友们量身打造的。无论你是完全的新手还是有一些基础的开发…

C++ 函数详解

目录 函数概述 函数的分类 函数的参数 函数的调用 函数的嵌套调用 函数的链式访问 函数声明和定义 函数递归 函数概述 函数——具有某种功能的代码块。 一个程序中我们经常会用到某种功能,如两数相加,如果每次都在需要用到时实现,那…

机器学习---线性回归算法

1、什么是回归? 从大量的函数结果和自变量反推回函数表达式的过程就是回归。线性回归是利用数理统计中回归分析来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。 2、一元线性回归 3、多元线性回归 如果回归分析中包括两个或两个以上的自变量&a…

VIM光标移动和翻页快捷键-包含vim帮助文档截图

光标移动到行首(行首没有空格): ^ 光标移动到行首(行首有空格): 数字0 光标移动到行尾: $ 移动到指定行:7G(数字加一个大G) 光标移动到文件开始:gg(两个小g) 光标移动到文件末尾:G(一个大G&…

数据结构 | 查漏补缺之DFS、BFS、二次探测再散列法、完全二叉树、深度计算

目录 DFS&BFS 哈希表-二次探测再散列法 完全二叉树&深度计算 排序 快速排序-挖坑法 插入、选择、冒泡、区别 DFS&BFS 哈希表-二次探测再散列法 完全二叉树&深度计算 排序 快速排序-挖坑法 插入、选择、冒泡、区别 插入从第一个元素开始&#xff0c…

利用yolov5输出提示框,segment-anything生成掩膜实现图像的自动标注

文章目录 一. 创建环境二. 下载模型文件三. 编辑代码 一. 创建环境 anaconda下新建一个环境 conda create -n yolo-sam python3.8激活新建的环境 conda activate yolo-sam更换conda镜像源 conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/fre…

el-input-number设置step、stepStrictly后,数据精度丢失的问题

el-input-number的配置 <el-input-numberv-else-if"colInputType(column, row) number"v-model"row[column.key]":placeholder"${$t(documentation.pleaseInput)}":controls"false":min"minFn(column, row)":max"…

vsftpd.confg 常用配置,Beyond Compare 测试可用

vsftpd.confg 常用配置,备份一下, 经常配置好久 , 以后直接粘贴即可. Beyond Compare 测试可用. # Example config file /etc/vsftpd.conf # # The default compiled in settings are fairly paranoid. This sample file # loosens things up a bit, to make the ftp daemon m…

注册阿里云,免费领云服务器

注册阿里云&#xff0c;免费领云服务器&#xff0c;每月280元额度&#xff0c;3个月试用时长&#xff0c;可快速搭建网站/小程序&#xff0c;部署开发环境&#xff0c;开发多种企业应用&#xff0c;共3步骤即可免费领取阿里云服务器&#xff0c;阿里云服务器网aliyunfuwuqi.com…

Python与PHP:编写大型爬虫的适用性比较

目录 一、引言 二、Python编写爬虫的优势 1、强大的数据处理能力 2、丰富的网络库和框架 3、良好的可读性和易维护性 4、社区支持和生态系统 三、PHP编写爬虫的优势 1、简单易学 2、广泛的应用领域 3、高效的性能 4、灵活的请求处理方式 四、大型爬虫的编写实例&am…

re:invent 2023 Amazon Q 初体验

授权声明&#xff1a;本篇文章授权活动官方亚马逊云科技文章转发、改写权&#xff0c;包括不限于在 Developer Centre&#xff0c;知乎&#xff0c;自媒体平台&#xff0c;第三方开发者媒体等亚马逊云科技官方渠道 前言 亚马逊云科技在2023 re:Invent全球大会上宣布推出 Amazon…

计算机网络——数据链路层-差错检测(奇偶校验、循环冗余校验CRC)

目录 奇偶校验 循环冗余校验CRC 发送方操作 接收方操作 生成多项式 举例-1 举例-2 我们知道&#xff0c; 实际的通信链路都不是理想的&#xff0c;比特在传输过程中可能会产生差错&#xff1b;1可能变成0&#xff0c;而0也可能变成1&#xff0c;这称为比特差错。 如下…

[wordpiece]论文分析:Google’s Neural Machine Translation System

文章目录 一、论文解读1.1 模型介绍1.2 模型架构1.3 wordpiece 二、整体总结 论文&#xff1a;Google’s Neural Machine Translation System: Bridging the Gap between Human and Machine Translation 作者&#xff1a;Yonghui Wu, Mike Schuster, Zhifeng Chen, Quoc V. Le,…

解决Unity打包Apk卡在calling IPostGenerateGradleAndroidProject callbacks

防盗镇楼 本文地址:https://superliii.blog.csdn.net/article/details/134820215 问题 好烦,又双叒卡BUG,在解决此问题的10多个小时里面鬼知道我经历了什么… 构建APK卡在calling IPostGenerateGradleAndroidProject callbacks 好不容易搜到个极其隐蔽的帖子,说删C:\Users\…

贵州乾辰谷材 以科技创新引领绝缘材料领域的新发展

贵州乾辰谷材科技有限公司&#xff0c;这家于2018年10月18日成立的贵州本地企业&#xff0c;已经在绝缘材料领域崭露头角。乾辰谷材不仅在成立短短几年内实现了快速成长&#xff0c;更以其科技创新能力和卓越产品性能赢得了业界和用户的广泛赞誉。 乾辰谷材的创始人王金斗先生&…