大型语言模型(LLM)的优势、劣势和风险

alt 最近关于大型语言模型的奇迹()已经说了很多LLMs。这些荣誉大多是当之无愧的。让 ChatGPT 描述广义相对论,你会得到一个非常好(且准确)的答案。然而,归根结底,ChatGPT 仍然是一个盲目执行其指令集的计算机程序(和所有其他LLMs程序一样)。它对广义相对论的理解并不比你最喜欢的宠物好。不幸的是,我们使用“类似人类”的词来描述工程师用来创建它们的技术——例如,“机器学习”和“训练”。这是误导性的,因为一个人LLM没有像人类那样的思想。

这里有一定的讽刺意味——一个不思考的聊天机器人怎么能正确地总结有史以来最聪明的人的发现?为了理解 LLMs的这种矛盾性质,让我们从优势、劣势和危险的角度进一步探索它们,看看我们如何利用数据和像 MinIO 这样的存储解决方案来利用前者并缓解其他两个。这些是每个工程师在为组织进行培训、测试和部署LLMs时都应该牢记的技术。

优势

其LLMs优势在于,他们经过训练,可以理解用于创建单词的训练集中单词的概率分布。如果训练集足够大(即维基百科文章的语料库或GitHub上的公共代码),那么模型将具有词汇表和相应的概率分布,这将使它们的结果看起来好像它们对输出的文本具有真实世界的理解。让我们更详细地研究另一个例子——这次来自哲学。问 ChatGPT 一个问题,“'cogito, ergo sum' 是什么意思,是谁写的?”,你会得到类似于下面文字的内容。

“Cogito, ergo sum”是一个拉丁哲学命题,在英语中翻译为“我思故我在”。这句话与法国哲学家、数学家和科学家勒内·笛卡尔(René Descartes)有关。笛卡尔在1637年出版的著作《论方法》中表达了这一观点。这句话反映了笛卡尔试图建立一个不容置疑的基本真理——一个人作为一个有思想的存在者的确定性。

LLMs使用概率分布产生这样的结果。它的工作原理是这样的,他们首先查看问题中的文本,并确定“Cogito”这个词最有可能成为答案的第一个单词。从那里,他们查看问题和答案的第一个单词,以确定最有可能成为下一个单词的单词。这种情况一直持续到一个特殊的“答案结束”字符被确定为具有最高概率。

这种基于数十亿个概率生成自然语言响应的能力并不可怕,相反,它应该被利用来创造商业价值。当您使用现代技术时,结果会变得更好。例如,使用检索增强生成 (RAG) 和微调等技术,您可以了解LLM您的特定业务。实现这些类似人类的结果将需要数据,而您的基础设施将需要强大的数据存储解决方案。

这些下一个代币预测功能不仅可用于为您的聊天机器人或营销文案生成出色的文本,而且还可用于在您的应用程序中实现自动决策。给定包含问题陈述和可调用的 API(“函数”)信息的巧妙构造的提示,对语言的理解将使其能够生成一个答案,LLM解释应该调用什么“函数”。例如,在对话式天气应用程序上,用户可能会问:“如果我今晚要去芬威球场,我需要一件雨衣吗?通过一些巧妙的提示,可以从LLM查询(马萨诸塞州波士顿)中提取位置数据,并可以确定如何制定对 Weather.com Precipitation API的请求。

在很长一段时间里,构建软件最困难的部分是自然语言和语法系统(如API调用)之间的接口。现在,具有讽刺意味的是,这可能是最简单的部分之一。与文本生成类似,LLM函数调用行为的质量和可靠性可以通过使用微调和强化学习与人类反馈 (RLHF) 来辅助。

现在我们了解了什么是LLMs擅长的,为什么,让我们来研究一下什么LLMs不能做。

弱点

LLMs不能思考、理解或推理。这是 的根本限制LLMs。语言模型缺乏对用户问题进行推理的能力。它们是概率机器,可以对用户的问题产生非常好的猜测。无论猜测有多好,它仍然是一个猜测,无论产生这些猜测什么,最终都会产生一些不真实的东西。在生成式人工智能中,这被称为“幻觉”。

如果训练得当,幻觉可以保持在最低限度。微调和 RAG 也大大减少了幻觉。底线 - 要正确训练模型,对其进行微调并为其提供相关上下文 (RAG),需要数据和基础设施来大规模存储它并以高性能的方式提供它。

让我们再看一个方面LLMs,我将其归类为危险,因为它会影响我们测试它们的能力。

危险

最流行的用途LLMs是生成式 AI。生成式 AI 不会产生可以与已知结果进行比较的特定答案。这与其他 AI 用例形成鲜明对比,后者做出的特定预测可以轻松测试。测试模型的图像检测、分类和回归非常简单。但是,如何以公正、忠实于事实和可扩展的方式测试LLMs用于生成式 AI 的用途?如果您自己不是专家,您如何确定生成的复杂答案LLMs是正确的?即使您是专家,人工审阅者也不能参与 CI/CD 管道中发生的自动化测试。

业内有一些基准可以提供帮助。GLUE(General Language Understanding Evaluation,通用语言理解评估)用于评估和衡量 LLMs.它由一组任务组成,用于评估模型处理人类语言的能力。SuperGLUE 是 GLUE 基准测试的扩展,它引入了更具挑战性的语言任务。这些任务涉及共指解析、问答和更复杂的语言现象。

虽然上面的基准很有帮助,但解决方案的很大一部分应该是你自己的数据收集。请考虑记录所有问题和答案,并根据自定义结果创建自己的测试。这还需要一个能够扩展和执行的数据基础设施。

你有它。的优点、缺点和危险LLMs。如果您想利用第一个问题并缓解其他两个问题,那么您将需要数据和可以处理大量数据的存储解决方案。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/670835.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

进程控制(Linux)

进程控制 一、进程创建1. 再识fork2. 写时拷贝 二、进程终止前言——查看进程退出码1. 退出情况正常运行,结果不正确异常退出 2. 退出码strerror和errno系统中设置的错误码信息perror异常信息 3. 退出方法exit和_exit 三、进程等待1. 解决等待的三个问题2. 系统调用…

银行数据仓库体系实践(17)--数据应用之营销分析

营销是每个银行业务部门重要的工作任务,银行产品市场竞争激烈,没有好的营销体系是不可能有立足之地,特别是随着互联网金融发展,金融脱媒”已越来越普遍,数字化营销方兴未艾,银行的营销体系近些年也不断发展&#xff0c…

【精选】java继承进阶,子类继承父类(内存图、内存分析工具)

🍬 博主介绍👨‍🎓 博主介绍:大家好,我是 hacker-routing ,很高兴认识大家~ ✨主攻领域:【渗透领域】【应急响应】 【python】 【VulnHub靶场复现】【面试分析】 🎉点赞➕评论➕收藏…

ftrace工具学习笔记

ftrace是一个功能强大的Linux内核跟踪工具,可用于分析内核的行为和性能问题。它可以用来收集各种内核跟踪数据,如函数调用、内存分配、中断处理等。以下是ftrace的一些主要特点和用法: ftrace是内核自带的跟踪工具,因此无需安装。…

FRP内网穿透如何避免SSH暴力破解(二)——指定地区允许访问

背景 上篇文章说到,出现了试图反复通过FRP的隧道,建立外网端口到内网服务器TCP链路的机器人,同时试图暴力破解ssh。这些连接造成了流量的浪费和不必要的通信开销。考虑到服务器使用者主要分布在A、B、C地区和国家,我打算对上一篇…

ELAdmin 前端启动

开发工具 官方指导的是使用WebStorm,但是本人后端开发一枚,最终还是继续使用了 idea,主打一个能用就行。 idea正式版激活方式: 访问这个查找可用链接:https://3.jetbra.in/进入任意一个能用的里面,顶部提…

消息中间件之RocketMQ源码分析(六)

Consumer消费方式 RocketMQ的消费方式包含Pull和Push两种 Pull方式。 用户主动Pull消息,自主管理位点,可以灵活地掌控消费进度和消费速度,适合流计算、消费特别耗时等特殊的消费场景。 缺点也显而易见,需要从代码层面精准地控制…

docker部署自己的网站wordpress

目录 安装 1.创建目录 2.创建并启动mysql 3.创建并启动wordpress 使用 1.设置语言 2.设置基础信息 3.首页 安装 1.创建目录 mkdir -p /opt/wordpress/{db,data} 2.创建并启动mysql docker run -d --name my_mysql --restart always -e MYSQL_ROOT_PASSWORD123456 -e …

flutter使用qr_code_scanner扫描二维码

qr_code_scanner仓库地址:qr_code_scanner | Flutter Package 需要添加android和ios的相机权限和本地相册权限: android中添加权限: 在android\app\build.gradle中修改:minSdkVersion 20 并且在android/app/src/main/AndroidManifest.xml中…

【力扣】Z字形变换,模拟+直接构造

Z字形变换原题地址 方法一:利用二维矩阵模拟 对于特殊情况,z字形变换后只有一行或只有一列,则变换后的字符串和原字符串相同。 对于一般情况,我们可以考虑按照题目要求,把字符串按照Z字形存储到二维数组中&#xff…

【linux】git和gdb调试工具

在linux下提交代码同步到gitee 1.创建一个新的仓库(演示步骤) 2.init 这两个步骤用于识别提交代码的身份,一个你的名字,一个你的邮箱 开启本地仓库 克隆本地仓库成功 我们将这个仓库拷到了111目录底下. 我们发现少了一个.gitig…

最小覆盖子串[困难]

优质博文:IT-BLOG-CN 一、题目 给你一个字符串s、一个字符串t。返回s中涵盖t所有字符的最小子串。如果s中不存在涵盖t所有字符的子串,则返回空字符串"" 。 对于t中重复字符,我们寻找的子字符串中该字符数量必须不少于t中该字符数量…

使用Nginx搭建旁路服务器获取客户端真实IP

一、前言 在实际业务开发过程中,很多时候有记录客户端真实IP的需求,但是从客户端发送的请求往往会经过很多代理服务器,导致后端服务获取的IP为代理以后的IP,不具有业务含义。为了解决这个问题,可以搭建一个旁路服务器…

谷歌seo搜索引擎优化方法有什么?

想知道谷歌优化方法有什么,首先要了解谷歌搜索引擎的工作原理,谷歌的工作原理主要是通过“爬虫”来实现的,所谓“爬虫”就是一只能够读取并分析网页内容的程序,或者也能理解成机器人,当你在谷歌上输入关键词进行搜索时…

uniapp小程序实现直播组件live-player全屏问题

实现效果&#xff1a; 代码&#xff1a; <template><view class"player-content"><!-- #ifdef APP-PLUS --><video id"myVideo" :src"srcLink" autoplay controls><!-- 打开全屏 --><image class"img…

速度规划:s形曲线------pencv c++绘图(1)

理论篇 代码篇&#xff1a; opencv环境配置 注意&#xff01;注意&#xff01;注意&#xff01; 配置结束后运行环境切换为如下再运行&#xff1a; #include <iostream> #include <cmath>#include <opencv2/opencv.hpp>using namespace std;double a_max…

github和gitee

github GitHub是一个面向开源及私有软件项目的托管平台&#xff0c;因为只支持Git作为唯一的版本库格式进行托管&#xff0c;故名GitHub。 github可以给提交的代码打上标签&#xff0c;方便版本的迭代和回退&#xff0c;也是一个存储代码的仓库 github工作区 gitee是gitHub的…

蓝桥杯---分小组

9名运动员参加比赛,需要分3组进行预赛. 有哪些分组的方案呢? 我们标记运动员为 A,B,C .... I 下面的程序列出了所有的分组方法。 该程序的正常输出为:

【CSS】margin塌陷和margin合并及其解决方案

【CSS】margin塌陷和margin合并及其解决方案 一、解决margin塌陷的问题二、避免外边距margin重叠&#xff08;margin合并&#xff09; 一、解决margin塌陷的问题 问题&#xff1a;当父元素包裹着一个子元素且父元素没有边框的时候&#xff0c;当给子元素设置margin-top:100px&…

【精选】java继承进阶——继承的特点 this、super

&#x1f36c; 博主介绍&#x1f468;‍&#x1f393; 博主介绍&#xff1a;大家好&#xff0c;我是 hacker-routing &#xff0c;很高兴认识大家~ ✨主攻领域&#xff1a;【渗透领域】【应急响应】 【python】 【VulnHub靶场复现】【面试分析】 &#x1f389;点赞➕评论➕收藏…