AI智能体的炒作与现实:GPT-4都撑不起,现实任务成功率不到15%

AI 智能体的宣传很好,现实不太妙。

随着大语言模型的不断进化与自我革新,性能、准确度、稳定性都有了大幅的提升,这已经被各个基准问题集验证过了。

但是,对于现有版本的 LLM 来说,它们的综合能力似乎并不能完全支撑得起 AI 智能体。

图片

多模态、多任务、多领域俨然已成为 AI 智能体在公共传媒空间内的必须要求,但是在具体的功能实践中所展现的真实效果却差强人意,这似乎也再次提醒各个 AI 智能体初创公司以及大型科技巨头认清现实:脚踏实地一点,先别把摊子铺得太大,从 AI 增强功能开始做起。

近日,一篇就 AI 智能体在宣传和真实表现上的差距而撰写的博客中,强调了一个观点:「AI 智能体在宣传上是个巨人,而现实却很不妙。」

不可否认的是,自主 AI 智能体能够执行复杂任务的前景已经引起极大的兴奋。通过与外部工具和功能的交互,LLMs 可以在没有人为干预的情况下完成多步骤的工作流程。

但现实证明,这比预期的要更具挑战性。

WebArena 排行榜(一个真实可复现的网络环境,用于评估实用智能体的性能)对 LLM 智能体在现实任务中的表现进行了基准测试,结果显示即使是表现最好的模型,成功率也只有 35.8%。

图片

WebArena 排行榜对 LLM 智能体在现实任务中的表现进行的基准测试结果:SteP 模型在成功率指标上表现最为良好,达到了 35.8%,而知名的 GPT-4 的成功率仅达到了 14.9%。

什么是 AI 智能体?

「AI 智能体」这个术语并没有真正被定义,对智能体究竟是什么也存在很多的争议。

AI 智能体可以定义为「一个被赋予行动能力的 LLM(通常在 RAG 环境中进行函数调用),以便在环境中对如何执行任务做出高层次的决策。」

当前,构建 AI 智能体主要有以下两种架构方法:

  1. 单一智能体:一个大型模型处理整个任务,并基于其全面的上下文理解做出所有决策和行动。这种方法利用了大型模型的涌现能力,避免了将任务分解所带来的信息丢失。
  2. 多智能体系统:将任务分解为子任务,每个子任务由一个更小、更专业的智能体处理。与尝试使用一个难以控制和测试的大型通用智能体相比,人们可以使用许多更小的智能体来为特定子任务选择正确的策略。由于上下文窗口长度的限制或不同技能组合的需要等实际约束,这种方法有时是必要的。

理论上,具有无限上下文长度和完美注意力的单一智能体是理想的。由于上下文较短,在特定问题上,多智能体系统总是比单一系统效果差。

实践中的挑战

在见证了许多 AI 智能体的尝试之后,作者认为它们目前仍为时过早、成本过高、速度过慢且不够可靠。许多 AI 智能体初创公司似乎在等待一个模型突破,以开启智能体产品化的竞赛。

AI 智能体在实际运用中的表现并不够成熟,这体现在输出不精确、性能差强人意、成本较高、赔偿风险、无法获得用户信任等问题:

  • 可靠性:众所周知,LLMs 容易产生幻觉和不一致性。将多个 AI 步骤连接起来会加剧这些问题,尤其是对于需要精确输出的任务。
  • 性能和成本:GPT-4、Gemini-1.5 和 Claude Opus 在使用工具 / 函数调用方面表现不错,但它们仍然较慢且成本高,特别是如果需要进行循环和自动重试时。
  • 法律问题:公司可能需要对其智能体的错误负责。最近的一个例子是,加拿大航空被命令向一位被航空公司聊天机器人误导的客户赔偿。
  • 用户信任:AI 智能体的「黑箱」性质以及类似示例使得用户难以理解和信任其输出。在涉及支付或个人信息的敏感任务中(如支付账单、购物等),赢得用户信任将会很困难。

现实世界中的尝试

目前,以下几家初创公司正在涉足 AI 智能体领域,但大多数仍处于实验阶段或仅限邀请使用:

  • adept.ai - 融资 3.5 亿美元,但访问权限仍然非常有限。
  • MultiOn - 融资情况未知,他们的 API 优先方法看起来很有前景。
  • HypeWrite - 融资 280 万美元,起初是一个 AI 写作助手,后来扩展到智能体领域。
  • minion.ai - 最初引起了一些关注,但现在已经沉寂,仅有等候名单。

它们中似乎只有 MultiOn 在追求「给出指令并观察其执行」的方法,这与 AI 智能体的承诺更为一致。

其他所有公司都在走记录和重放的 RPA(record-and-replay)路线,这在现阶段可能是为保证可靠性所必需的。

同时,一些大公司也在将 AI 功能带到桌面和浏览器,并且看起来将会在系统层面上获得本地的 AI 集成。

OpenAI 宣布了他们的 Mac 桌面应用程序,可以与操作系统屏幕互动。

在 Google I/O 大会上,Google 演示了 Gemini 自动处理购物退货。

图片

微软宣布了 Copilot Studio,它将允许开发人员构建 AI 智能体机器人。

图片

这些技术演示令人印象深刻,人们可以拭目以待这些智能体功能在公开发布并在真实场景中测试时的表现,而不是仅限于精心挑选的演示案例。

AI 智能体将走向哪条路?

作者强调:「AI 智能体被过度炒作了,大多数还没有准备好用于关键任务。」

然而,随着基础模型和架构迅速进步,他表示人们仍可以期待看到更多成功的实际应用。

AI 智能体最有前途的前进道路可能是这样的:

  • 近期的重点应放在利用 AI 增强现有工具,而不是提供广泛的全自主独立服务。
  • 人机协同的方法,让人类参与监督和处理边缘案例。
  • 根据当前的能力和局限,设定不脱离现实的期望。

通过结合严格约束的 LLMs、良好的评估数据、人机协同监督和传统工程方法,就可以在自动化等复杂任务方面实现可靠且良好的结果。

对于 AI 智能体是否会自动化乏味重复的工作,例如网络抓取、填表和数据录入?

作者:「是的,绝对会。」

那 AI 智能体是否会在没有人们干预的情况下自动预订假期?

读者福利:如果大家对大模型感兴趣,这套大模型学习资料一定对你有用

对于0基础小白入门:

如果你是零基础小白,想快速入门大模型是可以考虑的。

一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。

资源分享

图片

大模型AGI学习包

图片

图片

资料目录

  1. 成长路线图&学习规划
  2. 配套视频教程
  3. 实战LLM
  4. 人工智能比赛资料
  5. AI人工智能必读书单
  6. 面试题合集

人工智能\大模型入门学习大礼包》,可以扫描下方二维码免费领取

1.成长路线图&学习规划

要学习一门新的技术,作为新手一定要先学习成长路线图方向不对,努力白费

对于从来没有接触过网络安全的同学,我们帮你准备了详细的学习成长路线图&学习规划。可以说是最科学最系统的学习路线,大家跟着这个大的方向学习准没问题。

图片

2.视频教程

很多朋友都不喜欢晦涩的文字,我也为大家准备了视频教程,其中一共有21个章节,每个章节都是当前板块的精华浓缩

图片

3.LLM

大家最喜欢也是最关心的LLM(大语言模型)

图片

人工智能\大模型入门学习大礼包》,可以扫描下方二维码免费领取

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/34430.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

from PyQt5.QtChart import QChart ImportError: DLL load failed: 找不到指定的模块。

最近在开发pyqt5代码 在运行是遇到from PyQt5.QtChart import QChart ImportError: DLL load failed: 找不到指定的模块。问题, 估计是安装QChart安装没正确,可以更新下安装包, pip install PyQt5 --upgrade pip install PyQtChart --upgrade…

云原生技术峰会:引领智能算力时代的创新浪潮

云原生技术峰会:引领智能算力时代的创新浪潮 随着云计算技术的飞速发展和智能算力的不断提升,云原生架构已成为推动企业数字化转型的重要力量。近日,一场汇聚了业界顶尖专家和学者的云原生技术峰会成功举行,与会者共同探讨了云原…

【Linux】常用基本命令

wget网址用于直接从网上下载某个文件到服务器,当然也可以直接从网上先把东西下到本地然后用filezilla这个软件来传输到服务器上。 当遇到不会的命令时候,可以使用man “不会的命令”来查看这个命令的详细信息。比如我想要看看ls这个命令的详细用法&…

antd react tour 引导式访问组件解决ref获取不到的问题

我是用了Tab组件,tab分1,2,3步骤,直接用ref不对。所以我找了这种方式,使用原生获取dom const [ref1, setRef1] useState(null);const [ref2, setRef2] useState(null);const [ref3, setRef3] useState(null);const [open, setOpen] useSt…

nextjs-在页面之间的导航跳转

原文链接:https://nextjs.org/learn/dashboard-app/navigating-between-pages 01-nextjs起步02-css样式03-处理字体和图片04-创建layouts 和pages 页面更多 在上一章中,您创建了仪表板布局和页面。现在,让我们添加一些链接,允许…

canvas : Cannot read properties of null (reading ‘getContext‘)

获取 canvas 元素的 getContext 方法时,canvas 元素尚未正确绑定。可以通过确保在渲染 PDF 文件之前,canvas 元素已经正确挂载到 DOM 来解决这个问题。 解决方法 确保 pdfCanvas 引用已经绑定到正确的 DOM 元素。确保在渲染 PDF 文件时,can…

【模型】5分钟了解决策树是一个什么模型

本站原创文章,转载请说明来自《老饼讲解-机器学习》[www.bbbdata.com(https://www.bbbdata.com/ml) 决策树模型是机器学习中不可不学的模型之一,本文简单直接地快速讲解决策树是什么,如何实现。 一、决策树模型 决策树一般包括ID3决策树&am…

【JS问题】require相对路径引入模块

潜在问题 安全性问题:使用相对路径来引入模块可能会带来安全隐患,尤其是如果这段代码运行在客户端(比如Node.js的Electron框架)且相对路径可以被用户控制的情况下。恶意用户可能会尝试修改路径来访问不应该被访问的文件。 模块路…

记录一个笔误引发的bug导致生产环境报错,但是本地环境,测试环境运行正常

记录一个笔误引发的bug导致生产环境报错,但是本地环境,测试环境运行正常 因为headers请求头过长导致报错 在feign外调其他系统时候,是重新封装headers 问题在于 MultiValueMap 属于静态变量。这里讲userAgent的内容传递过去。是不断累加的…

Java 应用的部署和运维方法,包括 Tomcat、Docker 等

Java应用的部署和运维是一个复杂且多样的过程,包括从代码编写到应用上线,再到应用的持续维护和优化。 一、基于Tomcat的Java应用部署和运维 1. 环境准备 操作系统:选择适合运行Java和Tomcat的操作系统,常见的有Ubuntu、CentOS等…

如何遍历STL容器

在C中,遍历STL(Standard Template Library)容器通常可以通过多种方法来完成。以下是几种常用的遍历STL容器的方法: 1. 使用迭代器(Iterator) 迭代器是STL中用于遍历容器的主要工具。它们提供了一种通用方…

Qt项目天气预报(8) - 绘制温度曲线 + 回车搜索(最终篇)

全部内容在专栏: Qt项目 天气预报_mx_jun的博客-CSDN博客 目录 绘制温度曲线 事件过滤器在子控件上绘图 子控件下载事件过滤器 事件过滤器进行绘图 - eventFilter 画初步高温曲线 画初步低温曲线 效果演示 画低温曲线 画高温曲线 效果演示 按下回车搜索: …

【C++PCL】点云处理点云密度计算

作者:迅卓科技 简介:本人从事过多项点云项目,并且负责的项目均已得到好评! 公众号:迅卓科技,一个可以让您可以学习点云的好地方 重点:每个模块都有参数如何调试的讲解,即调试某个参数对结果的影响是什么,大家有问题可以评论哈,如果文章有错误的地方,欢迎来指出错误的…

收银系统源码-千呼新零售2.0【宠物、养生、大健康行业解决方案】

千呼新零售2.0系统是零售行业连锁店一体化收银系统,包括线下收银线上商城连锁店管理ERP管理商品管理供应商管理会员营销等功能为一体,线上线下数据全部打通。 适用于商超、便利店、水果、生鲜、母婴、服装、零食、百货、宠物、中医养生、大健康等连锁店…

什么是 java 序列化,如何实现 java 序列化

Java序列化是将对象的状态转换为字节流的过程,这样对象的状态可以被存储在文件、数据库中,或者通过网络传输给另一个Java虚拟机(JVM)。反序列化是相反的过程,即从字节流中重建对象的状态。 为什么需要序列化&#xff…

Web渗透:文件上传漏洞

文件上传漏洞(File Upload Vulnerability)是网络安全中的一种常见漏洞,攻击者可以通过此漏洞将恶意文件上传到服务器,从而执行任意代码、覆盖重要文件、或进行其他恶意操作。这种漏洞可能带来严重的安全风险,包括数据泄…

Python里的类型list是什么?

在Python中,list(列表)是一种内置的数据类型,用于存储有序的元素集合。这些元素可以是任何数据类型(整数、浮点数、字符串、其他列表等),并且它们不需要是同一种数据类型。 列表使用方括号 [] 表…

在 PMP 考试中,项目管理经验不足怎么办?

在项目管理的专业成长之路上,PMP认证如同一块里程碑,标志着从业者的专业水平达到了国际公认的标准。然而,对于那些项目管理经验尚浅的考生来说,这座里程碑似乎显得有些遥不可及。那么,在PMP考试准备中,项目…

【LeetCode】Hot100:验证二叉搜索树

给你一个二叉树的根节点 root ,判断其是否是一个有效的二叉搜索树。 有效 二叉搜索树定义如下: 节点的左子树 只包含 小于 当前节点的数。 节点的右子树只包含 大于 当前节点的数。 所有左子树和右子树自身必须也是二叉搜索树。 英文题目 Given the root…

【代码随想录算法训练营第四十八天|188.买卖股票的最佳时机IV、309. 买卖股票的最佳时机含冷冻期、714. 买卖股票的最佳时机含手续费】

文章目录 188.买卖股票的最佳时机IV[309. 买卖股票的最佳时机含冷冻期](https://leetcode.cn/problems/best-time-to-buy-and-sell-stock-with-cooldown/description/) 188.买卖股票的最佳时机IV 和前几个一样,dp数组变大到[n][2k1],推导公式也一样。 …