AI智能体的炒作与现实:GPT-4都撑不起,现实任务成功率不到15%

AI 智能体的宣传很好,现实不太妙。

随着大语言模型的不断进化与自我革新,性能、准确度、稳定性都有了大幅的提升,这已经被各个基准问题集验证过了。

但是,对于现有版本的 LLM 来说,它们的综合能力似乎并不能完全支撑得起 AI 智能体。

图片

多模态、多任务、多领域俨然已成为 AI 智能体在公共传媒空间内的必须要求,但是在具体的功能实践中所展现的真实效果却差强人意,这似乎也再次提醒各个 AI 智能体初创公司以及大型科技巨头认清现实:脚踏实地一点,先别把摊子铺得太大,从 AI 增强功能开始做起。

近日,一篇就 AI 智能体在宣传和真实表现上的差距而撰写的博客中,强调了一个观点:「AI 智能体在宣传上是个巨人,而现实却很不妙。」

不可否认的是,自主 AI 智能体能够执行复杂任务的前景已经引起极大的兴奋。通过与外部工具和功能的交互,LLMs 可以在没有人为干预的情况下完成多步骤的工作流程。

但现实证明,这比预期的要更具挑战性。

WebArena 排行榜(一个真实可复现的网络环境,用于评估实用智能体的性能)对 LLM 智能体在现实任务中的表现进行了基准测试,结果显示即使是表现最好的模型,成功率也只有 35.8%。

图片

WebArena 排行榜对 LLM 智能体在现实任务中的表现进行的基准测试结果:SteP 模型在成功率指标上表现最为良好,达到了 35.8%,而知名的 GPT-4 的成功率仅达到了 14.9%。

什么是 AI 智能体?

「AI 智能体」这个术语并没有真正被定义,对智能体究竟是什么也存在很多的争议。

AI 智能体可以定义为「一个被赋予行动能力的 LLM(通常在 RAG 环境中进行函数调用),以便在环境中对如何执行任务做出高层次的决策。」

当前,构建 AI 智能体主要有以下两种架构方法:

  1. 单一智能体:一个大型模型处理整个任务,并基于其全面的上下文理解做出所有决策和行动。这种方法利用了大型模型的涌现能力,避免了将任务分解所带来的信息丢失。
  2. 多智能体系统:将任务分解为子任务,每个子任务由一个更小、更专业的智能体处理。与尝试使用一个难以控制和测试的大型通用智能体相比,人们可以使用许多更小的智能体来为特定子任务选择正确的策略。由于上下文窗口长度的限制或不同技能组合的需要等实际约束,这种方法有时是必要的。

理论上,具有无限上下文长度和完美注意力的单一智能体是理想的。由于上下文较短,在特定问题上,多智能体系统总是比单一系统效果差。

实践中的挑战

在见证了许多 AI 智能体的尝试之后,作者认为它们目前仍为时过早、成本过高、速度过慢且不够可靠。许多 AI 智能体初创公司似乎在等待一个模型突破,以开启智能体产品化的竞赛。

AI 智能体在实际运用中的表现并不够成熟,这体现在输出不精确、性能差强人意、成本较高、赔偿风险、无法获得用户信任等问题:

  • 可靠性:众所周知,LLMs 容易产生幻觉和不一致性。将多个 AI 步骤连接起来会加剧这些问题,尤其是对于需要精确输出的任务。
  • 性能和成本:GPT-4、Gemini-1.5 和 Claude Opus 在使用工具 / 函数调用方面表现不错,但它们仍然较慢且成本高,特别是如果需要进行循环和自动重试时。
  • 法律问题:公司可能需要对其智能体的错误负责。最近的一个例子是,加拿大航空被命令向一位被航空公司聊天机器人误导的客户赔偿。
  • 用户信任:AI 智能体的「黑箱」性质以及类似示例使得用户难以理解和信任其输出。在涉及支付或个人信息的敏感任务中(如支付账单、购物等),赢得用户信任将会很困难。

现实世界中的尝试

目前,以下几家初创公司正在涉足 AI 智能体领域,但大多数仍处于实验阶段或仅限邀请使用:

  • adept.ai - 融资 3.5 亿美元,但访问权限仍然非常有限。
  • MultiOn - 融资情况未知,他们的 API 优先方法看起来很有前景。
  • HypeWrite - 融资 280 万美元,起初是一个 AI 写作助手,后来扩展到智能体领域。
  • minion.ai - 最初引起了一些关注,但现在已经沉寂,仅有等候名单。

它们中似乎只有 MultiOn 在追求「给出指令并观察其执行」的方法,这与 AI 智能体的承诺更为一致。

其他所有公司都在走记录和重放的 RPA(record-and-replay)路线,这在现阶段可能是为保证可靠性所必需的。

同时,一些大公司也在将 AI 功能带到桌面和浏览器,并且看起来将会在系统层面上获得本地的 AI 集成。

OpenAI 宣布了他们的 Mac 桌面应用程序,可以与操作系统屏幕互动。

在 Google I/O 大会上,Google 演示了 Gemini 自动处理购物退货。

图片

微软宣布了 Copilot Studio,它将允许开发人员构建 AI 智能体机器人。

图片

这些技术演示令人印象深刻,人们可以拭目以待这些智能体功能在公开发布并在真实场景中测试时的表现,而不是仅限于精心挑选的演示案例。

AI 智能体将走向哪条路?

作者强调:「AI 智能体被过度炒作了,大多数还没有准备好用于关键任务。」

然而,随着基础模型和架构迅速进步,他表示人们仍可以期待看到更多成功的实际应用。

AI 智能体最有前途的前进道路可能是这样的:

  • 近期的重点应放在利用 AI 增强现有工具,而不是提供广泛的全自主独立服务。
  • 人机协同的方法,让人类参与监督和处理边缘案例。
  • 根据当前的能力和局限,设定不脱离现实的期望。

通过结合严格约束的 LLMs、良好的评估数据、人机协同监督和传统工程方法,就可以在自动化等复杂任务方面实现可靠且良好的结果。

对于 AI 智能体是否会自动化乏味重复的工作,例如网络抓取、填表和数据录入?

作者:「是的,绝对会。」

那 AI 智能体是否会在没有人们干预的情况下自动预订假期?

读者福利:如果大家对大模型感兴趣,这套大模型学习资料一定对你有用

对于0基础小白入门:

如果你是零基础小白,想快速入门大模型是可以考虑的。

一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。

资源分享

图片

大模型AGI学习包

图片

图片

资料目录

  1. 成长路线图&学习规划
  2. 配套视频教程
  3. 实战LLM
  4. 人工智能比赛资料
  5. AI人工智能必读书单
  6. 面试题合集

人工智能\大模型入门学习大礼包》,可以扫描下方二维码免费领取

1.成长路线图&学习规划

要学习一门新的技术,作为新手一定要先学习成长路线图方向不对,努力白费

对于从来没有接触过网络安全的同学,我们帮你准备了详细的学习成长路线图&学习规划。可以说是最科学最系统的学习路线,大家跟着这个大的方向学习准没问题。

图片

2.视频教程

很多朋友都不喜欢晦涩的文字,我也为大家准备了视频教程,其中一共有21个章节,每个章节都是当前板块的精华浓缩

图片

3.LLM

大家最喜欢也是最关心的LLM(大语言模型)

图片

人工智能\大模型入门学习大礼包》,可以扫描下方二维码免费领取

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/34430.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

云原生技术峰会:引领智能算力时代的创新浪潮

云原生技术峰会:引领智能算力时代的创新浪潮 随着云计算技术的飞速发展和智能算力的不断提升,云原生架构已成为推动企业数字化转型的重要力量。近日,一场汇聚了业界顶尖专家和学者的云原生技术峰会成功举行,与会者共同探讨了云原…

【Linux】常用基本命令

wget网址用于直接从网上下载某个文件到服务器,当然也可以直接从网上先把东西下到本地然后用filezilla这个软件来传输到服务器上。 当遇到不会的命令时候,可以使用man “不会的命令”来查看这个命令的详细信息。比如我想要看看ls这个命令的详细用法&…

canvas : Cannot read properties of null (reading ‘getContext‘)

获取 canvas 元素的 getContext 方法时,canvas 元素尚未正确绑定。可以通过确保在渲染 PDF 文件之前,canvas 元素已经正确挂载到 DOM 来解决这个问题。 解决方法 确保 pdfCanvas 引用已经绑定到正确的 DOM 元素。确保在渲染 PDF 文件时,can…

【模型】5分钟了解决策树是一个什么模型

本站原创文章,转载请说明来自《老饼讲解-机器学习》[www.bbbdata.com(https://www.bbbdata.com/ml) 决策树模型是机器学习中不可不学的模型之一,本文简单直接地快速讲解决策树是什么,如何实现。 一、决策树模型 决策树一般包括ID3决策树&am…

记录一个笔误引发的bug导致生产环境报错,但是本地环境,测试环境运行正常

记录一个笔误引发的bug导致生产环境报错,但是本地环境,测试环境运行正常 因为headers请求头过长导致报错 在feign外调其他系统时候,是重新封装headers 问题在于 MultiValueMap 属于静态变量。这里讲userAgent的内容传递过去。是不断累加的…

Qt项目天气预报(8) - 绘制温度曲线 + 回车搜索(最终篇)

全部内容在专栏: Qt项目 天气预报_mx_jun的博客-CSDN博客 目录 绘制温度曲线 事件过滤器在子控件上绘图 子控件下载事件过滤器 事件过滤器进行绘图 - eventFilter 画初步高温曲线 画初步低温曲线 效果演示 画低温曲线 画高温曲线 效果演示 按下回车搜索: …

收银系统源码-千呼新零售2.0【宠物、养生、大健康行业解决方案】

千呼新零售2.0系统是零售行业连锁店一体化收银系统,包括线下收银线上商城连锁店管理ERP管理商品管理供应商管理会员营销等功能为一体,线上线下数据全部打通。 适用于商超、便利店、水果、生鲜、母婴、服装、零食、百货、宠物、中医养生、大健康等连锁店…

Web渗透:文件上传漏洞

文件上传漏洞(File Upload Vulnerability)是网络安全中的一种常见漏洞,攻击者可以通过此漏洞将恶意文件上传到服务器,从而执行任意代码、覆盖重要文件、或进行其他恶意操作。这种漏洞可能带来严重的安全风险,包括数据泄…

在 PMP 考试中,项目管理经验不足怎么办?

在项目管理的专业成长之路上,PMP认证如同一块里程碑,标志着从业者的专业水平达到了国际公认的标准。然而,对于那些项目管理经验尚浅的考生来说,这座里程碑似乎显得有些遥不可及。那么,在PMP考试准备中,项目…

AI技术在呼吸健康诊断领域的前沿进展

近期,谷歌科研团队在《自然》杂志上发布了一项引人注目的研究成果,该研究聚焦于利用人工智能(AI)技术对人类咳嗽及呼吸音进行分析,以实现对个体健康状况的精准评估。这一创新系统的研发基于大规模音频数据的深度学习&a…

C++STL 6大组件—你必知必会的编程利器

课程总目录 文章目录 一、vector容器二、deque和list容器三、vector、deque、list横向对比四、详解容器是配置stack、queue、priority_queue五、无序关联容器六、有序关联容器七、迭代器八、函数对象九、泛型算法和绑定器 一、vector容器 底层数据结构是动态开辟的数组&#x…

Ai指令优化文章成爆款实战记录6.26

大家好,我是网创有方的站长,继上篇文章出来之后,立马测试了一翻,没想到第一篇就出来了小爆款。展现量当天3万多,阅读量也有7000多的一个数据。虽说不是很高,相比平常几十的阅读量来说,进步还是非…

process.cwd()与__dirname的区别

process.cwd() 是当前执行node命令时候的文件夹地址 ——工作目录,保证了文件在不同的目录下执行时,路径始终不变__dirname 是被执行的js 文件的地址 ——文件所在目录 在electron进程中使用 如果使用__dirname则会读取到当前运行目录(dist_electron)下…

【大模型】大模型微调方法总结(二)

1.Adapter Tuning 1.背景 2019年谷歌的研究人员首次在论文《Parameter-Efficient Transfer Learning for NLP》提出针对 BERT 的 PEFT微调方式,拉开了 PEFT 研究的序幕。他们指出,在面对特定的下游任务时,如果进行 Full-Fintuning&#xff0…

【yolov8:metrics = model.val()报错TypeError: int() 】

今天在运行yolov8的val模型测验时报错: TypeError: int() argument must be a string, a bytes-like object or a number, not ‘KeyboardModifier’ 看了很多博主和文章,最后找到了解决方法: 在代码头部使用以下代码,重新运行…

python turtle 004Hello Kity

代码:pythonturtle004HelloKity资源-CSDN文库 # 作者V w1933423 import math import turtle as t# 设置画笔速度 t.speed(0)# 定义函数画弧 def myarc(t1, r, angle):arc_length 2 * math.pi * r * angle / 360 # 弧长n int(arc_length / 3) 1 # 分割段数step…

【大模型】大模型微调方法总结(三)

1. Prefix-tuning 1.背景 2021年论文《Prefix-Tuning: Optimizing Continuous Prompts for Generation》中提出了 Prefix Tuning 方法。与Full-finetuning 更新所有参数的方式不同,该方法是在输入 token 之前构造一段任务相关的 virtual tokens 作为 Prefix&#x…

二叉树——对称二叉树

目录 1:题目分析及思路 2:代码实现和分析 1:代码 2:分析 1:题目分析及思路 这里我们有一个二叉树的根节点 root , 检查它是否轴对称。 思路: 如上图,示例1是一颗对称的二叉树&a…

基于JSP的列车票务信息管理系统

开头语: 你好,我是专注于计算机科学与技术研究的学长。如果你对列车票务信息管理系统感兴趣或有相关需求,欢迎联系我。 开发语言:Java 数据库:MySQL 技术:JSP技术 工具:IDE、数据库管理工具…

反射及动态代理

反射 定义: 反射允许对封装类的字段,方法和构造 函数的信息进行编程访问 图来自黑马程序员 获取class对象的三种方式: 1)Class.forName("全类名") 2)类名.class 3) 对象.getClass() 图来自黑马程序员 pac…