AI Agent:人类工作范式的颠覆者还是人机协作新范式?

编者按: 当前大热的大语言模型和检索增强生成模型,虽然在语言理解和内容生成方面取得了突破性的进展,但仍然存在诸多限制。它们缺乏根据目标导引行为、持续学习和与环境交互的能力,难以应对复杂多变的现实场景需求。

今天为大家带来的这篇文章,作者的观点是人工智能领域正朝着开发更智能、更自主的 AI Agent 系统迈进,这将彻底改变我们使用人工智能的方式。

作者相信人工智能的未来必将呈现出更智能、更自主的 AI Agent 形态。这种新型人工智能系统不再是简单的语言模型,而是集成了推理引擎、知识库、工具集成等多种能力于一体,能够深入理解环境、制定目标并自主采取行动,从而在诸多领域大显身手。我们有理由相信,AI Agent 将成为人工智能发展的新引擎,并最终改变人类的工作和生活方式。

本文对 AI Agent 这一概念进行了较为全面的解读,让我们一同认识 AI Agent ,认清发展趋势,做好迎接未来的准备。

作者 | Aniket Hingane

编译 | 岳扬

生成式 AI 只是人工智能发展的开端,未来可能会出现更先进的 AI 智能体系统(AI Agent),我们应当重视 Andrew Ng(译者注:Andrew Ng 是斯坦福大学计算机科学系和电气工程系的客座教授,曾任斯坦福人工智能实验室主任。他与达芙妮·科勒一起创建了在线教育平台Coursera。)、Andrej Karpathy (译者注:Andrej Karpathy 是一名斯洛伐克裔加拿大计算机科学家,曾担任特斯拉人工智能和自动驾驶视觉总监。他曾任职于OpenAI,专门研究深度学习和计算机视觉。)等 AI 领域权威人士对于这一趋势的分析和看法。

01 本文主题

人工智能的未来将会是 Agentic(译者注:能够像人类一样,根据环境、知识和目标来自主进行决策和做出相应行为。)!本文将探讨什么是 AI Agents ,并梳理 AI 行业内部对这一概念的理解和定义。

文章的核心内容是阐释和探索 “AI Agents” 这一概念,这种技术将在决定和影响未来发展方向上变得越来越关键。期望读者能通过阅读本文对 “AI Agents” 有一个全方位的认识,不仅掌握它们的基本特性,还能了解到它们是如何被运用于各种行业场景中的。接下来,本文将展开讨论这些内容。

02 为何不容错过本文?

我相信本文的内容你绝不会想错过的——因为当前正处于一个工作模式和工作环境快速变化的关键时期。

人工智能领域正不断发展,不再局限于狭窄、专业化的应用模型,而是朝着创造高度智能、较为自主的 AI Agent 这一技术方向前进。 这些 Agent 能够在大多数领域中真正帮助人类提高思维能力、工作效率或解决问题的能力,实现与人类智能的有效互补和增强。

阅读本文,我十分相信你将理解为什么整个 AI 领域都倾向于开发 advanced AI agents ,这些 Agent 有可能彻底改变我们处理和利用人工智能的方式。

无论您是对人工智能有着丰富经验的“老鸟”,还是刚踏入这个领域的“菜鸟”,了解 AI Agent 的发展轨迹对于保持信息畅通和积极参与未来的变革之旅都至关重要。

若你想要探究以下内容,本文必定不容错过:

  • 洞悉行业革新路径:洞悉 AI Agent 将如何革新各行各业及个人职业生涯?
  • 成为 Agent 的先行者:掌握创建并用好 AI Agent 的秘诀。
  • 突出重围,抢占高地:在瞬息万变的科技浪潮中不掉队,甚至成为 AI Agent 时代的“弄潮儿”。

03 LLMs 和 RAG 不好用吗,为什么还需要 AI Agent 呢?

尽管大语言模型(LLMs)和检索增强生成(RAG)模型已经极大地扩展了我们在语言生成任务方面所能达到的界限。但是 AI Agent 强调的是综合智能,包括但不限于决策制定、环境交互和跨领域的知识应用,这样的智能系统能够适应更复杂的任务需求,并在与人的交流合作中展现出更强的灵活性和实用性。

AI Agent 之所以不可或缺,归结于几个核心因素:

  • 根据目标任务导引行为(Goal-oriented behavior) :大语言模型(LLMs)与检索增强生成模型(RAG)的主要任务是根据训练数据中的 patterns (译者注:指代算法在训练过程中从大量输入数据中学习到的常规性特征或规律,在此处应当是指语言模型通过分析文本学习到的词汇使用、句法结构或语境含义的规律。)创造出类似人类创造的文本内容。尽管如此,它们在灵活且智能地设定和追求具体目标等方面仍存在一定的劣势。反之,AI Agent 则能够被设计为具备清晰目标,并能够策略性地规划和采取行动,实现既定目标。
  • 记忆和状态跟踪的能力(Memory and state tracking) :目前大多数语言模型并不具备持续记忆或跟踪状态的功能,每个输入信息(input)都会被单独处理,不会考虑前后关联。相比之下,AI Agent 设计有 internal state (译者注:Agent 在运行过程中维护的一种数据结构,存储了到目前为止处理的所有信息和过去的经验。能够表现出某种形式的记忆能力,基于过去的信息来影响当前的决策或输出。)维护机制,能够不断积累知识,并运用这些累积的 state 信息为后续的决策(decisions)和行为(actions)提供依据,实现更加智能化的 AI 系统运作模式。
  • 与环境进行互动的能力(Interaction with the environment) :大语言模型(LLMs)的工作局限于文本范畴,一般不涉及与物理现实世界的直接互动。相比之下,AI Agent 能够感知并干预它们所处的环境,无论是数字世界(digital world)、机器人系统(robotic systems),乃至通过传感器(sensors)与执行元件(actuators)感知的真实物理世界。
  • 知识迁移与场景泛化(Transfer and generalization) :虽然 LLMs 擅长与其训练数据类似的语言任务,但它们往往难以将知识迁移到全新的领域或任务中。而 AI Agent ,凭借其学习、推理及策略规划的综合能力,有能力更好地将知识迁移和推广应用到新的场景中。
  • 长期学习能力(Continual learning) :大多数语言模型一旦训练完毕,其状态就会趋于静态固定。而 AI Agent 则可以在与新环境进行交互和不断处理新情况的过程中,边学习边优化自身知识体系与掌握的技能。
  • 多领域任务处理能力(Multi-task capability) :LLMs 通常是针对特定语言任务(比如文本生成、机器翻译等)而专门设计的,它们的能力比较专一。而 AI agents 则可以被设计为通用的、多任务的 AI 系统,擅长无缝融合语言处理、逻辑推理、感知理解及控制操作等多种技能,来与人类一同应对那些既繁复又多元的难题。

04 AI Agent 将如何改变世界?

假定你正在规划一次行程繁复的旅行:

LLM:能为你介绍各色旅游景点,或分享一些旅行小贴士。

RAG:擅长寻找、挖掘关于旅行✈️目的地的精彩博客与深度文章。

AI Agent在此基础之上,更能:

  • 根据你的旅行预算精挑细选航班与住宿信息
  • 一键完成所有预订流程
  • 自动整合个人旅行行程至个人日历
  • 出发前搭配相关温馨提醒,附上必备资讯,确保无忧出行。

05 清晰理解 LLM、RAG 和 AI Agent 等概念

1. 任务导向(Task Orientation) vs. 通用知识(General Knowledge)

  • LLM:在语言理解和内容生成方面表现出色,堪比包罗万象的信息宝库。
  • RAG:通过查找、搜寻相关关键信息来增强 LLMs 的能力,但其重点仍聚焦于知识整合与文本内容创造。
  • AI Agent:因实现特定任务而生,能够在理解语言和在现实世界或数字系统中采取行动之间架起一座桥梁。

2. 环环相扣的多步逻辑推理

  • LLM 和 RAG:通常聚焦于单个输入(input)的即时解析与反馈。
  • AI Agent:能步步为营,执行复杂任务链条。
    • 首先,检索信息(类似 RAG 策略)
    • 继而,处理信息,并基于这些信息做出决策
    • 最后,付诸行动,例如:
      • 发送电子邮件
      • 自动预约服务
      • 智能家居设备操控

3. 掌握主动权

  • LLM 和 RAG:通常仅对 prompt 直接做出回应。
  • AI Agent:可以主动行动、操作。它们能够:
    • 监控数据流,并提醒出现的关键性变化
    • 根据用户偏好主动行动
    • 随着对用户的了解加深,能够学习并逐步调整行为,以便更好地符合用户需求

4. 能够与现有系统进行集成

  • LLM 和 RAG:倾向于在独立环境中运行。
  • AI Agent:则被设计为与多种系统及 API 接口进行对接:
    • 可以无缝接入、访问用户电子邮件或日程信息
    • 能够与数据库进行交互
    • 调度管理用户授予权限的软件与硬件设备

06 AI Agent 架构主要包含哪些核心要素?

AI Agent 拥有构建一个能够自主地理解环境、做出决策并执行任务的 AI 系统所需的核心结构元素和关键组成部分。通常涵盖了以下几个基本方面:

  • 智能推理引擎(A Reasoning Engine) :AI Agent 的核心,通过利用强大的大语言模型(LLM)来深度理解自然语言、获取知识并推理复杂问题。
  • 知识库(Knowledge Base) :作为 AI Agent 的“大脑”,存储着与任务相关的事实资料、过往经验和执行任务相关的个性化设定。
  • 工具集成、联结平台(Tool Integration) :允许 AI Agent 通过应用程序接口(API)与各种软件应用程序和服务进行交互,从而扩展其操纵和控制环境的能力广度和深度。
  • 环境感知模块(Sensory Input) :为 AI Agent 装备上感知周遭世界的“眼睛”和“耳朵”,从文本、图像乃至各种感应器中获取实时数据。
  • 人机交互界面(应当属于其中的一个关键部分) :一座搭建在用户与 AI Agent 之间的沟通桥梁,促进与人类用户之间的无缝沟通和高效协作。 (虽然目前尚无广泛认可的标准化用户体验框架,但随着技术的飞速进步,出现一套更为成熟或普及的交互标准可计日而待。)

上述所提到的这些核心结构元素共同构成了一个能够自主解决问题的智能 AI 系统。AI Agent 能够分析问题,制定分步骤执行的解决方案和行动计划,并且具备充分的能力和决心去实施其解决方案,从而使得它们成为人工智能领域内一股变革性的新力量,有望推动 AI 向更高级阶段迈进。

Thanks for reading!

Aniket Hingane

Passionate about applying AI to practical uses,I simplify complex concepts & designs in concise articles, making complexity accessible one short piece at a time

END

本文经原作者授权,由 Baihai IDP 编译。如需转载译文,请联系获取授权。

原文链接:

https://medium.com/@learn-simplified/why-entire-ai-field-is-headed-towards-ai-agents-a268ac9661ed

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/848351.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

代理IP科普:IP黑名单与IP白名单的机制与作用

在IP代理使用中,我们经常听到黑名单与白名单两个名词,它们不仅提供了强大的防御机制,还可以灵活应对不同的安全威胁。本文将详细探讨IP黑名单和白名单在网络安全中的双重屏障作用。 一、IP黑名单和白名单定义 IP黑名单与IP白名单是网络安全中…

事务管理AOP

通过事务操作 删除部门的时候,同时删除员工,那么如果其中有异常,那么就进行事务回滚 使用注解Trance Transactional-propagation(传播行为)

基于协同过滤算法的东北特产销售系统的设计

基于协同过滤算法的东北特产销售系统的设计 管理员账户功能包括:系统首页,个人中心,管理员管理,基础数据管理,公告管理,新闻信息管理,商品管理 农户账户功能包括:系统首页&#xf…

vue3学习(七)

前言 接上一篇学习笔记,今天主要是分享上次学习完了,还没来得及记录,趁今天晚上换换脑子的时间记录下。 今天主要是记录的vuex文件的拆分,因为毕竟如果只在一个index.js文件写,文件会随着业务的复杂性上升&…

从0-1实现大模型

目录 输入数据准备 滑动窗口造数据 Data sampling with a sliding window 数据加载器的输出DataLoader 位置编码Encoding word positions 自注意力机制 点积的原理 QKV的原理 实现代码 Multi-head Attention 线性层 github: LLMs-from-scratch/ch02/01_main-chapte…

MySQL之查询性能优化(六)

查询性能优化 查询优化器 9.等值传播 如果两个列的值通过等式关联,那么MySQL能够把其中一个列的WHERE条件传递到另一列上。例如,我们看下面的查询: mysql> SELECT film.film_id FROM film-> INNER JOIN film_actor USING(film_id)-> WHERE f…

四川汇聚荣聚荣科技有限公司综合实力怎么样?

在科技日新月异的今天,企业的综合实力成为衡量其市场竞争力的重要指标。四川汇聚荣聚荣科技有限公司作为一家在行业内具有一定影响力的企业,其综合实力如何,自然成为外界关注的焦点。以下将从多个维度深入分析该公司的实力。 一、公司概况与核…

模型测试优化

针对怼螺丝孔场景交叉测试 文章目录 修改一:修改二: 基于训练场景,进行修改,用以验证泛化性 模型说明:训练所用的物体模型上,有两个孔位,其中左侧为1号孔位,右侧为2号孔位 现状&…

QtCharts使用

1.基础配置 1.QGraphicsView提升为QChartView#include <QtCharts> QT_CHARTS_USE_NAMESPACE #include "ui_widget.h"2. QT charts 2.柱状图 2.1QBarSeries //1.创建Qchart对象QChart *chart new QChart();chart->setTitle("直方图演示");//设…

数据结构复习指导之归并排序、基数排序、计数排序

目录 1.归并排序 1.1二路归并操作的功能 1.2算法思想 1.3代码分析 1.4性能分析 2.基数排序 2.1算法思想 2.2基数排序的中间过程的分析 2.3性能分析 3.计数排序 3.1算法思想 3.2代码分析 3.3性能分析 知识回顾 1.归并排序 1.1二路归并操作的功能 归并排序与上述基…

HarmonyOS鸿蒙-DevEco Studio工具

一、官网下载DevEco Studio工具地址 文章内容: 1、下载工具 2、运行项目 3、安装启动器 https://developer.harmonyos.com/cn/develop/deveco-studio/https://developer.harmonyos.com/cn/develop/deveco-studio/ 下载不同平台工具目录 : 二、 安装DevEco Studio工具 安装的配置…

如何令谷歌浏览器搜索时,子页面使用新窗口,而不是迭代打开

1 问题描述 工作相关需要常用谷歌浏览器&#xff0c;但是现在设置就是每次搜索后&#xff0c;点击搜索结果进去之后&#xff0c;都会覆盖掉原来的父页面&#xff0c;也就是如果我看完了这个子页面的内容&#xff0c;关掉的话&#xff0c;我就需要重新google.com来一遍。。。很…

Dinky MySQLCDC 整库同步到 MySQL jar包冲突问题解决

资源&#xff1a;flink 1.17.0、dinky 1.0.2 问题&#xff1a;对于kafka相关的包内类找不到的情况 解决&#xff1a;使用 flink-sql-connector- 胖包即可&#xff0c;去掉 flink-connector- 相关瘦包&#xff0c;解决胖瘦包冲突 source使用 flink-sql-connector- 胖包&#…

Java【springBoot和springCould引入外部jar包】

在项目的研发过程中&#xff0c;我们经常需要导入外部系统提供的jar包&#xff0c;并且这种jar包并没有上传到开源的maven仓库&#xff0c;属于内部环境的包&#xff0c;那么应该如何添加呢&#xff1f; springBoot 1、首先&#xff0c;将你的 JAR 文件拷贝到项目的 resource…

基础数学-求平方根(easy)

一、问题描述 二、实现思路 1.题目不能直接调用Math.sqrt(x) 2.这个题目可以使用二分法来缩小返回值范围 所以我们在left<right时 使 mid (leftright)/21 当mid*mid>x时&#xff0c;说明right范围过大&#xff0c;rightright-1 当mid*mid<x时&#xff0c;说明left范…

使用Qt对word文档进行读写

目录 开发环境原理使用的QT库搭建开发环境准备word模板测试用例结果Gitee地址 开发环境 vs2022 Qt 5.9.1 msvc2017_x64&#xff0c;在文章最后提供了源码。 原理 Qt对于word文档的操作都是在书签位置进行插入文本、图片或表格的操作。 使用的QT库 除了基本的gui、core、…

JavaWeb1 Json+BOM+DOM+事件监听

JS对象-Json //Json 字符串转JS对象 var jsObject Json.parse(userStr); //JS对象转JSON字符串 var jsonStr JSON.stringify(jsObject);JS对象-BOM BOM是浏览器对象模型&#xff0c;允许JS与浏览器对话 它包括5个对象&#xff1a;window、document、navigator、screen、hi…

力扣hot100:138. 随机链表的复制(技巧,数据结构)

LeetCode&#xff1a;138. 随机链表的复制 这是一个经典的数据结构题&#xff0c;当做数据结构来学习。 1、哈希映射 需要注意的是&#xff0c;指针也能够当做unordered_map的键值&#xff0c;指针实际上是一个地址值&#xff0c;在unordered_map中&#xff0c;使用指针的实…

VXLAN技术

VXLAN技术 一、VXLAN简介 1、定义 VXLAN&#xff08;Virtual eXtensible Local Area Network&#xff09;&#xff1a;采用MAC in UDP&#xff08;User Datagram Protocol&#xff09;封装方式&#xff0c;是NVO3&#xff08;Network Virtualization over Layer 3&#xff09…

使用 Logback.xml 配置文件输出日志信息

官方链接&#xff1a;Chapter 3: Configurationhttps://logback.qos.ch/manual/configuration.html 配置使用 logback 的方式有很多种&#xff0c;而使用配置文件是较为简单的一种方式&#xff0c;下述就是简单描述一个 logback 配置文件基本的配置项&#xff1a; 由于 logba…