为何整个 AI 领域都朝着 AI Agents 这一方向发展?

编者按: 当前大热的大语言模型和检索增强生成模型,虽然在语言理解和内容生成方面取得了突破性的进展,但仍然存在诸多限制。它们缺乏根据目标导引行为、持续学习和与环境交互的能力,难以应对复杂多变的现实场景需求。

今天为大家带来的这篇文章,作者的观点是人工智能领域正朝着开发更智能、更自主的 AI Agent 系统迈进,这将彻底改变我们使用人工智能的方式。

作者相信人工智能的未来必将呈现出更智能、更自主的 AI Agent 形态。这种新型人工智能系统不再是简单的语言模型,而是集成了推理引擎、知识库、工具集成等多种能力于一体,能够深入理解环境、制定目标并自主采取行动,从而在诸多领域大显身手。我们有理由相信,AI Agent 将成为人工智能发展的新引擎,并最终改变人类的工作和生活方式。

本文对 AI Agent 这一概念进行了较为全面的解读,让我们一同认识 AI Agent ,认清发展趋势,做好迎接未来的准备。

作者 | Aniket Hingane

编译 | 岳扬

生成式 AI 只是人工智能发展的开端,未来可能会出现更先进的 AI 智能体系统(AI Agent),我们应当重视 Andrew Ng(译者注:Andrew Ng 是斯坦福大学计算机科学系和电气工程系的客座教授,曾任斯坦福人工智能实验室主任。他与达芙妮·科勒一起创建了在线教育平台Coursera。)、Andrej Karpathy (译者注:Andrej Karpathy 是一名斯洛伐克裔加拿大计算机科学家,曾担任特斯拉人工智能和自动驾驶视觉总监。他曾任职于OpenAI,专门研究深度学习和计算机视觉。)等 AI 领域权威人士对于这一趋势的分析和看法。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

01 本文主题

人工智能的未来将会是 Agentic(译者注:能够像人类一样,根据环境、知识和目标来自主进行决策和做出相应行为。)!本文将探讨什么是 AI Agents ,并梳理 AI 行业内部对这一概念的理解和定义。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

文章的核心内容是阐释和探索 “AI Agents” 这一概念,这种技术将在决定和影响未来发展方向上变得越来越关键。期望读者能通过阅读本文对 “AI Agents” 有一个全方位的认识,不仅掌握它们的基本特性,还能了解到它们是如何被运用于各种行业场景中的。接下来,本文将展开讨论这些内容。

02 为何不容错过本文?

我相信本文的内容你绝不会想错过的——因为当前正处于一个工作模式和工作环境快速变化的关键时期。

人工智能领域正不断发展,不再局限于狭窄、专业化的应用模型,而是朝着创造高度智能、较为自主的 AI Agent 这一技术方向前进。 这些 Agent 能够在大多数领域中真正帮助人类提高思维能力、工作效率或解决问题的能力,实现与人类智能的有效互补和增强。

阅读本文,我十分相信你将理解为什么整个 AI 领域都倾向于开发 advanced AI agents ,这些 Agent 有可能彻底改变我们处理和利用人工智能的方式。

无论您是对人工智能有着丰富经验的“老鸟”,还是刚踏入这个领域的“菜鸟”,了解 AI Agent 的发展轨迹对于保持信息畅通和积极参与未来的变革之旅都至关重要。

若你想要探究以下内容,本文必定不容错过:

  • 洞悉行业革新路径:洞悉 AI Agent 将如何革新各行各业及个人职业生涯?
  • 成为 Agent 的先行者:掌握创建并用好 AI Agent 的秘诀。
  • 突出重围,抢占高地:在瞬息万变的科技浪潮中不掉队,甚至成为 AI Agent 时代的“弄潮儿”。

03 LLMs 和 RAG 不好用吗,为什么还需要 AI Agent 呢?

尽管大语言模型(LLMs)和检索增强生成(RAG)模型已经极大地扩展了我们在语言生成任务方面所能达到的界限。但是 AI Agent 强调的是综合智能,包括但不限于决策制定、环境交互和跨领域的知识应用,这样的智能系统能够适应更复杂的任务需求,并在与人的交流合作中展现出更强的灵活性和实用性。

AI Agent 之所以不可或缺,归结于几个核心因素:

  • 根据目标任务导引行为(Goal-oriented behavior) :大语言模型(LLMs)与检索增强生成模型(RAG)的主要任务是根据训练数据中的 patterns (译者注:指代算法在训练过程中从大量输入数据中学习到的常规性特征或规律,在此处应当是指语言模型通过分析文本学习到的词汇使用、句法结构或语境含义的规律。)创造出类似人类创造的文本内容。尽管如此,它们在灵活且智能地设定和追求具体目标等方面仍存在一定的劣势。反之,AI Agent 则能够被设计为具备清晰目标,并能够策略性地规划和采取行动,实现既定目标。
  • 记忆和状态跟踪的能力(Memory and state tracking) :目前大多数语言模型并不具备持续记忆或跟踪状态的功能,每个输入信息(input)都会被单独处理,不会考虑前后关联。相比之下,AI Agent 设计有 internal state (译者注:Agent 在运行过程中维护的一种数据结构,存储了到目前为止处理的所有信息和过去的经验。能够表现出某种形式的记忆能力,基于过去的信息来影响当前的决策或输出。)维护机制,能够不断积累知识,并运用这些累积的 state 信息为后续的决策(decisions)和行为(actions)提供依据,实现更加智能化的 AI 系统运作模式。
  • 与环境进行互动的能力(Interaction with the environment) :大语言模型(LLMs)的工作局限于文本范畴,一般不涉及与物理现实世界的直接互动。相比之下,AI Agent 能够感知并干预它们所处的环境,无论是数字世界(digital world)、机器人系统(robotic systems),乃至通过传感器(sensors)与执行元件(actuators)感知的真实物理世界。
  • 知识迁移与场景泛化(Transfer and generalization) :虽然 LLMs 擅长与其训练数据类似的语言任务,但它们往往难以将知识迁移到全新的领域或任务中。而 AI Agent ,凭借其学习、推理及策略规划的综合能力,有能力更好地将知识迁移和推广应用到新的场景中。
  • 长期学习能力(Continual learning) :大多数语言模型一旦训练完毕,其状态就会趋于静态固定。而 AI Agent 则可以在与新环境进行交互和不断处理新情况的过程中,边学习边优化自身知识体系与掌握的技能。
  • 多领域任务处理能力(Multi-task capability) :LLMs 通常是针对特定语言任务(比如文本生成、机器翻译等)而专门设计的,它们的能力比较专一。而 AI agents 则可以被设计为通用的、多任务的 AI 系统,擅长无缝融合语言处理、逻辑推理、感知理解及控制操作等多种技能,来与人类一同应对那些既繁复又多元的难题。

04 AI Agent 将如何改变世界?

图片

假定你正在规划一次行程繁复的旅行:

LLM:能为你介绍各色旅游景点,或分享一些旅行小贴士。

RAG:擅长寻找、挖掘关于旅行✈️目的地的精彩博客与深度文章。

AI Agent在此基础之上,更能:

  • 根据你的旅行预算精挑细选航班与住宿信息
  • 一键完成所有预订流程
  • 自动整合个人旅行行程至个人日历
  • 出发前搭配相关温馨提醒,附上必备资讯,确保无忧出行。

05 清晰理解 LLM、RAG 和 AI Agent 等概念

图片

1. 任务导向(Task Orientation) vs. 通用知识(General Knowledge)

  • LLM:在语言理解和内容生成方面表现出色,堪比包罗万象的信息宝库。
  • RAG:通过查找、搜寻相关关键信息来增强 LLMs 的能力,但其重点仍聚焦于知识整合与文本内容创造。
  • AI Agent:因实现特定任务而生,能够在理解语言和在现实世界或数字系统中采取行动之间架起一座桥梁。

2. 环环相扣的多步逻辑推理

  • LLM 和 RAG:通常聚焦于单个输入(input)的即时解析与反馈。
  • AI Agent:能步步为营,执行复杂任务链条。
    • 首先,检索信息(类似 RAG 策略)
    • 继而,处理信息,并基于这些信息做出决策
    • 最后,付诸行动,例如:
      • 发送电子邮件
      • 自动预约服务
      • 智能家居设备操控

3. 掌握主动权

  • LLM 和 RAG:通常仅对 prompt 直接做出回应。
  • AI Agent:可以主动行动、操作。它们能够:
    • 监控数据流,并提醒出现的关键性变化
    • 根据用户偏好主动行动
    • 随着对用户的了解加深,能够学习并逐步调整行为,以便更好地符合用户需求

4. 能够与现有系统进行集成

  • LLM 和 RAG:倾向于在独立环境中运行。
  • AI Agent:则被设计为与多种系统及 API 接口进行对接:
    • 可以无缝接入、访问用户电子邮件或日程信息
    • 能够与数据库进行交互
    • 调度管理用户授予权限的软件与硬件设备

06 AI Agent 架构主要包含哪些核心要素?

图片

AI Agent 拥有构建一个能够自主地理解环境、做出决策并执行任务的 AI 系统所需的核心结构元素和关键组成部分。通常涵盖了以下几个基本方面:

  • 智能推理引擎(A Reasoning Engine) :AI Agent 的核心,通过利用强大的大语言模型(LLM)来深度理解自然语言、获取知识并推理复杂问题。
  • 知识库(Knowledge Base) :作为 AI Agent 的“大脑”,存储着与任务相关的事实资料、过往经验和执行任务相关的个性化设定。
  • 工具集成、联结平台(Tool Integration) :允许 AI Agent 通过应用程序接口(API)与各种软件应用程序和服务进行交互,从而扩展其操纵和控制环境的能力广度和深度。
  • 环境感知模块(Sensory Input) :为 AI Agent 装备上感知周遭世界的“眼睛”和“耳朵”,从文本、图像乃至各种感应器中获取实时数据。
  • 人机交互界面(应当属于其中的一个关键部分) :一座搭建在用户与 AI Agent 之间的沟通桥梁,促进与人类用户之间的无缝沟通和高效协作。 (虽然目前尚无广泛认可的标准化用户体验框架,但随着技术的飞速进步,出现一套更为成熟或普及的交互标准可计日而待。)

上述所提到的这些核心结构元素共同构成了一个能够自主解决问题的智能 AI 系统。AI Agent 能够分析问题,制定分步骤执行的解决方案和行动计划,并且具备充分的能力和决心去实施其解决方案,从而使得它们成为人工智能领域内一股变革性的新力量,有望推动 AI 向更高级阶段迈进。

Thanks for reading!

Aniket Hingane

Passionate about applying AI to practical uses,I simplify complex concepts & designs in concise articles, making complexity accessible one short piece at a time

END

读者福利:如果大家对大模型感兴趣,这套大模型学习资料一定对你有用

对于0基础小白入门:

如果你是零基础小白,想快速入门大模型是可以考虑的。

一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。

资源分享

图片

大模型AGI学习包

图片

图片

资料目录

  1. 成长路线图&学习规划
  2. 配套视频教程
  3. 实战LLM
  4. 人工智能比赛资料
  5. AI人工智能必读书单
  6. 面试题合集

人工智能\大模型入门学习大礼包》,可以扫描下方二维码免费领取

1.成长路线图&学习规划

要学习一门新的技术,作为新手一定要先学习成长路线图方向不对,努力白费

对于从来没有接触过网络安全的同学,我们帮你准备了详细的学习成长路线图&学习规划。可以说是最科学最系统的学习路线,大家跟着这个大的方向学习准没问题。

图片

2.视频教程

很多朋友都不喜欢晦涩的文字,我也为大家准备了视频教程,其中一共有21个章节,每个章节都是当前板块的精华浓缩

图片

3.LLM

大家最喜欢也是最关心的LLM(大语言模型)

图片

人工智能\大模型入门学习大礼包》,可以扫描下方二维码免费领取

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/861603.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Go Error 处理

💝💝💝欢迎莅临我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。 推荐:「stormsha的主页」…

HarmonyOS(39) Preferences 入门指南

Preferences Preferences应用实例初始化preferences保存并持久化数据获取数据 参考资料 Preferences Android开发程序员对此应该很熟悉,HarmonyOS里的Preferences跟Android里的SharePreference差不多,应用提供Key-Value键值型的数据处理能力&#xff0c…

HTTP性能测试工具 —— wrk!

wrk性能测试工具详解 wrk是一款轻量级但功能强大的HTTP基准测试工具,主要用于在单机多核CPU环境下对HTTP服务进行性能测试。它通过利用系统自带的高性能I/O机制(如epoll、kqueue等),结合多线程和事件模式,能够产生大量…

AI 助力的在线 Excel 表格:真正的革命还是市场噱头?

在当今数字化和自动化的时代,人工智能(AI)技术被广泛应用于各种领域,从智能手机到工业生产,无所不在。最近,一些产品声称通过AI技术来增强传统的办公软件,如在线Excel表格。例如,Cha…

1966 ssm 流浪猫领养网站系统开发mysql数据库web结构java编程计算机网页源码eclipse项目

一、源码特点 ssm 流浪猫领养网站系统是一套完善的信息系统,结合springMVC框架完成本系统,对理解JSP java编程开发语言有帮助系统采用SSM框架(MVC模式开发),系统具有完整的源代码和数据库,系统主要采用B/…

华为od-C卷200分题目3 - 两个字符串间的最短路径问题

华为od-C卷200分题目3 - 两个字符串间的最短路径问题 题目描述 给定两个字符串,分别为字符串A与字符串B。 例如A字符串为ABCABBA,B字符串为CBABAC可以得到下图m*n的二维数组,定义原点为(0, 0),终点为(m, n),水平与垂…

五月软考满分范文“模型驱动架构设计方法及其应用”,软考高级,系统架构设计师

论文真题 模型驱动架构设计是一种用于应用系统开发的软件设计方法,以模型构造、模型转换和精化为核心,提供了一套软件设计的指导规范。在模型驱动架构环境下,通过创建出机器可读和高度抽象的模型实现对不同问题域的描述,这些模型独立于实现技术,以标准化的方式储存,利用…

Docker(九)-Docker运行redis6.0.8容器实例

1.宿主机新建目录存放redis.conf文件 目的:运行redis容器实例时使用自己的配置文件2.运行redis容器实例 docker run -d -p 6379:6379 --privilegedtrue -v 【宿主机配置文件目录】:/etc/redis/redis.conf -v 【宿主机数据目录】:/data --nameredis6.0.8 redis:6.0…

从挑战到实战!TDengine 新能源行业研讨会要点回顾

近年来,随着全球对可再生能源需求的不断增长,新能源行业迎来了前所未有的发展机遇。然而,伴随着行业的快速发展,海量数据的管理和高效利用成为了行业面临的重要挑战。如何通过先进的数据管理技术提升新能源系统的效率和可靠性&…

安科瑞智能物联网远传电表的优势

物联网远传智能电表是一种新型的电表,它通过物联网技术实现了电能的远程监测和管理。下面是物联网远传智能电表的优缺点:王盼盼;18721098782/Acrel 优点: 1. 实现了电能的远程监测和管理,可以随时随地了解电能的使用…

烟火监测报警摄像机

当今社会,随着城市化进程的加快和人们生活水平的提高,烟火监测报警摄像机作为一种新型智能安防设备,正逐步在各个领域得到广泛应用,其在保障公共安全和预防火灾中的作用日益凸显。烟火监测报警摄像机利用先进的视觉识别技术和智能…

基于FreeRTOS+STM32CubeMX+LCD1602+MCP3304(SPI接口)的8通道ADC转换器Proteus仿真

一、仿真原理图: 二、仿真效果: 三、STM32CubeMX配置: 1)、GPIO配置: 2)、SPI接口配置: 三、软件代码: 1)、GPIO初始化: static void MX_GPIO_Init(void) { GPIO_InitTypeDef GPIO_InitStruct = {0}; /* GPIO Ports Clock Enable */ __HAL_RCC_GPIOC_CLK_ENABL…

Markdown快速生成PPT!用这2个AI办公软件就够了!

对于喜欢使用Markdown编辑内容的人来说,经常会遇到诸如此类的需求: Markdown怎么生成PPT?Markdown怎么生成思维导图?Markdown怎么生成Word,或是导出为Word?Markdown怎么生成表格?…… 使用了比…

如何正确关闭偶发的安卓App闪退Bug?

对于测试遇到偶现的Bug,很多软件测试工程师的做法都是尽量的复现问题的步骤,在复现的过程,有的是录制视频或者打开日志,以便复现的时候,能捕捉到,定位问题,最后如果没有,那就先把问题…

RabbitMQ的Fanout交换机

Fanout交换机 Fanout,英文翻译是扇出,我觉得在MQ中叫广播更合适。 在广播模式下,消息发送流程是这样的: 1) 可以有多个队列2) 每个队列都要绑定到Exchange(交换机)3) …

嵌入式学习——硬件(ARM内核汇编指令)——day52

ARM汇编指令 学习arm汇编的主要目的是为了编写arm启动代码,启动代码启动以后,引导程序到c语言环境下运行。换句话说启动代码的目的是为了在处理器复位以后搭建c语言最基本的需求。因此启动代码的主要任务有: 初始化异常向量表;初…

linux进程是什么?

进程概念 进程Process是指计算机中已运行的程序,是系统进行资源分配和调度的基本单位,是操作系统结构的基础。 在早期面向进程设计的计算机结构中,进程是程序的基本执行实体。在当代面向线程设计的计算机结构中,进程是线程的容器…

Spring Cloud Netflix:构建强大微服务生态系统的利器

Spring Cloud Netflix是一组集成框架,它将Netflix的多个开源组件整合到Spring Boot应用程序中,使得构建云原生应用程序变得更加简单。这些组件包括用于服务发现和注册的Eureka,断路器模式的实现Hystrix,用于API网关的Zuul&#xf…

零点到两点,我部署了一个es

一开始的准备 实在是水平有限,Clash虚拟机网出不去,研究了LAN方案,还在咸鱼买了一单,搞不定,没辙,那我老老实实下载tar包得了,就不docker了 下载安装 直接官网给它安个es https://www.elasti…

web基础学习

1、安装 React 从一开始就被设计为可以被渐进地采用,你可以根据需要或多或少地试用 React。无论你只是想体验一下 React,并为 HTML 页面添加一些交互性,还是创建一个复杂的 React In this chapter 如何将 React 添加到 HTML 页面中 如何新建…