智能体Agent调研

单个智能体建模与优化现状

人类长期以来追求类似于或超越人类水平的人工智能 (AI),而 基于AI的代理(Agent)被认为是一个有前途的研究方向。传统计算机领域的Agent有多种,如自动化脚本、网络爬虫、推荐系统、软件机器人能够独立自主的完成某些特定任务的软件实体 [1]。如今AI领域以及大语言模型LLM的飞速发展,使得人们对代理的需求量和以及任务复杂度要求变得越来越高,从而对代理有了更加新和具体的定义——智能体(Agent)。其中基于生成式AI的大型语言模型(LLM)因其多样化的能力被视为潜在的通用人工智能的基础 [2]。

基于LLM的智能体通常由以下几个模块组成 [2]:Brain(大脑)+Perception(感知)+Action (行动)。其中的核心,即大脑,又由自然语言交互(Natural Language Interaction)、知识(Knowledge)、记忆(Memory)、推理与规划(Reasoning & Planning)、可转移性和泛化所构成(Transferability and Generalization)。
在这里插入图片描述

  1. Brain(大脑)

为了确保有效通信,进行自然语言交互(Natural Language Interaction)的能力至关重要。大脑模块接收到感知模块处理的信息后,首先检索知识(Knowledge) 和调用记忆(Memory)。这些结果有助于智能体制定计划、推理和做出明智的推理与规划(Reasoning & Planning)。此外,大脑模块可能会以摘要、向量或其他数据结构的形式记住智能体过去的观察、想法和行动。同时,它还可以更新常识和领域知识等知识a以备将来使用。基于 LLM 的智能体还可以凭借其**可转移性和泛化(Transferability and Generalization)**能力适应不熟悉的场景。在后续部分中,我们将逐一并有所侧重地探讨这些模块:

    1. **自然语言交互(Natural Language Interaction)**处理与用户的文本对话,理解用户意图,并生成适当的响应。得益于现今LLM的高速迭代和发展以及自身特性,使得智能体能够很轻松的理解人类的表达和要求的同时还能将自处理的信息很好的表达给人类 [3] [4]。此外,以自然语言进行交流的基于LLM的智能体可以赢得更多的信任,并更有效地与人类协作。与此同时,高质量自然语言生成 [5]、多轮对话能力 [6]使得目前以GPT,LAMA等为主的大模型在语言交互层面有了卓越的表现和可用性。不过对与人类模糊以及隐含的语言表达,目前的智能体自然语言交互还未能对其进行充分的语义理解和分析 [7],此外研究发现以ChatGPT为主的模型更擅长理解非拉丁文字语言,而不是生成它们 [8]。
    2. **知识(Knowledge)。**存储和访问领域特定或通用的知识库,这些信息为智能体提供预料来训练和学习,从而被用于回答问题、提供信息 [9]。基于语言模型拥有众多参数的特性,语言模型几乎能够学习所有知识并编码进其参数中,同时还能提供准确的查询 [10] [11],这些知识主要被划分为:语言知识。它包括形态学、句法、语义学。智能体可以通过在包含多种语言的数据集上进行训练来获得多语言知识,无需额外的翻译模型 [12];常识。即人们日常生活中的生活常识 [13]。此类信息通常不会在准备的训练知识上下文中明确提及。因此,缺乏相应常识知识的模型可能无法理解或误解其原意 [14];专业知识。如编程、数学、医学等专业领域的知识 [15]。

然而,就技术层面而言,仍然有两个主要且严重的问题尚未得到很好的解决:

  • 知识权威性问题。模型在训练期间获得的知识可能从一开始就过时甚至不正确。解决此问题的一种简单方法是重新训练。但是,它需要高级数据、大量时间和计算资源。更糟糕的是,它可能导致灾难性的遗忘 [2]。
  • 遗忘问题。一旦一个网络被训练来执行特定任务,例如鸟类分类,它就不能轻易地被训练来执行新任务,例如,逐步学习识别其他鸟类或学习完全不同的任务,例如花卉识别。当添加新任务时,典型的深度神经网络很容易灾难性地忘记以前的任务 [16]。
  • 幻觉问题。LLM可能会生成与来源或事实信息相冲突的内容,这种现象通常被称为幻觉 [17] [18]。这是 LLM 不能广泛用于事实严格的任务的关键原因之一。
    1. **记忆(Memory)。**和既定和不变的知识Knowledge不同,“记忆Memory”存储了主体过去的观察、思想和行动的序列,正如人脑依靠记忆系统回顾性地利用先前的经验来制定策略和做出决策一样 [19],智能体需要特定的记忆机制来确保它们能够熟练地处理一系列连续的任务 [20]。当面临复杂问题时,记忆机制帮助智能体重新审视并有效地应用前行策略 [21]。

记忆同样面对挑战,这涉及到如何对过往的记忆做取舍以避免遗忘以及如何应对激增的记忆存储问题,此外如何提取查询这些记忆也随着数据量激增而产生,这使得在相关主题之间建立联系变得越来越具有挑战性,并可能导致智能体将其响应与正在进行的上下文不一致 [2]。

    1. 推理与规划(Reasoning & Planning)

推理作为人工智能的核心能力,涉及基于证据和逻辑的问题解决、决策制定和批判性分析,其中演绎、归纳和溯因是主要的推理形式 [22]。对于大型语言模型(LLMs)而言,推理能力对于处理复杂任务至关重要。Chain-of-Thought(CoT)方法等技术被用来激发LLMs的推理能力,而自我一致性、自我打磨、自我精炼和选择性推理等策略则被提出以增强LLMs的性能 [2]。

规划作为人类面对复杂挑战的关键策略,对于基于LLMs的智能体同样至关重要,它涉及将复杂任务分解为更易管理的子任务,并为每个子任务制定适当的计划 [23]。规划过程包括计划制定和计划反思两个阶段,前者涉及将总体任务分解为多个子任务,后者则利用内部反馈机制和与人类的互动来完善和增强策略和规划方法,确保智能体能够适应现实世界的情况并成功执行任务。

    1. 可转移性和泛化(Transferability and Generalization)

使智能体能够适应新情境,并将已有的知识应用于未曾见过的问题。

  1. Perception(感知):

对于基于 LLM 的智能体来说,从各种来源和方式接收信息也至关重要。这种扩展的感知空间有助于智能体更好地了解他们的环境,做出明智的决策,并在更广泛的任务中表现出色,使其成为一个重要的发展方向。Agent 将此信息处理给 Brain 模块,以便通过 perception 模块进行处理。文本、视觉和听觉输入。其他可能的输入形式,例如触觉反馈、手势和 3D 地图,以丰富智能体的感知域并增强其多功能性 [2]。

  1. Action(行动):

当一个主体拥有具有知识、记忆、推理、计划和泛化能力以及多模态感知能力的类脑结构时,它还被期望拥有类似于人类的各种行动来响应其周围环境。在智能体的构建中,动作模块接收大脑模块发送的动作序列,并执行动作与环境交互 [2]。

单个智能体的挑战总结与可靠解决方案

我们不得不面对一个关键问题——灾难性遗忘。这一现象指的是,当网络被训练以适应新任务时,它们会遗忘之前学到的知识,尤其在增量学习的场景中更为明显。为了缓解这一问题,研究者们提出了多种策略,包括正则化、集成、排练、双记忆模型和稀疏编码等,旨在保护原有知识不受新学习任务的干扰 [16]。大型语言模型(LLMs)在理解和生成类人文本方面取得了显著进展,但它们在更新模型以保持信息的时效性和准确性方面面临挑战 [22]。为了解决这一问题,研究者们提出了多种编辑技术,并通过构建新的基准数据集和实证分析来评估这些方法的有效性 [22]。LLMs在适应快速变化的世界知识方面也存在挑战,例如处理过时信息和生成幻觉信息的倾向 [23]。为了提高LLMs的事实性,FRESHPROMPT方法被提出,该方法通过将搜索引擎检索到的最新信息整合到模型提示中。

ChatDB框架的提出,为LLMs提供了一种新的增强方式,即通过将数据库作为符号记忆来解决传统神经记忆机制的局限性 [24]。这种方法特别适用于需要精确记录和处理历史信息的场景,如数据管理。最后,FreshQA基准测试和FreshPrompt方法的提出,旨在提高LLMs在事实性问题上的性能,通过将从搜索引擎检索到的相关和最新信息合并到提示中,显著提升了LLMs的性能 [25]。这些研究为未来改进LLMs的准确性和适应性提供了新的方向和工具。

异构智能体(未完整)

一些算法(Yu et al.,2022; de Witt 等人,2020)依赖于参数共享,并要求智能体是_同质_的(_即_共享相同的观察空间和动作空间,并在协作任务中扮演相似的角色),这在很大程度上限制了它们对_异构_智能体设置的适用性(,对观察空间、动作空间和智能体的角色没有约束),并可能损害性能(Christianos 等人,2021).

引用

[1]“Is It an agent, or just a program?: A taxonomy for autonomous agents,” [联机]. Available: https://link.springer.com/chapter/10.1007/bfb0013570.
[2]“The Rise and Potential of Large Language Model Based Agents: A Survey,” [联机]. Available: https://arxiv.org/abs/2309.07864.
[3]“Language Models are Few-Shot Learners,” [联机]. Available: https://proceedings.neurips.cc/paper/2020/hash/1457c0d6bfcb4967418bfb8ac142f64a-Abstract.html.
[4]“Open and efficient foundation language,” [联机]. Available: https://arxiv.org/abs/2302.13971.
[5]“MEGA: Multilingual Evaluation of Generative AI,” [联机]. Available: https://arxiv.org/abs/2303.12528.
[6]W. LLMmeetsdomainexperts. [联机]. Available: https://arxiv.org/abs/2304.04370.
[7]“Understanding Natural Language Commands for Robotic Navigation and Mobile Manipulation,” [联机]. Available: https://www.researchgate.net/publication/363512801_Understanding_Natural_Language_Commands_for_Robotic_Navigation_and_Mobile_Manipulation.
[8]“A Multitask, Multilingual, Multimodal Evaluation of ChatGPT on Reasoning, Hallucination, and Interactivity,” [联机]. Available: https://arxiv.org/abs/2302.04023.
[9]“How Much Knowledge Can You Pack Into the Parameters of a Language Model,” [联机]. Available: https://arxiv.org/abs/2002.08910.
[10]“Scaling Laws for Neural Language Models,” [联机]. Available: https://arxiv.org/abs/2001.08361.
[11]“How Much Knowledge Can You Pack Into the Parameters of a Language Model,” [联机]. Available: https://arxiv.org/abs/2002.08910.
[12]“A Multitask, Multilingual, Multimodal Evaluation of ChatGPT on Reasoning, Hallucination, and Interactivity,” [联机]. Available: https://arxiv.org/abs/2302.04023.
[13]“Language Models of Code are Few-Shot Commonsense Learners,” [联机]. Available: https://arxiv.org/abs/2210.07128.
[14]“Commonsense knowledge in machine intelligence,” [联机]. Available: https://dl.acm.org/doi/10.1145/3186549.3186562.
[15]“ Don’t stop pretraining: Adapt language,” [联机]. Available: https://arxiv.org/abs/2004.10964.
[16]“Measuring Catastrophic Forgetting in Neural Networks,” [联机]. Available: https://arxiv.org/abs/1708.02072.
[17]“A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions,” [联机]. Available: https://arxiv.org/abs/2311.05232.
[18]“Large Language Models Can Be Easily Distracted by Irrelevant Context,” [联机]. Available: https://arxiv.org/abs/2302.00093.
[19]“Reconsolidation of human memory: brain mechanisms and clinical relevance,” [联机]. Available: https://pubmed.ncbi.nlm.nih.gov/24755493/.
[20]“Walking Down the Memory Maze: Beyond Context Limit through Interactive Reading,” [联机]. Available: https://arxiv.org/abs/2310.05029.
[21]“Empowering Private Tutoring by Chaining Large Language Models,” [联机]. Available: https://arxiv.org/abs/2309.08112.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/61068.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

SAP PI/PO Proxy2JDBC SQL_QUERY动态接口示例

目录 背景: 完整demo步骤: IR: ID: SPROXY: 测试代码: 注意点: 背景: 中途临时帮客户项目做其他功能,项目上有部分开发项需要通过PO去第三方数据库取数,项目上的开发对PO不太熟&#xf…

【汇编语言】数据处理的两个基本问题(三) —— 汇编语言的艺术:从div,dd,dup到结构化数据的访问

文章目录 前言1. div指令1.1 使用div时的注意事项1.2 使用格式1.3 多种内存单元表示方法进行举例1.4 问题一1.5 问题一的分析与求解1.5.1 分析1.5.2 程序实现 1.6 问题二1.7 问题二的分析与求解1.7.1 分析1.7.2 程序实现 2. 伪指令 dd2.1 什么是dd?2.2 问题三2.3 问…

模型的评估指标——IoU、混淆矩阵、Precision、Recall、P-R曲线、F1-score、mAP、AP、AUC-ROC

文章目录 预测框的预测指标——IoU(交并比)分类预测指标混淆矩阵(Confusion Matrix,TP、FP、FN、TN)Precision(精度)Recall(召回率)P-R曲线F1-scoreTPR、TNR、FPR、FNRROC曲线下面积…

轻量云服务器:入门级云计算的最佳选择

在云计算领域,轻量云服务器逐渐成为小型企业、个人开发者和初创公司关注的热点。它凭借高性价比、简单易用和稳定性能,正在改变传统的服务器部署方式。本文将详细解析轻量云服务器的定义、优势、适用场景及如何选择最佳方案,帮助您全面了解这…

【初阶数据结构篇】归并排序、计数排序

文章目录 须知 💬 欢迎讨论:如果你在学习过程中有任何问题或想法,欢迎在评论区留言,我们一起交流学习。你的支持是我继续创作的动力! 👍 点赞、收藏与分享:觉得这篇文章对你有帮助吗&#xff1…

移远通信5G RedCap模组RG255C-CN通过中国电信5G Inside终端生态认证

近日,移远通信5G RedCap模组RG255C-CN荣获中国电信颁发的5G Inside终端生态认证证书。这表明,该产品在5G基本性能、网络兼容性、安全特性等方面已经过严格评测且表现优异,将进一步加速推动5G行业终端规模化应用。 中国电信5G Inside终端生态认…

Towards Reasoning in Large Language Models: A Survey

文章目录 题目摘要引言什么是推理?走向大型语言模型中的推理测量大型语言模型中的推理发现与启示反思、讨论和未来方向 为什么要推理?结论题目 大型语言模型中的推理:一项调查 论文地址:https://arxiv.org/abs/2212.10403 项目地址: https://github.com/jeffhj/LM-reason…

Android Studio | 修改镜像地址为阿里云镜像地址,启动App

在项目文件的目录下的 settings.gradle.kts 中修改配置,配置中包含插件和依赖项 pluginManagement {repositories {maven { urluri ("https://www.jitpack.io")}maven { urluri ("https://maven.aliyun.com/repository/releases")}maven { urlu…

Python | Leetcode Python题解之第564题数组嵌套

题目&#xff1a; 题解&#xff1a; class Solution:def arrayNesting(self, nums: List[int]) -> int:ans, n 0, len(nums)for i in range(n):cnt 0while nums[i] < n:num nums[i]nums[i] ni numcnt 1ans max(ans, cnt)return ans

2024-11-17 -MATLAB三维绘图简单实例

1. x -1:0.05:1; y x; [X, Y] meshgrid(x, y); f (X, Y) (sin(pi * X) .* sin(pi * Y)) .^ 2.*sin(2.*X2.*Y); mesh(X, Y, f(X, Y)); % 调用函数f并传递X和Y xlabel(X-axis); ylabel(Y-axis); zlabel(Z-axis); title(Surface Plot of (sin(pi * X) .* sin(pi * Y)) .^ 2.*…

网络层9——虚拟专用网VPN和网络地址转换NAT

目录 一、为什么有虚拟专用网&#xff1f; 二、如何理解“虚拟专用网”&#xff1f; 三、IP隧道技术实现虚拟专用网 四、网络地址变换 一、为什么有虚拟专用网&#xff1f; 第一&#xff0c;IPv4只有32位&#xff0c;最多有40亿个全球唯一的IP地址数量不够&#xff0c;无法…

小程序如何完成订阅

小程序如何完成订阅 参考相关文档实践问题处理授权弹窗不再触发引导用户重新授权 参考相关文档 微信小程序实现订阅消息推送的实现步骤 发送订阅消息 小程序订阅消息&#xff08;用户通过弹窗订阅&#xff09;开发指南 实践 我们需要先选这一个模板&#xff0c;具体流程参考…

Oracle OCP认证考试考点详解082系列19

题记&#xff1a; 本系列主要讲解Oracle OCP认证考试考点&#xff08;题目&#xff09;&#xff0c;适用于19C/21C,跟着学OCP考试必过。 91. 第91题&#xff1a; 题目 解析及答案&#xff1a; 关于 Oracle 数据库中的索引及其管理&#xff0c;以下哪三个陈述是正确的&#x…

HuggingFace:基于YOLOv8的人脸检测模型

个人操作经验总结 1、YOLO的环境配置 github 不论base环境版本如何&#xff0c;建议在conda的虚拟环境中安装 1.1、创建虚拟环境 conda create -n yolov8-face python3.9conda create &#xff1a;创建conda虚拟环境&#xff0c; -n &#xff1a;给虚拟环境命名的…

2024-11-15 Element-ui的tab切换中table自适应宽度无法立即100%的问题

前言 今天在写一个统计图表的时候&#xff0c;将所有的table表格和echarts图表放到一个页面中&#xff0c;这样会在纵向上出现滚动条&#xff0c;上下滑动对用户体验不好&#xff0c;于是改成tab切换的形式 遇到的问题 正如标题所述&#xff0c;elementui在tab中使用table时&…

【汇编】c++游戏开发

由一起学编程创作的‘C/C项目实战&#xff1a;2D射击游戏开发&#xff08;简易版&#xff09;&#xff0c; 440 行源码分享来啦~’&#xff1a; C/C项目实战&#xff1a;2D射击游戏开发&#xff08;简易版&#xff09;&#xff0c; 440 行源码分享来啦~_射击c-CSDN博客文章浏览…

由播客转向个人定制的音频频道(1)平台搭建

项目的背景 最近开始听喜马拉雅播客的内容&#xff0c;但是发现许多不方便的地方。 休息的时候收听喜马拉雅&#xff0c;但是还需要不断地选择喜马拉雅的内容&#xff0c;比较麻烦&#xff0c;而且黑灯操作反而伤眼睛。 喜马拉雅为代表的播客平台都是VOD 形式的&#xff0…

k-近邻算法(K-Nearest Neighbors, KNN)详解:机器学习中的经典算法

✅作者简介&#xff1a;2022年博客新星 第八。热爱国学的Java后端开发者&#xff0c;修心和技术同步精进。 &#x1f34e;个人主页&#xff1a;Java Fans的博客 &#x1f34a;个人信条&#xff1a;不迁怒&#xff0c;不贰过。小知识&#xff0c;大智慧。 &#x1f49e;当前专栏…

pycharm分支提交操作

一、Pycharm拉取Git远程仓库代码 1、点击VCS > Get from Version Control 2、输入git的url&#xff0c;选择自己的项目路径 3、点击Clone&#xff0c;就拉取成功了 默认签出分支为main 选择develop签出即可进行开发工作 二、创建分支&#xff08;非必要可以不使用&#xf…

PySpark——Python与大数据

一、Spark 与 PySpark Apache Spark 是用于大规模数据&#xff08; large-scala data &#xff09;处理的统一&#xff08; unified &#xff09;分析引擎。简单来说&#xff0c; Spark 是一款分布式的计算框架&#xff0c;用于调度成百上千的服务器集群&#xff0c;计算 TB 、…