【RLChina2023】CCF 苏州 记录

目录

  • RLChina介绍
  • 主旨报告
  • 专题报告
    • 智能体学习理论(专题一)
    • 智能体决策与规划(专题二)
    • 智能体框架、体系结构与训练系统(专题六)
    • 基于大语言模型的具身智能体与机器人研究 (专题八)
  • 教学报告——强化学习入门
  • 特别论坛——智能体和多智能体艺术的探索
  • 会议照片

RLChina介绍

在这里插入图片描述

RLChina 2023 大会 11 月 24 日在苏州 CCF 业务总部召开,并于 25 日圆满结束。

近年来,大型语言模型(LLM)与智能体 (AI Agent) 的紧密结合逐渐成为人工智能领域的新研究热点和应用焦点。此次大会旨在邀请来自国内外的智能体研究领军人物,共同探讨智能体学习的前沿理论、大模型在智能体领域的应用、智能体的结构设计、思维链路、决策机制、价值对齐以及多智能体之间的博弈与合作等诸多核心议题。

会议为期三天,共设置主旨报告3场;专题报告9场;教学报告4场;特别论坛1场。由于时间限制,许多报告场次都是并行进行的。笔者根据自己兴趣选择了几场报告参加,摘录比较笼统,许多记录基于演讲者口头汇报,细节展示有限,还望理解。

主旨报告

Liu-Qun 刘群 : LLM的自我改进和自我进化

ModelTraining Data Size
GPT-3(OpenAl,2020.5)500 Bilion tokens
Palm (Google,2022.4)780 Billion tokens
Chinchilla (Deepmind)1.4 Trilion tokens
Llama (Meta)1.5 Trillion tokens
Llama2 (Meta)2 Trillion tokens
GPT-4 (OpenAl)13 Trilion tokens (text·2+code·4) + 2 Trillion tokens (image)

大模型往后的训练数据量只会越来越大,但人类已有的知识是有限的,这就有一个问题:Will we run out of data ? 事实上,在生成模型提出以后,这个问题就得到了缓解。

SELF: Language-Driven Self-Evolution for Large Language Model
LLM 拥有自我批判(self-critiquing)的能力,并且该能力与模型体量呈正相关,模型越大,它拥有的自我批判能力越强,自我批判产生的提升也越明显。
作者提出两阶段学习过程:1、元技能学习阶段;2、自我进化学习阶段
在这里插入图片描述

Aligning Large Language Models with Human: A Survey
大模型训练的价值观与人类对齐

Gaining Wisdom from Setbacks: Aligning Large Language Models via Mistake Analysis
利用反例:人可以从错误中汲取教训,那么机器可以吗
Discrimination is easier than generation !
在这里插入图片描述
一个攻防实验,机器能否在人的指示下做出违背基本伦理的动作?
通过学习反例可以获得这种能力。


Deng-XiaoTie 邓小铁 : On Provable Bound of Nash Equilibrium Approximtor

AI in Math以一种建设性的方式处理数学,使推理变得自动化,不那么费力,也不容易出错。对于算法来说,问题变成了如何对特定问题进行自动化分析。这项工作首次为理论计算机科学中一个得到充分研究的问题提供了一种自动逼近分析方法:计算两人博弈中的近似纳什均衡(Approximate Nash Equilibria)。
The Search-and-Mix Paradigm in Approximate Nash Equilibrium Algorithms
目前最好的成果是得到 33% 近似的 Nash 均衡
在这里插入图片描述Is Nash Equilibrium Approximator Learnable?
Are Equivariant Equilibrium Approximators Beneficial?

上述两篇文章从假设博弈矩阵服从一个分布出发,探讨纳什均衡的学习力和等纳什的有效性。
博弈论的基本原理是:在双方信息互相了解的情况下,我知道你,你知道我知道你…由此无限套娃,博弈层次会收敛到一个结果矩阵上。
但如果信息是不对称的,那么博弈的层次有限。对于优势方可以快速做出对自己有利的决策。


An-Bo 安波 :Towards Foundation Agents: Autonomous Agents, AI Agents, and Agents society

推销了一波 AAMAS ,谷歌一个比较有代表性的评论,就是领域内 most influential 的含金量罢了。在这里插入图片描述主要研究领域

  • 多智能体协调与规划
  • 分布式约束满足与优化
  • 算法博弈理论
  • 多智能体学习
  • 分布式机器学习
  • 逻辑、仿真、agent-oriented programming等

应用

  • 机器人,互联网经济,安全,可持续性,分布式系统,游戏

AI agent 正在成为一个新兴领域

工业界学术界框架评估
OpenAI GPTsSayCanReasoningWorld of bits
Microsoft CopilotCode as policiesPlanningMind2Web
Adept ACT-1ReActGroundingWebArena
AutoGPTGenerative agentsMemoryAitW
LangchainVoyagerTool useAgentBench
LlamalndexEurekaReflectionRT-X

Classifying ambiguous identities in hidden‑role Stochastic games with multi‑agent reinforcement learning

在这里插入图片描述
在这里插入图片描述
由人类 & 特殊AI agents & Foundation agents 组成的 Agent Society。


专题报告

智能体学习理论(专题一)

Wang-LiWei 王立威 : Chain of Thought (CoT) 大模型推理的关键技术

Chain-of-Thought Prompting Elicits Reasoning in Large Language Models
在这里插入图片描述
Self-consistency improves chain of thought reasoning in language models

在这里插入图片描述

由于大多数 LLMs 都遵循 autoregressive 的结构范式,即输出结果的 token 是顺序产生的,并且加在已生成的 Sequence 后作为再输入。从架构层面解释了为什么 CoT prompt 所带来的提升这么明显。作者从理论角度对CoT进行解释,并在两个数学领域(四则运算、线性方程组)展开探讨。

Towards Revealing the Mystery behind Chain of Thought: A Theoretical Perspective


Yang Yuan 袁洋 : On the Power of Foundation Models

On the Power of Foundation Models

Yuan 提出一个观点:Intelligence is Positioning.

预训练算法是在学习一个类别中的态射(形态)

  • 对比学习 : 相似性
  • Masked modeling : Masked对象 -> 完整对象
  • language model: 句子 -> next 句子

Wang-Jun 汪军 : On Physical foundations of AI Agents

学习是通过已知经验改变行为的过程。
AI Agent 的定义应该取决于其所处环境。

Agent 与 Maxwell’s Demon(Maxwell on Heat and Statistical Mechanics)
麦克斯韦妖是麦克斯韦在19世纪70年代提出的一个概念,它显然可以推翻热力学第二定律。被推翻的定律就不再是定律,因此,魔鬼的概念似乎对物理学的基本理解产生了怀疑,而物理学是一个强大的概念。恶魔(麦克斯韦称其为“agent”;威廉·汤姆森将其命名为“demon”)在一个被隔板隔开的气体盒子之间开了一个活板门,监视快速移动的分子,让它们进入一边,但保留慢速移动的分子。他也可以反过来做。例如,过了一段时间,一半的气体变热,一半变冷,而不消耗能量。事实上,现在我们可以做一些工作来恢复热平衡,但只要有这样一个恶魔,就可以提取无限的能量。

在这里插入图片描述

Demon 的另一个可能的动作是,他可以观察分子,只有当分子从右边接近陷阱门时才打开门。这将导致所有的分子最终都在左边。同样,此设置可用于运行引擎。这一次,人们可以在隔板中放置一个活塞,让气体流入活塞腔,从而推动一根杆,产生有用的机械功。这种假想的情况似乎与热力学第二定律相矛盾。为了解释这个悖论,科学家们指出,要实现这种可能性,Demon 仍然需要使用能量来观察分子(例如以光子的形式)。而 Demon 本身(加上陷阱门机制)会在移动陷阱门时从气体中获得熵。因此,系统的总熵仍然增加。Demon 试图从系统中创造比原来更多的有用能量。同样地,他减少了系统的随机性(通过按照一定的规则排列分子),从而减少了熵。目前还没有发现这种违反热力学第二定律的现象。更少的有用能量意味着更多的随机性和熵。

对于一个存在智能体的环境,在不施加任何功的情况下,可以降低系统的总熵。


Laurent Lafforgue : Reality and its representations: a mathematical model

在这里插入图片描述
劳老师数学造诣过高,个人水平有限,实在没听懂在讲啥,对不起。


Rasul Tutunov : Why Can Large Language Models Generate Correct Chain-of-Thoughts

Why Can Large Language Models Generate Correct Chain-of-Thoughts?

在这里插入图片描述与CoT生成相容的自然语言文本生成的概率图形模型。

在这里插入图片描述
在这里插入图片描述


Olivia Caramello : Syntactic Learning Via Topos Theory

On morphisms of relative toposes


智能体决策与规划(专题二)

Zhang-zongchang 章宗长: 驾驭信息:智能决策Agent的设计及挑战

DIKW金字塔理论
在这里插入图片描述

  • D:数据,构成信息和知识的原始材料
  • I:信息,数据所包含的意义,是数据描述的不确定性减少
    • 信息熵 H = − ∑ i = 1 N p i ⋅ l o g p i H=-\sum_{i=1}^{N}p_i\cdot logp_i H=i=1Npilogp

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/177655.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【华为OD题库-040】计算最接近的数-java

题目 给定一个数组X和正整数K,请找出使表达式X[i]-x[i1]…-X[ik-1],结果最接近于数组中位数的下标i,如果有多个满足条件,请返回最大的i。 其中,数组中位数:长度为N的数组,按照元素的值大小升序排列后&#…

「阿里巴巴」裁撤量子实验室!

据内部消息,阿里巴巴达摩院由于预算及盈利等原因,已经撤裁旗下量子实验室。此次,共计裁减30余人。 达摩院官网已撤下量子实验室的相关介绍页面。上图:早先关于量子实验室的相关介绍;下图:现在达摩院官网“实…

Linux 局域网传输工具LANDrop安装

Linux 局域网传输工具LANDrop安装 🥙下载🌭解压🥪运行 🥙下载 官网下载 或网盘 🌭解压 使用以下命令解压获得squashfs-root文件夹 ./LANDrop-latest-linux.AppImage --appimage-extract🥪运行 进入squ…

flutter 文本不随系统设置而改变大小[最全的整理]

文本不随系统设置而改变大小[三] 前言方案十三:使用Flexible方案十四:使用MediaQueryData的textScaleFactor属性方案十五:使用FractionallySizedBox方案十六:使用自定义文本样式方案十七:使用自定义绘制(Cu…

Doris_Doris导入常见问题

Doris数据导入错误 :the length of input is too larger than schema 可能原因:varchar长度设置过短 Doris表字段乱序 导入palo表中的csv本身无schema信息,csv与palo表字段顺序必须一致,否则会错乱 Doris数据文件中字段比表字段…

探秘:性能测试中最常见的陷阱与解决方案!

概述一下性能测试流程? 1.分析性能需求。挑选用户使用最频繁的场景来测试。确定性能指标,比如:事务通过率为100%,TOP99%是5秒,最大并发用户为1000人,CPU和内存的使用率在70%以下2.制定性能测试计划&#x…

如何解决中小制造业企业信息化难题?

中小企的信息化,难! 一、中小制造业企业信息化困难的原因主要有以下几点: 资金限制:中小制造业企业相对于大型企业来说资金有限,无法投入大量资金进行信息化建设。技术水平不足:中小制造业企业缺乏专业的…

C语言文件操作 | 文件分类、文件打开与关闭、文件的读写、文件状态、文件删除与重命名、文件缓冲区

欢迎关注博主 Mindtechnist 或加入【Linux C/C/Python社区】一起学习和分享Linux、C、C、Python、Matlab,机器人运动控制、多机器人协作,智能优化算法,滤波估计、多传感器信息融合,机器学习,人工智能等相关领域的知识和…

Leetcode—828.统计子串中的唯一字符【困难】

2023每日刷题(四十一) Leetcode—828.统计子串中的唯一字符 算法思想 枚举所有种类字母在s中出现的位置,分别统计只包含这个字母不包含该类字母中其他字母的子串个数 实现代码 int uniqueLetterString(char* s) {int len strlen(s);cha…

四川天蝶电子商务有限公司真实可靠吗?

随着数字经济的不断发展,抖音电商服务日益成为企业拓展销售渠道、提升品牌影响力的关键一环。在这样的大背景下,四川天蝶电子商务有限公司凭借其专业的服务能力和创新的技术手段,迅速崛起为抖音电商服务领域的领军企业。 四川天蝶电子商务有限…

【解决方案】基于边缘计算技术的安科瑞综合管廊能效管理平台

平台背景 综合管廊一般是建于城市地下用于容纳两类及以上城市工程管线的构筑物及附属设施,将电力、自来水、热力、煤气、电信、网络等市政公用管线根据规划要求集中敷设在同一个构建物内,实施统一设计、施工、管理的市政公用隧道空间,并且还…

NAS层协议学习(三)

消息结构 每个NAS消息包含一个协议鉴别符和一个消息标识。协议鉴别符是一个 4 位值,指示正在使用的协议,即对于 EPS NAS 消息是 EMM 或 ESM。消息标识指示发送的特定消息。 EMM 消息还包含一个安全标头,指示消息是否受到完整性保护和/或加密…

DS图—图的最短路径/Dijkstra算法【数据结构】

DS图—图的最短路径/Dijkstra算法【数据结构】 题目描述 给出一个图的邻接矩阵,输入顶点v,用迪杰斯特拉算法求顶点v到其它顶点的最短路径。 输入 第一行输入t,表示有t个测试实例 第二行输入顶点数n和n个顶点信息 第三行起,每行…

【链接MySQL】教你用VBA链接MySQL数据库

hi,大家好呀! 之前呢,给大家分享过一个自制链接表管理器的文章,文章中有链接SQL Server数据库的代码,大家对这一段代码比较有兴趣,既然大家有兴趣,那我们今天就来讲一下链接数据库的代码。 这…

抽象工厂模式-C语言实现

说明&#xff1a; 均由 chatgpt生成&#xff0c;实例可以看出无法运行&#xff0c;仅供参考~ 抽象工厂模式&#xff1a; 代码实现&#xff1a; #include <stdio.h>// 定义抽象产品接口 typedef struct {void (*operation)(); } AbstractProductA;typedef struct {voi…

智慧工地管理系统加快推进工程建设项目全生命周期数字化

智慧工地管系统是一种利用人工智能和物联网技术来监测和管理建筑工地的系统。它可以通过感知设备、数据处理和分析、智能控制等技术手段&#xff0c;实现对工地施工、设备状态、人员安全等方面的实时监控和管理。 智慧工地以物联网、移动互联网技术为基础&#xff0c;充分应用大…

Go 中切片(Slice)的长度与容量

切片长度与容量在 Go 中很常见。切片长度是切片中可用元素的数量&#xff0c;而切片容量是从切片中第一个元素开始计算的底层数组中的元素数量。 Go 中的开发者经常混淆切片长度和容量&#xff0c;或者对它们不够了解。理解这两个概念对于高效处理切片的核心操作&#xff0c;比…

“AI+量子模拟”突破!英伟达与美国量子技术公司SandboxAQ合作

&#xff08;图片来源&#xff1a;网络&#xff09; 11月20日&#xff0c;美国量子技术公司SandboxAQ在美国加利福尼亚州帕洛阿尔托宣布与美国人工智能计算公司英伟达&#xff08;NVIDIA&#xff09;联手&#xff0c;双方将通过人工智能和量子模拟技术助力药物发现、电池设计、…

ESP32-Web-Server编程-HTML 基础

ESP32-Web-Server编程-HTML 基础 概述 HTML(HyperText Markup Language) 是用来描述网页的一种语言。其相关内容存储在前端代码的 .html 文件中。 当浏览器向 web 服务器请求网页时&#xff0c;一个 HTML 文件被发送给浏览器&#xff0c;浏览器解释该文件的内容&#xff0c;…

ASP.NET Core Web API设置响应输出的Json数据格式的两种方式

前言 在ASP.NET Core Web API中设置响应输出Json数据格式有两种方式&#xff0c;可以通过添加System.Text.Json或Newtonsoft.JsonJSON序列化和反序列化库在应用程序中全局设置接口响应的Json数据格式&#xff0c;本文示例使用的是新的Minimal API模式。 JSON序列化和反序列化库…