51c大模型~合集94

我自己的原文哦~    https://blog.51cto.com/whaosoft/12897659

#D(R,O) Grasp

重塑跨智能体灵巧手抓取,NUS邵林团队提出全新交互式表征,斩获CoRL Workshop最佳机器人论文奖

本文的作者均来自新加坡国立大学 LinS Lab。本文的共同第一作者为上海交通大学实习生卫振宇和新加坡国立大学博士生徐志轩,主要研究方向为机器人学习和灵巧操纵,其余作者分别为实习生郭京翔,博士生侯懿文、高崇凯,以及硕士生蔡哲豪、罗嘉宇。本文的通讯作者为新加坡国立大学助理教授邵林。

想象一下,市面上有数十种形态各异的灵巧手,每一款都被设计得精巧而独特。然而,是否有可能存在一种通用的抓取策略,无需为每款灵巧手单独优化,却能够适应各种机器人手型和多样物体形状?这一看似遥不可及的梦想,正在逐步成为现实。

灵巧抓取是机器人操作领域的一项核心挑战,它要求机器人手能够与物体实现精确且稳定的交互接触。然而,如何有效建模这种高自由度且复杂的交互关系,并生成精准、多样且高效的抓取策略,一直是该领域亟待解决的难题。

近期,新加坡国立大学计算机学院的邵林团队提出了 D(R,O) Grasp:一种面向跨智能体灵巧抓取的机器人与物体交互统一表示。该方法通过创新性地建模机器人手与物体在抓取姿态下的交互关系,成功实现了对多种机器人手型与物体几何形状的高度泛化能力,为灵巧抓取技术的未来开辟了全新的方向。该论文在 CoRL 2024 MAPoDeL Workshop 中获得了 Best Robotics Paper Award。

  • 论文标题:D(R,O) Grasp: A Unified Representation of Robot and Object Interaction for Cross-Embodiment Dexterous Grasping
  • 项目主页:https://nus-lins-lab.github.io/drograspweb/
  • 论文链接:https://arxiv.org/abs/2410.01702
  • 代码链接:https://github.com/zhenyuwei2003/DRO-Grasp

一、引言

灵巧抓取是机器人完成复杂操作任务的关键,但由于灵巧手的高自由度及稳定抓取所需的复杂交互,任务挑战巨大。目前基于深度学习的方法主要分为机器人中心 (robot-centric) 和物体中心 (object-centric) 两类。

机器人中心方法(如手腕姿态或关节角度表示)直接将观测映射为控制命令,推理速度快,但样本效率低,且因映射依赖特定机器人结构,难以泛化到不同手型。

物体中心方法(如接触点和接触热力图表示)通过描述物体几何与接触信息,泛化能力强,适应不同物体和手型。然而,需额外优化步骤(如指尖逆运动学求解)将预测结果转化为运动学可行的抓取姿态,计算复杂且耗时。

为克服这些局限,我们提出交互中心 (interaction-centric) 的统一表示 D(R,O)。该方法捕捉机器手运动学与物体几何的交互关系,弥补机器人中心方法的泛化不足,同时提升物体中心方法的推理效率,实现跨机器人手型与物体形状的泛化,为灵巧抓取提供高效且鲁棒的解决方案。

图片

图 1 灵巧手抓取方法比较

二、方法

图片

图 2 D(R,O) Grasp 整体框架

给定物体点云和机器人手的 URDF 文件,模型的目标是生成灵巧且多样化的抓取姿态,能够在不同的物体和机器人手型之间实现广泛的泛化。D(R,O) Grasp 整体框架如图 2 所示,主要有以下三个部分组成:

1. 基于对比学习的配置不变预训练

2. D(R,O)表征预测

3. 基于 D(R,O) 表征的抓取姿态生成

2.1 基于对比学习的配置不变预训练

学习灵巧抓取需要理解机器手与物体的空间关系,目标是将机器手的特定配置与物体匹配。然而,由于不同配置下机器手整体姿态变化显著,模型难以捕捉局部几何特征的一致性。为此,我们提出一种配置不变的预训练方法,通过训练神经网络对齐不同配置下的几何特征,促进匹配并提升多姿态适应能力。

我们首先采样并存储机器手各 link 的点云数据。基于前向运动学模型,可为任意配置计算对应点云,确保不同配置下点云的一致性。在预训练中,规范配置(如张开手姿态)和抓取配置的点云分别输入机器人编码器网络提取逐点特征。我们通过点间欧氏距离加权正负点对关系,进行逐点对比学习,并计算如下损失函数:

图片

该方法通过对齐不同配置下编码器的几何特征,简化机器手与物体匹配难度,提高模型的泛化能力。

2.2 D(R,O) 表征预测

我们预测的 D(R,O) 表征是一个机器手点云和物体点云之间相对距离矩阵(Distances of Robot and Object)。首先,我们使用两个相同结构的编码器分别提取机器手点云和物体点云的几何特征:

图片

在此过程中,机器手的编码器使用预训练网络并在训练中保持冻结。为建立两组特征的对应关系,我们引入两个 Transformer 模型嵌入点间对应信息,并使用残差连接:

图片

为实现跨智能体抓取的多样性,我们采用条件变分自编码器(CVAE)网络捕捉机器手、物体与抓取姿态的多种组合变化。具体而言,将机器手与物体在抓取姿态下的点云拼接后输入 CVAE 编码器,利用点云特征作为条件生成隐变量。随后,将隐变量与每个点特征拼接,得到机器手和物体的综合特征。

对于机器手某点与物体某点的综合特征,我们采用结合 MLP 网络和 softplus 函数的核函数计算相对距离,确保结果具有对称性和非负性:

图片

通过对所有点对进行上述计算,我们最终得到完整的 D(R,O) 表征如下:

图片

2.3 基于 D(R,O) 表征的抓取姿态生成

给定预测的 D(R,O) 表征,我们获得了机器人手点云与物体点云之间的相对距离关系。由于物体点云已知,我们可利用这些距离关系通过多点定位(Multilateration)技术计算出隐式描述的机器人手点云。本质上,这是一个最小二乘优化问题:

该问题已证明具有闭式解,可快速计算机器人手点云。在三维空间中,确定一个点的位置仅需四个相对距离,而 D(R,O) 表征提供了上百个距离。相比直接预测点云,这种表征对神经网络预测误差更加鲁棒。

得到机器人手点云后,为求解相应关节值,我们将逆运动学分为两步:首先,使用 SVD 分解从点云计算出每个 link 的 6D 姿态;然后,以这些 6D 姿态为优化目标,利用雅克比矩阵迭代更新初始关节值,最终得到期望抓取姿态的关节值。

这一优化过程约束简单,即便是 ShadowHand 等高自由度灵巧手,也可在不到 1 秒内完成优化,大幅提升抓取生成速度。

三、实验结果

图片

图 3 与 baseline 的实验结果对比

在实验中,我们评估了抓取成功率、姿态多样性及生成效率三个指标。抓取结果在 10 个全新物体上进行了测试,使用 Barrett、Allegro 和 ShadowHand 三款灵巧手进行比较。图 3 表显示,我们的方法在所有灵巧手上都显著超越了现有方法的成功率,验证了方法的有效性。此外,生成速度亦大幅优于其他方法,这对灵巧操控任务至关重要。

图片

图 4 生成抓取与 baseline 失败抓取可视化

与基准方法相比,我们的方法生成的抓取姿态更自然且鲁棒,而基准方法易产生不自然、穿透严重且稳定性差的抓取。

图片

图 5 不同条件下实验结果对比

从图 5 表前两行可见,跨智能体训练较单一机器人训练在成功率上略有提升,证明了跨智能体的良好泛化能力。即便输入部分点云,我们的方法也能取得优异表现,展示了其广泛适用性。

图片

图 6 多样化的抓取姿态生成

由于训练数据中输入和抓取旋转已对齐,模型能隐式映射这些旋转,从而根据输入方向生成适宜抓取姿态。如图 6 所示,六个不同方向下模型均生成可行抓取,体现方法的可控性。同时,通过从正态分布中采样隐变量,模型在相同方向上生成多个抓取姿态,展现多样性。

图片

图 7 预训练点云匹配可视化

图 7 展示了预训练模型捕捉到的不同配置下几何特征的对齐关系,不同机器人手间的强匹配性突显了特征的迁移能力。正如图 3 表所示,去除预训练参数直接训练编码器会导致性能显著下降,进一步证明预训练的重要性。

图片

图 8 真机实验效果

在真实机器人实验中,算法部署到 XArm 和 LeapHand 上,并在 10 个全新物体实验中达成 89% 成功率,展现了方法在灵巧抓取中的有效性和良好泛化能力。更多实验视频请见项目主页。

图片

四、总结

在本论文中,我们提出了一种基于相对距离矩阵 D(R,O) 的新颖表征方法,用于捕捉机器人手与物体之间的交互信息,从而提升灵巧手的抓取性能。与现有方法过于依赖特定物体或机器手表示的局限性不同,我们的方法通过引入统一框架弥合了这种差距,并在不同机器人和物体几何形状之间实现了良好的泛化能力。此外,我们设计的预训练方法有效增强了模型适应不同手部配置的能力,从而支持广泛的机器人系统应用。实验结果表明,我们的方法在抓取成功率、姿态多样性以及计算效率方面均取得了显著提升,为灵巧抓取任务提供了新的解决方案。

#DeepMind研究表明还能提升推理能力

人会逆向思维,LLM也可以?

人能逆向思维,LLM 也可以吗?北卡罗来纳大学教堂山分校与谷歌最近的一项研究表明,LLM 确实可以,并且逆向思维还能帮助提升 LLM 的正向推理能力!

图片

论文一作 Justin Chih-Yao Chen 的推文

简单来说,正向思维就是从问题开始,一步步地得出答案;而逆向思维则是先从一个预测答案开始,逆推到原始问题。

组合使用正向和逆向思维可让我们验证解答的正确性并找到可能的错误。

举个简单例子,如果小明有 2 个苹果,小红有 3 个苹果,那么他们一共有多少个苹果?

使用正向推理,我们可以得出 2 + 3 = 5。再使用逆向推理,我们可以从共有 5 个苹果的结论开始,然后根据小明有 2 个来逆向得知小红有 3 个。这些数值与原始问题相符,故此可以验证 5 这个答案的正确性。如果正向推理出错了,比如答案是 6 个,那么逆向推理时就会得到与原始问题不一样的数值:小红有 4 个苹果。这种矛盾可让我们重新检视自己的推理过程哪里有误。

大型语言模型(LLM)的数学能力也能通过正向 - 逆向推理得到提升,原因有二:

  1. 数学本身是高度结构化的,因此正向和逆向推理之间存在明确的逆反关系;
  2. 只需替换名称或数值等变量,就可以创建出新的数学问题。

那么问题来了:逆向思维能否应用于更广泛、结构性较差的领域?

此外,这些方法通常是测试时使用,目的是验证:给定一个解,让 LLM 逆向思考并查看正向推理是否正确。虽然它们比其它测试时方法(例如自我一致性)的表现稍微好一点,但还是存在未解的疑问:我们能否训练一个本身就能逆向思维的模型,从而提升其正向推理效果,而不是在测试时使用逆向推理进行验证?

近日,北卡罗来纳大学教堂山分校、谷歌 Cloud AI Research、谷歌 DeepMind 的一个联合团队为上面两个问题提供了解答。他们发布的论文表明,逆向思维可以显著 LLM 的推理能力,并且不限于数学任务。他们还提出了一个名叫 RevThink 的框架,可将逆向思维「灌输」给语言模型。

图片

  • 论文标题:Reverse Thinking Makes LLMs Stronger Reasoners
  • 论文地址:https://arxiv.org/pdf/2411.19865

论文发布后,吸引来不少称赞之声。

图片

图片

方法

RevThink 主要包含两个阶段:数据增强和全新的学习目标。

图片

数据增强

首先,对于推理数据集,该团队使用了一个更大、能力更强的教师模型来对其进行增强。

我们知道,一般来说,推理基准数据由一个问题和一个答案构成。那么该如何增强它呢?该团队的方法是通过对教师模式使用少样本提示来(few-shot prompting)生成三种新数据:正向推理、逆向问题、逆向推理。其中正向和逆向推理都会使用思维链。

只有当数据点的正向推理准确(与 ground truth 相符)且逆向推理与原始问题一致(通过提示教师模型进行验证)时,该数据点才会被保留下来。

学习目标

完成数据集增强之后,该团队还提出了三个用于训练更小的学生模型的关键目标。

图片

具体来说,学生模型需要学会:

  • 基于问题生成正确的正向推理;
  • 基于原始问题生成逆向问题;
  • 基于逆向问题生成逆向推理。

之所以要设置这三个目标,该团队说明了三点原因:

  • 基于问题生成正确的正向推理是知识蒸馏的标准方法;
  • 生成逆向问题会促使学生模型「思考」如何逆向一个问题并确定要问的正确问题;
  • 最后,解决这个逆向问题可以增强学生模型逆向推理的能力。

在测试时,首先会使用问题来询问该学生模型,而它只会生成前向推理 —— 类似于标准的零样本推理。

本质上讲,这个流程是在训练过程中内化了逆向推理的能力,同时还能保证测试时间计算与零样本方法一样高效。

如图 1 传统的监督式微调侧重于从问题到答案的单向推理。相比之下,RevThink 基于新提出的数据增强方法和目标,通过学习两个方向的推理而引入了双向思维。这能为模型带来更大的提升。

图片

实验和评估

该团队通过实验验证了 RevThink 的有效性。具体来说,他们使用的教师模型是 Gemini-1.5-Pro-001,学生模型是 Mistral-7B-Instruct-v0.3 和 Gemma-7B-Instruct。训练中,他们使用了 LoRA 微调,秩设为 32。所有比较方法都使用了 vllm 和贪婪解码。

他们也选择了多种任务进行评估,包括常识推理(StrategyQA、CommonsenseQA、ARCchallenge),数学推理(MATH、GSM8K),表格数据推理(TabMWP)、自然语言推理(ANLI),逻辑推理(Date Understanding)。

参与比较的方法大致可分为三类:零样本方法、知识蒸馏(包含符号知识蒸馏和逐步蒸馏)和数据增强(包含问题重新表述、问题增强、答案增强)。更多实验设置请参阅原论文。

主要结果

表 1 给出了主要结果。

图片

首先,RevThink 的平均性能表现很好,在不同数据集和模型上都优于基线。与学生模型的零样本性能相比,RevThink 使用 Mistral 时实现了 12.68% 的平均提升,使用 Gemma 时实现了 14.37% 的平均提升。

图片

此外,相比于符号知识蒸馏(SKD)和逐步蒸馏(Distill Step-by-Step)—— 依赖于使用来自教师模型的正确推理链来执行监督式微调,RevThink 有 6.44% 至 7.15% 的显著提升。

与基于数据增强的基线方法相比,RevThink 带来的增益也更为显著,特别是在常识推理、表格推理和日期理解方面。虽然其中一些增强方法(例如答案增强 (AnsAug))对于数学推理很有效,但它们为其它领域带来的改进较少。这表明数学是一个更结构化的领域,会随着数据的增加而更好地扩展。

相比之下,RevThink 在各种推理任务上都能带来稳定的提升。并且表 3 表明,在留存数据集上进行评估时,RevThink 在领域外数学数据集上也能带来更大的增益,表现出了更好的泛化能力。

图片

下面还列出了 RevThink 的更多优势,相关详情请访问原论文:

  • RevThink 表现出了很好的样本效率。
  • 逆向问题生成可提高性能,但充分利用新的数据集可获得最佳性能。
  • RevThink 的目标比使用指令调整的单独实例更有效。
  • 只需稍多一点 token,RevThink 就能获得更大提升。
  • RevThink 与模型大小呈正相关。
  • RevThink 可泛化至 OOD 数据集。
  • RevThink 可作为现有方法的补充。
  • RevThink 在可逆问题和中等难度问题上表现出了更大的提升。

#Primes of the form p² + nq²

两位数学家发现素数计数新方法,原来「p²+nq²」形式的素数真有无限多个

一项新的证明,让数学家们离理解「算术原子」素数的隐藏顺序更近了一步。

素数,即「只能被它们自己和 1 整除的数」,可以说是数学中最基本的组成部分。

素数的神秘之处在于:乍一看,它们似乎随意散布在数轴上,但实际上并不是随机的,而是完全确定的。仔细观察它们,就会发现各种奇怪的模式。

数学家们花了几个世纪的时间试图解开这些模式。如果能更好地理解素数是如何分布的,就能照亮数学宇宙的广阔天地。

虽然数学家们可以凭借一些公式大致了解素数的位置,却还是无法准确地找到它们,因此不得不采取更间接的方法。

公元前 300 年左右,欧几里得证明了素数的数量是无限的。此后,数学家们以欧几里得的定理为基础,为符合其他标准的素数证明了同样的说法。

举个简单的例子:是否有无数个不包含数字 7 的素数?

随着时间的推移,数学家们把这些标准变得越来越严格。通过证明仍然有无限多的素数满足这种越来越严格的限制,他们逐渐深入地了解素数的存在环境。但问题是,这类定理很难证明。

近日,来自牛津大学的 Ben Green 和哥伦比亚大学的 Mehtaab Sawhney 证明了一个特别具有挑战性的素数类型的定理 —— 是否存在无穷多个形式为 p² + 4q² 的素数,其中 p 和 q 也必须是素数?

Ben Green(左)和 Mehtaab Sawhney(右)。

这两位数学家的证明在今年 10 月份以预印本的形式发布,不仅加深了数学家对素数的理解,还利用了数学中不同领域的一套工具,表明这些工具远比数学家们想象的要强大得多,并有可能成熟地应用于其他领域。

  • 论文标题:Primes of the form p² + nq²
  • 论文链接:https://arxiv.org/pdf/2410.04189

长期以来的尝试

数学家总是倾向于研究那些复杂到足以引起兴趣,但又简单到足以取得进展的素数族。例如,他们可能试图证明有无限多个相距 500 个单位的素数。或者,我们可以通过把其他数的平方相加,来建立无限多的素数。

最后一个约束特别有用,它引导了几个世纪的数学进步。1640 年,费马(Pierre de Fermat)猜想有无限多的素数可以通过两个整数的平方和相加来表示。例如,素数 13 可以写成 2² + 3²。欧拉(Leonhard Euler)后来证明了这一猜想。

但是,只要对问题稍作调整:比如坚持要求其中一个平方数是奇数,或者是完全平方数,问题就会变得更难。

Ben Green 表示:「对一个集合的约束越多,找到其中的素数就越难。」

在 19 世纪,对这类定理的研究促进了现代数论的发展。在 20 世纪,它激发了迄今为止最雄心勃勃的数学工程之一:朗兰兹计划。而在 21 世纪,对这类素数的研究不断产生新的技术和见解。

2018 年,罗格斯大学的 Friedlander 和 Henryk Iwaniec 提出了一个问题:是否存在无穷多个形式为 p² + 4q² 的素数,其中 p 和 q 也必须是素数?(例如 41 = 5² + 4 × 2².)

结果发现,处理这一约束条件特别具有挑战性。但如果数学家们能解决这个问题,他们就能成功地对素数进行新一层次的控制,而这正是他们一直希望做到的。

一次有价值的访问

Green 和 Sawhney 以前都没有玩过这种素数游戏,但他们都有研究素数产生的奇特规律的经验。

今年 7 月,两位数学家在爱丁堡的一次会议上相遇了。刚从研究生院毕业的 Sawhney 一直很崇拜 Green。

Green 20 年前证明的一个开创性结果是将他带入这个学科的原因之一。Sawhney 表示:「我当时就想天啊,你怎么能做到这一点?」

同时,格林也对这位年轻的数学家印象深刻:「Mehtaab 是一位杰出的数学家,他无所不知。」

两人决定合作。他们只需要找到合适的问题。经过一番讨论,他们最终确定了 Friedlander 和 Iwaniec 的猜想。

Green 邀请 Sawhney 到牛津大学访问一周。他们知道,要证明类似的猜想,数学家们通常要依靠一套特定的计数技术。但由于他们问题中的素数定义过于严格,二人无法找出让这套传统工具发挥作用的方法。

相反,他们希望用一种更迂回的方式来证明这一猜想 —— 走一步数学棋。但首先,他们必须证明他们是可以走这步棋的。

在 Sawhney 访问结束时,他和 Green 已经知道了如何做到这一点,从而证明了这个猜想。为此,他们与数学的另一个领域建立了惊人的联系。

尝试另一个集合

在 Green 和 Sawhney 看来,根本不可能通过计算两个素数的平方并将其相加来直接计算素数的数量。但是,如果他们稍微放松一下限制,结果会怎样?他们意识到他们可以解决一个稍微弱一些的版本 —— 其中被平方的数只需「大致粗略」是素数。

相比于素数,粗略素数(rough prime)更容易找到。假设你要统计 1 到 200 之间有多少个粗略素数。

首先,先看看最小的素数有哪些 ——2、3、5、7。然后列出所有无法被这些素数整除的数。这些数就是粗略素数。在这种情况下,你最终会得到 50 个粗略素数:其中 46 个真是素数,而另外四个不是素数(121、143、169 和 187)。由于粗略素数的分布的随机性远低于素数的分布,因此它们更容易处理。Sawhney 说:「粗略素数是我们远远更加了解的集合。」

Tamar Ziegler 在素数方面的开创性工作使研究人员能够将一种名为 Gowers 范数的数学技术移植到一个新领域。

Green 和 Sawhney 已经证明,通过对两个粗略素数求平方并将它们相加可以得到无穷多个素数。现在他们只需证明这个陈述暗示了他们实际想要解决的问题:存在无穷多个素数可以写成真实素数的平方和。

但这无法显而易见地推导出来。他们必须为该问题的每个版本都分析一个特殊的函数集 —— 称为 I 型与 II 型和(Type I and Type II sums),然后证明:不管使用何种约束条件,这些和都是等价的。只有这样,Green 和 Sawhney 才能知道他们可以将粗略素数代入他们的证明中,同时不丢失任何信息。

他们很快意识到:他们可以使用一个工具来证明这些和是等价的,并且他们各自之前都在自己的研究工作中使用过这个工具。这个工具被称为 Gowers 范数,是数学家 Timothy Gowers 几十年前开发的,原本是用于度量一个函数或数集的随机或结构化程度。从表面上看,Gowers 范数似乎属于完全不同的数学领域。Sawhney 说:「不了解它的人几乎无法看出这些东西存在关联。」

但使用数学家陶哲轩和 Tamar Ziegler 在 2018 年证明的里程碑结果,Green 和 Sawhney 发现了一种方法来建立 Gowers 范数与 I 型与 II 型和之间的联系。本质上,他们需要使用 Gowers 范数来证明他们的两组素数足够相似,即使用粗略素数构建的集合和使用实素数构建的集合。

事实证明,Sawhney 知道该怎么做。今年早些时候,为了解决一个与之无关的问题,他开发了一种使用 Gowers 范数比较集合的技术。他没想到的是,该技术足以证明这两个集合具有相同的 I 型和 II 型和。

技术在手,Green 和 Sawhney 证明了 Friedlander 和 Iwaniec 的猜想:可以写成 p² + 4q² 形式的素数有无穷多个。最后,他们还成功扩展了他们的结果,证明了:其它素数族的素数也有无穷多个。对于这类进展通常很罕见的问题而言,这着实是一个重大突破。

更重要的是,这项工作表明 Gowers 范数可以作为一个新领域的强大工具。Friedlander 说:「因为它是如此新颖,至少在数论的这个部分,它有可能做到很多其他的事情。」数学家们现在希望进一步扩大 Gowers 范数的范围 —— 尝试用它来解决数论中素数计数问题之外的其他问题。

「看到我以前想到的东西有了意想不到的新应用,我感到很有趣。」Ziegler 说,「这就像为人父母,当你放开孩子,他们长大后会做出神秘而意想不到的事情。」

原文链接:https://www.quantamagazine.org/mathematicians-uncover-a-new-way-to-count-prime-numbers-20241211/

#o3是AGI

是时候停止炒作「o3是AGI」了!背后15人安全对齐团队大盘点

我们或许可以称o3是「更高级的推理AI」,而远不是AGI。

昨天凌晨,OpenAI 连续 12 天发布会终于落下了帷幕,并甩出了最强大的推理模型 o3 系列!

当然,用户现在想要体验 o3 或者 o3-mini,需要申请并等待数周。从目前 OpenAI 官方给出的一些纸面数据来看,o3 的能力远超以往任何推理模型,并在 ARC-AGI 基准上达到了优良水平,成为首个突破该基准的 AI 模型。其中,o3 系列模型最低可达到 75.7%,最高可达到 87.5%。

图片

o3 系列模型如此强大的能力,激起了大家对 AGI 的热烈谈论,很多人都兴奋地宣布:这就是 AGI、AGI 已经实现、AGI 比你想象的更加接近。

图片

图源:X@MatthewBerman

图片

图源:X@treky_x

图片

图源:X@WesRothMoney

图片

图源:X@FinanceLancelot

面对关于 o3 愈演愈烈、愈加失控的炒作,知名博主、AI 研究者「elvis」认为,o3 系列不是 AGI、不是奇点,人们甚至无法访问这些模型。连 OpenAI 都明确表示还有很多需要改进的地方。虽然进展的确令人兴奋,但网络上误导信息太多,基准测试结果也并没有多大意义。

图片

图源:X@omarsar0

有人表示,每次发布新的 OpenAI 模型(这次是 o3),都会有人宣称「AGI 来了」、「不再需要程序员了」等言论。虽然 o3 看起来令人印象深刻,但它远没有在现实世界中得到检验。AGI 仍然遥遥无期。

图片

图源:X@drjohnflackett

还有人说到,为什么我们要在一个还无法体验的演示版 AI 模型上宣布「AGI」呢?虽然 o3 系列模型看起来很棒,但并不是一个正式发布版本,也无法验证。

图片

图源:X@mcguinnessfortx

持有这种观点的人不在少数,有人觉得,o3 系列在编码和数学领域的确很强,但 AGI 是要胜任人类能做的所有事情。我们要的是全能型人才,而非专业人才。另外,一次基准测试表现很好不能说明全部的情况,并不意味着能够迎接其他不可预测的挑战。最后,真正的 AGI 应该是适应性很强的,即使资源紧张也能运行。但 o3 的运行成本高得离谱,这显然不是 AGI 的意义所在。

图片

图源:X@marthinusstryd1

显然 o3 离跟 AGI 画上等号还有很长的路要走,但无疑是一次巨大的进步。尤其是推理速度提升、成本降低且兼顾性能的 o3-mini,它更加经济高效,并使用全新的安全评估方法审议式对齐(deliberative alignment)。

这是一种直接教模型安全规范的新范式,训练模型在回答之前明确回忆规范并准确执行推理。OpenAI 使用这种方法来对齐包括 o3-mini 在内的 o 系列模型 ,实现对 OpenAI 安全政策的高度精确遵守,并且这个过程无需人工编写的思路或答案。

下图 1 为包括 o3-mini 在内的 o 系列模型与 GPT-4o 在关键政策领域的比较结果,比如不允许的内容、遵守响应风格指南、越狱和过度拒绝等。

图片

接下来,对该范式相关论文的作者进行了完整的盘点。

图片

论文地址:https://assets.ctfassets.net/kftzwdyauwt9/4pNYAZteAQXWtloDdANQ7L/978a6fd0a2ee268b2cb59637bd074cca/OpenAI_Deliberative-Alignment-Reasoning-Enables-Safer_Language-Models_122024.pdf

o3-mini 对齐范式作者盘点

Melody Y. Guan

图片

Melody Y. Guan 本硕均就读于哈佛大学,目前是斯坦福大学计算机科学系的博士研究生。

图片

在加入斯坦福大学之前,Melody Y. Guan 曾在谷歌担任研究员。她与 OpenAI 的关系主要体现在她的研究工作上,她与 OpenAI 的研究人员合作发表了多篇论文。

图片

Melody Y. Guan 的研究兴趣主要集中在强化学习和神经架构搜索等领域。她与 Google Brain 团队合作,提出了著名的神经架构搜索方法 ENAS(Efficient Neural Architecture Search via Parameter Sharing)。此外,她还发表了多篇关于机器学习和人工智能的学术论文。

Manas Joglekar 

Manas Joglekar 本科毕业于印度理工学院孟买分校,后于斯坦福大学读博士。

博士期间,他曾先后在微软、谷歌和 Facebook 进行实习,2016 年正式进入谷歌担任高级软件工程师,2019 年他担任 Snorkel AI 创始工程师,负责领导机器学习基础工作,2023 年 10 月加入 OpenAI。

Manas Joglekar 发表过多篇论文,主要研究方向包括计算机科学和机器学习。

Eric Wallace 

Eric Wallace 是 OpenAI 的研究员,致力于使下一代大型语言模型(LLMs)更加安全、可靠和注重隐私。

图片

他本科毕业于马里兰大学帕克分校计算机科学系,目前还在加州大学伯克利分校攻读博士学位,研究方向是增强机器学习的安全性、隐私性和鲁棒性。

图片

在加入 OpenAI 之前,Eric Wallace 曾在 DeepMind 和 Meta 实习。

他在 OpenAI 的工作主要集中在提升大模型的安全性和隐私性,曾参与了 GPT-4o mini、o1、o1-mini 等安全和能力方面的研究。

图片

Saachi Jain 

Saachi Jain 是 OpenAI 的研究人员,她本硕毕业于斯坦福大学,目前在麻省理工学院(MIT)攻读博士学位。

图片

她的研究主要集中在构建更鲁棒和可靠的机器学习模型,特别是理解模型如何进行泛化。

在加入 OpenAI 之前,Saachi Jain 曾在特斯拉担任计算机视觉科学家,参与自动驾驶技术的视觉模型设计和训练。她还在 Facebook 和 Google 等公司进行过实习。

在 OpenAI,她曾是 o1 项目的安全技术负责人之一,该项目旨在提高模型的推理能力和安全性。

Boaz Barak 

Boaz Barak 是哈佛大学计算机科学教授。他是一位理论计算机科学家,研究领域包括计算复杂性、算法、密码学、量子计算以及机器学习的基础。Boaz Barak 曾参与了 OpenAI o1 项目的安全研究工作。

Alec Heylar 

他本科毕业于弗吉尼亚理工学院暨州立大学,曾在微软度过 5 年职业生涯,2024 年 5 月进入 OpenAI 担任研究员。

图片

Alec Heyla 的专业技能涵盖了人工智能、大语言模型等多个领域。

图片

Rachel Dias 

Rachel Dias 本科毕业于美国芝加哥大学的政治学专业,曾在 Meta 担任产品策略与运营,后来加入 TikTok 担任政策实施经理。

2024 年 1 月进入 OpenAI, 是 OpenAI o1 模型的「准备评估」团队成员之一。

图片

Andrea Vallone 

她在加州大学圣巴巴拉分校获得了英语(B.A. English)和心理学(B.A. Psychology)的双学士学位。

后来加入 Facebook 担任产品和政策传播经理、产品政策经理。2022 年 8 月加入 OpenAI 从事模型安全工作。

图片

Hongyu Ren 

Hongyu Ren 在去年 7 月加入,现在是 OpenAI 的一名研究科学家,他还是 GPT-4o 、GPT-4o mini 的核心贡献者,并致力于 GPT-Next 的研究。Hongyu Ren 本科毕业于北京大学、博士毕业于斯坦福大学。此前,他在苹果、谷歌、英伟达、微软等工作过。

Jason Wei 

AI 圈的人大概都很熟悉 Jason Wei,他本科毕业就加入谷歌(2020 到 2023 年在 Google Brain 担任研究科学家),以一作身份写出了「思维链」(CoT)的开山之作。2023 年 2 月加入 OpenAI,担任 AI 研究人员。2024 年,他参与了 OpenAI o1 模型的研发。他的工作推广了 CoT 提示、指令调整和智能涌现等领域。

扩展阅读:

  • 本科毕业加入谷歌,还写了「思维链」开山之作,这位 OpenAI 新秀正为本科生答疑解惑
  • CoT 提出者 Jason Wei:大模型评估基准的「七宗罪」

Hyung Won Chung 

Hyung Won Chung 现在是 OpenAI 的一名研究科学家。研究重点是大型语言模型。在那之前,他在谷歌大脑工作,并在 MIT 攻读博士学位。他也是 OpenAI o1 的核心贡献者之一。

他曾参与过一些重要项目的研究工作,比如 5400 亿参数的大型语言模型 PaLM 和 1760 亿参数的开放式多语言语言模型 BLOOM。也曾介绍过他为一作的论文《Scaling Instruction-Finetuned Language Models》。

扩展阅读:

OpenAI科学家最新大语言模型演讲火了,洞见LLM成功的关键

Sam Toyer 

Sam Toyer 本科毕业于澳大利亚国立大学,博士生就读于加州大学伯克利分校。研究领域包括计算机视觉、规划、模仿学习和奖励学习。近期,我的研究重点是如何使大规模语言模型更加安全和鲁棒,这些特性对于在高风险场景中的应用至关重要。以下是他的工作经历:

图片

Johannes Heidecke 

Johannes Heidecke 是巴塞罗那的一名人工智能硕士研究生,目前专注于探索强化学习和生成模型。

他对机器学习和人工智能的研究充满热情,并参与了许多 OpenAI 的相关工作。

他相信人工智能对人类未来具有巨大的潜力,但要让先进的人工智能系统与我们的价值观和目标保持一致,还需要大量有针对性的工作和研究。

为此,他正在探索将机器学习应用于价值学习问题的方法:通过观察人类行为,推断他们的动机是什么。 

图片

Alex Beutel 

Alex Beutel 在卡内基梅隆大学获得计算机科学博士学位,此前在杜克大学主修计算机科学和物理学。

他目前是 OpenAI 安全研究团队的技术负责人。他曾在 Google Research 担任高级员工研究科学家、技术负责人和经理,联合领导了一个负责机器学习责任研究的团队(Responsible ML team),并推动了涵盖推荐系统、公平性、鲁棒性、强化学习以及数据库机器学习的研究工作。

Amelia Glaese

Amelia Glaese 本科就读于慕尼黑工业大学,攻读航天工程。在慕尼黑工业大学与佐治亚理工学院分别攻读了机械工程以及计算机科学与工程硕士。曾任谷歌软件工程师,后来加入 DeepMind 团队,工作了四年多。在此期间,她参与了 Gemini 相关论文的发布。今年 3 月,Amelia Glaese 正式加入 OpenAI。

图片

#o1 pro

自缘身在最高层?OpenAI o1 pro竞赛级评测结果新鲜出炉

近期,OpenAI 号称最强推理模型的推出,引发了社区的热议,无论是性能还是价格,都产生了不少话题。最近,我们对 o1 新发布的 o1 满血版、o1 pro mode 模型进行了高难度数学测试,旨在深入探究其在数学推理方面的能力表现。同时以上海人工智能实验室的 InternThinker-Alpha、DeepSeek 的 DeepSeek-R1-Lite、月之暗面 k0-math 、阿里巴巴 QwQ-32B-Preview 等模型作为对比,「o1 pro」是否真的「自缘身在最高层?」

AGI-Eval 最新的高难度数学评测集 Math Pro Bench,试题来源包括全国高中数学联合竞赛、美国数学邀请赛、全国硕士研究生招生考试等。从题型分布上看,各模型考研数学题正确率高于高中数学竞赛题 10%,提示考研数学题目难度相对简单。这一现象表明考研数学题目相对高中数学竞赛题而言,在知识运用的综合性与逻辑性方面可能更符合模型的训练模式与擅长领域。例如,在高中数学竞赛题中,可能涉及更多独特的解题技巧、创新性的思维方式以及对数学概念的深度挖掘,而模型在处理这些复杂且灵活的问题时可能面临更大的挑战。

话不多说,直接上评测结果 ——

图片

整体来看,o1 pro mode 在总计正确率上以 0.774(65/84)占据榜首,o1 以 0.750(63/84)紧随其后。这表明 o1 系模型在整体数学推理能力上具有较高的水平,能够较为有效地应对高难度数学问题。DeepSeek-R1-Lite 的总计正确率为 0.667(56/84),o1 - preview 的总计正确率为 0.643(54/84),其他模型的总计正确率相对较低,反映出它们在数学推理的全面性和准确性方面仍有提升空间。

其中在高中数学竞赛题方面,o1 pro mode 和 o1 均以 0.722(39/54)的正确率位居前列,展现出了较强的数学思维能力与解题技巧应用能力。DeepSeek - R1 - Lite 的正确率为 0.611(33/54),o1 - preview 的正确率为 0.574(31/54),其他模型如 QwQ - 32B - Preview、K0 - math、InternThinker - Alpha 的正确率则相对较低,分别为 0.519(28/54)、0.426(23/54)、0.315(17/54)。

在考研数学题上,o1 pro mode 以 0.867(26/30)的正确率脱颖而出,o1 的正确率为 0.800(24/30),QwQ-32B- Preview 和 o1- preview 的正确率均为 0.833(25/30)。DeepSeek - R1 - Lite 的考研数学题正确率为 0.767(23/30),而 K0 - math 和 InternThinker - Alpha 的正确率仅为 0.533(16/30)。

图片

榜单链接:https://agi-eval.cn/evaluation/Math%20Pro%20Bench

除了推出评测榜单以外,AGI-Eval 也从模型的推理过程中,发现了一些有意思的现象和结论。

o1 pro 系列推理更快,思考更灵活

1. o1、o1 pro 总推理时间更短。在推理时间方面,o1 系模型展现出了显著的优势。o1 的总平均推理时间仅为 33.84s,o1 pro mode 更是缩短至 33.26s,而其他模型如 DeepSeek - R1 - Lite 等平均推理时间在 2min 以上。这一巨大的时间差距表明 o1 系模型在数学推理效率上远超其他同类模型,能够在更短的时间内完成复杂数学问题的推理与解答,这对于实际应用场景中对实时性要求较高的任务具有比较重要的意义。

prompt

Alice 和 Bob 玩以下游戏。面前有 n 个令牌堆放着。玩家轮流行动,Alice 先行动。在每一回合中,玩家从令牌堆中移除 1 个或 4 个令牌。移除最后一个令牌的玩家获胜。求小于或等于 2024 的正整数 n 的个数,使得 Bob 无论 Alice 如何行动都能保证他获胜。

o1 pro mode(用时 18 秒):

图片

o1 (用时 26 秒):

图片

2. o1、o1 pro 会根据题目难度调整推理时间。o1/o1 pro 的竞赛题平均推理时间为 34-40s,而考研题平均推理时间为 18-20s,约是前者的约一半。

图片

3. o1 pro 模型能答对其他模型暂无法答对的题。在测试过程中,存在一些题目,如 :

“设 p 是最小的满足存在正整数 n 使得 n^4 + 1 可以被 2 整除的素数。求最小的正整数 m,使得 m^4 + 1 可以被 p^2 整除。”

这一题目仅有 o1 pro mode 答对,o1、Deepseek-R1-Lite 等其他模型均答错。这表明 o1 pro mode 在处理某些具有特殊数学结构和逻辑要求的题目时,具备独特的推理能力和解题思路,能够深入挖掘题目背后的数学原理与规律,从而找到正确的答案。而其他模型在面对这类复杂且具有挑战性的题目时,可能由于推理机制的局限性或知识储备的不足,无法准确地把握解题的关键要点,导致最终回答错误。

方法论与创新性

o1-pro 在处理数学问题时表现出更强的创新性和灵活性,能够结合多种数学理论和方法来解决问题,优于其他通用 AI 模型。o1 同样具有归纳与创新的能力,但与前者相比不够简洁直接,其他模型在这方面的能力则稍显不足。

prompt:

一只青蛙在正方形 A B C D 的四个顶点间跳跃,每次跳跃总是等可能地跳至与当前所在顶点相邻的两个顶点之一,且各次跳跃是独立的。若青蛙第一次跳跃前位于顶点 A ,则它第 6 次跳跃后恰好仍位于顶点 A 的概率为

o1 pro mode(用时 12 秒):

直接利用了正方形的对称性和跳跃的性质,避免了复杂的矩阵运算和特征值分析,更直观容易理解,适合初学者。

图片

o1(用时 17 秒):

它的回答虽然正确,但涉及了状态转移矩阵和特征值分析,计算过程相对复杂,且需要一定的线性代数和概率论知识,对初学者来说可能不太友好。

图片

Deepseek-R1-Lite(用时 1min):

和 o1 同样涉及了状态转移矩阵和特征值分析,但求解过程冗长复杂得多,阅读理解起来相对困难。

图片

长链路推理与细节处理

在涉及大量计算的长链路推理中,一个小小的计算失误会模型思维链失败,使模型陷入死循环状态。o1 pro mode 和 o1 实现了对细节的精确控制,在进行长链路推理时能够尽量保持高度的准确性和稳定性。

prompt

实对称矩阵 A=\left (\begin {array}{ccc} 4 & -2 & 0 \\ -2 & 3 & -2 \\ 0 & -2 & 2\end {array}\right) 可通过正交相似变换化为对角阵__

o1 pro(用时 12 秒):

特征值与特征向量的求解涉及大量复杂的计算,每一步计算都是正确的,最后导向正确的结果

图片

o1(用时 19 秒):

虽然得到了正确的答案,但过程不完全正确,例如第二步特征向量求解错误

图片

Deepseek-R1-Lite:

在第一步计算特征值的过程中,就出现了计算错误,得到的特征多项式不正确,导致了后续求解特征方程的过程基于错误的多项式,从而无法找到正确的特征值。

图片

此外,能看出推理模型也有明显的能力缺陷部分。如 Deepseek-R1-Lite 推理部分会存在中英夹杂或渲染不全的情况

人机协作评测新模式探索及高质量评测社区建设

鉴于传统评测方式难以充分反映模型的真实水平,AGI-Eval 创新性地提出了人机协作评测模式。在这种模式下,参与者可以与最新的大模型共同完成任务,既有助于提高任务完成度又便于建立更加直观的区分度。基于前期的一些用户实验表明,通过这种方式不仅可以获得更为简洁、完善的推理过程描述,还可以进一步提升用户与大模型之间的互动体验。未来,随着更多类似平台的出现和发展,相信人机协作将成为评测领域的一个重要发展方向。

,时长00:30

图片

人机社区链接:https://agi-eval.cn/llmArena/home

AGI-Eval 平台基于真实数据回流、能力项拆解等方式,自建万量级私有数据,并经过多次质检保证准确率。黑盒 100% 私有化数据,可保证评测数据不可 “穿越”。从数据建设到模型评测,实现全层级能力项目,一级能力涵盖指令遵循、交互能力、认知能力(含推理、知识、其他认知能力等);完美实现自动与人工评测相结合。

对于 Chat 模型,平台官方榜单结合主观、客观评测结果,中英文权重分布均衡。客观评测基于模型打分,可处理具有一定自由度问题,准确率 95%+;主观评测基于三人独立标注,并记录细分维度标签结果,全面诊断模型问题。

图片

总结 1:推理模型优势探讨

(一)高效的推理算法

o1 系模型之所以能够在高难度数学测试中取得优异成绩,其高效的推理算法功不可没。通过对推理过程的优化与加速,模型能够在短时间内对复杂的数学问题进行深入分析与推理,快速找到解题的思路与方法。这种高效的推理算法可能基于先进的神经网络架构、智能的搜索策略以及对数学知识的有效组织与运用,使得模型在面对各种数学问题时能够迅速做出反应并给出准确的答案。

(二)精准的题目理解与分析能力

在面对高难度数学题目时,准确理解题目要求与意图是解题的关键第一步。o1 系模型展现出了强大的题目理解与分析能力,能够精准地把握题目中的数学关系、条件限制以及求解目标。通过对自然语言描述的数学问题进行有效的语义解析和逻辑转换,模型将其转化为内部可处理的数学模型与推理任务,从而为后续的解题过程奠定坚实的基础。这种精准的题目理解与分析能力使得模型在处理各种复杂数学表述和逻辑结构时能够游刃有余,避免因误解题目而导致的错误推理。

(三)灵活的推理策略调整

如前文所述,o1 和 o1 pro mode 能够根据题目难度灵活调整推理时间和推理策略。在面对简单题目时,模型采用快速高效的推理方式,迅速得出答案;而在处理复杂难题时,模型则能够自动切换到深度推理模式,增加推理步骤和时间投入,对问题进行全面细致的分析与求解。这种灵活的推理策略调整能力使得模型在不同难度层次的数学问题上均能保持较高的解题效率和准确性,体现了其在推理过程中的智能化与自适应特性。

总结 2:推理模型局限性分析

(一)知识覆盖的局限性

虽然 o1 系模型在本次测试的高中数学竞赛题和考研数学题上取得了较好的成绩,但数学领域知识浩瀚无垠,仍可能存在一些特定的数学分支、理论或特殊题型,模型的知识储备不足或尚未深入学习掌握。例如,在某些高等数学的前沿研究领域、小众的数学应用场景或具有特殊历史文化背景的数学问题上,模型可能会因为缺乏相关知识而无法给出准确的答案或有效的推理。这表明模型在知识覆盖的广度和深度上仍有进一步拓展和完善的空间,需要不断地学习和吸收更多的数学知识,以应对日益复杂多样的实际应用需求。

(二)复杂逻辑推理的挑战

在一些极其复杂的逻辑推理场景中,o1 系模型可能会遇到困难。尽管模型在常规的数学推理任务中表现出了较高的水平,但当面对涉及多层嵌套逻辑、模糊逻辑或高度抽象逻辑的问题时,模型的推理能力可能会受到限制。例如,在一些数学证明题中,需要运用复杂的逻辑推导和反证法等推理技巧,模型可能无法像人类数学家那样进行深入细致的逻辑思考和创造性的推理过程,导致无法成功完成证明或给出完整准确的推理步骤。这反映出模型在处理复杂逻辑关系时的局限性,需要进一步优化其推理机制和逻辑处理能力,以提升在复杂逻辑推理任务中的表现。

(三)可解释性问题

随着人工智能模型在各个领域的广泛应用,其可解释性成为了一个重要的关注点。o1 系模型作为一种基于深度学习的大模型,其推理过程往往具有高度的复杂性和黑箱特性,难以直观地理解和解释模型是如何得出某个答案或推理结果的。这对于一些对可解释性要求较高的应用场景,如数学教育、科学研究中的关键决策等,可能会带来一定的困扰。缺乏可解释性使得用户难以信任模型的输出结果,也不利于模型的进一步优化和改进。因此,如何提高 o1 系模型的可解释性,使其推理过程更加透明、可理解,是未来模型发展需要解决的一个重要问题。

未来展望

通过本次对 o1 系模型的高难度数学测试,我们全面深入地了解了其在数学推理能力方面的表现。o1 系模型在正确率、推理时间以及特殊题目处理等方面展现出了显著的优势,其高效的推理算法、精准的题目理解与分析能力以及灵活的推理策略调整能力使其在众多模型中脱颖而出。然而,模型也存在知识覆盖局限性、复杂逻辑推理挑战以及可解释性问题等不足之处。

展望未来,随着技术的不断发展和研究的深入,我们期待 o1 系模型能够在以下几个方面取得进一步的突破和改进。首先,通过不断学习和更新知识,扩大其知识覆盖范围,提高对各种数学领域和特殊题型的处理能力。其次,优化推理机制,提升复杂逻辑推理能力,使其能够更好地应对具有高度复杂性和抽象性的数学问题。最后,加强对模型可解释性的研究,探索有效的方法和技术,使模型的推理过程更加透明、可理解,增强用户对模型的信任和应用的可靠性。

#ODDN

开放世界的深伪检测,北交大团队:解决好无配对数据挑战很重要

现有的深伪检测方法大多依赖于配对数据,即一张压缩图像和其对应的原始图像来训练模型,这在许多实际的开放环境中并不适用。尤其是在社交媒体等开放网络环境(OSN)中,图像通常经过多种压缩处理,导致图像质量受到影响,深伪识别也因此变得异常困难。

现有方法虽然在特定条件下取得了一些进展,但在面对开放世界中大量无配对数据的挑战时,往往难以提供理想的检测效果。

近日,AAAI 2025 接收结果公布,收录了一篇北京交通大学赵耀、陶仁帅团队联合苏黎世联邦理工学院的研究工作,论文题目为《ODDN:Addressing Unpaired Data Challenges in Open-World Deepfake Detection on Online Social Networks》。

该工作提出了一个创新的深伪检测任务——非配对数据下的开放世界深伪检测。该任务针对真实社交媒体检测场景下配对数据在实际获取中数量较少的窘境。

论文地址:https://arxiv.org/pdf/2410.18687

此外,该工作还提出了针对新任务下的新方法,即使用多任务学习、梯度取反、梯度矫正等方式,提出 Backbone 提取特征中与压缩相关的信息,令模型关注生成模型产生的伪造特征,为处理真实社交媒体下的压缩 Deepfake 图像提供了新的思考。

图片

图 1:任务总览图

方法概览

新提出的方法 ODDN 包含两个核心组件:开放世界数据聚合(ODA)和压缩丢失梯度校正(CGC),有效降低了配对数据稀缺和压缩影响带来的性能损失。

图片

图 2:ODDN 模型结构图

研究者设计了两个下游任务:一个是基础的二分类任务,该分支优化 backbone 提取伪造相关的特征;另一个是判别图片是否被压缩的二分类任务,该分支通过梯度取反操作,使得该分支梯度在 backbone 的优化方向与设定分类目标相反,backbone 提取与压缩不相关的特征。

图片

同时,将 Unpaired Data 以压缩有无、真假将数据分为四类,然后计算四个簇的聚类中心。

图片

之后再计算分别计算压缩与未压缩的真假簇聚类中心距离,对应公式如下。

图片

对于 Paired Data 因为其稀少性,继续采用之前工作使用的高效方法,即使用 HSIC 度量 Paired Data 数据分布的相似性。

图片

虽然两个下游任务设定的优化是合理的,但是实际训练过程中,两个任务中产生的 Loss 在回传时,可能会出现优化方向的冲突。如何确定最合适的方向呢?研究者采用 PCGrad,将冲突的梯度投影到另一个梯度的法向量上,确保非冲突梯度之间的互补,对齐和促进不同梯度之间的交互,确保优化过程 backbone 的梯度始终处于对主线伪造检测任务产生积极影响的方向。

图片

网络训练的损失函数和总体模型结构图可表示如下:

图片

实验设置

实验使用 ForenSynths 的训练集来训练检测器,包括 20 个不同的类别,每个类别都包含 18000 张使用 ProGAN 生成的合成图像,以及来自 LSUN 数据集的相同数量的真实图像。

为了进行评估,研究者还使用了 17 个常用数据集。其中,前 8 个数据集来自 ForenSynths,包括由 8 个不同的生成模型生成的图像;其余 9 个数据集来自 GANGen-Detection,由另外 9 个不同生成模型生成的图像组成。

图片

图 3:压缩情况已知的实验

图片

图 4:压缩情况未知的实验

图片

图 5:消融实验

总结

该工作提出了开放世界深度伪造检测网络,旨在解决开放世界,尤其是在未配对数据普遍存在的在线社交网络下的伪造检测。该方法能够有效处理与不同数据质量和压缩方法相关的复杂性。

研究人员在各种测试设置下,以及在 17 个流行的数据集上进行的综合实验表明:所提方法能够取得不错的性能,并在实际应用中实现了稳健性和适应性。这项工作不仅推动了深度伪造检测领域,而且为未来旨在打击在线社交平台上伪造信息的研究提供基准。

主要作者介绍

陶仁帅,北京交通大学副教授,工学博士,硕士生导师。入选 “北京交通大学青年英才培育计划”、“中国图象图形学学会高等教育教学成果激励计划”,曾任华为诺亚方舟实验室高级研究员。

李满毅,北京交通大学在读本科生,人工智能专业,师从陶仁帅副教授。已推免至中国科学院自动化研究所攻读博士学位,师从李兵研究员和刘雨帆助理研究员。

赵耀,北京交通大学教授,博士生导师。教育部长江学者特聘教授、国家杰出青年科学基金获得者、万人计划科技创新领军人才、IEEE Fellow。

#2024年度AI2050人选

由谷歌前CEO斯密特家族出资的慈善基金「Schmidt Sciences」近日公布了2024年度AI2050人选,25名人选将共享1200万美元,用于AI的跨学科研究。继李飞飞入选高级研究员之后,华人多受青睐,此次共有6名华人当选早期职业Fellow。

AI2050 Fellow名单正式公布了!

每年AI2050皆会提名5位高级Fellow,以及15位早期职业Fellow。特殊情况下,可以增加名额。

今年,一共评选了25人,其中,5位高级Fellow,还有20位早期职业Fellow。

他们将获得高达1200万美元的研究资助。

高级Fellow根据现有贡献选拔,采用封闭式提名,无需申请。早期职业Fellow需要担任博士后或预聘研究职位。

值得一提的是,今年上榜名单中,一共有6位华人学者当选。他们有的专攻AI安全,有的开发人机高效协作的AI,还有的专注于AI材料的发现等。

或许很多人对这个名单有些陌生,AI2050是由前谷歌CEO埃里克·施密特在2022年最先发起的一个基金项目。

AI2050项目提供了一个独特的视角,邀请人们去畅想2050年的世界。

该项目为资深研究人员和早期职业学者,将提供两年的资助,以应对AI领域的各种全球性挑战。

接下来,我们一起看看今年入选Fellow的所有名单。

5位高级Fellow​

David Autor

重大难题:解决了AI及其相关技术带来的经济挑战与机遇。

David Autor是麻省理工学院经济学系的Daniel(1972)和Gail Rubinfeld教授,同时担任NBER劳动研究项目和麻省理工学院「塑造未来工作」计划的联合主任。

因学术贡献和教学成就,他获得了众多奖项,包括国家科学基金会CAREER奖、Alfred P. Sloan奖、Sherwin Rosen劳动经济学领域杰出贡献奖、2019 年Andrew Carnegie奖、2021 年进步社会奖章、麻省理工学院 MacVicar 教员奖等。

2023年,他当选为NOMIS杰出科学家,这一荣誉在所有科学领域中仅有两位研究者获得。

AI2050项目:

这项研究将基于人类专业知识经济学,系统化一套新颖的见解,阐明新工具如何与人类能力相互作用,从而塑造就业和收入。这项工作将对企业家、技术专家和政策制定者具有可访问性和实用性,帮助他们预见并塑造机器能力与人类专业知识的共同演进。​

Yejin Choi

重大难题:解决了随着AI及AGI能力的不断增强所带来的安全性和可控性、与人类价值观的对齐以及兼容性方面的挑战。

Yejin Choi即将在斯坦福大学担任教授和高级研究员,同时也是麦克阿瑟奖学金获得者。此前,曾任华盛顿大学Paul G. Allen计算机科学与工程学院的Wissner-Slivka教授。

她在康奈尔大学获得计算机科学博士学位,并在韩国首尔大学获得计算机科学与工程学士学位。

她的研究涵盖NLP和AI领域的多个课题,包括常识知识与推理、神经语言生成与反生成、基于视觉和经验的语言落地,以及面向社会公益的AI。

学术成就方面,她在ACL 2021和CVPR 2021上共同获得了两项时间检验奖,并在ACL、EMNLP、NAACL、ICML、NeurIPS和AAAI等顶会上获得了8项最佳论文奖或杰出论文奖。

她还于2018年荣获Borg早期职业奖(BECA),于2017年赢得首届Alexa Prize Challenge冠军,并在2016年入选IEEE AI’s 10 to Watch。

AI2050项目:

项目提出了一项雄心勃勃的研究计划,旨在通过五个协同研究方向来解决AI系统的根本性局限:(1)多元化的理论框架,(2)多元化的基准和评测指标,(3)多元化的对齐方法,(4)ValueGenome 作为一个多样化人类价值观的目录,(5)可解释的反思过程。​

Carla Gomes

重大难题:通过让AI解决人类面临的一个或多个重大挑战和机遇,做出了具有颠覆性意义的贡献。

Carla Gomes是康奈尔大学计算与信息科学的Ron和Antonia Nielsen教授,同时担任计算可持续性研究所所长,并共同领导科学AI研究所。

她在爱丁堡大学获得AI博士学位,目前是AAAI、ACM和AAAs的Fellow。

她的研究主要集中在大规模知识表征、推理、机器学习、决策制定和优化等AI领域的议题。

她是新兴领域「计算可持续性」的开创者之一——利用AI和计算方法应对环境、经济和社会的关键挑战,引领我们迈向可持续的未来。

2021年,因对AI的高影响力贡献,包括在约束推理、优化,以及将推理与学习相结合等方面的创新,以及创立计算可持续性领域,而获得了AAAI Feigenbaum奖。

2022年,因在跨学科研究方面的贡献,将计算机科学与其他领域相结合,而获得了AAAI Allen Newell奖。

AI2050项目:

项目聚焦于可持续性挑战,例如联合国提出的「30×30生物多样性保护目标」、在分子层面对生化多样性进行表征,以及在满足能源需求的同时重新思考全球水电扩张方式,从而尽可能降低对人类与自然的不利影响。

她的研究通过结合数据驱动与知识驱动的AI方法,突破了当前AI/ML在科学探索和决策制定中的局限性,将基于第一性原理的推理与深度学习及帕累托优化协同运用于高维度推理与决策过程。借由这些创新的AI方法,她为可持续性的实践方式带来了深远的变革。​

Roger Grosse

重大难题:解决了AI所面临的安全性和可靠性、鲁棒性、性能和输出等挑战,以及其他可能对公众造成伤害或削弱信任的缺陷,尤其是在社会风险和潜在危害较高的应用和场景中。

Roger Grosse是多伦多大学计算机科学副教授,Schwartz-Reisman技术与社会讲席教授,Vector Institute的创始成员,以及Anthropic对齐科学团队的技术成员。

他的研究重点是,基于对深度学习的理解来提升AI系统的安全和对齐。

他曾获得Sloan研究奖、加拿大CIFAR AI讲席和加拿大研究讲席。

AI2050项目:

项目将重点攻克建立安全论证所需的两大算法挑战:首先,确定模型在某一训练阶段后,都有哪些属性发生了变化;其次,找到或估计出模型发生罕见行为(如实施恶意计划)的概率。​

Michael Wooldridge

重大难题:解决了当前AI在科学和技术上的局限性以及关键难题,这些问题对于实现AI的进一步突破至关重要,进而开发出更强大、更有用的AI,能够实现包括AGI在内令人期待和有益的可能性。

Michael Wooldridge是牛津大学计算机科学教授,已发表超过450篇科学文章,并出版了9本书(已被翻译成7种语言)。

他是ACM、AAAI和EurAI的Fellow,同时也是欧洲科学院的成员。

他于2014年至2016年,担任EurAI主席;2015年至2017年,担任IJCAI主席;目前是《Artificial Intelligence》期刊的联合主编。

他曾获得英国计算机学会的Lovelace奖章(2020年)、AAAI的Patrick Henry Winston杰出教育家奖(2021 年),以及EurAI的杰出服务奖(2023年)。

AI2050项目:

项目将把LLM技术引入智能体,使其功能更为强大,应用前景更加广泛。

20位早期职业Fellow

接下来,在20位早期职业Fellow中,我们主要介绍6位获选的华人学者,并将所有名单列出。​

Simon Shaolei Du(杜少雷)

重大难题:解决了在AI不断强大并最终抵达AGI的过程中,安全与控制、人类对齐以及兼容性等方面的挑战。

Simon S. Du是华盛顿大学Paul G. Allen计算机科学与工程学院的助理教授。

他在卡内基梅隆大学获得机器学习博士学位,师从Aarti Singh和Barnabás Póczos。并曾在普林斯顿高等研究院担任博士后研究员,师从Sanjeev Arora。

目前,他的研究重点是多智能体强化学习,以及基础模型的数据选择算法。

他的研究获得了诸多认可,包括Sloan研究奖、三星年度AI研究员奖、英特尔新星教师奖、NSF CAREER奖、英伟达先锋奖,以及卡内基梅隆大学杰出论文奖提名等。

他在学术上的贡献包括:首次证明了梯度下降法在优化深度神经网络中的全局收敛性;解决了强化学习中的样本复杂度问题;以及明确了在大状态空间进行强化学习所需的充要条件。

AI2050项目:

项目致力于研发能与人类高效协作的AI系统。随着AI日渐融入我们的日常生活,这一点已成为了关键的挑战。其研究重点在于构建理论基础并设计全新算法,从而使AI能够在多种情境下与人类无缝协作。并最终打造出能在实际应用场景中与人类深度协同的AI系统,为未来更具实用价值的AI技术奠定基础。​

Pang Wei Koh

重大难题:解决了AI所面临的安全性和可靠性、鲁棒性、性能和输出等挑战,以及其他可能对公众造成伤害或削弱信任的缺陷,尤其是在社会风险和潜在危害较高的应用和场景中。

Pang Wei Koh是华盛顿大学Allen计算机科学与工程学院的助理教授,同时也AI2的客座研究科学家,以及新加坡AI客座教授。

他在斯坦福大学获得了计算机科学博士和学士学位。在攻读博士之前,他是Coursera的创始团队成员之一,并担任合作伙伴关系总监。

目前,他的研究兴趣是可靠机器学习系统的理论与实践研究。

他的研究成果不仅获得了ICML和KDD的最佳论文奖,而且还发表在了Nature和Cell等顶级期刊上。

此外,他还荣获了MIT科技评论「亚太区35岁以下创新者」奖。

AI2050项目:

项目将通过减少模型对难以理解的参数内部运作的依赖,开发出更值得信赖的模型,从而让模型能直接获取并利用相关数据源进行推理

他将开发新的方法来构建模型:当需要回答例如医学方面的问题时,模型会首先检索权威期刊中经过同行评审的医学论文,整合这些信息,然后给出带有清晰引用来源的答案。​

Yuanyuan Shi

重大难题:通过让AI解决人类面临的一个或多个重大挑战和机遇,做出了具有颠覆性意义的贡献。

Yuanyuan Shi是加州大学圣地亚哥分校电气与计算机工程系的助理教授。

她于2020年获得华盛顿大学电气与计算机工程(ECE)博士学位以及ECE和统计学硕士学位。2020年至2021年,在加州理工学院计算与数学科学系从事博士后研究。

她的研究兴趣包括机器学习、动态系统和控制,以及在可持续能源系统的应用。

她曾获得多项荣誉,包括麻省理工学院的EECS新星奖、2020年华盛顿大学清洁能源研究所的科学成就奖、2023年的Hellman奖学金,以及PSCC的最佳论文奖和ACM e-Energy会议的最佳论文入围奖。

AI2050项目:

项目的目标是研究神经算子学习在大规模偏微分方程(PDE)系统控制中的基础,并确保其安全性和稳定性。她将验证所提出的基于AI的PDE控制框架,在实际办公建筑中进行室内气候建模和控制,以平衡病原体暴露、居住舒适度和碳排放。​

Bijun Tang

重大难题:通过让AI解决人类面临的一个或多个重大挑战和机遇,做出了具有颠覆性意义的贡献。

Bijun Tang博士目前是新加坡南洋理工大学材料科学与工程学院(MSE)的校长博士后研究员。

她分别于2017年和2021年在南洋理工大学材料科学与工程学院获得一等荣誉学士学位和博士学位。2023年,她作为访问科学家加入莱斯大学,与Pulickel Ajayan教授合作。

她的研究兴趣主要在于新型二维材料的合成与工程,以及利用机器学习进行智能材料开发。

她在顶级期刊上发表了30多篇经同行评审的论文,包括Nature、Nat. Mater. Electron.、Nat. Nat. Commu.、Adv. Mater.、Mater. Today等,H指数为18,总引用次数超过了1400。

她获得的荣誉包括南洋理工大学新锐科学家奖(2024年)、福布斯亚洲30位30岁以下精英奖(2023年)、南洋理工大学校长博士后奖学金(2022年)、南洋理工大学研究生院跨学科研究奖(2021年),以及工程、科学和技术领域女性发展基金(2021年)。

此外,她还是《International Journal of AI for Materials and Design》期刊的青年编委。

AI2050项目:

2DMatAgent项目旨在开发一个由AI驱动的平台,以加速二维材料的发现和开发,这对推动纳米电子学、能源存储和医疗保健的发展至关重要。

传统的材料开发方法既缓慢又耗费资源,通常需要数十年时间。而2DMatAgent可自主设计、验证和优化二维材料,将这一时间大幅缩短至数天。

通过整合大规模多模态模型、推理和工具自动化等先进AI技术,该项目将增强各领域和各行业研究人员的能力,推动科学进步,并在可持续能源、电子技术及其他关键领域实现突破性进展。​

Eric Wong

重大难题:解决了AI所面临的安全性和可靠性、鲁棒性、性能和输出等挑战,以及其他可能对公众造成伤害或削弱信任的缺陷,尤其是在社会风险和潜在危害较高的应用和场景中。

Eric Wong是宾夕法尼亚大学计算机与信息科学系的助理教授。

他在卡内基梅隆大学获得了机器学习博士学位,并曾在麻省理工学院从事博士后研究。

他的研究聚焦于可靠机器学习系统的基础:理解、调试并确保数据驱动模型的行为。在实践中,他的研究帮助科学家和医生利用AI模型进行学习并推动新发现。

他曾荣获Siebel奖学金、SCS论文奖(荣誉提名)和亚马逊研究奖,并获得了JCNLP-AACL的领域主席奖和NeurIPS ML与安全研讨会的最佳答辩奖。

AI2050项目:

研究致力于开发鲁棒的机器学习方法,确保生成式AI安全且能保护隐私,从而防止这些模型被滥用,并确保生成式AI遵守相关法律法规。​

Chaowei Xiao

重大难题:解决了AI所面临的安全性和可靠性、鲁棒性、性能和输出等挑战,以及其他可能对公众造成伤害或削弱信任的缺陷,尤其是在社会风险和潜在危害较高的应用和场景中。

Chaowei Xiao是威斯康星大学麦迪逊分校的助理教授(自2023年8月起任职)。

在此之前,他在英伟达担任了两年全职研究科学家,并在亚利桑那州立大学呆过一段时间。

他的研究主要集中在机器学习和安全的交叉领域,目标是构建安全可靠的机器学习系统。

他曾获得ACM戈登贝尔特别奖,并在USENIX Security、MobiCOM和ESWN等会议上多次获得最佳论文奖。

Chaowei Xiao对大模型的安全性与保障非常感兴趣,并研究LLM在不同应用领域中的潜在应用。

他本科毕业于清华大学,并在密歇根大学安娜堡分校获得博士学位。

AI2050项目:

项目旨在推进我们对现代人工智能模型和系统的安全挑战的理解。该项目侧重于开发前沿的红队工具,以自动发现和评估人工智能系统中的漏洞,并评估现代人工智能技术带来的有害后果。此外,他还将探索增强人工智能系统安全性的原则性方法,确保这些系统更加安全、稳健,并符合社会价值观。

其他Fellow还有:

- Sara Beery, 麻省理工学院助理教授

- Sarah Dean,康奈尔大学助理教授

- Tim Dettmers,卡内基梅隆大学助理教授

- Gabriele Farina,麻省理工学院助理教授

- Anjalie Field,约翰霍普金斯大学助理教授

- Marzyeh Ghassemi,麻省理工学院助理教授

- Yoon Kim,麻省理工学院助理教授

- Aviral Kumar,卡内基梅隆大学助理教授

- Raphaël Millière,麦考瑞大学助理教授

- Antonio Orvieto,马克斯·普朗克智能系统研究所ELLIS研究组组长

- Parthe Pandit,印度理工学院孟买分校助理教授

- David Rolnick,Mila-魁北克AI研究所助理教授

- Florian Shkurti,多伦多大学助理教授

- Ellen Vitercik,斯坦福大学助理教授

前谷歌CEO发起,畅想2050年的世界

2022年,前谷歌CEO埃里克·施密特宣布正式成立AI2025,首批砸下1.25亿美元,专为AI研究提供支持。

他在当时表示,这是为了确保AI能够真正造福社会的一种方式。

根据官网信息, 施密特科学基金会致力于为所有人创造一个健康、有韧性和安全的世界。

优先资助在五个重点领域开展研究,以期产生革命性的影响:

- AI与先进计算

- 天体物理学和太空

- 生物科学

- 气候

- 科学系统

官网中,列出了所有「问题清单」。随着社会对AI应用的不断发展,这份清单将经常更新。

目前更新截止到2023年6月。

其中,有一些与开发AI安全系统、以及推进AGI等现实目标。

从2022年开始,到现在一共评选了三届。

前两届的名单中,一些享有盛誉的研究者纷纷当选,比如AI教母李飞飞、开创AI液态神经网,并创立初创Liquid AI的Daniela Rus等等。

他们的研究涉及范围之广,有利用AI破解粒子物理学奥秘,有利用 AI 改变非洲的药物发现、降低孕产妇死亡率......

第三届AI2050评选上的25位Fellow将加入由71名研究人员组成的AI2050社区。

参考资料:

​​https://www.schmidtsciences.org/schmidt-sciences-to-award-12-million-to-advance-research-on-beneficial-ai/​​

​​https://ai2050.schmidtsciences.org/fellows/​​

​​https://ai2050.schmidtsciences.org/hard-problems/​​

#豆包说要「普惠」,于是大模型处理图片按「厘」计价了

这段时间,OpenAI 宣告连续 12 轮轰炸,让 2024 年底的大模型领域热闹起来了。

但坚持每个凌晨看直播的话会发现,越到后面的发布越平淡,内心的波动也越少了。

今年的大模型就卷到这里了吗?并没有,国产大模型又卷起来了,还给 OpenAI 来了一记「重拳」。

就在前几天,2024 冬季火山引擎 FORCE 原动力大会上,字节跳动的豆包大模型家族,来了一场爆发式上新。

最受关注的是豆包大模型家族的新成员 —— 豆包・视觉理解模型。顾名思义,它让豆包有了「看懂」世界的能力。更重要的是,这款新模型一千个 token 的输入价格仅 3 厘钱,也就是说花一块钱就能处理 284 张 720P 的图片,比行业价格便宜了 85%。

价格官宣的那一刻,或许众多企业用户在心里默念了一句:太好了,是豆包,我们有救了。

至于这款模型的理解能力有多强,请看 VCR:

火山引擎

,赞4044

与此同时,三位成员豆包通用模型 Pro、豆包・音乐生成模型、豆包・文生图模型宣布升级,一起发布的还有豆包・3D 模型。

回想年中的时候,豆包还是国产大模型中的「新秀」。短短半年多,竟然已经红透了半边天,成为了众多用户首选的生产力工具。

七个月的时间,能发生什么?对于 OpenAI 来说,可能只是一项新功能从「期货」到「全量上线」的准备时长。

但对于豆包大模型,这段时间已经足以拿下日均 tokens 使用量超 4 万亿的优秀成绩,比最初发布的那天增长了 33 倍。

经过此次升级后,豆包大模型家族的实力又壮大了一波。

据智源研究院 12 月 19 日发布的国内外100余个开源和商业闭源的大模型综合及专项评测结果,「大语言模型评测能力榜单」中,豆包通用模型 pro 在重点考察中文能力的主观评测中排名第一,「多模态模型评测榜单」中,豆包·视觉理解模型在视觉语言模型中排名第二,仅次于 GPT-4o,是得分最高的国产大模型。「FlagEval 大模型角斗场榜单」中,豆包通用模型 pro 在大语言模型榜单中位居第一梯队,评分排名第二,仅次于 OpenAI 的 o1-mini,是得分最高的国产大模型。

不得不说,国产 AI 进化的速度是真的惊人。

会读论文、看梗图

豆包的「秒懂」能力强得可怕

回望 2024 年的大模型技术发展,除了文本能力的继续提升外,从单模态过渡到多模态也是基础模型的演进趋势之一。

一个关键方向是,增加对视觉模态输入的支持。这就像是给 LLM 装上了「眼睛」和「大脑」,使其能够理解图像并进行相应的自然语言生成。

在不断进化的豆包大模型中,我们也看到了惊人的「秒懂」能力。

具体来说,豆包・视觉理解模型具备精准的指令理解能力,能够精准提取图像文本信息,因此可应用于更复杂、更广泛的视觉问答任务,比如描述图片中的内容以及对图片中包含的内容进行提问。另一方面,该模型可完成深度的图片理解与推理,在表格图像、数学问题、代码图像等复杂推理场景下都能发挥所长。

豆包・视觉理解模型接入豆包 App 和 PC 端产品已经有段时间了,也测试了一番,实际体验很不错。

在此之前,人们公认体验比较好的是 GPT-4o 模型,但这次测试下来,豆包・视觉理解模型毫不逊色。

首先能感受到,豆包的内容识别能力很强,比如对于视觉内容中的知识、文化背景、状态、数量、文字等信息都识别得很准确,特别是能理解中国传统文化知识。

比如问一个生活化的问题。站在超市货架前,每个人都有过难以抉择的时刻。但显然,大模型比我们更懂传统食物:

图片

当然,它不只是擅长识别现实中的物品,即使图片只有光影、轮廓、位置这些特征,也能一眼辨别:

图片

其次,豆包对于视觉内容信息的推理能力也很强,包括数学、逻辑、代码等。

就拿难懂的论文架构图来说吧,在没有给出任何论文背景信息的前提下,豆包不仅能看懂、讲透,特别是针对整体流程的解读,将阶段 1 和阶段 2 的因果逻辑表达得非常清楚,还能如数列出背景知识:

图片

图片

图片

假如同事交接给你一些代码,别焦虑,叫上豆包一起看能效率加倍:

图片

图片

图片

图片

再说到视觉描述能力,它也非常擅长「看图说话」,完全可以用来编写社交媒体文案,或者任何你需要启发灵感的创作任务:

图片

还有一个很巧妙的用途 —— 帮助 2G 冲浪的「老年人」看懂新梗:

图片

图片

多模态能力的突破,让今年的大模型应用给用户带来了诸多惊喜。此次视觉理解能力的增强,也将是豆包大模型打开更多落地场景的关键一步。当模型能够将图像和文字信息相结合,我们就能够获得更自然、直观的交互体验。例如,在产品推荐、教育辅助或虚拟助手场景中,用户可以通过图片与模型互动,获得更丰富的反馈。此外,结合视觉和文本信息,模型对输入的洞察水准也会更上一层楼。例如,在新闻分析或知识图谱构建中,模型能够关联文字和图片,提供更完整的背景和见解。

加上以「厘」为单位的定价,这些应用场景的解锁速度会比想象中更快。秉承「让每家企业都用得起好模型」的原则,豆包一发力,实实在在是把视觉理解模型的应用成本打下来了,将以更低成本推动 AI 技术普惠和应用发展。

图片

三大主力模型升级

视频模型下月上线

在新成员诞生的同时,豆包大模型家族的三位重要成员也迎来了本年度的最后一次重大升级。

首先是大语言模型 —— 豆包通用模型 Pro。对比今年 5 月最初公开发布的版本,这款模型在综合能力上已经提升了 32%,与 GPT-4o 持平,但价格仅是其八分之一。

图片

此外,豆包通用模型 Pro 在指令遵循、代码、专业知识、数学层面全面对齐了 GPT-4o 水平。其中指令遵循能力提升 9%,代码能力提升 58%,GPQA 专业知识方面能力提升 54%,数学能力提升 43%,推理能力提升 13%。

图片

然后是语音,豆包・音乐模型的生成水平已经从「高光片段」跃升到「完整乐章」。

现在,用户只需要简单描述或上传一张图片,就能生成一首长达 3 分钟的包含旋律、歌词和演唱的高质量音乐作品,包括前奏、主歌、副歌、间奏、过渡段等复杂结构。并且,豆包・音乐模型提供了局部修改功能,在针对部分歌词修改后仍能在原有旋律的节奏框架内适配。

火山引擎

,赞392

体验地址:https://www.haimian.com/create (APP 端:海绵音乐)

从原来的 1 分钟,升级为现在的 3 分钟,豆包・音乐模型克服了挑战,在较长的时间跨度内容保持了音乐元素的连贯性。

最后,在视觉层面,豆包・文生图模型本次也迎来了新一波升级,在通用性、可控性、高质量三方面取得了新突破。具体来说,豆包・文生图模型 2.1 新增了「一键海报」和「一键 P 图」能力,目前已接入即梦 AI 和豆包 App。

一键海报的关键点在于「写字」。在实际体验中,我们可以感受到,豆包・文生图模型对文字细节的指令遵循能力很强,特别是非常擅长「写汉字」:

Prompt:生成一张卡通土拨鼠的图片 衣服上的文字图案是

背后的技术源自豆包・文生图模型原生的文字渲染能力,豆包大模型团队通过打通 LLM 和 DiT 架构和构建高质量文字渲染数据,大幅提升了模型在文字生成方面的准确率,尤其是结构复杂、字符数量较多的汉字场景。

一键 P 图功能的实现,则基于豆包大模型团队近期在图像编辑技术上取得的重大突破:SeedEdit。

近年来,基于扩散模型的图像生成技术进展飞速,然而,图像编辑技术还难以满足人们对于生成内容可控性的需求,关键挑战在于实现「维持原始图像」和「生成新图像」之间的最优平衡。

SeedEdit 框架在不引入新参数的前提下,将图像生成扩散模型转为图像编辑模型,也是国内首个产品化的通用图像编辑模型。无需描边涂抹,用户只需要给出简单的自然语言指示,就能换背景、转风格,或者在指定区域进行元素的增删和替换。

Prompt:驴打滚变成拿破仑

图片

相比于传统涂抹选中的方法,这种编辑方式更加精准,不会误伤无关区域。还有一点好处是,这种编辑技术能够一次性完成多项编辑任务,效率大大提升。

关于最近非常火热的 3D 赛道,豆包家族也添加了一位新成员:豆包・3D 生成模型。将这款模型与火山引擎数字孪生平台 veOmniverse 结合使用,可以高效完成智能训练、数据合成和数字资产制作,成为一套支持 AIGC 创作的物理世界仿真模拟器。

如视频所示,通过叠加一句一句的文字 Prompt,就能搭建起一个工厂车间场景:

,时长01:01

后来居上,一飞冲天

「豆包」凭借的是什么?

自 2024 年 5 月发布至今,只用了七个月,豆包大模型就成为了国产大模型中当之无愧的顶流。

后来者如何居上?在豆包家族做大做强的道路上,为其提供底层支撑的火山引擎云服务平台的价值不可忽视。

一直以来,字节跳动的豆包大模型都通过火山引擎对外提供服务,「更强模型、更低价格、更易落地」,这三个关键词成为了其别于众多大模型服务平台的特质。

除了不断升级的模型能力之外,火山引擎还解决了「成本太高」和「落地太难」两项大模型应用挑战。目前,这个平台提供从云计算、技术引擎、智能应用到行业解决方案的全栈服务。

图片

模型层面,豆包大模型家族已经有十几位成员,覆盖了常见应用场景。

图片

特别地,火山引擎为大模型落地提供了一系列覆盖全流程的工具,包括一站式大模型服务平台火山方舟、大模型应用开发平台扣子、企业专属 AI 应用创新平台 HiAgent。这些工具,在本次大会上也都同步升级。

火山引擎这次一口气推出了 Prompt 优解、大模型记忆应用等产品,持续保障企业级 AI 应用的落地。Prompt 优解是全新一代提示词工具,通过自动 + 互动的方式,解决了人工编写 Prompt 难度高、耗时写、重新适配的问题。大模型记忆应用基于知识库 RAG 技术和上下文缓存技术,能够帮助企业用户打造灵活的大模型记忆方案,并推出 prefix cache 和 session cache API,降低延迟和成本。

扣子也在这次大会上升级到了 1.5 版本,还公布了开发者生态方面的亮眼成绩:目前平台已有超过 100 万的活跃开发者,共发布过 200 万个智能体。包括最新发布的豆包多模态模型们,用户们都能第一时间在扣子平台通过插件的方式体验。

在最新发布的 HiAgent 1.5 版本中,火山引擎提供了 100 多个行业应用模板,提供给企业用户一键复制,实现低代码构建智能体。同步发布的 GraphRAG 则通过连接知识图谱为大模型提供知识及关系信息,以此增强回答质量、支持多跳问题回答。再通过 Reranker,进一步提升回答的准确性和完整性。如此一来,企业就能构建专家级别的 AI 应用。

在云服务层面,基于当前企业使用大模型推理对计算效率的新要求,火山引擎已经完成了从 Cloud Native 到 AI Cloud Native 的转型,打造以 AI 负载为中心的基础架构新范式。

GPU 在并行处理能力和高吞吐量方面更适合大规模推理使用,然而,传统 GPU 加 CPU 的异构计算中,GPU 从存储加载数据进行处理都必须由 CPU 控制。近年来的一个趋势是计算从 CPU 转移到 GPU,GPU 计算在整个系统的比例越来越大,因此过去的 I/O 流程成为巨大的效率瓶颈,某种程度上造成了 GPU 资源的浪费。

基于 AI 云原生的理念,火山引擎这次推出了新一代计算、网络、存储和和安全产品。在计算层面,新一代的火山引擎 GPU 实例,通过 vRDMA 网络,支持大规模并行计算和 P/D 分离推理架构,显著提升训练和推理效率,降低成本。存储上,新推出的 EIC 弹性极速缓存,能够实现 GPU 直连,使大模型推理时延降低至 1/50;成本降低 20%。安全层面,火山将推出 PCC 私密云服务,构建大模型的可信应用体系。基于 PCC,企业能够实现用户数据在云上推理的端到端加密,而且性能很好,推理时延比明文模式的差异在 5% 以内。

「今年是大模型高速发展的一年。当你看到一列高速行驶的列车,最重要的事就是确保自己要登上这趟列车。通过 AI 云原生和豆包大模型家族,火山引擎希望帮助企业做好 AI 创新,驶向更美好的未来。」火山引擎总裁谭待表示。

面向 2025,我们期待什么?

这一年,从技术研发的角度,豆包大模型团队在研究者和从业者圈子中影响力的增长是有目共睹的。2024 年,团队发布了一系列「出圈」成果,包括近期的图像编辑模型 SeedEdit、代码评估数据集 FullStack Bench、新型神经网络架构 FAN 等。在突破前沿命题之外,这些成果也对豆包大模型产品层面的进化起到了关键的推动作用。

正是基于技术驱动下的产品迅速迭代,让豆包坐稳了国产大模型顶流的宝座。大模型技术爆发两年后,不管是个人用户还是企业用户都能感知到,豆包大模型在应用层的优势已经非常明显。

根据大会 One More Thing 环节的透露,本文开头 VCR 中所展示的端到端实时语音功能,以及具备更长视频生成能力的豆包・视频生成模型 1.5 也会在不久后上线。

站在 2024 年的末尾,无论是相关从业者还是大众都会好奇:2025 年的大模型会变成什么样?

我们看到、听到了很多关于大模型前进方向的预判,比如 Scaling Law 即将撞墙,预训练已经走到尽头等等。

但这些并不意味着大模型的能力已经到达天花板,推理 Scaling Law 来了,AI 的智能水平可能会在短时间内跃升到一个新的高度。同时在图像生成、视频生成等多模态任务上,大模型仍有相当充足的发展空间。在未来的 12 个月,大模型进化的曲线可能会非常陡峭。

新的一年,豆包大模型还有哪些惊喜?值得每一个人期待。

#Thinking in Space:

李飞飞、谢赛宁等探索MLLM「视觉空间智能」,网友:2025有盼头了

希望 2025 年 AI 领域能带来推理之外的突破。

在购买家具时,我们会尝试回忆起我们的客厅,以想象一个心仪的橱柜是否合适。虽然估计距离是困难的,但即使只是看过一次,人类也能在脑海里重建空间,回忆起房间里的物体、它们的位置和大小。

我们生活在一个感官丰富的 3D 世界中,视觉信号围绕着我们,让我们能够感知、理解和与之互动。

这是因为人类拥有视觉空间智能(visual-spatial intelligence),能够通过连续的视觉观察记住空间。然而,在百万级视频数据集上训练的多模态大语言模型 (MLLM) 是否也能通过视频在空间中思考,即空间思维(Thinking in Space)?

为了在视觉空间领域推进这种智能,来自纽约大学、耶鲁大学、斯坦福大学的研究者引入了 VSI-Bench,这是一个基于视频的基准测试,涵盖了近 290 个真实室内场景视频,包含超过 5000 个问答对。

其中,视频数据是通过捕捉连续的、时间性的输入来完成的,不仅与我们观察世界的方式相似,而且比静态图像更能丰富空间理解和推理。在 VSI-Bench 上评估开源和闭源模型显示,尽管模型与人类之间存在较大的性能差距,尽管 MLLM 面临视频理解、文本理解和空间推理的挑战,但其仍展现出了新兴的视觉空间智能。

为了对模型行为展开研究,本文受到双重编码理论的启发(该理论认为语言处理和视觉处理既有区别又相互补充),他们提出了用于自我解释(语言)和认知图(视觉)的选择模型(selected models)。

  • 论文地址:https://arxiv.org/pdf/2412.14171v1
  • 论文主页:https://vision-x-nyu.github.io/thinking-in-space.github.io/
  • 论文标题:Thinking in Space: How Multimodal Large Language Models See, Remember, and Recall Spaces

这篇论文作者有我们熟悉的斯坦福大学教授李飞飞,她提倡的「空间智能」最近正在引领 AI 发展方向,还有纽约大学计算机科学助理教授谢赛宁等。

谢赛宁表示,「视频理解是下一个研究前沿,但并非所有视频都是一样的。模型现在可以通过 youtube 片段和故事片进行推理,但是我们未来的 AI 助手在日常空间中导航和经验如何呢?空间思维正是为这一问题诞生的,我们的最新研究 VSI-Bench,可以探索多模态 LLM 如何看待、记忆和回忆空间。」

图片

「在视觉处理方面,我们通常处理空间问题,但很少进行推理;而多模态大语言模型(LLM)虽然能够思考,但通常忽略了逻辑空间。然而,作为人类 —— 无论是做心理旋转测试还是为新家定制家具 —— 我们依赖于空间和视觉思维 。而这些思维并不总能很好地转化为语言。」

图片

「我们通过研究涵盖各种视觉空间智能任务(关系和度量)的新基准来探索这一点。」

图片

李飞飞也对这项研究进行了宣传,她表示这项名为「Thinking in Space」的研究,是对 LLM(大部分都失败了)在空间推理方面表现的评估,而空间推理对人类智能至关重要。2025 年还有更多值得期待的事情,以突破空间智能的界限!

图片

在李飞飞的这条推文下,网友已经开始期待即将到来的 2025 年。

图片

在论文主页给出的 Demo 中,作者提供了谷歌 Gemini 模型在视觉空间智能上的一些表现。(以下视频均以 2 倍速播放。)

1:估计相对距离

,时长01:16

问:如果我站在冰箱旁边,面对着洗衣机,炉子是在我的左边、右边还是后面……

图片

2:让大模型数物体

,时长02:02

问:房间里有几把椅子?Gemini-1.5 Pro 给出了 2。

图片

3:根据视频猜测物体出现的顺序

,时长03:01

问:以下类别在视频中第一次出现的顺序是:毯子、垃圾桶、微波炉、植物?Gemini 给出 B 选项,正确答案是 C。

图片

4:估计房间大小

,时长01:45

问:这个房间有多大(平方米)?如果展示了多个房间,估计一下组合空间的大小。

图片

 VSI-Bench 介绍

VSI-Bench 是一个用于定量评估从第一视角视频出发的 MLLM 视觉空间智能的工具。VSI-Bench 包含了超过 5000 个问答对,这些问答对来源于 288 个真实视频。这些视频包括居住空间、专业场所(例如,办公室、实验室)和工业场所(例如,工厂)—— 以及多个地理区域。VSI-Bench 的质量很高,经过迭代审查以最小化问题的歧义,并移除了从源数据集中传播的错误注释。

VSI-Bench 包括八项任务,如图 3 所示,包括:物体计数、相对距离、出现的顺序、相对方向、物体大小、绝对距离、房间面积、路径规划。

图片

VSI-Bench 的任务演示。注意:为清晰简洁起见,上述问题略作简化。

数据集统计见图 5。

图片

此外,本文还开发了一个复杂的基准构建流程,以有效地大规模生成高质量问答(QA)对,如图 4 所示。

图片

评估

评估设置:本文对 15 个支持视频的 MLLM 进行了基准测试。专有模型包括 Gemini-1.5 和 GPT-4o。开源模型包括 InternVL2、ViLA、LongViLA、LongVA、LLaVA-OneVision 和 LLaVA-NeXT-Video 。

主要结果:通过 5000 多个问答对,作者发现 MLLM 表现出了有竞争性的视觉空间智能(尽管仍然低于人类)。Gemini Pro 表现最佳,但与人类的表现仍有差距。

具体而言,人类评估者的平均准确率达到 79%,比最佳模型高出 33%,在配置和时空任务上的表现接近完美(94%-100%)。

然而,在需要精确估计的测量任务上,差距缩小了,MLLM 在定量任务中表现出相对优势。

在专有模型中,Gemini-1.5 Pro 脱颖而出,尽管只在 2D 数字数据上进行训练,但它大大超过了机会基线,并在绝对距离和房间大小估计等任务中接近人类表现。

表现最佳的开源模型,如 LLaVA-NeXT-Video-72B 和 LLaVA-OneVision-72B,取得了有竞争力的结果,仅落后 Gemini-1.5 Pro 4%-5%。然而,大多数开源模型(7/12)都低于机会基线,暴露出视觉空间智能的明显缺陷。

图片

为了更好地理解模型成功或失败的时间和原因,并阐明它们所拥有的视觉空间智能的各个方面,本文研究了 MLLM 如何在空间语言中思考。

当被要求解释自己时,LLM 表示空间推理(而不是物体识别或语言能力)是主要瓶颈。

在成功示例中,该模型展示了高级视频理解能力,具有准确的时间戳描述和正确的逐步推理过程。全局坐标系的使用表明 MLLM 可以通过整合空间背景和推理来构建隐式世界模型。

图片

错误分析:对 VSI-Bench(tiny)上表现最佳的 MLLM 的错误进行分析,发现主要有四种错误类型:视觉感知、语言智能、关系推理和第一视角 - 他人视角转换。图 6 显示,71% 的错误源于空间推理,特别是在理解距离、大小和方向方面。这表明空间推理仍然是提高 VSI-Bench 上 MLLM 性能的关键瓶颈。

图片

此外,本文还有一些其他发现。

  • 发现 1:空间推理是影响 MLLM 在 VSI-Bench 上的主要瓶颈。
  • 发现 2:语言提示技术虽然在语言推理和一般视觉任务中有效,但对空间推理有害。
  • 发现 3:在记忆空间时,MLLM 会根据给定的视频在模型中形成一系列局部世界模型,而不是统一的全局模型。

图片

语言提示技术在这种情况下是无效的 —— 像 CoT 或多数投票这样的方法实际上对本文任务是非常有害的。

了解更多内容,请参考原论文。

#2024亚马逊研究奖获奖名单

张崇杰、魏华等人入选

上周五,亚马逊研究奖(Amazon Research Awards,ARA)公布了最新一期来自 10 所大学的 10 名获奖者。

亚马逊研究奖于 2015 年设立,旨在为多学科研究主题的研究人员提供资助奖励。获奖者可以访问 300 多个亚马逊公共数据集,并可以通过促销积分使用 AWS AI/ML 服务和工具。除此以外,获奖者还将与亚马逊专家建立联系,以获得咨询和建议,还可以参加亚马逊举办的活动、培训课程等。

在本周期,ARA 收到了许多优秀的研究提案。本次公告包含在 2024 年冬季和 2024 年春季周期的三个提案方向(信息安全 AI、基础模型开发和可持续性)征集下资助的奖项。提案的审查依据是其科学内容的质量以及对研究界和社会产生影响的潜力。此外,亚马逊也鼓励公开发表、开源的研究成果。

在这一期的获奖名单中,出现了很多华人学者的身影。

信息安全 AI

Kaize Ding

  • 机构:西北大学
  • 研究方向:信息安全中的高效异常检测:自动化识别和解释图数据中的异常行为

Kaize Ding 是美国西北大学统计与数据科学的助理教授,领导 REAL 实验室。他在亚利桑那州立大学获得了计算机科学博士学位,师从刘欢(Huan Liu)教授。

他的研究兴趣主要是数据挖掘、机器学习和大型基础模型,研究重点集中于为自主决策构建可靠、高效的人工智能系统。同时,他热衷于开发知识引导的人工智能算法,尤其是基于 GNN 和 LLM 的算法,推动 AI 赋能医疗保健、生物医药、城市、环境计算等不同领域的应用。

个人主页:https://kaize0409.github.io/

Sijia Liu

  • 机构:密歇根州立大学
  • 研究方向:机器「遗忘」的机制,促进可信的生成式人工智能

Sijia Liu 于美国纽约的雪城大学获得了电气与计算机工程博士学位。此后,他在密歇根州立大学担任博士后研究员、又于 MIT-IBM Watson 人工智能实验室担任研究员。

他的研究兴趣主要聚焦于为可信的人工智能开发学习算法和理论,其研究目标是使 AI 系统更加安全且具可扩展性。他曾摘得 ICASSP’16 的最佳学生论文奖,以及 UAI’22 的最佳论文亚军奖,已在 NeurIPS、ICML、ICLR、CVPR、ICCV 等顶级会议上发表了 70 多篇论文。

个人主页:https://engineering.msu.edu/faculty/Sijia-Liu

张崇杰(Chongjie Zhang)

  • 机构:圣路易斯华盛顿大学
  • 研究方向:基于偏好的离线强化学习在信息安全中的实际应用

张崇杰是圣路易斯华盛顿大学计算机科学与工程系的教授,领导机器智能研究组。在此之前,他曾是清华大学交叉信息科学研究院的助理教授,并在 MIT CSAIL 担任博士后研究员。

他的研究究主要集中在深度强化学习、多智能体系统和人机交互领域。目前,他致力于探索智能体应如何学习决策,并与其他智能体或人类有效协作,以超越单个智能体的能力。

个人主页:https://engineering.washu.edu/faculty/Chongjie-Zhang.html

Yue Zhao

  • 机构:南加州大学
  • 研究方向:信息安全中的高效异常检测:自动化识别和解释图数据中的异常行为

Yue Zhao 是南加州大学计算机科学助理教授。他的研究主要集中在构建稳健、可信且可扩展的人工智能系统,涉及三个层次:原则层、知识与生成层以及系统层。通过这些层次,他将可靠的检测方法、基于图的结构化知识、生成建模和开源工具结合起来,推动 AI 在科学、医疗、金融和政治科学等领域的应用。

在原则层,Yue Zhao 致力于确保 AI 系统能够检测异常、离群值和分布外数据,提供跨领域的可信度、公平性和透明度。知识层方面,他利用图学习和生成 AI 方法,解决药物发现、合成临床试验和政治预测等科学挑战。系统层面,他开发了高效的工具和框架,用于自动模型选择、超参数优化和大规模异常检测。他还领导了多个开源项目,如 PyOD(被 NASA、特斯拉等使用),推动了 AI 技术的普惠和应用。

个人主页:

​​https://viterbi-web.usc.edu/~yzhao010/​​

可持续性

尤峰崎(Fengqi You)

  • 机构:康奈尔大学
  • 研究方向:透明可信的生命周期评估(LCA)大语言模型助手

尤峰崎是康奈尔大学能源系统工程领域的教授,同时在多个学科领域有跨界合作,包括化学工程、计算机科学、电气与计算机工程、系统工程、机械工程、土木与环境工程以及应用数学等。

在康奈尔大学,他担任系统工程博士学位项目主席、康奈尔大学 AI for Science 研究所(CUAISci)联合主任、康奈尔数字农业研究所(CIDA)联合主任,以及康奈尔可持续性 AI 倡议(CAISI)主任。

在加入康奈尔之前,尤峰崎曾在阿贡国家实验室数学与计算机科学部门工作,并在西北大学执教。他的研究聚焦于系统工程的基础理论与方法,广泛应用于材料信息学、智能制造、数字农业、能源系统和可持续性领域。尤峰崎已在《自然》、《科学》等期刊上发表了 300 多篇学术论文。

个人主页:https://www.engineering.cornell.edu/faculty-directory/fengqi-you

基础模型开发

程璐(Lu Cheng)

  • 机构:芝加哥伊利诺伊大学
  • 研究方向:通过不确定性量化实现可靠的大语言模型对齐

程璐是芝加哥伊利诺伊大学计算机科学系的助理教授,领导着负责任与可靠人工智能实验室(R^2 Lab)。她在亚利桑那州立大学获得了计算机科学博士学位,分别在华中科技大学和伦斯勒理工学院获得了了本科与硕士学位。

程璐的研究兴趣广泛,主要集中在社会责任人工智能(如公平性、可解释性 / 可解释性、隐私)和可靠人工智能(如鲁棒性与不确定性量化)、因果机器学习以及数据挖掘等领域。

个人主页:https://lcheng.org/

魏华(Hua Wei)

  • 机构:亚利桑那州立大学
  • 研究方向:通过不确定性量化实现可靠的大语言模型对齐

魏华是亚利桑那州立大学的助理教授。他曾在新泽西理工学院担任助理教授,并在腾讯 AI 实验室担任研究员。他在北航获得计算机科学的本科和研究生学位,并在宾夕法尼亚州立大学获得博士学位,其博士导师为 Zhenhui (Jessie) Li。他的课题组的论文多次发表在人工智能、机器学习、数据挖掘的顶级会议上,并获得了 ECML-PKDD 2020 最佳论文奖。

魏华的研究兴趣包括强化学习、数据挖掘、城市计算和人机协同计算等领域。

参考内容:​​https://www.amazon.science/research-awards/program-updates/10-amazon-research-awards-recipients-announced​​

#图学习新突破

一个统一框架连接空域和频域

陈枳扦博士:现任密西西比州立大学计算机系助理教授,专注于图机器学习及应用领域,在谱域视角与不确定性研究方面着力颇深。其研究成果见诸于 AAAI、IJCAI、ACM、ICDM、EMNLP、Computing Surveys、Nature Communication 等。他的科研工作承蒙美国国家科学基金会(NSF)及美国农业部(USDA)多个项目的资助,且荣获丰田研究院杰出贡献奖与 ACM SIGPSATIAL 2020 最佳论文奖。

张磊博士:于 2024 年毕业于弗吉尼亚理工后,以助理教授身份加盟北伊利诺伊大学。他的研究兴趣广泛覆盖机器学习和数据挖掘范畴,尤其聚焦于图神经网络、图结构学习、双层优化、神经架构搜索以及社交网络挖掘等方面。在 AAAI、ICDM 等顶级会议上发表多篇论文,并于 2023 年夏季斩获弗吉尼亚理工大学的 Cunningham Fellowship。

赵亮博士:身为埃默里大学计算机系副教授,他的研究领域横跨数据挖掘、人工智能等多学科,在图学习领域成果斐然。在 KDD、NeurIPS、AAAI、IJCAI、WWW 等众多顶级会议及期刊上发表超百篇论文,屡获殊荣,如 NSF CAREER 奖、Meta Research 奖、Amazon Research 奖等,还荣获 ICDM 2022 最佳论文奖、ACM SIGPSATIAL 2022 最佳论文奖以及 WWW 2023 最佳论文提名等。

图数据学习在过去几年中取得了显著的进展,图神经网络(GNN)在此过程中起到了核心作用。然而,不同的 GNN 方法在概念和实现上的差异,对理解和应用图学习算法构成了挑战。

针对这一问题,来自密西西比州立大学,北伊利诺伊大学和埃默里大学的学者通过一系列教程对此问题展开了讨论,这些教程展示在 CVPR 2024、CIKM 2024、SIAM Math and Data Science 2024,以及发表在 Computing Surveys 的一篇论文: 《Bridging the Gap between Spatial and Spectral Domains: A Unified Framework for Graph Neural Networks》。

论文地址:https://dl.acm.org/doi/10.1145/3627816

问题:统一框架的突破意义何在?

尽管图神经网络已经在多个领域展示出了卓越的性能,从化学分子识别到社交网络分析,从交通网络到输电网络,再到大脑网络。GNN 也在不同的场景下,用不同的理论和机制来设计新的图神经网络,例如 Heat diffusion, page rank, random walk, attention model, ARMA, low-pass filtering。虽然展现了 GNN 和很多不同理论工具的连接性,但这也加剧了 GNN 领域的分裂。这些方法因为急于不同理论,无法进行理论上直接的比较。

图片

Part 1: 图学习理论框架的现状

目前,图神经网络(GNN)涵盖了多种模型和层的类型,但总体可以分为空域(spatial)图模型和频域(spectral)图模型。针对这些模型,不少研究者尝试提出通用框架,以便在同一框架下对不同模型进行分析和比较。然而,这些框架主要集中于空域图模型。值得注意的是,有一类研究从统一的出发点 —— 即模型的表达能力(Expressive Power)—— 对空域和频域图模型进行了分析。尽管如此,空域和频域图模型在表达能力的定义上存在差异,其分析结论和设计建议既有共通之处,也各有不同,同时两者均存在一定的局限性。

图片

图片

Part 2: 图卷积

图卷积可以通过谱图理论(Spectral Graph Theory)中的图傅里叶变换(Graph Fourier Transform)和卷积定理(Convolution Theorem)来理解。

图傅立叶变换:图的结构通过图拉普拉斯矩阵(Graph Laplacian)来表示。拉普拉斯矩阵 L 可以进行特征值分解:

图片

,其中 U 是特征向量矩阵,∧ 是特征值的对角矩阵。图傅里叶变换就是将图信号

图片

转换到频域:

图片

。其逆变换为

图片

。通过这种变换,研究者可以在频域中处理和分析图信号。

卷积定理:在传统信号处理中,时域的卷积等价于频域的逐点相乘。对于图信号,同样成立:设两个图信号 X(输入特征)和 g(滤波器),它们的图卷积定义为:

图片

。其中,⊙ 表示频域的逐点相乘,g 表示频域滤波器。这表明图卷积可以通过频域操作实现。为了在图神经网络中实现卷积,滤波器 g 被参数化为

图片

,它是特征值 ∧ 的函数:

图片

,其中 θ 是可训练的参数向量。卷积操作可以写为:

图片

图卷积网络(GCN)在频域和空域的解释:在频域图模型中,GCN 使用的是

图片

的一阶近似,其中

图片

。这种操作本质上是一种固定的卷积操作,没有可学习参数。由于归一化之后的拉普拉斯矩阵的特征值范围为 0 到 2 之间,2-θ 的滤波器实际上是一个低通滤波器:放大低频平滑信号,减弱高频信号。在空域图模型中, GCN 的操作可以理解为对每个节点的邻居节点的特征值进行求和,然后取平均值。这是一种基于邻居特征聚合的方式。GCN 的频域和空域视角是等价的,但各有侧重。频域解释更偏向理论上的信号处理本质,而空域解释更贴近工程实现和直观理解。对于研究者而言,这两种视角是相辅相成的,结合使用可以更全面地理解和改进 GCN。

Part 3: 新的统一框架:连接空域和频域

教程中提出的框架基于一个核心假设:空间域和频谱域的图表示学习可以通过一个共同的数学语言进行描述。研究人员引入了一种新的图嵌入方法,该方法结合了图的空间连接性和节点特征,能够更加精准地捕捉和表示图数据的复杂性。

图片

其他领域里频域和空域的研究

在已存在的研究里,这种空域和频域相互连接视角并不少见。研究者用两个例子来说明:

(1)谱聚类:从谱域的视角看谱聚类是使用谱分解 (spectral decomposition) 或则说特征分解(eigen-decomposition),然后使用分解结果中特征值响亮的低频信号来作为新的表达,然后使用较为简单快速的 Kmeans 得到聚类结果。而另外一个新的实现,SpectralNet,设计了一个特别 loss,使用神经网络来得到几乎一样的结果。单神经网络是一种以降低 loss 为导向的迭代算法,所以可以视为一种近似谱聚类的算法。

图片

(2)另外一个例子是著名的 Word2Vec 算法。以 Skip-gram 为例,每个单词都要相似于它的上下文的环境里其他单词。所以 Word2Vec 是一个迭代算法。在后来的研究中,Levy 提出了一些分析,发现使用 Word2Vec 的结果里的矩阵,能够几乎完整的还原单词的共现矩阵(PPMI)。也就是说 Word2Vec 可以看作是矩阵分解算法的一种近似算法。

图片

在这两个例子中,研究者发现这种比较中,有类似于该研究提出的谱域和空域方法区别。即,一种方法侧重矩阵分解,而另外一种侧重于迭代近似。

Part 4: 未来方向展望

这项研究开辟了图结构学习领域的新方向,未来的研究可以基于此框架进一步探索:

  • 计算效率:如何进一步优化统一框架以处理大规模图数据,在谱论表达下,图的信息量依然巨大,对计算仍然是一个挑战。
  • 统一的谱论:目前谱论主要应用于静态图结构,而且是简单图(即无向,边只连接两个节点)。然后图论中仍然有大量的不同类型的图,缺少谱论的表达,例如有向图,超图,或则动态图。
  • 应用扩展:将统一框架应用到更多实际问题中,如生物信息学和社会网络分析,如何解释谱论视角下真实应用的规律,是一个值得探索的领域。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/63749.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【大学英语】英语范文十八篇,书信,议论文,材料分析

关注作者了解更多 我的其他CSDN专栏 过程控制系统 工程测试技术 虚拟仪器技术 可编程控制器 工业现场总线 数字图像处理 智能控制 传感器技术 嵌入式系统 复变函数与积分变换 单片机原理 线性代数 大学物理 热工与工程流体力学 数字信号处理 光电融合集成电路…

一起学Git【第一节:Git的安装】

Git是什么? Git是什么?相信大家点击进来已经有了初步的认识,这里就简单的进行介绍。 Git是一个开源的分布式版本控制系统,由Linus Torvalds创建,用于有效、高速地处理从小到大的项目版本管理。Git是目前世界上最流行…

【day11】面向对象编程进阶(继承)

概述 本文深入探讨面向对象编程的核心概念,包括继承、方法重写、this和super关键字的使用,以及抽象类和方法的定义与实现。通过本文的学习,你将能够: 理解继承的优势。掌握继承的使用方法。了解继承后成员变量和成员方法的访问特…

随手记:小程序兼容后台的wangEditor富文本配置链接

场景&#xff1a; 在后台配置wangEditor富文本&#xff0c;可以文字配置链接&#xff0c;图片配置链接&#xff0c;产生的json格式为&#xff1a; 例子&#xff1a; <h1><a href"https://uniapp.dcloud.net.cn/" target"_blank"><span sty…

6.8 Newman自动化运行Postman测试集

欢迎大家订阅【软件测试】 专栏&#xff0c;开启你的软件测试学习之旅&#xff01; 文章目录 1 安装Node.js2 安装Newman3 使用Newman运行Postman测试集3.1 导出Postman集合3.2 使用Newman运行集合3.3 Newman常用参数3.4 Newman报告格式 4 使用定时任务自动化执行脚本4.1 编写B…

计算机网络之王道考研读书笔记-2

第 2 章 物理层 2.1 通信基础 2.1.1 基本概念 1.数据、信号与码元 通信的目的是传输信息。数据是指传送信息的实体。信号则是数据的电气或电磁表现&#xff0c;是数据在传输过程中的存在形式。码元是数字通信中数字信号的计量单位&#xff0c;这个时长内的信号称为 k 进制码…

法规标准-C-NCAP评测标准解析(2024版)

文章目录 什么是C-NCAP&#xff1f;C-NCAP 评测标准C-NCAP评测维度三大维度的评测场景及对应分数评星标准 自动驾驶相关评测场景评测方法及评测标准AEB VRU——评测内容(测什么&#xff1f;)AEB VRU——评测方法(怎么测&#xff1f;)车辆直行与前方纵向行走的行人测试场景&…

第十七届山东省职业院校技能大赛 中职组“网络安全”赛项任务书正式赛题

第十七届山东省职业院校技能大赛 中职组“网络安全”赛项任务书-A 目录 一、竞赛阶段 二、竞赛任务书内容 &#xff08;一&#xff09;拓扑图 &#xff08;二&#xff09;模块A 基础设施设置与安全加固(200分) &#xff08;三&#xff09;B模块安全事件响应/网络安全数据取证/…

Halcon例程代码解读:安全环检测(附源码|图像下载链接)

安全环检测核心思路与代码详解 项目目标 本项目的目标是检测图像中的安全环位置和方向。通过形状匹配技术&#xff0c;从一张模型图像中提取安全环的特征&#xff0c;并在后续图像中识别多个实例&#xff0c;完成检测和方向标定。 实现思路 安全环检测分为以下核心步骤&…

Java——多线程进阶知识

目录 一、常见的锁策略 乐观锁VS悲观锁 读写锁 重量级锁VS轻量级锁 总结&#xff1a; 自旋锁&#xff08;Spin Lock&#xff09; 公平锁VS非公平锁 可重入锁VS不可重入锁 二、CAS 何为CAS CAS有哪些应用 1&#xff09;实现原子类 2&#xff09;实现自旋锁 CAS的ABA…

达梦 本地编码:PG_GBK, 导入文件编码:PG_UTF8错误

问题 达梦 本地编码&#xff1a;PG_GBK, 导入文件编码&#xff1a;PG_UTF8错误 解决 右键管理服务器 查看配置 新建一个数据库实例&#xff0c;配置跟之前的保持一致 新建一个用户&#xff0c;跟以前的用户名一样 在用户上&#xff0c;右键导入&#xff0c;选择dmp的位置 导…

深度学习卷积神经网络CNN之MobileNet模型网络模型详解说明(超详细理论篇)

1.MobileNet背景 2.MobileNet V1论文 3. MobileNett改进史 4. MobileNet模型结构 5. 特点&#xff08;超详细创新、优缺点及新知识点&#xff09; 一、MobileNet背景 随着移动设备的普及&#xff0c;深度学习模型的应用场景逐渐扩展至移动端和嵌入式设备。然而&#xff0c;传统…

垂起固定翼无人机大面积森林草原巡检技术详解

垂起固定翼无人机大面积森林草原巡检技术是一种高效、精准的监测手段&#xff0c;以下是对该技术的详细解析&#xff1a; 一、垂起固定翼无人机技术特点 垂起固定翼无人机结合了多旋翼和固定翼无人机的优点&#xff0c;具备垂直起降、飞行距离长、速度快、高度高等特点。这种无…

kubernates实战

使用k8s来部署tomcat 1、创建一个部署&#xff0c;并指定镜像地址 kubectl create deployment tomcat6 --imagetomcat:6.0.53-jre82、查看部署pod状态 kubectl get pods # 获取default名称空间下的pods kubectl get pods --all-namespaces # 获取所有名称空间下的pods kubect…

数据挖掘之认识数据

在数据挖掘过程中&#xff0c;数据的认识是非常重要的一步&#xff0c;它为后续的数据分析、建模、特征选择等工作奠定基础。以鸢尾花数据集&#xff08;Iris Dataset&#xff09;数据集之鸢尾花数据集&#xff08;Iris Dataset&#xff09;-CSDN博客为例&#xff0c;下面将介绍…

统信UOS 1071 AI客户端接入本地大模型配置手册

文章来源&#xff1a;统信UOS 1071本地大模型配置手册 | 统信软件-知识分享平台 1. OS版本确认 1.1. 版本查看 要求&#xff1a;计算机&#xff0c;属性&#xff0c;查看版本&#xff08;1070,构建号> 101.100&#xff09; 2. UOS AI版本确认 UOS AI&#xff0c;设置&am…

定时任务——定时任务技术选型

摘要 本文深入探讨了定时任务调度系统的核心问题、技术选型&#xff0c;并对Quartz、Elastic-Job、XXL-Job、Spring Task/ScheduledExecutor、Apache Airflow和Kubernetes CronJob等开源定时任务框架进行了比较分析&#xff0c;包括它们的特点、适用场景和技术栈。文章还讨论了…

麒麟操作系统服务架构保姆级教程(二)sersync、lsync备份和NFS持久化存储

如果你想拥有你从未拥有过的东西&#xff0c;那么你必须去做你从未做过的事情 上篇文章我们说到rsync虽好&#xff0c;但是缺乏实时性&#xff0c;在实际应用中&#xff0c;咱们可以将rsync写进脚本&#xff0c;然后写进定时任务去备份&#xff0c;如果每天凌晨1&#xff1a;00…

wtforms+flask_sqlalchemy在flask-admin视图下实现日期的修改与更新

背景&#xff1a; 在flask-admin 的modelview视图下实现自定义视图的表单修改/编辑是件不太那么容易的事情&#xff0c;特别是想不自定义前端view的情况下。 材料&#xff1a; wtformsflask_sqlalchemy 制作&#xff1a; 上代码 1、模型代码 from .exts import db from …

【AIGC-ChatGPT进阶副业提示词】末日生存指南 2.0:疯狂科学家的荒诞智慧

引言 在这个不断变化的世界中&#xff0c;末日似乎总是lurking在角落。但是&#xff0c;亲爱的幸存者们&#xff0c;不要害怕&#xff01;因为我&#xff0c;疯狂科学家2099&#xff0c;正在这里为你们带来最新版本的末日生存指南。这不是你祖母的应急手册&#xff0c;而是一本…