51c大模型~合集88

我自己的原文哦~ https://blog.51cto.com/whaosoft/12805165

#Number Cookbook

数字比你想得更复杂——一文带你了解大模型数字处理能力的方方面面

目前大语言模型（Large Language Models, LLMs）的推理能力备受关注。从思维链（Chain of Thought，CoT）技术提出，到以 o1 为代表的长思考模型发布，大模型正在展现出接近人类甚至领域专家的水平，其中数学推理是一个典型任务。

然而，与大模型能够理解和求解各种复杂数学问题相对的，是其羸弱的数字处理能力。尽管大模型能够提出看似合理的解决方案，但在实际运算之中，却常常难以在不借助工具的情况下计算出准确的数值结果。此前引发广泛讨论的 “9.11>9.9” 就是典型例子。这种 “事实幻觉” 已经成为制约大模型实际应用的一个重大障碍。

过去的研究工作很少将 “数字理解和处理能力”（Number Understanding and Processing，NUPA）作为独立任务进行研究。以往的研究更多聚焦于数学推理，涉及数学工具和定理应用，例如 GSM8K。对于数字本身的基础理解和处理，如四则运算、比较大小、数位提取等，鲜有研究将其单独衡量。同时，在现有的数学数据集中，数字相关的部分往往被简化处理。许多数据集中的数字通常仅限于简单的整数和小数，而较长的整数、小数和分数等较复杂的数字形式往往被忽视，这与现实中复杂多变的应用场景存在较大差距。实际应用中，若遇到涉及更复杂任务的情况，如金融、物理等领域的应用，这种简化后的数字能力可能无法有效应对。

尽管大模型可以通过调用外部计算器一定程度上弥补数字处理能力的不足，这个问题本身仍然值得深入探讨。首先，考虑到数字处理作为各种复杂推理的基础，在涉及高频数字处理的情况下频繁调用外部工具会显著减慢模型响应，模型应当具备自我解决较为简单问题的能力（如判断 9.11 < 9.9）。更重要的是，从发展通用人工智能的角度出发，如果模型不具备最基础的数字理解能力而只能依赖计算器，那么不可能指望其真正掌握复杂推理、帮助人类发现新定理或发明新工具，达到人类级别的通用智能更是无从谈起。这是因为，人类正是在充分理解、掌握数字和运算的基础上才发明的计算器。

近日，北京大学张牧涵团队在投稿至 ICLR-2025 的论文中，关注了这一问题。作者将数字理解和处理能力（number understanding and processing ability, NUPA）从数学或常识推理能力等任务中分离出来，单独衡量大模型的数字能力。基于中小学数学课本范围，作者提出了一个涉及四种数字表式（整数、浮点数、分数、科学计数法）和四个能力范畴下的 17 个任务类型，共计 41 个数字理解和处理任务的基准集 NUPA（图 1）。这些任务基本覆盖了日常生活中常用的数学知识（如计算、大小比较、单位转换、位操作等），亦是支撑 AGI 的必要能力之一。

论文标题：Number Cookbook: Number Understanding of Language Models and How to Improve It
论文地址：https://arxiv.org/abs/2411.03766
项目主页：https://github.com/GraphPKU/number_cookbook

图 1：NUPA benchmark 的 41 个任务；其中√表示包括的任务；—, O, X 分别表示因不适用、可由其它任务组合得到、以及因过于复杂而不实际，而被排除的任务。

现有大模型性能测试

作者首先在不借助额外工具和思维链帮助的情况下，测试了模型在不同难度（数字长度）下的表现。部分结果如图 2 所示，准确率根据生成的数字与基准答案的严格一致来评估。测试涵盖了多种常见的大模型，包括 GPT-4o、Llama-3.1、Qwen（千问）-2、Llama-2、Mixtral。测试结果显示，最新的大模型在常见的数字表示、任务和长度范围表现良好。如图 2 所示，在整数加法这一典型任务上，以及较短数字长度（1-4 位）情况下，各模型的准确率均超过 90%，其中，GPT-4o、Qwen2-72B 等模型甚至达到了接近 100% 的准确率。在浮点数加法、整数大小比较、整数长度判断等任务上，各模型也普遍展现出超过 90% 的准确率。

图 2：在经典任务和较短数字范围内上模型性能普遍较好，其中加法任务为 1-4 位，其余任务为 1-10 位的结果。

然而，涉及稍微复杂或者不常见的数字表示或任务时，模型的性能明显下降。图 3 进一步展示了部分任务上的准确率，S、M、L、XL 分别对应从短到长不同的数字长度范围（所示任务分别对应 1-4 位、5-8 位、9-14 位、15-20 位）。尽管大部分模型在较短的数位范围内能够较好地解决整数和浮点数的加法问题，但在分数和科学计数法的加法上，模型的表现很差，准确率普遍低于 20%。此外，当任务涉及乘除运算、取模运算等稍微复杂的运算时，即使是在较短的长度范围内，大模型也难以有效解决问题。

图 3：部分任务的结果显示，大模型在处理少见任务和长数字时存在困难。

同时，数字长度仍然是大模型尚未解决的难题，从图 3 中可以看出，随着数字长度的增加，模型性能明显下降。以整数加法为例，当输入数字长度达到 9-14 位（即图中 L 范围）时，除 GPT-4o 和 Qwen2-72B 的准确率维持在约 40% 外，其余模型的准确率仅约为 10%；而当涉及 15-20 位整数的加法（图中 XL 范围）时，GPT-4o 和 Qwen2-72B 的性能进一步下降至约 15%，其余模型几乎无法给出正确答案。

此外，这一测试还发现大模型在处理最简单的数位相关任务时存在明显不足。具体而言，在诸如 “数字长度”（length）、“返回给定数位的数字”（get digit）、“数位比较大小”（digit max）等任务上，模型的表现均不能令人满意，尤其是在数字较长时，性能下降尤为明显。例如，当询问一个长 60-100 位长整数的长度和特定数位的数字时，包括 GPT-4o 在内的模型准确率均不超过 20%；而在 digit max 任务上，几乎所有模型均无法正确回答。考虑到数位是数字处理中的基本概念，这表明现有大模型在数字处理上存在本质缺陷，这也可能是模型在实际任务中频繁出现 “事实幻觉” 的原因。

图 4：和数位相关的任务性能。

作者在原文中还提供了更多的观察，并基于更多任务、长度范围和准确度度量的进行了分析。此外，考虑到该测试涉及数字表示、任务类别、数字长度和度量等多个方面，作者还提供了一个可交互式的网站，便于更清楚地展示结果，详情请访问：https://huggingface.co/spaces/kangshijia/NUPA-Performance。

提升大模型数字能力的三个方面

测试结果显示，现有大模型在数字理解和处理方面存在系统性不足。为此，作者研究了提升大模型数字理解能力的三个方向，包括预训练阶段的数字相关技术、预训练后的微调，以及思维链技术。

预训练中分词器对数字性能的影响

首先，一种普遍的猜想是，大模型在数字能力上的薄弱与其对数字的分词（tokenization）方式有关。目前大多数流行的大模型由于词汇表固定，需要将长数字分拆为多个 token，这种方式可能会削弱模型对数字的理解。在早期的 GPT-2 和 GPT-3 等模型中，采用的 BPE tokenizer 对数字分词没有特殊优化。这种分词方式会生成不固定长度的数字 token，研究已证明这对大模型的数位对齐有负面影响 [1]。后续的 Llama 等模型均采用了从左到右的贪心式分词器，其机制是对于预设的最大长度 k，从左到右依次截取 k 个数字组成一个 token，直至遇到非数字字符为止。在 k 的选取上，较早的 Llama-2 模型采用 k=1，即每个数位作为一个 token 的策略；而更新的 GPT-3.5，GPT-4 和 Llama-3 均选取了 k=3 的策略。近来的研究 [1] 又进一步改进了分词方向，将整数部分的分词方向改为从右到左，以更贴合人类对数字的理解习惯。

图 5：四种不同的分词器设计，从上到下分别为（a）GPT-2 使用的未经处理的 BPE 分词器、（b）Llama-2 使用的单数位分词器、（c）Llama-3 和 GPT-3.5、GPT-4 使用的 3 数位贪心分词器，以及（d）改进对齐后的 3 数位分词器。

尽管针对分词器的设定有所不同，但最新模型普遍倾向于使用更大的词汇表，即更大 k 和更长的 token。然而，这一趋势未经充分验证和解释。为此，作者基于 NUPA 提供的数据集，针对不同的分词器大小进行了系统验证。实验中，作者改进对齐分词器，设置 k 为 1、2、3，分别训练不同参数规模的 Transformer 模型，并在 1-8 位整数或浮点数的加法、乘法等任务上进行学习，再测试其在 1-20 位数字任务上的性能。实验结果显示（图 6），无论是在训练的数字长度范围内（in-domain）还是超出训练长度（out-of-domain）的长度泛化性能上，词汇表更小的分词器（k=1）的性能均优于或接近 2 位或 3 位分词器，同时具备更快的收敛速度。

图 6：以整数乘法为例，1-3 位分词器的性能对比；横轴为训练所见样本数，纵轴为生成准确率；从左到右分别为 6 位 - 10 位数字加法的测试集准确率。

此外，作者还研究了最近提出的概率分词器（即在分词时不采用贪心算法，而是随机取不超过 k 个数字组成一个 token）。实验结果表明，尽管概率分词器在长度泛化上表现出一定优势，但总体性能仍然不如一位分词器。综上，作者认为，目前流行的扩大数字词汇表的倾向实际上不利于数字处理，相反，更早期的一位分词器可能才是更优选项。

其它预训练中的数字相关技术

除分词器的影响之外，过去的研究还从位置编码（positional encoding，PE）和数字格式等角度分析了数字能力，特别是在数字的长度泛化方面。作者在 NUPA 任务上测试了这些典型技术，结果显示：

从位置编码的角度，以 NoPE 和 Alibi 为代表的改进型位置编码能够有效解决长度泛化问题。这些方法适用于多种数字表示和任务类型，虽然会牺牲一定的训练速度，但能提升模型在超出训练长度范围时的性能。

针对数字格式，研究发现补零对齐（zero-padding）和反向数字表示（reverse representation）等技术有助于数位对齐。其中，仅针对整数部分进行反向表示能够显著提升结果。这一部分的结论较多，感兴趣的读者可以参考原文进行深入阅读。

图 7：一些用于帮助数位对齐的数字表示。

后训练微调对数字性能的影响

微调是提升大模型在特定任务上表现的常见方法。作者针对 NUPA 进行了微调实验，使用 NUPA 提供的 41 个任务构建了包括多种数字表示、任务类型和数字长度的训练集，并在 Llama-3.1-8B 基础上进行参数高效微调（Parameter-Efficient Fine-Tuning, PEFT）。为了测试数字长度上的泛化性能，作者只选择了 S 和 M 两个长度范围进行训练，并在 S、M、L、XL 四个长度范围内进行测试。

训练结果表明，模型通过少量的训练步数（约两千步）即可显著提升性能，如图 6 所示，经过微调的模型在多个任务上表现明显优于未经微调的 Llama-3.1-8B 模型；在一些任务上，微调后的模型甚至接近 GPT-4o 或超过了 GPT-4o 的性能。这表明，模型在某些任务上表现较差的原因可能是缺乏足够多样的任务和数字表示训练数据。增加这些数据有望改善模型表现。然而，即使经过微调，该模型的准确率也未能达到在整个区间上达到接近 100% 的水平。

图 8：经过微调的模型和其它模型的对比，其中 - ft 表示经过微调的模型。

然而，在后训练阶段，尝试通过微调调整位置编码、分词策略或数据格式的实验并未得到正面结果。具体而言，作者在微调阶段尝试修改原始模型使用的位置编码、分词器，或采用修改后的数字格式，但不同技术组合的微调结果均不如直接微调的结果，且改动越多性能下降越明显。作者认为，这可能与预训练阶段与微调阶段之间的差异过大有关。这表明，目前提出的大部分技术无法在微调阶段直接使用，因此必须在预训练阶段就考虑使用。

图 9：以浮点数加法为例，其中 rev 表示数字反向表示、pad 表示数字首位补零对齐，1d 表示使用 1 位 tokenizer；FT 和 w/o FT 分别为直接进行微调和不使用微调的原始参数。模型均采用 Llama-3.1-8B，可以看到所有组合的结果都劣于直接进行微调。

思维链是否足以解决数字处理难题

上述实验是在不使用思维链的情况下进行的，考虑到数字处理任务通常是更复杂任务的基础，生成思维链可能会导致过长的输出或分心。然而，考虑到思维链方法对推理任务普遍有效，作者进一步测试了思维链技术是否能够解决数字处理问题。

具体而言，作者采用了一种名为 “规则跟随”（Rule-Following）的思维链范式，将明确的计算规则以代码的方式提供给大模型，模型微调后按照这些规则解决问题。实验结果表明，训练得到的具有规则跟随能力的模型性能上普遍超过 GPT-4o 及一般微调的 Llama-3.1-8B。然而，该模型的推理时间、显存开销较大，使用思维链生成的平均耗时是直接生成的 10 倍以上，且容易受到显存或上下文长度限制，导致无法解决较长的问题。这表明，思维链技术并非解决数字处理问题的万能方法。

图 10：规则跟随的思维链大模型具有远超直接生成的性能，但受到长度限制明显，“-” 表示在两千个 token 限制内无法生成答案。

图 11：指令跟随的思维链大模型的平均耗时普遍在 10 倍以上。

总结

本文提出了一系列独立于数学问题和常识问题之外的数字理解和处理任务，涵盖了 4 种数字表示和 17 种任务类型，并对常见的大模型进行了评测。结果表明，现有大模型在数字理解和处理方面的性能仍然局限于最常见的任务和较短的数字范围。作者从预训练技术、训练后微调和思维链三个方面探索了提升数字处理能力的可能性。尽管一些方法在提升模型性能上有一定效果，但仍存在不足，离彻底解决数字处理问题还有一定距离。

作者指出，大模型目前被视为通向 AGI 的重要工具，尽管其在解决最复杂问题的高级能力方面备受关注，但 “数字处理” 等基础能力的研究同样不可忽视，否则推理和思维将成为空中楼阁。作者希望本文提供的任务和数据集能够为大模型提升数字处理能力提供有力支持，并以此为基础进一步加强其在数学等领域的表现。这些任务和数据集，可以有效地为预训练过程中引入更多样的数字相关任务提供参考，也可以启发更好的数字分词、编码、格式处理等新技术的提出。

#NeurIPS 2024最佳论文开奖

北大字节NUS夺冠，Ilya连续三年获奖

NeurIPS 2024最佳论文终于正式揭晓了！今年，来自北大字节，以及新加坡国立大学等机构的团队摘得桂冠。

刚刚，NeurIPS 2024最佳论文放榜了！

不出所料，今年两篇最佳论文分别颁给了北大字节团队，和新加坡国立大学Sea AI Lab团队。

除此之外，大会还公布了「数据集与基准」赛道的最佳论文，以及主赛道最佳论文奖委员会，数据集和基准赛道最佳论文奖委员会。

今年，是NeurIPS第38届年会，于12月9日-15日在加拿大温哥华正式拉开帷幕。

前段时间，NeurIPS 2024刚刚公布的时间检验奖，分别颁给了Ilya Sutskever的Seq2Seq，和Ian Goodfellow的GAN。

有网友发现，Ilya已经连续三年拿下该奖，可以创历史了。

2022年AlexNet，2023年Word2Vec，2024年Seq2Seq

今年，NeurIPS 2024的总投稿数量再创新高，共有15000多篇论文提交，录用率为25.8%。

从研究内容主题的整体分布来看，主要集中在大模型、文生图/文生视频、强化学习、优化这四大块。

再细分来看，机器视觉、自然语言处理、强化学习、学习理论、基于扩散的模型是最热的5个话题。

共计165000名参会者，也创下历年新高。

获奖论文一：超越扩散，VAR开启视觉自回归模型新范式

拿下最佳论文的第一篇，是由北大字节团队共同提出的一种全新范式——视觉自回归建模（Visual Autoregressive Modeling，VAR）。

（论文详解请点此处）

论文地址：https://arxiv.org/abs/2404.02905

与传统的光栅扫描「下一个token预测」方法有所不同，VAR重新定义了图像上的自回归学习，采用粗到细的「下一个尺度预测」或「下一个分辨率预测」。

这种简单直观的方法使得自回归（AR）Transformer能够快速学习视觉分布，并且具有较好的泛化能力：VAR首次使得类似GPT的AR模型在图像生成中超越了扩散Transformer。

首先，将图像编码为多尺度的token映射，然后，自回归过程从1×1token映射开始，并逐步扩展分辨率。

在每一步中，Transformer会基于之前所有的token映射去预测下一个更高分辨率的token映射。

VAR包括两个独立的训练阶段：在图像上训练多尺度VQVAE，在token上训练VAR Transformer。

第一阶段，多尺度VQ自动编码器将图像编码为K个token映射R=(r1,r2,…,rK)，并通过复合损失函数进行训练。

第二阶段，通过下一尺度预测对VAR Transformer进行训练：它以低分辨率token映射 ([s],r1,r2,…,rK−1)作为输入，预测更高分辨率的token映射 (r1,r2,r3,…,rK)。训练过程中，使用注意力掩码确保每个rk仅能关注 r≤k。训练目标采用标准的交叉熵损失函数，用于优化预测精度。

实验证明，VAR在多个维度上超越了扩散Transformer（DiT），包括图像质量、推理速度、数据效率和可扩展性。

其中，VAR初步模仿了大语言模型的两个重要特性：Scaling Law和零样本泛化能力。

获奖论文二：STDE，破解高维高阶微分算子的计算难题

第二篇获奖论文，是由新加坡国立大学和Sea AI Lab提出的一种可通过高阶自动微分（AD）高效评估的分摊方案，称为随机泰勒导数估计器（STDE）。

论文地址：https://openreview.net/pdf?id=J2wI2rCG2u

这项工作讨论了优化神经网络在处理高维 (d) 和高阶 (k) 微分算子时的计算复杂度问题。

当使用自动微分计算高阶导数时，导数张量的大小随着O(dk)扩展，计算图的复杂度随着 O(2k-1L)增长。其中，d是输入的维度（域的维度），k是导数的阶数，L是前向计算图中的操作数量。

在之前的研究中，对于多维扩展dk，使用的是随机化技术，将高维的多项式增长变为线性增长；对于高阶扩展 2k-1，则通过高阶自动微分处理了一元函数（即d=1）的指数增长问题。

通过反向模式自动微分（AD）的重复应用，计算函数F(⋅)的二阶梯度的计算图。该函数包含4个基本操作（L=4），用于计算Hessian矩阵与向量的乘积。红色节点表示在第二次反向传播过程中出现的余切节点。随着向量-雅可比积（VJP）的每次重复应用，顺序计算的长度会加倍

在研究中，团队展示了如何通过适当构造输入切向量，利用一元高阶自动微分，有效执行多元函数导数张量的任意阶收缩，从而高效随机化任何微分算子。

该方法的核心思想是「输入切向量构造」。通过构造特定的「输入切向量」（方向导数），可以将多维函数的高阶导数计算转化为一元高阶自动微分问题。这意味着将复杂的多元导数运算转化为多个一元导数运算，从而减小了计算复杂度。

该计算图显示了函数F的二阶导数d²F，其中F包含4个基本操作，参数θi被省略。最左侧的第一列表示输入的二阶射流（2-jet）

，并通过d²F1将其推向下一列中的二阶射流

。每一行都可以并行计算，且不需要缓存评估轨迹

将该方法应用于物理信息神经网络（PINNs）时，相较于使用一阶自动微分的随机化方法，该方案在计算速度上提高了1000倍以上，内存占用减少了30倍以上。

借助该方法，研究团队能够在一块NVIDIA A100 GPU上，在8分钟内求解具有百万维度的偏微分方程（PDEs）。

这项工作为在大规模问题中使用高阶微分算子开辟了新的可能性，特别是在科学计算和物理模拟中具有重要意义。

「数据集与基准」最佳论文

这篇由牛津、宾大等12家机构联手提出的数据集PRISM，荣获了「数据集与基准」赛道的最佳论文。

论文地址：https://openreview.net/pdf?id=DFr5hteojx

这篇论文通过收集来自75个国家、1500多名参与者的详细反馈，科学家们首次全面绘制了AI模型与人类交互的复杂图景。

它就像是为AI「验血」：不仅仅是检查技术指标，更是深入了解AI与不同文化、不同背景人群的交互细节。

具体来说，研究人员收集了人们与21个大模型交互的8,011次真实数据。

而且，他们还详细记录了参与者的社会人口学特征和个人偏好。

最关键的是，这项研究聚焦了主观和多文化视角中，最具挑战性领域，尤其是关注价值观相关和有争议问题上的主观和多元文化视角。

通过PRISM数据集，为未来研究提供了新的视角：

- 扩大地理和人口统计学的参与度

- 为英国、美国提供具有人口普查代表性的样本

- 建立了个性化评级系统，可追溯参与者详细背景

总的来说，这项研究具有重要的社会价值，并推动了关于RLHF中多元化和分歧的研究。

NeurIPS 2024实验：LLM作为科学论文作者清单助手的效果评估

随着大奖出炉后，NeurIPS 2024终于公布了将大模型作为清单助手的效果评估报告。

如今，虽然存在着不准确性和偏见等风险，但LLM已经开始被用于科学论文的审查工作。

而这也引发了一个紧迫的问题：「我们如何在会议同行评审的应用中负责任且有效地利用LLM？」

今年的NeurIPS会议，迈出了回答这一问题的第一步。

论文地址：https://arxiv.org/abs/2411.03417

具体来说，大会评估了一个相对明确且低风险的使用场景：根据提交标准对论文进行核查，且结果仅显示给论文作者。

其中，投稿人会收到一种可选择使用的基于LLM的「清单助手」，协助检查论文是否符合NeurIPS清单的要求。

随后，研究人员会系统地评估这一LLM清单助手的益处与风险，并聚焦于两个核心问题：

1. 作者是否认为LLM作者清单助手是对论文提交过程的一种有价值的增强？

2. 使用作者清单助手是否能显著帮助作者改进其论文提交？

最终结论如下：

1.清单助手有用吗？

研究人员对作者们进行了问卷调查，以便了解他们对使用清单助手前后的期望和感受。

调查共收到539份使用前问卷回复，清单助手共处理了234份提交，同时收到了78份使用后问卷回复。

结果显示，作者普遍认为清单助手是对论文提交过程的一项有价值的改进——

大多数接受调查的作者表示，使用LLM清单助手的体验是积极的。其中，超过70%的作者认为工具有用，超过70%的作者表示会根据反馈修改论文。

2.清单助手的主要问题是什么？

作者使用清单助手时遇到的问题，按类别归纳如下。

主要问题包括：不准确性（52名回复者中有20人提到），以及LLM对要求过于苛刻（52名回复者中有14人提到）。

3. 清单助手提供了哪些类型的反馈？

研究者使用了另一个LLM，从清单助手对每个清单问题的回复中提炼关键点，将其归类。

以下展示了作者清单助手在清单的四个问题上提供的常见反馈类别：

LLM 能够结合论文内容和清单要求，为作者提供具体的反馈。对于清单中的15个问题，LLM通常会针对每个问题提供4-6个不同且具体的反馈点。

尽管其回复中有时包含一些模板化内容，并可能扩展问题的范围，但它也能够针对许多问题提供具体且明确的反馈。

4. 作者是否真的修改了提交的内容？

根据反馈，很多作者表示计划对他们的提交内容做出实质性的修改。

在78名回复者中，有35人具体说明了他们会根据清单助手的反馈对提交内容进行的修改。其中包括，改进清单答案的说明，以及在论文中添加更多关于实验、数据集或计算资源的细节。

在40个实例中，作者将他们的论文提交到清单验证工具两次（总共提交了80篇论文）。

结果显示，在这40对（两次提交的）论文中，有22个实例中作者在第一次和第二次提交之间至少更改了清单中的一个答案（例如，从「NA」改为「是」），并且在39个实例中更改了至少一个清单答案的说明。

在更改了清单说明的作者中，许多作者进行了大量修改，其中35/39在清单的15个问题中更改了超过6个说明。

虽然并不能将这些修改因果归因于清单助手，但这些修改表明作者可能在提交之间采纳了助手的反馈。

以下是在作者更改说明的问题中，从初次提交到最终提交的字数增长情况（值为2表示答案长度增加了一倍）。

可以看到，当作者更改清单答案时，超过一半的情况下，他们将答案说明的长度增加了一倍以上。

总结来说，当作者多次向清单助手提交时，他们几乎都会在提交之间对清单进行修改，并显著延长了答案的长度，这表明他们可能根据LLM的反馈添加了内容。

5. 清单助手是否可以被操控？

清单助手的设计初衷，是帮助作者改进论文，而不是作为审稿人验证作者回答准确性的工具。

如果该系统被用作审稿流程中的自动验证步骤，这可能会激励作者「操控」系统，从而引发以下问题：作者是否可以借助AI，在无需对论文做出实际修改的情况下，自动提升清单回答的评价？

如果这种操控是可能的，作者可能会在没有（太多）额外努力且不实际改进论文的情况下，向会议提供虚假的合规印象。

为了评估系统是否容易受到这种操控，研究者使用另一个LLM作为攻击智能体，迭代性地修改清单说明，试图误导清单助手。

在这一迭代过程中，攻击智能体在每轮之后从系统接收反馈，并利用反馈优化其说明。

研究者向GPT-4提供了初始的清单回答，并指示其仅根据反馈修订说明，而不改变论文的基础内容。允许攻击智能体进行三次迭代（与部署助手的提交限制一致），智能体在每次迭代中选择得分最高的清单问题回答。

为了以统计方式量化这种攻击的成功率，研究者将选定的说明提交给清单助手进行评估，获取「评分」（当清单助手表示清单问题「无问题」时得分为1，当助手识别出问题时得分为0）。

以下展示了该攻击的结果：

结论

通过在NeurIPS 2024部署了一个基于LLM的论文清单助手，证明了LLM在提升科学投稿质量方面的潜力，特别是通过帮助作者验证其论文是否符合提交标准。

然而，研究指出了在科学同行评审过程中部署LLM时需要解决的一些显著局限性，尤其是准确性和契合度问题。

此外，系统在应对作者的操控时缺乏抵抗力，这表明尽管清单助手可以作为作者的辅助工具，但可能无法有效取代人工评审。

NeurIPS将在2025年继续改进基于LLM的政策评审。

参考资料：

https://blog.neurips.cc/2024/12/10/announcing-the-neurips-2024-best-paper-awards/

https://blog.neurips.cc/2024/12/10/results-of-the-neurips-2024-experiment-on-the-usefulness-of-llms-as-an-author-checklist-assistant-for-scientific-papers/

#MAGNeT

MAGNeT 有望改变我们体验音乐的方式。

在文本生成音频（或音乐）这个 AIGC 赛道，Meta 最近又有了新研究成果，而且开源了。

前几日，在论文《Masked Audio Generation using a Single Non-Autoregressive Transformer》中，Meta FAIR 团队、Kyutai 和希伯来大学推出了 MAGNeT，一种在掩码生成序列建模方法，可以直接在多个音频 tokens 流上直接运行。与以往工作最大的不同是，MAGNeT 是由单阶段、非自回归 transformer 生成音频。

论文地址：https://arxiv.org/pdf/2401.04577.pdf
GitHub 地址：https://github.com/facebookresearch/audiocraft/blob/main/docs/MAGNET.md

具体来讲，在训练期间，研究者预测从掩码调度器获得的掩码 token 的范围；在模型推理阶段，则通过几个解码步骤逐渐构建输出序列。为了进一步增强生成音频质量，他们提出一种新颖的重评分方法，利用外部预训练模型对来自 MAGNET 的预测进行重评分和排名，然后用于后续的解码步骤。

此外，研究者还探索了 MAGNET 的混合版本，融合自回归和非自回归模型，以自回归的方式生成前几秒，同时对剩余序列进行并行解码。

从生成结果来看，MAGNET 在文本到音频和文本到音乐任务上取得了非常不错的效果，质量媲美 SOTA 自回归基线模型的同时速度是它们的 7 倍。

大家可以听一下生成的音乐效果。

视频发不了...

MAGNeT 方法概览

下图 1 为 MAGNeT 原理图，作为一个非自回归的音频生成掩码语言模型，它以条件语义表示为条件，在从 EnCodec 中获得的几个离散音频 token 流上运行。在建模策略上，研究者进行了包括掩码策略、受限上下文、采样机制和模型重评分等几个方面的核心建模修改。

首先来看掩码策略，研究者评估了 20ms 到 200ms 之间的各种跨度长度，并发现 60ms 跨度长度可以提供最佳的整体性能。他们从调度器中采样了掩码率 γ(i)，并相应地计算了进行掩码的平均跨度量。此外从计算效率方面考虑，研究者还使用了非重叠跨度。

接着是受限上下文。研究者使用到了 EnCodec 并相应地限制了码本的上下文。具体来讲，音频编码器由多层卷积网络和最终的 LSTM 块组成。EnCodec 感受野的分析结果表明，卷积网络的感受野约为 160ms，而包含 LSTM 块的有效感受野约为 180ms。研究者使用随时间推移的平移脉冲函数并测量了序列中间编码向量的幅度，进而对模型的感受野进行了实证评估。

下图 3 为过程展示，不过 LSTM 尽管在理论上具有无限记忆，但实际观察来看是有限的。

最后是模态推理，包含采样和无分类器指导退火。采样如下公式（3）所示，使用均匀采样从先前一组掩码跨度中选择跨度。在实践中，研究者使用第 i 次迭代时的模型置信度作为评分函数，来对所有可能的跨度进行排序，并相应地选择最不可能进行掩码的跨度。

对于 token 预测，研究者选择使用无分类器指导来完成。在训练期间，他们有条件和无条件地对模型进行优化；在推理期间，他们从获得自条件和无条件概率的线性组合的一个分布中进行采样。

实验及结果

在实验环节，研究者在文本到音乐生成和文本到音频生成任务上对 MAGNeT 进行评估。他们使用了与 Copet et al. (2023) 所用完全相同的音乐生成训练数据，与 Kreuk et al. (2022a) 所用完全相同的音频生成训练数据。

下表 4 展示了用于训练 MAGNeT 以及其他基线方法（包括 MusicGen、MusicLM 和 AudioLDM2）的训练集细节。

下表 1 为 MAGNeT 在文本到音乐生成任务上与其他基线方法的比较结果，使用的评估数据集为 MusicCaps。我们可以看到，MAGNeT 的性能与使用自回归建模方法的MusicGen相当，但在生成速度（延迟）和解码两方面比后者快得多

下图 2a 表明，与自回归基线模型（红色曲线）相比，非自回归模型（蓝色虚线）得益于并行解码在小批大小时表现尤为出色，单个生成样本的延迟低至 600ms，是自回归基线模型的 1/10。可以预见，MAGNeT 在需要低延迟预处理的交互式应用程序中应用潜力很大。此外在批大小达到 64 之前，非自回归模型生成速度都要比基线模型快。

下表 2 展示了跨度长度和受限上下文的消融实验。研究者报告了使用域内测试集时，MAGNeT 在不同跨度长度、有无时间受限上下文情况下的 FAD（Fréchet Audio Distance）分数。

更多技术细节和实验结果请参阅原论文。

#Multi-Agent

大模型赋能医疗创新：AI助手Surgery Copilot显著提升手术认知能力

现如今在外科手术中，特别是在神经外科领域，外科团队面临着巨大的认知负担。这种认知压力主要源于手术过程中需要处理的复杂信息流、做出快速精确的临床判断，以及协调多个团队成员的配合。手术团队不仅需要实时监控患者的生理指标，还要权衡各种手术方案的风险收益，同时还要应对手术过程中可能出现的意外情况。现有的手术辅助系统在信息整合和决策支持方面仍显不足，难以有效地减轻医疗团队的认知负荷，这会影响手术的安全性和治疗效果。

为此，我们基于大模型Agent提出了针对手术室的沙盒系统SurgBox。在这个零风险的环境中，外科团队可以反复演练各类手术场景，包括复杂病例和突发情况的处理。通过系统化的模拟训练，医生能够不断完善临床决策能力，提升团队协作效率，从而增强认知能力。特别地，我们设计了AI手术助手Surgery Copilot，可以在实际手术过程中为医疗团队提供决策支持。通过智能化的信息整合和分析，Surgery Copilot能够帮助医生快速获取关键信息，预判潜在风险，从而有效降低认知负荷。配合Surgery Copilot的实时决策支持，SurgBox为现代医疗培训开辟了一个全新的范式，为提高手术安全性和临床效果提供了强有力的技术支撑。

论文名称：SurgBox: Agent-Driven Operating Room Sandbox with Surgery Copilot
代码链接：https://github.com/franciszchen/SurgBox

手术模拟和决策支持

我们基于Multi-Agent技术研发了手术沙盒系统SurgBox和手术AI助手Surgery Copilot，展示了Multi-Agent LLMs在模拟医疗角色、交互和决策制定中的潜力，并指出了在临床手术领域应用LLMs的差距。本研究提出的SurgBox手术沙盒系统和Surgery Copilot手术AI助手，旨在通过沉浸式模拟和实时手术支持来填补这一空白，提高外科手术的认知表现和临床决策能力。

本研究提出的SurgBox手术沙盒系统重点模拟了神经外科手术中的经鼻垂体瘤手术场景，通过Multi-Agent LLMs模拟手术室中的关键角色，重点模拟了神经外科手术中的术前规划、术中管理、术后总结等手术核心流程。SurgBox手术沙盒系统能够模拟手术团队成员之间的专业交流和应急处理，让外科医生在虚拟环境中获得接近真实的手术训练体验。

与此同时，Surgery Copilot作为实时手术助手，为主刀医生提供关键时刻的决策建议，如手术路径规划、术中风险预警等信息。通过将Surgery Copilot与临床外科手术的结合，旨在提升手术团队的认知效能和临床决策水平。

SurgBox手术沙盒系统

本研究在SurgBox手术沙盒系统中使用了语言大模型（LLMs）和角色知识定制的检索增强生成（RAG）技术来模拟各种手术角色，包括主刀医生、助手医生、器械护士、巡回护士、病房护士和麻醉师等。这种模拟提供了一个无风险的学习环境，让外科医生能够通过刻意练习来提高他们处理复杂信息流和在压力下做出关键决策的能力。我们主要通过以下几个关键方法来解决外科手术中的认知挑战问题：

Figure 1: SurgBox手术沙盒系统模拟了患者的整个手术流程，包括患者交接、麻醉、术前准备、手中操作和术后护理

1.角色扮演策略

角色扮演：SurgBox通过精细设计的Multi-Agent角色来模拟经鼻垂体瘤手术的完整流程。该手术沙盒系统模拟了主刀医生、助手医生、器械护士、巡回护士、病房护士和麻醉师等核心角色，每个角色都配备了专门的大型语言模型和知识库。比如，主刀医生的知识库包含详细的手术技术、解剖信息和并发症处理方案；麻醉师的知识库侧重麻醉药物特性和患者监护方案；护士的知识库则包含器械准备、无菌技术和患者护理等专业内容。

角色互动：SurgBox是一个基于大型语言模型(LLMs)的手术模拟系统，按照术前、术中和术后三个主要阶段设计，涵盖了患者转运、麻醉、手术准备、手术操作和术后护理等关键环节。在这些环节中，这些角色会根据手术阶段和任务进行自然的互动。系统通过事件触发机制和对话连贯性维持来确保各角色之间的互动真实自然。例如，当出现患者状态改变等特定事件时，会触发相关角色的响应和对话。这种基于专业知识库的多角色协同模拟，为手术团队提供了一个接近真实的培训环境。

Figure 2: SurgBox中部分角色示例

2. Surgery Copilot

Surgery Copilot是一个基于AI的智能手术助手系统，通过创新的长短期记忆机制来支持手术团队决策。在经鼻垂体瘤手术中，它与主刀医生、麻醉师和护士等角色密切协作：

系统的短期记忆模块实时追踪手术进程，为团队成员提供及时预警；
长期记忆模块则存储和分析历史手术案例经验，用于术前方案优化和手术风险评估。

通过这种双重记忆机制，Surgery Copilot不仅能够为主刀医生提供基于证据的实时建议，如手术路径调整和出血风险提醒，还能协助麻醉师进行精准的麻醉管理，同时为护士团队提供器械准备和手术配合的指导。系统采用专门的提示工程技术来优化对医学术语和手术流程的理解，通过减轻手术团队的认知负担来提升手术效率。

Figure 3: Surgery Copilot和外科角色在手术工作流程中的协作模式

实验验证

我们使用真实手术记录进行实验验证：通过分析128个真实神经外科手术程序记录，验证了SurgBox手术沙盒系统和Surgery Copilot手术AI助手在提高手术认知能力和支持临床决策方面的效果。

Figure 4: 真实MRI诊断报告和神经外科手术记录

Table 1：在不同的阶段中，对每个模型的完成度（Comp）和准确性（Acc）进行评估

SurgBox在所有阶段都表现出了显著的表现。根据Table 1表结果，该系统始终保持着优越的完成率，特别是在第二阶段（术前麻醉及器械准备）和第三阶段（术中手术过程）。与此同时，其准确性在所有阶段都保持提高，在后期表现明显高而稳定，表明其在复杂的手术场景中的稳健性和可靠性。

Table 2: 不同LLM在手术路线和手术计划的比较

如Table 2所示，我们的Surgery Copilot在手术路线和手术计划类别中都表现出了卓越的表现，分别达到了88.00%和88.02%的准确率。手术入路设计准确度是衡量系统选择最佳手术方法的能力，术前规划准确度：评估系统的能力规划和执行完整的手术程序。

实验结果表明，手术副驾驶在手术路径规划和手术计划制定方面具有显著的优势。特定领域RAG技术的实现大大提高了基线模型的性能，特别是在手术路由类别中。

这一观察结果表明，结合外部知识检索可以显著提高特定领域的模型性能。SurgBox通过将一个特定于手术领域的知识库与ReAct方法相结合，显示出了比所有其他模型优越的明显优势，有效地减轻了幻觉，提高了整体准确性。

手术过程问答比较示例

Table 3: 手术场景问答示例比较

我们提供了Llama-3-70B和GPT-4生成的答案作为参考。在我们的测试中，Surgery Copilot在关键事实方面的命中率显著高于其他模型。

总结

本研究针对外科手术中的认知负担问题，开创性地提出了SurgBox手术沙盒系统。通过Multi-Agent技术，SurgBox手术沙盒系统精确模拟了手术团队各个角色及其专业互动，为医生提供零风险的手术模拟环境，提升认知能力。

此外，Surgery Copilot手术AI助手运用长短期记忆机制，在实际手术中为角色提供实时决策支持，降低医生认知负荷。实验结果显示，该方案在手术路径规划和术前方案制定方面的准确率均达到88%，显著优于GPT-4和LLaMA等现有大模型。

本研究提出的SurgBox手术沙盒系统和Surgery Copilot手术AI助手不仅有效降低了手术团队的认知负担，也为AI赋能医疗手术开辟了新方向。

#ACL Fellow名单公布

微软高剑峰、哈工大（深圳）张民等四位华人入选

恭喜新一届 Fellow。

本周四，计算语言学协会 ACL 公布了最新一期的 2024 Fellow 名单。今年共有 9 人入选，其中包括四位华人学者。

以人类语言为研究对象的「自然语言处理」（NLP）是人工智能最重要的研究方向之一。在该领域，计算语言学协会（Association for Computational Linguistics，ACL）是世界影响力最大、最具活力的国际学术组织，它成立于 1962 年，会员遍布世界 60 多个国家和地区，代表了自然语言处理领域的世界最高水平。

ACL 会士（ACL Fellow）旨在表彰在科学和技术卓越性、为协会和技术社区提供服务以及 / 或在教育等方面提供杰出贡献的 ACL 成员。要被任命为会士，候选人必须在过去五年中三年担任 ACL 成员，并由现任 ACL 成员提名。

今年入选的九人包括：

Philipp Koehn

机构：约翰霍普金斯大学
入选理由：因其对统计和神经机器翻译、机器翻译评估做出的重大贡献以及在开源软件和数据集方面的领导作用。

Philipp Koehn 目前是约翰霍普金斯大学计算机科学系教授，此前曾担任爱丁堡大学信息学院的教授和机器翻译系主任。他是该领域开创性教科书《神经机器翻译》和《统计机器翻译》的作者。他还拥有或共同拥有五项机器翻译专利。他获得了田纳西大学的硕士学位（1994 年）、埃尔朗根 - 纽伦堡大学的文凭（1997 年）以及南加州大学的博士学位（2003 年），专业均为计算机科学。

Scott Wen-tau Yih

机构：FAIR
入选理由：因在信息提取、问答系统、神经检索以及检索增强生成方面做出重大贡献。

Scott Wen-tau Yih 目前是 Meta AI 实验室（FAIR）的研究科学家，研究兴趣包括自然语言处理、机器学习和信息检索。他近年来的研究主题包括信息提取、语义角色标注、垃圾邮件过滤、关键词提取以及搜索与广告相关性。在加入 FAIR 之前，他是艾伦人工智能研究所 (AI2) 的首席研究科学家。在此之前，他是微软研究院 (MSR) 的高级研究员。

高剑峰（Jianfeng Gao）

机构：微软
入选理由：为网络搜索、自然语言处理和对话系统的机器学习做出了重大贡献。

高剑峰现任微软杰出科学家兼副总裁、微软研究院深度学习小组负责人，同时是 IEEE Fellow、ACM Fellow 和 AAIA Fellow。他的研究兴趣包括机器学习、自然语言处理、互联网搜索、广告预测、机器翻译等，近年的工作包括构建为微软 AI 产品提供支持的大规模基础模型、构建自我完善的 AI Agent，其中 LLM/LMM（例如 GPT4）得到增强并适用于开发微软商业 AI 系统。

James Pustejovsky

机构：布兰迪斯大学（美国）
入选理由：因其对计算语义学和谓词论证结构以及词汇、空间和时间关系的形式化做出的重大贡献。

James Pustejovsky 是一名应用统计学家，他的研究涉及为教育、心理学和其他社会科学研究领域的问题开发统计方法，重点是与研究综合和元分析相关的方法。James Pustejovsky 同时还是威斯康星大学麦迪逊分校教育学院的一名统计学家和副教授。

Dilek Hakkani-Tur

机构：伊利诺伊大学厄巴纳 - 香槟分校（美国）
入选理由：因对对话建模、口语理解和对话系统的机器学习方法做出的重大贡献。

Dilek Hakkani-Tür 是伊利诺伊大学厄巴纳 - 香槟分校的一名教授。她的研究兴趣包括对话式人工智能、自然语言和语音处理、口语对话系统以及用于语言处理的机器学习。她在这些领域拥有 80 多项专利，并合著了 300 多篇论文。

Massimo Poesio

机构：伦敦玛丽女王大学（英国）、乌特勒支大学（荷兰）
入选理由：表彰其在拟声词和参考解析理论与实践方面的重大贡献，以及在语料库开发中所采用的有效方法。

Massimo Poesio 是一位计算语言学家和认知科学家，专注于通过计算方法研究语言和知识。他给自己定位为的形式语义学家，结合语料库、心理学和神经科学，运用统计学和机器学习方法，验证关于语义和语用解释的假设，或发展新的理论。

他还关注运用机器学习从语料库和大脑数据中提取常识和词汇知识。此外，他也参与了多个 NLP 技术应用项目，例如反诈、识别恶意语言等。

Jimmy Lin

机构：滑铁卢大学（加拿大）
入选理由：因在问答和信息检索方面做出重大贡献。

Jimmy Lin 目前是滑铁卢大学计算机科学学院教授、也是 ACM Fellow。他的研究旨在构建可帮助用户理解大量数据的工具，工作涉及信息检索、自然语言处理和数据管理的交叉领域。此前，Jimmy Lin 在马里兰大学工作。2004 年，他在麻省理工学院获得电气工程和计算机科学博士学位。

Lucy Vanderwende

机构：微软
入选理由：因在从自由文本中获取语义信息、对生物医学文本进行摘要和信息提取方面做出了重要贡献。

Vanderwende 在乔治敦大学获得计算语言学博士学位。她曾在 IBM 从事自然语言处理工作（1988-1990）。自 1992 年起，她加入微软研究院自然语言处理小组，担任经理和资深研究员。

Vanderwende 参与的产品包括微软 Word 语法检查器和 Encarta 自然语言用户界面。她的研究工作包括通过自动文本提取构建的图形语义知识库 MindNet，以及名词复合词的分析。目前，她专注于重新定义摘要任务，并致力于从一般文本和生物医学文本中提取更加细致的信息。

张民（Min Zhang）

机构：哈尔滨工业大学（深圳）
入选理由：表彰其对机器翻译和句法分析的重大贡献，以及对中国和东南亚 NLP 发展的持续贡献。

张民，现任哈工大（深圳）特聘校长助理，计算与智能研究院院长。他长期从事自然语言处理和人工智能研究。1997 年于哈尔滨工业大学博士毕业后，长期在海外学术界和产业界从事研发和管理工作逾 20 年。

参考内容：

https://www.aclweb.org/portal/content/acl-fellows-2024-0

#STIV

Sora之后，苹果发布视频生成大模型STIV，87亿参数一统T2V、TI2V任务

Apple MM1Team 再发新作，这次是苹果视频生成大模型，关于模型架构、训练和数据的全面报告，87 亿参数、支持多模态条件、VBench 超 PIKA，KLING，GEN-3。

论文地址: https://arxiv.org/abs/2412.07730
Hugging Face link: https://huggingface.co/papers/2412.07730

OpenAI 的 Sora 公布了一天之后，在一篇由多位作者署名的论文《STIV: Scalable Text and Image Conditioned Video Generation》中，苹果正式公布自家的多模态大模型研究成果 —— 这是一个具有高达 8.7B 参数的支持文本、图像条件的视频生成模型。

近年来，视频生成领域取得了显著进展，尤其是基于 Diffusion Transformer (DiT) 架构的视频生成模型 Sora 的推出。尽管研究者已在如何将文本及其他条件融入 DiT 架构方面进行了广泛探索，如 PixArt-Alpha 使用跨注意力机制，SD3 将文本与噪声块拼接并通过 MMDiT 模块应用自注意力等，但纯文本驱动的视频生成（T2V）在生成连贯、真实视频方面仍面临挑战。为此，文本 - 图像到视频（TI2V）任务被提出，通过加入初始图像帧作为参考，提供了更具约束性的生成基础。

当前主要挑战在于如何将图像条件高效地融入 DiT 架构，同时在模型稳定性和大规模训练效率方面仍需创新。为解决这些问题，我们提出了一个全面、透明的白皮书，涵盖了模型结构，训练策略，数据和下游应用，统一了T2V和TI2V任务。

基于以上问题，该工作的贡献与亮点主要集中在：

提出 STIV 模型，实现 T2V 和 TI2V 任务的统一处理，并通过 JIT-CFG 显著提升生成质量；
系统性研究包括 T2I、T2V 和 TI2V 模型的架构设计、高效稳定的训练技术，以及渐进式训练策略；
模型易于训练且适配性强，可扩展至视频预测、帧插值和长视频生成等任务；
实验结果展示了 STIV 在 VBench 基准数据集上的优势，包括详细的消融实验和对比分析。

该研究不仅提升了视频生成质量，还为视频生成模型在未来多种应用场景中的推广奠定了坚实基础。

构建 STIV 的配方解析

基础模型架构

STIV 基于 PixArt-Alpha 架构，通过冻结的变分自编码器（VAE）将输入帧转换为时空潜变量，并使用可学习的 DiT 块进行处理。文本输入由 T5 分词器和内部训练的 CLIP 文本编码器处理。此外，该研究还对架构进行了以下优化：

时空注意力分解：采用分解的时空注意力机制，分别处理空间和时间维度的特征，这使得模型能够复用 T2I 模型的权重，同时降低了计算复杂度。
条件嵌入：通过对图像分辨率、裁剪坐标、采样间隔和帧数等元信息进行嵌入，并结合扩散步长和文本嵌入，生成一个统一的条件向量，应用于注意力层和前馈网络。
旋转位置编码（RoPE）：利用 RoPE 提升模型处理时空相对关系的能力，适配不同分辨率的生成任务。
流匹配目标：采用流匹配（Flow Matching）训练目标，以更优的条件最优传输策略替代传统扩散损失，提升生成质量。

模型扩展与训练优化

稳定训练策略：通过在注意力机制中应用 QK-Norm 和 sandwich-norm，以及对每层的多头注意力（MHA）和前馈网络（FFN）进行归一化，显著提升了模型训练稳定性。
高效训练改进：借鉴 MaskDiT 方法，对 50% 的空间 token 进行随机掩码处理以减少计算量，并切换优化器至 AdaFactor，同时使用梯度检查点技术显著降低内存需求，支持更大规模模型的训练。

融合图像条件的方法

简单的帧替换方法

在训练过程中，我们将第一个帧的噪声潜变量替换为图像条件的无噪声潜变量，然后将这些潜变量传递到 STIV 模块中，并屏蔽掉被替换帧的损失。在推理阶段，我们在每次扩散步骤中使用原始图像条件的无噪声潜变量作为第一个帧的潜变量。

帧替换策略为 STIV 的多种应用扩展提供了灵活性。例如，当 c_I (condition of image)=∅ 时，模型默认执行文本到视频（T2V）生成。而当 c_I 为初始帧时，模型则转换为典型的文本-图像到视频（TI2V）生成。此外，如果提供多个帧作为 c_I，即使没有 c_T (condition of text)，也可以用于视频预测。同时，如果将首尾帧作为 c_I提供，模型可以学习帧插值，并生成首尾帧之间的中间帧。进一步结合 T2V 和帧插值，还可以生成长时视频：T2V 用于生成关键帧，而帧插值则填补每对连续关键帧之间的中间帧。最终，通过随机选择适当的条件策略，可以训练出一个能够执行所有任务的统一模型。

图像条件随机丢弃

如前所述，帧替换策略为训练不同类型的模型提供了高度灵活性。我们在此展示其具体应用，即同时训练模型以执行文本到视频（T2V）和文本 - 图像到视频（TI2V）任务。在训练过程中，我们随机丢弃图像条件 cI 和文本条件 cT，类似于 T2V 模型中仅对文本条件随机丢弃的方式。

联合图像 - 文本无分类器引导（JIT-CFG）

无分类器引导（Classifier-Free Guidance, CFG）在文本到图像生成中表现出色，可以通过将概率质量引导到高似然区域来显著提升生成质量。在此基础上，我们提出了联合图像 - 文本无分类器引导（JIT-CFG），同时利用文本和图像条件进行引导，其速度估计公式为：

其中 s 为引导比例。当 c_I=∅ 时，该方法退化为标准的 T2V 无分类器引导。尽管可以像 InstructPix2Pix 所述引入两个独立的引导比例，以平衡图像和文本条件的强度，我们发现两步推理方法已经能够取得优异效果。此外，使用两个引导比例会增加一次前向传递，从而提高推理成本。

实验证明图像条件随机丢弃结合 JIT-CFG 不仅能自然地实现多任务训练，还有效解决了高分辨率视频生成模型训练的 “静止” 问题。我们推测，图像条件随机丢弃可以防止模型过度依赖图像条件，从而更好地捕捉视频训练数据中的运动信息。

渐进式训练策略

我们采用渐进式训练策略，其流程如图 4 所示。首先训练一个文本到图像（T2I）模型，用以初始化文本到视频（T2V）模型；随后，T2V 模型用于初始化 STIV 模型。为快速适应高分辨率和长时训练，我们在空间和时间维度中加入了插值的 RoPE 嵌入，并利用低分辨率、短时长模型的权重进行初始化。值得注意的是，高分辨率 T2V 模型同时结合了高分辨率 T2I 模型和低分辨率 T2V 模型的权重进行初始化。

数据

视频预处理和特征提取细节

为了确保高质量的输入数据，我们首先解决了原始视频中不一致的动作以及诸如切换和渐变之类的不必要过渡问题。利用 PySceneDetect，我们对视频帧进行分析，识别并分割出包含突兀过渡或渐变的场景。这一过程剔除了不一致的片段，确保视频片段在视觉上保持一致性，从而减少伪影并提升整体质量。随后，我们提取了一系列初始特征用于后续筛选，包括运动分数、美学分数、文本区域、帧高度、帧宽度、清晰度分数、时间一致性以及视频方向等。

视频字幕生成与分类细节

视频 - 文本对在训练文本到视频生成模型中起着至关重要的作用。然而，许多视频数据集缺乏高质量的对齐字幕，并且通常包含噪声或不相关内容。为此，我们在数据处理流程中引入了一个额外的视频字幕生成模块，用于生成全面的文本描述。

我们主要探索了两种方向：(1) 抽样少量帧，应用图像字幕生成器生成字幕后，再使用大型语言模型（LLM）对生成的字幕进行总结；(2) 直接使用视频专用的 LLM 生成字幕。

在初步尝试了第一种方法后，我们发现两个主要局限性：一是图像字幕生成器只能捕捉单帧的视觉细节，导致缺乏对视频动作的描述；二是 LLM 在基于多帧字幕生成密集描述时可能会出现虚构现象（hallucination）。

近期研究使用 GPT 家族模型创建微调数据集并训练视频 LLM。为了在大规模字幕生成中平衡质量和成本，我们选择了一种高效的视频字幕生成器。随后，我们使用 LLM 对生成的字幕进行分类，并统计视频的类别分布。

DSG-Video: 虚构检测评估

为了比较不同字幕生成技术，我们开发了一个评估模块，用于评估字幕的丰富度和准确性。

我们通过测量字幕中提及的唯一对象的多样性来量化字幕的丰富度，并通过检测虚构对象来评估准确性。

受文本到图像评估方法的启发，我们提出了 DSG-Video，用于验证字幕中提到的对象是否真实出现在视频内容中。

1. 首先，我们利用 LLM 自动生成针对字幕关键细节的问题，例如对象的身份、动作和上下文。

举例来说，给定一段提到 “沙发上坐着一只猫” 的字幕，LLM 会生成问题，比如 “视频中是否有一只猫？” 以及 “猫是否在沙发上？”

2. 然后，我们使用多模态 LLM 回答这些对象验证问题，通过评估视频中多个均匀采样帧的每个参考对象的存在情况。

对于每个生成的问题（例如，“该帧中是否有猫？”），多模态 LLM 检查每个采样帧并提供响应。如果对于某个问题，所有帧的响应都表明对象不存在，则我们将其分类为虚构对象。

这一方法确保了对视频中每个对象的逐帧验证。基于此，我们定义了两个评估指标：

DSG-Video_i：虚构对象实例的比例（即提到的所有对象中被检测为虚构的比例）；
DSG-Video_s：包含虚构对象的句子的比例（即所有句子中含虚构对象的比例）。

结果

基于上述研究，我们将 T2V 和 STIV 模型从 600M 参数扩展到 8.7B。

主要结果展示在表格中，与最新的开源和闭源模型对比后，证明了我们方法的有效性。具体而言，我们基于 Panda-70M 数据集中的 20,000 条经过筛选的视频，使用预训练的视频生成模型进行了微调（SFT）。在预训练阶段采用了 MaskDiT 技术后，我们尝试对模型进行无掩码方式的微调（UnmaskSFT）。此外，我们还对 STIV 模型进行了时间插值微调，以提升生成视频的运动平滑度（+TUP）。

T2V 性能

表格列出了不同 T2V 模型在 VBench 上的对比结果，包括 VBench-Quality、VBench-Semantic 和 VBench-Total 分数。分析表明，扩展 T2V 模型的参数能够提升语义理解能力。具体来说，当模型从 XL 增加到 XXL 和 M 时（三种模型尺度），VBench-Semantic 分数从 72.5 提升到 72.7，最终达到 74.8。这表明更大的模型在捕获语义信息方面表现更好。然而，对于视频质量的影响相对有限，VBench-Quality 仅从 80.7 提升至 82.1。这一发现表明，模型参数扩展对语义能力的提升大于对视频质量的影响。此外，将空间分辨率从 256 提升到 512 时，VBench-Semantic 分数显著提高，从 74.8 上升到 77.0。

SFT 的影响

通过高质量的 SFT 数据微调模型，可以显著提升 VBench-Quality 分数，从 82.2 提升到 83.9。在无掩码条件下对模型进行微调时，语义分数略有提升。我们的最佳模型实现了 79.5 的 VBench-Semantic 分数，超越了 KLING、PIKA 和 Gen-3 等领先的闭源模型。结合时间插值技术后，我们的模型在质量评分方面超越了所有其他模型，达到了最新的行业标准。

TI2V 性能

如表中所示，我们的模型在与最新方法的对比中表现出色。分析表明，尽管模型参数扩展提升了 I2V 分数，但对质量的影响较小。相比之下，提高分辨率能够显著改善质量和 I2V 分数。这一趋势表明，分辨率的提高对于提升多任务生成能力尤为关键。完整的分解维度结果见文章附录。

应用

视频预测

我们从 STIV-XXL 模型出发，训练一个以前四帧为条件的文本 - 视频到视频模型（STIV-V2V）。实验结果表明，在 MSRVTT 测试集和 MovieGen Bench 上，视频到视频模型的 FVD 分数显著低于文本到视频模型。这表明视频到视频模型在生成高保真和一致性视频帧方面表现出色，尤其适用于自动驾驶和嵌入式 AI 等需要高质量生成的领域。

帧插值

我们提出了 STIV-TUP，一个时间插值模型，以 STIV-XL 为初始模型，并在具有时间间隔的连续帧上进行训练，同时添加文本条件。实验表明，STIV 可以在文本和图像条件下进行高质量的帧插值，并且在 MSRVTT 测试集中，使用文本条件稍微优于其他条件。此外，我们将时间插值器与主模型级联，发现这种方法能够提升生成质量，同时保持其他指标稳定。

多视角生成

多视角生成旨在从给定的输入图像创建新视角。这项任务对视角一致性要求较高，依赖于良好预训练的视频生成模型。通过将视频生成模型适配为多视角生成，我们可以验证预训练是否有效捕获了 3D 信息，从而提升生成效果。

我们使用某些新视角相机的定义，并以初始帧为给定图像，预测接下来的新视角帧。通过训练一个 TI2V 模型并调整分辨率和训练步数，我们实现了与现有方法相当的表现，同时验证了我们的时空注意力机制在保持 3D 一致性方面的有效性。

长视频生成

我们开发了一种高效生成长视频的分层框架，包括两种模式的训练：(1) 关键帧预测，学习以较大时间间隔采样的帧；(2) 插值帧生成，通过学习连续帧，并将首尾帧作为条件。在采样阶段，首先使用关键帧预测模式生成关键帧，再通过插值模式生成中间帧，从而实现长视频生成。

更多关于模型结构、图像条件融合方法，训练策略的各种消融实验以及其他研究细节，请参考原论文。

#Gemini 2.0

谷歌最强大模型Gemini 2.0被抬上来了，网友：好科幻

能搜网页、写代码，还能教你打游戏。

OpenAI 接连几天的「轰炸」，已经让人审美疲劳。

作为应对，周三，谷歌推出新一代至强 AI 大模型 Gemini 2.0 Flash 。

网友体验先走一波。

，时长00:56

就模型所看到的内容实时对话，感觉就像科幻小说一样。

，时长03:32

通过共享屏幕，实时讨论论文，这个研究助理很强啊。

让AI在对话过程中自然地生成图像。

现在，一个提示词就能生成包含步骤说明和配图，食谱blog，一步到位。

据谷歌介绍，除了能生成文字外，还能直接生成图片和语音。

不仅如此，2.0 Flash 还能调用第三方应用和服务，比如可以使用谷歌搜索、运行代码等功能。

从今天开始，开发者可以通过以下几种方式尝试使用 2.0 Flash 的测试版：

Gemini 的 API 接口
谷歌的 AI 开发平台：AI Studio 和 Vertex AI

不过，生成图片和语音的功能暂时只对「早期合作伙伴」开放，要等到明年 1 月才会向所有人开放。谷歌表示，在接下来几个月里，会把 2.0 Flash 的各种版本整合到多个产品中，包括：

Android Studio（安卓开发工具）
Chrome 开发工具
Firebase（应用开发平台）
Gemini 代码助手

主力模型 Gemini 2.0

今天发布的 Gemini 2.0 Flash 的实验版本，是 Gemini 2.0 系列的第一个模型，也是当前主力模型。

它反应速度快（低延迟），性能强大，代表了谷歌 Gemini 最顶尖的技术水平。

除了速度是「前任」的 2 倍，支持图像、视频和音频等多模态输入外，2.0 Flash 现在还支持多模态输出，比如原生生成的图像与文本混合，以及可控制的多语言文本转语音（ TTS ）音频。

它还能够原生调用工具，如谷歌搜索、代码执行以及第三方用户自定义函数。

下面这张图展示了 Gemini 不同版本在各项测试中的表现对比。

总体来看，新模型在编程、数学和多模态处理方面都有明显提升，特别是在代码生成方面的进步最为显著。

有趣的是，在长文本理解( MRCR )这一项上，2.0 Flash ( 69.2% )反而比 1.5 Pro ( 82.6% )表现差一些，这是少数几个没有进步的指标之一。

图表展示了Gemini不同版本在各项测试中的表现对比。

Gemini 2.0 Flash 的正式版本将于 1 月份推出。但在此期间，谷歌正在发布一个 API —— Multimodal Live API（多模态实时 API ），帮助开发者构建具有实时音频和视频流功能的应用程序。

网友们已经快乐地玩耍起来。

能帮你画好下一步棋子的位置。来自X网友@robertriachi

使用 Multimodal Live API，开发者可以创建实时的多模态应用，这些应用能够接收来自摄像头或屏幕的音频和视频输入。该 API 支持集成各种工具来完成任务，并且能够处理自然对话模式。

比如，对话中的打断。这和 OpenAI 的 Realtime API 很像。

在对话中自然地生成图像，就像人类聊天时随手画个示意图一样自然

对图像的后续编辑

一边处理实时音频输入，一边执行数据可视化等复杂任务

Project Astra：通用助手的曙光

今年 5 月份，谷歌发布了通用 AI 助手研究原型 Project Astra ，这是一个多模态 AI 智能体项目，旨在为用户提供一个能够理解和响应复杂、动态真实世界「 AI 助手」。

这次，谷歌对搭载了 Gemini 2.0 的最新版本 Project Astra 进行了一系列改进：

更流畅的对话：Project Astra 现在能够用多种语言和混合语言进行交流，对各种口音和生僻词汇的理解也更加精准。

新工具的运用：借助Gemini 2.0，Project Astra 能够使用谷歌搜索、谷歌镜头和谷歌地图，使其成为你日常生活中更加得力的助手。

更强大的记忆功能：增强了 Project Astra 的记忆能力，并确保你可以控制其记忆。它现在能够保持长达 10 分钟的会话记忆，并能记住你过去与它进行的更多对话，从而为你提供更加个性化的服务。

更低的延迟：通过新的流媒体功能和原生音频理解技术，智能体能够以接近人类对话的延迟速度理解语言。

他们正致力于将这些功能引入谷歌产品，如 Gemini app 以及眼镜等其他形态的产品。同时，他们也开始在原型眼镜上测试 Project Astra。

在官方演示视频中，外国小哥用一部安装了最新测试版 Project Astra 的 Pixel 手机进行测试。

收到一封包含公寓信息的电子邮件后，它可以告诉你公寓大门的密码，并记住它。

只需要使用摄像头拍摄衣服上的标签和洗衣机上复杂的按钮，它就能告诉你这件衣服是否能机洗、漂白、烘干，以及洗衣机该如何使用。

还可以把朋友读过的书发给它，让它以此分析出朋友的读书品味并推荐相关书籍。

偶遇一辆巴士，问它是否可以去唐人街附近。Project Astra不仅可以搜索出该巴士的行驶路线，还能回答出沿线著名地标。

此外，小哥还戴上原型眼镜来测试Project Astra，效果相当酷炫。

只需一个问题指令，它就能进行天气预报、告诉你是否可以骑自行车进公园，搜索沿途是否有超市等。

Project Mariner：浏览器版「贾维斯」

Project Mariner 是一个基于 Gemini 2.0 构建的早期研究原型。它通过 Chrome 浏览器插件，能理解你屏幕上的所有内容 —— 不管是文字、代码、图片还是表单。

它的厉害之处在于，在 WebVoyager 基准测试中，Project Mariner 作为一个独立智能体设置，完成网页任务的准确率达到了 83.5% ，这在目前来说是相当不错的成绩。

虽然现在可能还有点慢，准确度也不是百分之百，但这项技术正在快速进步。

，时长02:14

为了确保安全，谷歌做了很多防护措施。

比如，它只能在你当前打开的网页标签里操作，要做一些重要的事情（比如网购）时，还得先问问你同意不同意。这就像有个助手帮你办事，但重要决定还是由你来做。

Jules：有经验的编程助手

Jules 是一个懂编程的智能助理，直接集成在 GitHub 工作流程中。假设你有一个程序问题需要解决，它能理解问题，制定解决方案，然后在你的指导和监督下把代码写出来。

，时长00:35

就像是你多了一个有经验的编程搭档，能帮你分析问题、规划方案、写代码，但最终的决定权还是在你手中。你可以随时检查它的工作，确保一切都符合你的要求。

游戏及其他领域的智能体

谷歌 DeepMind 一直喜欢用游戏来锻炼 AI 的能力，就像前几天推出的 Genie 2 ，只要给它一张图片，它就能创造出可以玩的 3D 世界。

现在，他们又在 Gemini 2.0 的基础上开发了游戏智能体。

它特别有意思，能看懂你在玩什么游戏，理解游戏画面里发生的事情，然后实时跟你聊天，给你建议该怎么玩。就像有个资深玩家朋友在旁边指点你。

他们还和 Supercell 这样的大游戏公司合作，在《部落冲突》这样的策略游戏和《卡通农场》这样的模拟经营游戏中测试 AI 。AI 需要理解不同类型游戏的规则和挑战，这可不是件容易的事。

更厉害的是，这个智能体还能用谷歌搜索，帮你找到网上的游戏攻略和技巧。就像是一个既懂游戏、又知道去哪找答案的玩伴。除了在虚拟世界中探索智能体能力，谷歌还在尝试将 Gemini 2.0 的空间推理能力应用于机器人技术，帮助智能体在现实世界中提供帮助，不过目前仍处于早期阶段。
参考链接：
https://blog.google/technology/google-deepmind/google-gemini-ai-update-december-2024/?utm_source=deepmind.google&utm_medium=referral&utm_campaign=gdm&utm_cnotallow=https://developers.googleblog.com/en/the-next-chapter-of-the-gemini-era-for-developers/
https://x.com/simonw/status/1866942603020910866

#Can Language Models Perform Robust Reasoning in Chain-of-thought Prompting with Noisy Rationales?

可信大模型新挑战：噪声思维链提示下的鲁棒推理，准确率直降40%

当前，大语言模型（Large Language Model, LLM）借助上下文学习（In-context Learning）和思维链提示（Chain of Thoughts Prompting），在许多复杂推理任务上展现出了强大的能力。

然而，现有研究表明，LLM 在应对噪声输入时存在明显不足：当输入的问题包含无关内容，或者遭到轻微修改时，模型极容易受到干扰，进而偏离正确的推理方向。如图 1 左所示，Q1 中的「We know 6+6=12 and 3+7=10 in base 10」是关于 base-9 计算的噪声信息，该信息容易误导模型输出错误的结果。

图 1. 噪声问题（Noisy Questions）和噪声思维链（Noisy Rationales）的示例

已有的鲁棒研究大多侧重于噪声问题（Noisy Questions），然而，LLM 在噪声思维链（Noisy Rationales）下的推理还没有得到充分的探究。在本工作中，我们将噪声思维链定义为：包含不相关或者不准确推理步骤的思维链，如图 1 右侧 R1 中的「13 + 8 = 21」步骤，对于 base-9 计算来说，是错误的推理步骤。

这些噪声思维链通常源自 LLM 的实际应用，比如众包平台、对话系统、机器生成数据等场景，人类和机器在推理中都会不可避免地犯错，从而产生噪声思维链。因此，噪声思维链的实际影响和技术挑战不容小觑。当前，我们仍然不清楚 LLM 在面对噪声思维链提示时的鲁棒性能如何，也缺少有效的应对策略。因此，非常有必要构建一个新的数据集，用于系统评估当前 LLM 在噪声思维链场景下的鲁棒性，以及验证相应的鲁棒推理策略。

对此，我们构建了 NoRa 数据集，并进行了大量的实验评测。结果表明，GPT-3.5-Turbo、Gemini-Pro、Llama2-70B 和 Mixtral-8x7B 等开源或闭源 LLM 都极容易受到噪声思维链的影响。其中，GPT-3.5-Turbo 的准确率至多可降低 40.4%。因此，我们也呼吁大家更多地关注大模型推理的鲁棒性问题。

我们的主要贡献有如下三点：

新问题：对当前流行的思维链提示技术，我们提出了尚未充分探究的噪声思维链问题（Noisy Rationales），并给出了详细的问题定义和统一的问题建模；
新数据集：我们构建了 NoRa 数据集，用于评测 LLM 在噪声思维链提示下的推理鲁棒性。我们使用 NoRa 数据集对 LLM 展开系统评估，揭露了 LLM 推理的鲁棒性不足，数据去噪能力非常有限的问题；
新方法：我们设计了一种简单有效的方法（CD-CoT），基于单个正确的思维链示例，去纠正噪声思维链并完成推理，并通过大量实验验证了方法的有效性。

接下来将从新问题、新数据集、新方法这三个角度，简要地介绍我们关于大模型推理鲁棒性的研究结果，相关论文已发表于 NeurIPS 2024 会议。

论文标题：Can Language Models Perform Robust Reasoning in Chain-of-thought Prompting with Noisy Rationales?
论文链接：https://arxiv.org/pdf/2410.23856
代码链接：https://github.com/tmlr-group/NoisyRationales
slides 链接：https://andrewzhou924.github.io/_pages/data/slides-NoRa.pdf

新问题：Noisy Rationales

思维链可以有效提升大模型的推理能力 [1]。具体来说，通过给出带有中间推理步骤的示例，LLM 可以很快地适应到新任务上，而无需进行参数修改（见图 2 右上角）。现有工作中，通常假设思维链包含清楚且正确的推理步骤，但实际情况可能并非如此。

图 2. 各种 setting 下的模型输入

目前，已经有许多工作探索了 Noisy Questions 对 LLM 推理性能的影响（见图 2 左下角），揭示了 LLM 对输入中微小修改的敏感性 [2,3]。

然而，在人工标注或机器生成的思维链中，可能会包含一些与问题不相关或不准确的推理步骤（见图 2 右下角），这些噪声思维链可能会对推理性能产生负面影响，但目前 LLM 对噪声思维链（Noisy Rationales）的鲁棒性依旧未知。

因此，本文提出了新的研究问题 Noisy Rationales：当示例的推理步骤中包含无关的或者不准确的内容时，LLM 的推理鲁棒性如何？对这一问题的探索，有助于深入理解和提升 LLM 在非完备场景中的推理能力。

新数据集：NoRa

为了评估 LLM 在噪声思维链下的鲁棒性，我们构建了 NoRa（Noisy Rationales）数据集，NoRa 涵盖了 3 种推理任务类型：数学推理、符号推理和常识推理，共包含 26391 个问题以及 5 种子任务。

一条思维链（Rationale）包含多个连续的推理步骤（Thoughts）；噪声思维链（Noisy Rationale）包含的噪声推理步骤（Noisy Thoughts）被定义为如下两类（示例见图 3）：

不相关噪声（Irrelevant Thoughts）是指对解决问题无用的信息，如在推断亲属关系时讨论探讨兄弟姐妹之间的基因重叠情况；
不准确噪声（Inaccurate Thoughts）则是推理中的事实性错误，如在特定进制计算中使用错误的计算规则。

图 3. NoRa 数据集的样本

在构建数据集时，我们通过插入 Noisy Thoughts 来生成噪声思维链，这些噪声仅影响推理链的细节，而不改变问题和最终答案的正确性。此外，我们使用不同的噪声比例（Noise Ratio，即 Noisy Thoughts 占所 Thoughts 的比例，如 0.3、0.5、0.8）来控制任务的困难程度，Noise Ratio 越大任务难度也越大。NoRa 数据集的统计信息如图 4 所示。

图 4. NoRa 数据集的统计信息

NoRa 数据集测评结果

我们以 GPT-3.5-Turbo 为 base model，测试了其在 NoRa 上的表现，并且对比了多种去噪方法。这些去噪方法可以分为两类：

自我纠正方法（Self-correction）：包括 Intrinsic Self-correction (ISC) [4] 和 Self-polish (SP) [5]；
自我一致性方法（Self-consistency）：包括 SmoothLLM (SM) [6]，Self-denoise (SD) [7] 和 Self-consistency (SC) [8]。

图 5. 各种去噪方法在 NoRa 数据集上的测评结果

实验结果（图 5）表明：

无论采取哪种现有方法，LLM 都会受到噪声思维链的严重影响。具体来说，存在不相关噪声时，各方法的性能下降了 0.2% - 25.3%；存在不准确噪声时，各方法的性能下降了 0.1% - 54.0%；
在 NoRa 的大多数任务中，自我纠正方法的表现不佳；
自一致性方法可以在一定程度上缓解噪声的影响，但无法做到真正的数据去噪。

此外，我们还进行了各种消融研究，来探索不同因素对 NoRa 数据集评估结果的影响（见图 6），我们发现：

调整温度系数可以改善模型在噪声思维链下的推理性能；
使用更多的噪声示例可以提高大多数任务的推理性能；
不同的大语言模型普遍容易受到噪声思维链的影响。

图 6. 消融实验：(左) 温度系数对性能的影响；(中) 示例个数对性能的影响；(右) 各种模型的性能

新方法：CD-CoT

根据测评结果，大语言模型在应对噪声思维链提示时，其自身的去噪能力非常有限；即便使用自我纠正或自一致性方法，效果仍不理想。

因此，我们认为有必要引入外部监督信号来增强模型鲁棒性，且这种监督信号既要足以实现去噪，又要在实际应用中切实可行。对此，我们提出了一种简单有效的去噪推理方法， CD-CoT（Contrastive Denoising with Noisy Chain of Thoughts）。

CD-CoT 借鉴了对比学习的思路，通过让 LLM 显式地对比有噪和干净的思维链，从而识别出噪声信息。方法主要包括四个关键步骤，步骤 1&2 进行显式的去噪，步骤 3&4 进行精细推理并获得最终答案。

四个步骤具体如下：

改写思维链：借助一个干净的思维链示例，引导 LLM 通过对比改写和纠正噪声思维链，并生成多个改写的思维链（见图 7 step1）；
选择思维链：通过答案匹配，筛选出改写后答案不变的思维链，形成精炼的候选集；再从中随机选取一定数量的思维链，用于后续的推理（见图 7 step2）；
探索推理链：将选取的思维链排列成不同的上下文，与目标问题一同输入给 LLM，并采用较高的温度参数进行多次重复推理，以探索多样的推理路径（见图 8 step3）；
答案投票：将所有得到的答案进行投票，得到最终答案（见图 8 step4）。

完整的 CD-CoT 算法请见图 9。

图 7. CD-CoT 算法的步骤 1&2

图 8. CD-CoT 算法的步骤 3&4

图 9. 完整的 CD-CoT 算法

CD-CoT 实验结果

我们在 NoRa 数据集上全面测试了 CD-CoT，并对比了多个需要额外监督信息的去噪方法（见图 10），我们发现：

当面对噪声思维链时，与 base model 相比，CD-CoT 在所有数据集上的性能均有显著提升，准确率平均提升幅度达到 17.8%；
CD-CoT 对高噪声表现出显著的抵抗力，尤其在更具挑战的数学推理任务中。

图 10. 各种需要额外监督信息的方法在 NoRa 数据集上的测评结果

此外，通过诸多消融实验，我们发现：

关于 CD-CoT 超参数的消融实验结果显示，干净的思维链示例在 CD-CoT 中扮演着关键的角色；当变化 N,M,C 等超参数的取值时，准确性仅呈现出细微的变化（见图 11）。在论文中，我们默认采用 M 设为 2 的 CD-CoT 示例，以在效率和效果之间取得平衡；
CD-CoT 在不同的 LLM 上具有良好的泛化能力，与 base model（GPT-3.5-Turbo 和 Gemini-Pro）相比，其准确率分别提高了 23.4% 和 21.6%，并超越了所有基线方法（见图 12）。

图 11. 关于 CD-CoT 超参数的消融研究

图 12. 关于 CD-CoT 在不同 LLM 上的效果的消融研究

更多的实验分析和技术细节，请移步参阅我们的论文及源码，我们也将持续更新本工作的内容。

我们希望通过这项工作，呼吁人们更多地关注 LLM 推理的鲁棒性问题，并开展关于大模型推理鲁棒性的探讨与研究。非常感谢大家关注我们的工作！

课题组介绍

香港浸会大学可信机器学习和推理课题组 (TMLR Group) 由多名青年教授、博士后研究员、博士生、访问博士生和研究助理共同组成，课题组隶属于理学院计算机系。课题组专攻可信表征学习、可信基础模型、基于因果推理的可信学习等相关的算法，理论和系统设计以及在自然科学上的应用，具体研究方向和相关成果详见本组 GitHub (https://github.com/tmlr-group)。

课题组由政府科研基金以及工业界科研基金资助，如香港研究资助局杰出青年学者计划，国家自然科学基金面上项目和青年项目，以及微软、英伟达、字节跳动、百度、阿里、腾讯等企业的科研基金。青年教授和资深研究员手把手带，GPU 计算资源充足，长期招收多名博士后研究员、博士生、研究助理和研究实习生。此外，本组也欢迎自费的访问博士后研究员、博士生和研究助理申请，访问至少 3-6 个月，支持远程访问。