WWW 2024最佳论文|大型语言模型的机制设计

【摘要】我们研究拍卖机制以支持人工智能生成内容的新兴格式。我们特别研究如何以激励兼容的方式聚合多个法学硕士。在这个问题中,每个代理对随机生成的内容的偏好被描述/编码为 LLM。一个关键动机是为人工智能生成的广告创意设计一种拍卖格式,以结合不同广告商的输入。我们认为,这个问题虽然通常属于机制设计的范畴,但具有几个独特的特征。我们提出了一种通用形式主义——代币拍卖模型——来研究这个问题。该模型的一个关键特征是,它在逐个令牌的基础上起作用,并让 LLM 代理通过单维出价影响生成的内容。我们首先探索一种稳健的拍卖设计方法,其中我们假设代理偏好需要结果分布的偏序。我们制定了两个自然激励属性,并证明它们等价于分布聚合的单调性条件。我们还表明,对于此类聚合函数,尽管没有投标人估值函数,但仍可以设计第二价格拍卖。然后,我们通过关注基于 KL 散度(LLM 中常用的损失函数)的特定评估形式来设计具体的聚合函数。福利最大化聚合规则是所有参与者的目标分布的加权(对数空间)凸组合。我们得出支持代币拍卖公式的实验结果。

原文:Mechanism Design for Large Language Models
地址:https://arxiv.org/abs/2310.10826
代码:无
出版: WWW 2024
机构:Google等

1 研究问题

本文研究的核心问题是: 如何设计一个机制,将多个大语言模型(LLMs)生成的内容以激励相容的方式聚合起来,特别是在广告创意生成的场景中。

假设有两家广告商,一家是夏威夷的Stingray度假村,另一家是Maui航空公司。它们各自训练了一个LLM来生成广告词。问题是如何设计一个机制,激励两家广告商据实报告自己的LLM模型,并基于此生成一则同时包含两家元素的创意广告。

本文研究问题的特点和现有方法面临的挑战主要体现在以下几个方面:

  • LLM作为生成模型,其偏好隐含在文本概率分布中,难以显式表达和比较。例如有两个LLM分别对三个token (A, B, C)的生成概率分布为(0.5, 0.3, 0.2)和(0.4, 0.4, 0.2)。现在如果聚合结果是(0.6, 0.3, 0.1),我们很难直接判断这个结果对于哪个LLM更有利。虽然第一个LLM对token A的偏好更高,但第二个LLM对token B的偏好更高。由于缺乏一个公共的效用尺度,我们无法简单地说(0.6, 0.3, 0.1)是否比(0.5, 0.4, 0.1)更偏向第一个LLM。

  • LLM生成内容具有随机性,难以用传统的确定性机制设计范式建模。比如LLM在相同的输入下,第一次运行产生了文本"I love apples",第二次运行产生了文本"I like apples"。

  • 聚合机制要与LLM的推理特点相适应,不引入额外复杂度。当前主流的LLM如GPT-3采用的是autoregressive的生成方式,即每次根据前面已生成的token序列,预测下一个最可能的token。一个自然的聚合方式是将多个LLM对下一个token的概率预测做加权平均,而不是等到每个LLM生成完整的句子再去聚合,因为后者会引入大量的额外计算。

  • LLM推理成本高,聚合过程要尽量减少对其调用次数。理想的聚合机制应该以最少的LLM调用次数,实现对代理偏好的良好表征和激励相容。

针对这些挑战,本文提出了一种简洁而巧妙的"代币拍卖"思路:

将多个LLM的聚合过程建模为代理在每一步对下一个"token"的条件概率分布进行竞价。首先,这种做法完全符合LLM的autoregressive生成范式,不需要对原有模型做任何修改。其次,通过聚焦每一步的决策,它将整个文本空间的偏好表达问题转化为对单个token的偏好表达,大大简化了偏好的呈现方式。再次,通过引入连续的出价,它将原本离散、高维的概率分布空间映射到了单一的实数空间,为博弈分析提供了便利。最后,通过巧妙的激励相容机制设计,它实现了用最少的偏好询问就能达到激励相容的理想目标。本文理论分析表明,若聚合函数满足一定的单调性条件,再搭配二价格支付规则,就能确保在广义的偏好结构下实现激励相容。进一步地,如果代理的效用函数形式已知(如基于KL散度或强化学习奖励),还可以设计出最大化社会福利的最优聚合方案。

2 研究方法

论文提出了一种名为Token Auction的机制设计方法,用于以激励相容的方式聚合多个大语言模型(LLM)的输出。接下来我们详细介绍该方法的理论基础和关键技术。

2.1 Token Auction模型

Token Auction模型描述了如何将多个LLM生成的token概率分布聚合成一个分布,并确定每个LLM获得的支付。形式化地,假设有 个LLM,第 个LLM的生成函数为 ,将token序列 映射为下一个token的概率分布 。Token Auction机制由两部分组成:

  • 聚合函数 将 个LLM的出价 和概率分布 映射为一个聚合分布。

  • 支付函数 确定第 个LLM获得的支付金额。

直观上,每个LLM通过出价 来影响聚合函数的输出分布,同时支付一定金额。Token Auction的目标是设计 和 ,使得机制满足一定的激励相容性。

2.2 理想激励属性

为了使Token Auction机制具有良好的激励性质,论文提出了两个理想属性:

  1. Payment Monotonicity: 对于同一个LLM,如果出价更高,则当且仅当聚合分布更接近其理想分布时,LLM支付的金额才会更高。形式化地,对任意 ,有

    其中 表示LLM 的偏好关系。

  2. Consistent Aggregation: 对于同一个LLM,如果在某个出价下聚合分布优于另一个出价,则对其他LLM的任意出价,这一优势关系都成立。形式化地,如果对某个 有 ,则对任意 都有 。

这两个性质保证了LLM无法通过操纵出价获得更优的聚合分布和更低的支付。

2.3 单调聚合函数

论文证明,满足以上两个理想属性的Token Auction机制等价于采用单调聚合函数。单调聚合函数的定义为:对任意 ,有

也就是说,在其他LLM出价不变时,第 个LLM出价越高,聚合分布就越接近其理想分布。论文举例说明,线性加权聚合函数

满足单调性,而log-linear加权聚合函数

不满足单调性。

2.4 稳定采样和二价支付

为了给单调聚合函数设计合适的支付机制,论文引入了稳定采样的概念。直观上,稳定采样将随机变量 和出价 映射为一个确定的token ,且满足:

  1. 当 较低时总是选择LLM 不太喜欢的token;

  2. 当 超过某个阈值后就转而选择LLM 更喜欢的token。

形式化地,令 和 分别表示LLM 偏好和不偏好的token集合。如果对任意 都存在 使得

则称映射 是关于聚合函数 的稳定采样。论文证明,任何单调聚合函数都存在一个稳定采样。

基于稳定采样,论文提出了一种类似于二价拍卖的支付机制:当LLM 的出价使得采样从 转变为 时,其支付等于临界出价 ,否则支付为0。该机制具有支付单调性,且支付函数可写为聚合分布 和理想分布 之间总变差距离关于出价 的积分形式:

2.5 基于损失函数的聚合方法

论文进一步探讨了如何基于LLM训练中的损失函数来设计聚合函数 。首先回顾LLM的训练流程,通常包括三个阶段:

  1. 在通用语料上进行预训练,优化KL散度损失

  2. 在特定任务数据上进行微调,同样优化KL散度损失。

  3. 通过人类反馈进行强化学习,优化奖励函数 和KL散度正则项的组合

受预训练阶段优化目标的启发,论文提出了一种基于KL散度的线性加权聚合函数

并证明它最大化了社会福利函数

类似地,基于强化学习阶段的优化目标,论文提出了log-linear加权聚合函数

它最大化了另一个形式的社会福利

值得注意的是,线性加权聚合满足单调性,因此可以搭配2.4节中的二价支付机制,而log-linear加权聚合虽然不满足单调性,但在LLM的偏好与KL散度一致时也是一个合理的选择。

综上,Token Auction机制提供了一套系统的方法来聚合多个LLM的输出,并以激励相容的方式确定对各方的支付。论文在理论上分析了满足理想激励属性的充要条件,提出了稳定采样和二价支付的实现方案,并根据LLM训练中的优化目标设计了两种具体的聚合函数。这些方法对于构建更加通用和高效的LLM应用具有重要的指导意义。

3 实验效果

为了验证所提出的token auction机制,论文通过prompt-tuning一个公开的LLM模型进行了实验。

3.1 实验设置

论文模拟了两个虚构的广告客户,"Alpha Airlines"和"Beta Resort",他们希望围绕"Hawaii"这个共同主题投放广告。为了最小化LLM可能产生的幻觉,论文特意选择了"Alpha"和"Beta"这两个本身并无太多意义的品牌名称。

实验流程如下:首先,对于每个广告客户,论文设计了一个prompt来定制化基础LLM模型。这里的关键是通过改变prompt而非重新训练模型参数来适应不同客户,这大大降低了计算开销。其次,论文实现了第4节提出的线性组合和log-linear组合两种aggregation函数,并将其整合到LLM的推理过程中。最后,通过改变两个广告客户的出价比值λ (λ=b1/(b1+b2))来观察生成文本的变化。

3.2 实验结果

表2展示了两种aggregation方法在不同λ值下的生成文本。可以看到,随着λ从1变化到0,生成文本大致遵循"仅Alpha Airlines → 同时包含两者 → 仅Beta Resort"的变化规律。这符合预期,因为λ从1变化到0对应着b2从0增加到无穷大(或者b1从无穷大减小到0)。值得注意的是,两种aggregation方法的模式转换阈值略有不同。如表2所示,线性组合方法在λ=0.75和λ=0.4时发生转换,而log-linear组合方法的转换点是λ=0.5和λ=0.45。这表明log-linear组合可能对出价比值λ更敏感一些。从生成文本的质量来看,虽然使用的是通用LLM模型,两种方法生成的广告词都是有意义且易于理解的。在合适的λ值下(如0.5左右),模型能够生成高质量的联合广告文案(如表2第5行所示)。这展现了LLM在广告文案生成任务上的强大能力和灵活性。

论文指出,如果针对特定任务进行微调,生成文本的质量还有进一步提升的空间。总的来说,实验结果验证了token auction机制的有效性,为联合广告文案的自动生成提供了一种可能的技术路径。

4 总结后记

本论文针对多个大语言模型(LLM)的激励相容聚合问题,提出了一种基于token的拍卖机制(token auction)。通过线性组合和log-linear组合两种aggregation函数,实现了根据不同广告客户的出价比例生成相应的联合广告文案。实验结果表明,所提机制能够以一种平滑、可解释的方式实现多个LLM的聚合,为自动生成广告创意提供了新的思路。

疑惑和想法

  1. 除了token-level的建模,是否可以设计出其他粒度(如phrase-level、sentence-level)的机制?

  2. 除了线性组合和log-linear组合,是否存在其他形式的高效aggregation函数?它们在理论性质和实践效果上有何区别?

  3. 如何将token auction机制与LLM的微调方法相结合,进一步提升生成质量?

可借鉴的方法点:

  1. Token-level的建模和优化方法可以推广到其他需要聚合多个LLM的场景,如对话系统、文本改写等。

  2. 将机制设计与LLM的推理过程相结合的思想值得借鉴,可以设计出更多形式的"即插即用"机制。

  3. 通过prompt engineering来适配不同需求,避免重复训练模型的思路可以广泛应用,提高LLM的实用性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/841825.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

《计算机网络微课堂》1-4 计算机网络的定义和分类

本节课我们介绍计算机网络的定义和分类。 首先来看计算机网络的定义:计算机网络的精确定义并未统一,换句话说,全世界没有一个对计算机网络的公认的唯一定义。 这里我们给出一个计算机网络的最简单定义,即计算机网络是一些互相连接…

【LeetCode刷题】滑动窗口思想解决:最大连续1的个数 III、将x减到0的最小操作数

【LeetCode刷题】Day 8 题目1:1004.最大连续1的个数 III思路分析:思路1:暴力枚举zero计数器思路2:滑动窗口zero计数器 题目2:1658. 将x减到0的最小操作数思路分析:思路1:暴力枚举思路2&#xff…

联邦学习(一)

世界第一本“联邦学习”专著——《联邦学习》。作者阅读数书籍《联邦学习实战》。 1.联邦学习概述 在构件全局模型时,其效果与数据被整合在一起进行集中式训练的效果几乎一致,这便是联邦学习提出的动机和核心思想。 核心理念:数据不动模型动,数据可用不可见。 传统训练范式…

Linux|ubuntu22.04安装CUDA最新完整教程

文章目录 一、安装前准备工作查看GPU和型号查看GCC版本*下载gcc12 *检查驱动 二、安装CUDA Toolkit*安装驱动 三、安装后的工作必要操作推荐的操作开启守护进程模式删除本地下载安装包 四、验证删除CUDA常见问题及解决方案还需要安装cuDNN吗?nvcc: No such file or …

贪心-AcWing 1522. 排成最小的数字-XMUOJ石板序列

题目 思路 getline() 是 C 标准库中的一个函数,用于从输入流中读取一行文本,并将其存储为字符串。它可以从标准输入、文件流、字符串流等不同类型的输入流中读取数据。C中istringstream、ostringstream、stringstream详细介绍和使用_c istringstream-CS…

C++之std::is_trivially_copyable(平凡可复制类型检测)

目录 1.C基础回顾 1.1.平凡类型 1.2.平凡可复制类型 1.3.标准布局类型 2.std::is_trivially_copyable 2.1.定义 2.2.使用 2.3.总结 1.C基础回顾 在C11中,平凡类型(Trivial Type)、平凡可复制类型(TrivialCopyable&#x…

Python语言基础学习(下)

目录 一、顺序语句 二、条件语句 (1) if (2) if - else (3) if - elif - else 缩进和代码块 空语句 pass 三、循环语句 while 循环 for 循环 continue break 四、函数 创建函数 调用函数 函数返回 函数变量 函数递归 关键字参数 五、列表和元组 创建列表 …

Windows、Linux下,基于QT的打包方法

整理这篇文档的意义在于:自己走了很多弯路,淋过雨所以想为别人撑伞,也方便回顾,仅供参考 ps: 第一次做Windows下打包,用了2小时,第二次20秒第一次做Linux(ubuntu)下打包,用了8小时,…

不拍视频,不直播怎么在视频号卖货赚钱?开一个它就好了!

大家好,我是电商糖果 视频号这两年看着抖音卖货的热度越来越高,也想挤进电商圈。 于是它模仿抖音推出了自己的电商平台——视频号小店。 只要商家入驻视频号小店,就可以在视频号售卖商品。 具体怎么操作呢,需要拍视频&#xf…

【顶刊新文】nature plants|植物高度作为高山碳固存和生态系统对变暖响应的指标

文章简介 论文名称:Plant height as an indicator for alpine carbon sequestration and ecosystem response to warming(植物高度作为高山碳固存和生态系统对变暖响应的指标) 第一作者及单位:Quan Quan(中国科学院地…

【ai】pycharm安装langchain 相关module

pycharm module install 【Python学习 】一篇文章教你PyCharm如何快速安装module 【python】pycharm如何安装python的模块包版本 2024.1.2 RC2 找到当前的虚拟项目 找到解释器 我现在配置为专门为openai-start 准备的3.10 版本+ 号可以找到模块

pdf拆分成多个文件 pdf拆分成一页一页

pdf拆分成多个文件的方法。在现代办公环境中,PDF文件因其跨平台、保持格式一致等特性,成为了广泛使用的文件格式。然而,有时我们需要对PDF文件进行拆分,以便更好地管理和使用其中的内容。本文将详细介绍PDF拆分的方法和步骤&#…

一.架构设计

架构采用 ddd 架构,不同于传统简单的三层的架构,其分层的思想对于大家日后都是很有好处的,会给大家的思想层级,提高很多。 传统的项目 现有的架构 采取ddd架构,给大家在复杂基础上简化保留精髓,一步步进行…

LabVIEW直方图应用解析

概述 在LabVIEW中,直方图是一种重要的工具,用于分析和展示数据的分布情况。它通过将数据分成若干区间并绘制对应频数,可以帮助用户了解数据的集中趋势、离散程度和分布形态。本文将详细介绍LabVIEW中直方图的使用方法、适用场合、实际意义及…

19 QinQ技术(Vlan两层封装)

1 什么是QinQ? QinQ(802.1Q-in-802.1Q),也叫做VLAN Stacking或Double VLAN,由IEEE 802.1ad标准定义,**是一项扩展VLAN空间的技术,**通过在802.1Q标签报文的基础上再增加一层802.1Q的Tag来达到扩…

工具使用-网络性能测试工具(iperf)-TCP 和 UDP 的吞吐量-包转发率参数的理解

时间戳:2024年5月26日15:18:39 iperf 和 netperf 都是最常用的网络性能测试工具,测试 TCP 和 UDP 的吞吐量。它们都以客户端和服务器通信的方式,测试一段时间内的平均吞吐量。 接下来,我们就以 iperf 为例,看一下 TC…

9.2 Go语言入门(包和导入)

Go语言入门(包和导入) 目录一、包和导入1. 包(Package)1.1 包的定义1.2 包的作用1.3 main 包1.4 非 main 包 2. 导入(Import)2.1 导入标准库2.2 导入第三方包2.3 导入本地包2.4 导入别名2.5 导入并调用初始…

国内最受欢迎的7大API供应平台对比和介绍||电商API数据采集接口简要说明

本文将介绍7款API供应平台:聚合数据、百度APIStore、Apix、数说聚合、通联数据、HaoService、datasift 。排名不分先后! 免费实用的API接口 第一部分 1、聚合数据(API数据接口_开发者数据定制) 2、百度API Store(API集市_APIStore…

数据库系统原理实验报告6 | 视图

整理自博主本科《数据库系统原理》专业课自己完成的实验报告,以便各位学习数据库系统概论的小伙伴们参考、学习。 专业课本: ​ ———— 本次实验使用到的图形化工具:Heidisql ​ 目录 一、实验目的 二、实验内容 1.根据EDUC数…

揭秘C++ String容器:字符串操作的艺术

目录 ​编辑 引言 一、初识std::string:构造与初始化 二、字符串的操纵艺术:拼接、查找与替换 三、访问与遍历:字符的细腻触感 四、大小与容量:动态调整的智慧 五、进阶功能:探索更多可能 结语 引言 在C标准库…