计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-09-25

1. PromSec: Prompt Optimization for Secure Generation of Functional Source Code with Large Language Models (LLMs)

M Nazzal, I Khalil, A Khreishah, NH Phan - arXiv preprint arXiv:2409.12699, 2024
https://arxiv.org/pdf/2409.12699
在这里插入图片描述

PromSec: 使用大型语言模型（LLMs）生成功能源代码的提示优化以确保安全

摘要
本文介绍了一种名为 PromSec 的算法，它针对大型语言模型（LLMs）在生成源代码时存在的安全漏洞问题，提出了一种提示优化方法。LLMs 能够生成高质量的源代码，但它们在训练过程中也可能会复制不安全的编程实践，导致生成的代码存在安全漏洞。PromSec 结合了生成对抗图神经网络（gGAN）和 LLM 代码生成，通过迭代循环优化提示，以生成既安全又功能完备的代码。该算法通过新的对比学习方法训练 gGAN，将代码清理和生成循环构建为一个双目标优化问题，显著减少了 LLM 推理的次数，提高了成本效益。实验结果表明，PromSec 能有效提升代码安全性，同时保持其预期功能。

创新点

双目标优化：将代码安全性和功能保持作为两个优化目标。
生成对抗图神经网络（gGAN）：用于修复和减少生成代码中的安全漏洞。
对比学习方法：在 gGAN 中引入新的对比学习方法，优化代码生成过程。
迭代交互循环：通过 LLM 和 gGAN 之间的迭代交互，逐步优化代码生成。
跨模型和语言的可转移性：优化后的提示可跨不同的 LLMs 和编程语言使用。

算法模型
PromSec 算法包括以下关键组件：

gGAN：一个生成对抗网络，用于在保持代码功能的同时修复安全漏洞。
LLM：用于生成代码的大规模语言模型。
对比损失函数：用于训练 gGAN，确保生成的代码图既安全又保持功能。
迭代优化过程：通过 LLM 和 gGAN 的迭代交互，不断优化代码和提示。

实验效果

安全性提升：PromSec 显著减少了代码中的常见弱点枚举（CWEs）数量。
功能保持：通过代码图相似性度量，PromSec 生成的代码保持了原始代码的功能。
成本效益：PromSec 减少了 LLM 查询次数和安全分析成本，提高了操作效率。
跨模型和语言的可转移性：PromSec 优化的提示在不同的 LLMs 和编程语言中具有较高的可转移性。

重要数据与结论

PromSec 在处理 100 个测试代码库时，能够在 20 次迭代内解决大多数 CWEs。
在与基线方法（BL1 和 BL2）的比较中，PromSec 在安全性、功能保持和成本效益方面均表现更优。
PromSec 在处理未在训练集中出现的 CWEs 时，仍能展现出一定的安全性修复能力。

推荐阅读指数：
★★★★☆

推荐理由

实用性：PromSec 解决了实际开发中的一个重要问题，即如何在利用 LLMs 生成代码的同时确保代码的安全性。
创新性：该研究提出了一种新颖的方法，通过优化提示来提高代码的安全性，而不是直接修改模型本身。

2. Exploring Large Language Models for Product Attribute Value Identification

K Sabeh, M Kacimi, J Gamper, R Litschko, B Plank - arXiv preprint arXiv:2409.12695, 2024

在这里插入图片描述

探索大型语言模型在产品属性值识别中的应用

摘要
产品属性值识别（PAVI）是从产品信息中自动提取属性及其值的任务，这对于产品搜索、推荐和比较等功能至关重要。现有的方法主要依赖于微调预训练的语言模型，如 BART 和 T5，这些方法需要大量的任务特定训练数据，并且在泛化到新属性时存在困难。本文探索了大型语言模型（LLMs），如 LLaMA 和 Mistral，作为 PAVI 的数据高效且鲁棒的替代方案。我们提出了不同的策略：比较零样本设置中的一步和两步基于提示的方法，并利用通过上下文学习示例中的参数和非参数知识。我们还介绍了基于预训练 T5 模型的密集演示检索器，并进行指令微调，以明确训练 LLMs 执行任务特定指令。在两个产品基准数据集上的广泛实验表明，我们的两步方法在零样本设置中显著提高了性能，并且当使用训练数据时，指令微调进一步提高了性能，展示了使用 LLMs 进行 PAVI 的实际好处。

创新点

零样本学习：探索了 LLMs 在没有任务特定训练数据的情况下执行 PAVI 的能力。
两步方法：提出了一种分阶段的方法，先识别属性，然后提取相应的值，以提高准确性。
上下文学习：使用参数和非参数知识源来增强模型性能，包括生成的示例和检索到的示例。
指令微调：通过明确训练模型执行任务特定指令来提高性能。

算法模型

一步方法：模型直接从输入文本中提取属性-值对。
两步方法：模型首先识别属性，然后提取相应的值。
密集演示检索器：基于预训练的 T5 模型，用于检索与输入数据最相关的示例。
指令微调：对 LLaMA、Mistral 和 OLMo 模型进行微调，以提高 PAVI 任务的性能。

实验效果

零样本结果：两步方法在 AE-110k 和 OA-Mine 数据集上的性能均优于一步方法。
上下文学习：使用检索到的标题和演示可以提高模型性能，尤其是当使用细粒度检索器时。
指令微调：与上下文学习相比，指令微调显著提高了模型性能。

重要数据与结论

在 AE-110k 数据集上，Mistral 模型在两步方法中的 F1 分数为 28.97，而一步方法为 17.20。
在 OA-Mine 数据集上，LLaMA 模型在两步方法中的 F1 分数为 31.64。
指令微调进一步提高了性能，例如在 AE-110k 数据集上，LLaMA 的 F1 分数提高到 81.09。

推荐阅读指数：
★★★★☆

推荐理由

实际应用价值：研究探索了在实际电商环境中如何有效地使用 LLMs 进行产品属性值识别，这对于提升用户体验和平台效率具有重要意义。
创新性方法：提出了一种新的两步方法和上下文学习策略，这些方法在零样本学习和任务特定指令下均显示出优异的性能。
广泛的实验验证：在两个不同的产品数据集上进行了广泛的实验，验证了方法的有效性和泛化能力。
开放性：研究使用了开源模型，这使得其他研究者可以复现和在此基础上进一步研究。

3. CLAIR-A: Leveraging Large Language Models to Judge Audio Captions

TH Wu, JE Gonzalez, T Darrell, DM Chan - arXiv preprint arXiv:2409.12962, 2024
在这里插入图片描述

CLAIRA: 利用大型语言模型评估音频字幕

摘要
自动化音频字幕（AAC）任务要求模型为音频输入生成自然语言描述。评估这些机器生成的音频字幕是一项复杂任务，需要考虑多种因素，包括听觉场景理解、声音对象推断、时间连贯性和环境上下文等。尽管当前方法专注于特定方面，但它们往往未能提供一个与人类判断一致的总体评分。在这项工作中，我们提出了 CLAIRA，一种简单灵活的方法，利用大型语言模型（LLMs）的零样本能力，通过直接询问 LLMs 获得语义距离分数来评估候选音频字幕。在我们的评估中，CLAIRA 在预测人类对质量的判断方面比传统指标更准确，与领域特定的 FENSE 指标相比，相对准确率提高了 5.8%，与 Clotho-Eval 数据集上的最佳通用指标相比提高了高达 11%。此外，CLAIRA 提供了更多的透明度，允许语言模型解释其分数背后的原因，这些解释被评为比基线方法提供的原因质量高出 30%。CLAIRA 已公开提供。

创新点

零样本评估：使用大型语言模型（LLMs）直接对音频字幕进行质量评分，无需针对特定任务的训练数据。
语义距离评分：通过 LLMs 生成的语义距离分数来评估音频字幕的质量。
解释性评分：CLAIRA 不仅提供评分，还要求 LLMs 以自然语言的形式解释其评分，增加了评分的可解释性。

算法模型

CLAIRA：通过大型语言模型（如 GPT-4o）生成包含数值评分和解释性文本的 JSON 输出。
引导生成技术：使用上下文无关文法（CFG）来约束文本生成过程，确保生成的 JSON 格式正确。
归一化 LLM 分数：将 LLM 生成的数值输出转换为 0 到 1 之间的标准化分数。
平局 LLM 分数：CLAIRAE 通过多个 LLMs 生成平均 LLM 分数，然后与平局方法结合。

实验效果

人类判断一致性：CLAIRA 在 Clotho-Eval 数据集上的人类偏好匹配准确率显著高于其他指标。
多语言评估：CLAIRA 在中文翻译的 Clotho 数据集上的表现几乎与英文版本相同，证明了其在多语言数据上的适用性。
解释性评分质量：人类评估者对 CLAIRA 生成的解释性评分的质量给予了高度评价。

重要数据与结论

CLAIRA 在 Clotho-Eval 数据集上的总体准确率为 79.7%，比 FENSE 指标高出 5.8%。
在多语言评估中，CLAIRA 在中文数据集上的准确率为 74.5%，与英文版本相当。
在解释性评分质量方面，CLAIRA 的评分比基线方法高出 30%。
代码: https://github.com/DavidMChan/clair-a

推荐阅读指数：
★★★★☆

推荐理由

创新性：CLAIRA 提供了一种新颖的方法来评估音频字幕，利用 LLMs 的强大能力，同时提供了可解释的评分。
实际应用价值：该方法能够更好地预测人类对音频字幕质量的判断，对于自动化音频处理和评估具有重要意义。
多语言支持：CLAIRA 在多语言环境下的表现证明了其广泛的适用性。
开源可用性：CLAIRA 已公开提供，可以被研究者和开发者广泛使用和进一步研究。

4. Making Large Language Models into World Models with Precondition and Effect Knowledge

K Xie, I Yang, J Gunerli, M Riedl - arXiv preprint arXiv:2409.12278, 2024

将大型语言模型转化为具有前提和效果知识的世界观模型

摘要
本文探讨了大型语言模型（LLMs）作为世界观模型的潜力，尽管LLMs并非为模拟现实世界动态而设计，但研究表明它们可以执行世界观模型的两个关键功能：根据给定的世界状态确定动作的适用性，以及预测执行动作后的世界状态。通过微调两个独立的LLMs——一个用于前提预测，另一个用于效果预测——并利用合成数据生成技术，实现了这一目标。通过人类参与者研究，验证了模型生成的前提和效果知识与人类对世界动态的理解一致。此外，还分析了在合成数据上训练的世界观模型在推断状态空间方面的效果，这是规划所需的必要属性。

创新点

世界观模型的构建：提出了一种新方法，将LLMs转化为能够预测有效动作和状态转换的世界观模型。
合成数据生成技术：利用LLMs生成合成数据，用于微调模型，提高了模型训练的效果。
人类评估验证：通过人类参与者研究，验证了模型生成的前提和效果知识与人类对现实世界的理解一致。

算法模型

前提/效果推断模块：通过微调LLMs来预测动作的前提和效果。
语义状态匹配模块：设计了两个独立的模块，一个用于有效动作预测，另一个用于状态转换预测。
全局-局部提示技术：提出了一种新的提示技术，用于生成高质量的动作前提/效果语料库。

实验效果

人类评估：93%的动作样本被认为是合理的，87%的动作计划样本具有显著的动作链。
自动评估：在前提和效果推断模块的自动评估中，F1分数分别为65.67和61.43，表明模型能够准确预测动作的前提和效果。
世界观模型评估：在有效动作预测和状态转换预测的任务中，模型的准确率分别为81.50%和63%，表明模型能够有效地进行状态转换预测。

重要数据与结论

模型在预测动作前提和效果方面表现出色，与人类评估者的理解一致。
合成数据生成技术提高了模型训练的效果。
模型在规划和理解复杂动作链方面具有潜力。

推荐阅读指数：
★★★☆☆

推荐理由

创新性：该研究将LLMs应用于构建世界观模型，这是一个新颖的研究方向。
实际应用价值：研究提供了一种方法，使得LLMs能够在模拟现实世界动态方面发挥作用，这对于人工智能的发展具有重要意义。

5. Bootstrapping Object-level Planning with Large Language Models

D Paulius, A Agostini, B Quartey, G Konidaris - arXiv preprint arXiv:2409.12262, 2024

在这里插入图片描述

利用大型语言模型引导对象级规划

摘要
本文介绍了一种新方法，该方法从大型语言模型（LLM）中提取知识以产生对象级计划，这些计划描述了对象状态的高级变化，并将其用于以分层方式引导任务和运动规划（TAMP）。现有的工作使用LLM要么直接输出任务计划，要么在PDDL等表示形式中生成目标。然而，这些方法存在不足，因为它们要么依赖LLM进行实际规划，要么输出难以满足的目标。我们的方法则是从LLM中提取知识，形成称为功能对象导向网络（FOON）的对象级表示，从中我们自动生成PDDL子目标。我们的实验表明，我们的方法在模拟中的多个任务上的性能显著超过了替代规划策略。

创新点

对象级规划：提出了一种新的对象级规划方法，该方法使用LLM生成的对象级计划作为任务和运动规划的引导。
功能对象导向网络（FOON）：引入了一种新的表示方法，用于描述对象-动作关系，并将LLM生成的计划转换为PDDL子目标。
分层规划方法：提出了一种分层规划方法，将LLM生成的对象级计划用于任务规划，再通过运动规划执行。

算法模型

LLM提示：使用LLM生成自然语言指令序列，然后将其转换为FOON表示的对象级计划。
FOON：一个功能对象导向网络，是一个描述对象-动作关系的图表示，用于生成PDDL子目标。
任务规划：将FOON中的每个动作转换为PDDL定义，以找到任务计划片段。
运动规划：使用运动规划来找到解决任务的机器人动作序列。

实验效果

计划完成率：在所有任务设置中，OLP方法的平均计划完成率最高。
成功率：在执行计划时，OLP方法的成功率也较高，表明生成的计划更符合给定指令的意图。
平均计划时间：OLP方法的平均计划时间较短，表明其在效率上有优势。

重要数据与结论

在塔建造、拼写和整理桌子等任务中，OLP方法的计划完成率分别为86%、80%和81%，成功率分别为88%、77%和94%。
OLP方法的平均计划时间远低于LLM-Planner和DELTA方法，表明其在规划速度上有显著优势。

推荐阅读指数：
★★☆☆☆

推荐理由

创新性：该研究提出了一种结合LLM和TAMP的新颖规划方法，为机器人规划领域提供了新的视角。
跨领域应用：该方法不仅适用于机器人规划，还可以为其他需要复杂决策和规划的任务提供参考。

6. Linguistic Minimal Pairs Elicit Linguistic Similarity in Large Language Models

X Zhou, D Chen, S Cahyawijaya, X Duan, ZG Cai - arXiv preprint arXiv:2409.12435, 2024

在这里插入图片描述

利用语言最小对探究大型语言模型的语言表征

摘要
本文介绍了一种新方法，通过语言最小对（linguistic minimal pairs）来探测大型语言模型（LLMs）的内部语言表征。通过测量最小对之间的LLM激活差异的相似性，我们量化了语言相似性，并洞察了LLMs所捕捉的语言知识。我们大规模的实验涵盖了100多个LLMs和150k个最小对，涉及三种语言，揭示了从四个关键方面来看的语言相似性属性：跨LLMs的一致性、与理论分类的关系、对语义上下文的依赖性，以及跨语言的相关现象的对齐。我们的发现表明，1) 语言相似性受到训练数据暴露的显著影响，导致在资源丰富的语言（如英语）中跨LLM一致性更高；2) 语言相似性与细粒度的理论语言类别强烈对齐，但与更广泛的类别弱相关；3) 语言相似性与语义相似性的相关性较弱，显示了其上下文依赖性；4) LLMs在理解相关语言现象方面的跨语言对齐有限。这项工作展示了最小对作为洞察LLMs神经表征语言的窗口的潜力，阐明了LLMs与语言理论之间的关系。

创新点