AI推介-大语言模型LLMs论文速览（arXiv方向）：2024.07.15-2024.07.20

文章目录～

1.SegPoint: Segment Any Point Cloud via Large Language Model
2.LLMs as Function Approximators: Terminology, Taxonomy, and Questions for Evaluation
3.Scaling Laws with Vocabulary: Larger Models Deserve Larger Vocabularies
4.Large Language Models as Reliable Knowledge Bases?
5.Can Open-Source LLMs Compete with Commercial Models? Exploring the Few-Shot Performance of Current GPT Models in Biomedical Tasks
6.End-To-End Clinical Trial Matching with Large Language Models
7.BEAF: Observing BEfore-AFter Changes to Evaluate Hallucination in Vision-language Models
8.Retrieval-Augmented Generation for Natural Language Processing: A Survey
9.Translate-and-Revise: Boosting Large Language Models for Constrained Translation
10.Rethinking Video-Text Understanding: Retrieval from Counterfactually Augmented Data
11.A Survey of Prompt Engineering Methods in Large Language Models for Different NLP Tasks
12.Text- and Feature-based Models for Compound Multimodal Emotion Recognition in the Wild
13.Patch-Level Training for Large Language Models
14.The Fabrication of Reality and Fantasy: Scene Generation with LLM-Assisted Prompt Interpretation
15.Crafting the Path: Robust Query Rewriting for Information Retrieval
16.Explainable Biomedical Hypothesis Generation via Retrieval Augmented Generation enabled Large Language Models
17.Predicting Emotion Intensity in Polish Political Texts: Comparing Supervised Models and Large Language Models in a Resource-Poor Language
18.LLMs-in-the-loop Part-1: Expert Small AI Models for Bio-Medical Text Translation
19.Efficiently Training 7B LLM with 1 Million Sequence Length on 8 GPUs
20.Better RAG using Relevant Information Gain
21.NeedleBench: Can LLMs Do Retrieval and Reasoning in 1 Million Context Window?
22.MINI-LLM: Memory-Efficient Structured Pruning for Large Language Models
23.Fine-Tuning Medical Language Models for Enhanced Long-Contextual Understanding and Domain Expertise
24.Evaluation of RAG Metrics for Question Answering in the Telecom Domain
25.Graphusion: Leveraging Large Language Models for Scientific Knowledge Graph Fusion and Construction in NLP Education
26.GraphEval: A Knowledge-Graph Based LLM Hallucination Evaluation Framework
27.Enhancing Retrieval and Managing Retrieval: A Four-Module Synergy for Improved Quality and Efficiency in RAG Systems
28.An Empirical Study of Validating Synthetic Data for Formula Generation
29.Cutting Through the Clutter: The Potential of LLMs for Efficient Filtration in Systematic Literature Reviews
30.Practical Unlearning for Large Language Models
31.Causality extraction from medical text using Large Language Models (LLMs)
32.On Mitigating Code LLM Hallucinations with API Documentation

1.SegPoint: Segment Any Point Cloud via Large Language Model

标题:SegPoint：通过大型语言模型分割任何点云

author:Shuting He, Henghui Ding, Xudong Jiang, Bihan Wen

publish:ECCV 2024, Project Page: https://heshuting555.github.io/SegPoint

date Time:2024-07-18

paper pdf:http://arxiv.org/pdf/2407.13761v1

摘要：
尽管在三维点云分割方面取得了重大进展，但现有方法主要针对特定任务，并依赖于显式指令来识别目标，缺乏在统一框架内推断和理解隐式用户意图的能力。在这项工作中，我们提出了一个名为 SegPoint 的模型，该模型利用多模态大语言模型（LLM）的推理能力，可在各种任务中生成按点划分的分割掩码：1）三维指令分割；2）三维指代分割；3）三维语义分割；4）三维开放词汇语义分割。为了推进三维教学研究，我们引入了一个新的基准–Instruct3D，旨在评估复杂和隐含教学文本的分段性能，其中包含 2,565 个点云-教学对。我们的实验结果表明，SegPoint 在参考分割的 ScanRefer 和语义分割的 ScanNet 等既定基准上取得了具有竞争力的性能，同时在 Instruct3D 数据集上也取得了出色的成果。据我们所知，SegPoint 是第一个在单一框架内解决这些不同分割任务并取得令人满意性能的模型。

2.LLMs as Function Approximators: Terminology, Taxonomy, and Questions for Evaluation

标题:作为函数近似器的 LLM：术语、分类和评估问题

author:David Schlangen

date Time:2024-07-18

paper pdf:http://arxiv.org/pdf/2407.13744v1

摘要：
自然语言处理技术已经从为特定任务建模迅速发展到采用更通用的预训练模型，并针对特定任务对其进行微调，以至于我们现在有了一些看似固有的通用模型。本文认为，由于不清楚这些模型所模拟的是什么，因此产生了 "人工通用智能 "这样的隐喻，而这种隐喻无助于评估这些模型的优缺点。我们的建议是，根据自然语言规范，从近似专家功能的能力来看待这些模型的通用性及其潜在价值。这一框架不仅突出了近似的质量问题，而且还提出了这些功能的可发现性、稳定性和可保护性问题。正如本文将展示的那样，这一框架将从实践和理论的角度，把评估的各个方面，以及通常被置于次要地位的问题（如 "提示注入 "和 “越狱”）都纳入了一个概念框架。

3.Scaling Laws with Vocabulary: Larger Models Deserve Larger Vocabularies

标题:词汇比例定律：更大的模型需要更大的词汇量

author:Chaofan Tao, Qian Liu, Longxu Dou, Niklas Muennighoff, Zhongwei Wan, Ping Luo, Min Lin, Ngai Wong

publish:11 pages

date Time:2024-07-18

paper pdf:http://arxiv.org/pdf/2407.13623v1

摘要：
有关大型语言模型（LLM）扩展的研究主要集中在模型参数和训练数据的大小上，而忽略了词汇量的作用。直观地说，较大的词汇量可以用较少的标记来表示句子，从而实现更有效的标记化，但同时也会增加稀有标记表示不充分拟合的风险。我们研究了词汇量大小如何影响 LLM 的缩放规律，方法是在多达 500B 字符上使用各种词汇配置训练参数从 33M 到 3B 不等的模型。我们提出了三种互补方法来预测计算最佳词汇量：IsoFLOPs 分析、导数估计和损失函数参数拟合。我们的方法都趋向于相同的结果，即最佳词汇量取决于可用的计算预算，而且较大的模型需要较大的词汇量。然而，大多数 LLM 使用的词汇量太小。例如，我们预测 Llama2-70B 的最佳词汇量至少应为 216K，是其 32K 词汇量的 7 倍。我们通过在不同的 FLOPs 预算中使用 3B 参数训练模型，以经验验证我们的预测。与常用的词汇量相比，采用我们预测的最佳词汇量可以持续改善下游性能。通过将词汇量从传统的 32K 增加到 43K，我们将 ARC-Challenge 的性能从 29.1 提高到 32.0，而 FLOPs 却仍为 2.3e21。我们的工作强调了联合考虑模型参数和词汇量大小以实现高效扩展的必要性。

4.Large Language Models as Reliable Knowledge Bases?

标题:大型语言模型是可靠的知识库吗？

author:Danna Zheng, Mirella Lapata, Jeff Z. Pan

date Time:2024-07-18

paper pdf:http://arxiv.org/pdf/2407.13578v1

摘要：
近来，NLP 界对利用大型语言模型（LLM）完成知识密集型任务的兴趣日益浓厚，并将 LLM 视为潜在的知识库（KB）。然而，LLMs 作为知识库发挥作用的可靠性和程度仍未得到充分探索。虽然以往的研究表明 LLMs 可以在其参数范围内编码知识，但仅凭参数知识的数量还不足以评估其作为知识库的有效性。本研究定义了可靠的 LLM 作为知识库应满足的标准，重点关注事实性和一致性，并涵盖可见和未知知识。我们根据这些标准制定了若干指标，并用它们对 26 种流行的 LLM 进行了评估，同时对模型大小、指令调整和上下文学习 (ICL) 的影响进行了全面分析。我们的结果令人担忧。即使像 GPT-3.5-turbo 这样的高性能模型也不符合事实，也不具有一致性，而 ICL 和微调等策略也不能成功地使 LLM 成为更好的 KB。

5.Can Open-Source LLMs Compete with Commercial Models? Exploring the Few-Shot Performance of Current GPT Models in Biomedical Tasks

标题:开源 LLM 能否与商业模型竞争？探究当前 GPT 模型在生物医学任务中的快速响应性能

author:Samy Ateia, Udo Kruschwitz

publish:Version as accepted at the BioASQ Lab at CLEF 2024

date Time:2024-07-18

paper pdf:http://arxiv.org/pdf/2407.13511v1

摘要：
商用大型语言模型（LLM），如支持 ChatGPT 的 OpenAI 的 GPT-4 和 Anthropic 的 Claude 3 Opus，一直主导着不同领域的自然语言处理（NLP）基准测试。Mixtral 8x7B 或 Llama 3 等新的竞争性开源替代品已经出现，似乎正在缩小差距，同时往往提供更高的吞吐量和更低的使用成本。开源 LLM 还可以自行托管，这使得它们在企业和临床用例中很有吸引力，因为在这些用例中，敏感数据不应由第三方处理。我们参加了第 12 届 BioASQ 挑战赛，这是一个检索增强生成（RAG）环境，我们探索了当前的 GPT 模型 Claude 3 Opus、GPT-3.5-turbo 和 Mixtral 8x7b 在上下文学习（零次、少量）和 QLoRa 微调下的性能。我们还探讨了将维基百科中的其他相关知识添加到 LLM 的上下文窗口中如何提高它们的性能。Mixtral 8x7b 在 10 次搜索和未进行微调的情况下都很有竞争力，但在零次搜索的情况下却无法得出可用的结果。QLoRa 微调和维基百科上下文并没有带来可衡量的性能提升。我们的研究结果表明，在 RAG 设置中，商业模式与开源模式之间的性能差距主要存在于 "零镜头 "设置中，只需针对特定领域的用例收集 "少量镜头 "示例，就能缩小这种差距。重新运行这些实验所需的代码可通过 GitHub 获取。

6.End-To-End Clinical Trial Matching with Large Language Models

标题:利用大型语言模型进行端到端临床试验匹配

author:Dyke Ferber, Lars Hilgers, Isabella C. Wiest, Marie-Elisabeth Leßmann, Jan Clusmann, Peter Neidlinger, Jiefu Zhu, Georg Wölflein, Jacqueline Lammert, Maximilian Tschochohei, Heiko Böhme, Dirk Jäger, Mihaela Aldea, Daniel Truhn, Christiane Höper, Jakob Nikolas Kather

publish:149 pages, including Supplements. 3 Main Figures

date Time:2024-07-18

paper pdf:http://arxiv.org/pdf/2407.13463v1

摘要：
将癌症患者与临床试验相匹配对于促进治疗和患者护理至关重要。然而，由于医学自由文本文件的格式不一致以及复杂的试验资格标准，这一过程对医生来说极具挑战性且耗费时间。我们研究了整个试验匹配过程–从 clinicaltrials.gov 上 105,600 项肿瘤相关临床试验中识别相关试验到生成标准级别的资格匹配–是否可以使用大型语言模型 (LLM) 自动完成。通过使用 GPT-4o 和一组 51 个合成电子病历 (EHR)，我们证明了我们的方法能在 93.3% 的情况下识别出相关的候选试验，并且在标准级别与人类专家定义的基线进行患者级别信息匹配时，初步准确率达到了 88.0%。利用 LLM 反馈发现，最初被认为不正确的标准中有 39.3% 是含糊不清或注释不准确的，因此在完善人类基线后，模型的总准确率达到了 92.7%。总之，我们提出了一种使用 LLM 进行临床试验匹配的端到端管道，在筛选和匹配试验与单个患者方面表现出了很高的精确度，甚至超过了合格医生的表现。我们的全端到端流水线既可以自主运行，也可以在人工监督下运行，而且不局限于肿瘤学，为在真实世界环境中增强患者-试验匹配提供了一个可扩展的解决方案。

7.BEAF: Observing BEfore-AFter Changes to Evaluate Hallucination in Vision-language Models

标题:BEAF：观察前-后变化以评估视觉语言模型中的幻觉

author:Moon Ye-Bin, Nam Hyeon-Woo, Wonseok Choi, Tae-Hyun Oh

publish:Accepted at ECCV 2024. [Project Pages] https://beafbench.github.io/

date Time:2024-07-18

paper pdf:http://arxiv.org/pdf/2407.13442v1

摘要：
视觉语言模型（VLM）通过视觉编码器和大型语言模型（LLM）的结合来感知世界。在大规模视觉文本数据集上预先训练的视觉编码器可对视觉数据进行零误差泛化，而大语言模型则赋予视觉语言模型高度的推理能力。这使得 VLM 无需微调即可在广泛的基准测试中获得高性能，展现出零次或少数几次的能力。然而，最近的研究表明，VLM 容易产生幻觉。这种不良行为会降低可靠性和可信度，从而使用户无法完全信任 VLM 的输出结果。为了提高可信度并更好地应对 VLM 的幻觉，我们策划了一个新的评估数据集，称为 BEfore-AFter 幻觉数据集（BEAF），并引入了新的指标：真实理解度 (TU)、误解度 (IG)、误判度 (SB) 和误判度 (ID)。与之前只关注构建问题和答案的工作不同，我们的基准的主要理念是通过图像编辑模型来处理视觉场景信息，并根据场景变化来设计度量标准。这样，我们就能通过观察感知变化的能力，清楚地评估 VLM 是否正确理解了给定场景。我们还通过双轴视图（视觉和文本）将图像与对象之间的关系可视化。在使用我们的数据集对 VLM 进行评估后，我们发现我们的指标揭示了 VLM 幻觉的不同方面，而这些方面以前从未报道过。项目页面：\url{https://beafbench.github.io/}

8.Retrieval-Augmented Generation for Natural Language Processing: A Survey

标题:自然语言处理的检索增强生成：调查

author:Shangyu Wu, Ying Xiong, Yufei Cui, Haolun Wu, Can Chen, Ye Yuan, Lianming Huang, Xue Liu, Tei-Wei Kuo, Nan Guan, Chun Jason Xue

date Time:2024-07-18

paper pdf:http://arxiv.org/pdf/2407.13193v2

摘要：
大语言模型（LLM）因其存储知识的大量参数而在各个领域取得了巨大成功。然而，LLM 仍然存在几个关键问题，如幻觉问题、知识更新问题以及缺乏特定领域的专业知识。检索增强生成（RAG）利用外部知识数据库来增强 LLM，它的出现弥补了 LLM 的这些缺陷。本文回顾了 RAG 的所有重要技术，尤其是检索器和检索融合技术。此外，本文还提供了实现 RAG 中代表性技术的教程代码。本文进一步讨论了 RAG 训练，包括有/无数据存储更新的 RAG。然后，我们介绍了 RAG 在代表性自然语言处理任务和工业场景中的应用。最后，本文讨论了 RAG 的未来发展方向和挑战，以促进其发展。

9.Translate-and-Revise: Boosting Large Language Models for Constrained Translation

标题:翻译和修订：为受限翻译提升大型语言模型

author:Pengcheng Huang, Yongyu Mu, Yuzhang Wu, Bei Li, Chunyang Xiao, Tong Xiao, Jingbo Zhu

publish:16 pages

date Time:2024-07-18

paper pdf:http://arxiv.org/pdf/2407.13164v1

摘要：
对机器翻译系统施加约束是一个具有挑战性的问题，因为这些系统没有经过训练，无法利用约束生成适当、流畅的翻译。在本文中，我们利用大语言模型（LLM）的能力来进行约束翻译，因为 LLM 可以通过将翻译指令和约束作为提示来轻松适应这项任务。然而，LLMs 并不总能保证翻译的充分性，在某些情况下还会忽略给定的限制条件。这部分是因为 LLM 可能对自己的预测过于自信，从而忽略了限制条件的影响。为了克服这种忽略行为，我们建议增加一个修订过程，通过提示 LLMs 尚未满足的限制条件，鼓励 LLMs 更正输出结果。我们在四个约束翻译任务中对我们的方法进行了评估，其中包括多个约束域中的词汇和结构约束。实验结果表明，与标准 LLM 相比，基于约束的翻译准确率提高了 15%，而且该方法还明显优于神经机器翻译（NMT）的最先进方法。

10.Rethinking Video-Text Understanding: Retrieval from Counterfactually Augmented Data

标题:反思视频文本理解：从反事实增强数据中进行检索

author:Wufei Ma, Kai Li, Zhongshi Jiang, Moustafa Meshry, Qihao Liu, Huiyu Wang, Christian Häne, Alan Yuille

publish:ECCV 2024. Project page: https://feint6k.github.io

date Time:2024-07-18

paper pdf:http://arxiv.org/pdf/2407.13094v1

摘要：
最近的视频-文本基础模型在各种下游视频理解任务中表现出了强劲的性能。这些视频-文本模型能否真正理解自然视频的内容？标准的视频-文本评估可能会产生误导，因为许多问题可以仅从单帧中的对象和上下文或数据集固有的偏差中推断出来。在本文中，我们旨在更好地评估当前视频-文本模型的能力，并了解其局限性。我们为视频-文本理解提出了一个新的评估任务，即反事实增强数据检索（RCAD）和一个新的 Feint6K 数据集。要在我们的新评估任务中取得成功，模型必须从跨帧推理中获得对视频的全面理解。分析表明，以前的视频-文本基础模型很容易被反事实增强数据所欺骗，其性能远远落后于人类水平。为了缩小视频-文本模型与人类在 RCAD 上的表现之间的差距，我们找出了当前视频-文本数据对比方法的一个关键局限，并引入了 LLM-教师，这是一种利用从预训练的大型语言模型中获得的知识来学习动作语义的更有效方法。实验和分析表明，我们的方法成功地学习到了更具区分性的动作嵌入，并在应用于多个视频-文本模型时改善了 Feint6K 的结果。我们的 Feint6K 数据集和项目页面见 https://feint6k.github.io。

11.A Survey of Prompt Engineering Methods in Large Language Models for Different NLP Tasks

标题:针对不同 NLP 任务的大型语言模型中的提示工程方法调查

author:Shubham Vatsal, Harsh Dubey

date Time:2024-07-17

paper pdf:http://arxiv.org/pdf/2407.12994v1

摘要：
大型语言模型（LLM）在许多不同的自然语言处理（NLP）任务中表现出了卓越的性能。提示工程在增强 LLM 现有能力方面发挥着关键作用，可在各种 NLP 任务中显著提高性能。提示工程需要合成称为提示的自然语言指令，以结构化的方式从 LLMs 中获取知识。与以往最先进的（SoTA）模型不同，提示工程不需要根据给定的 NLP 任务进行广泛的参数再训练或微调，因此只需利用 LLM 的嵌入式知识。此外，LLM 爱好者可以通过基本的自然语言对话交流或提示工程智能地提取 LLM 的知识，让越来越多没有深厚数学机器学习背景的人也能尝试使用 LLM。随着提示工程在近两年越来越受欢迎，研究人员围绕设计提示提出了许多工程技术，以提高从 LLMs 中提取信息的准确性。在本文中，我们总结了不同的提示技术，并根据这些技术所用于的不同 NLP 任务将它们归纳在一起。我们进一步细化了这些提示策略在属于该 NLP 任务的各种数据集上的表现，讨论了所使用的相应 LLM，展示了分类图，并讨论了特定数据集可能的 SoTA。我们总共阅读并介绍了 44 篇研究论文，其中涉及 29 种不同 NLP 任务的 39 种不同提示方法，其中大部分论文都是在过去两年中发表的。

12.Text- and Feature-based Models for Compound Multimodal Emotion Recognition in the Wild

标题:基于文本和特征的野外复合多模态情感识别模型

author:Nicolas Richet, Soufiane Belharbi, Haseeb Aslam, Meike Emilie Schadt, Manuela González-González, Gustave Cortal, Alessandro Lameiras Koerich, Marco Pedersoli, Alain Finkel, Simon Bacon, Eric Granger

date Time:2024-07-17

paper pdf:http://arxiv.org/pdf/2407.12927v1

摘要：
多模态情绪识别（ER）系统通常依靠从不同模态（如视觉、音频和文本）提取的特征来预测七种基本情绪。然而，复合情绪经常出现在现实世界的场景中，而且更难预测。由于不同模态的不确定性增加，复合多模态 ER 在视频中变得更具挑战性。此外，基于特征的标准模型可能无法完全捕捉到理解复合情绪所需的复杂而微妙的线索。 %%%% 由于可以通过文本形式提取相关线索，我们主张将所有模态（如视觉和音频）文本化，以利用大型语言模型（LLM）的能力。这些模型可以理解各种模式之间的复杂互动以及复杂情绪的微妙之处。虽然训练 LLM 需要大规模的数据集，但最近涌现出的预训练 LLM（如 BERT 和 LLaMA）可以很容易地针对复合 ER 等下游任务进行微调。本文比较了视频中复合 ER 的两种多模态建模方法–基于标准特征的方法和基于文本的方法。我们在具有挑战性的 C-EXPR-DB 数据集上进行了复合 ER 实验，并将实验结果与基本 ER 的 MELD 数据集进行了对比。我们的代码

13.Patch-Level Training for Large Language Models

标题:大型语言模型的片段级训练

author:Chenze Shao, Fandong Meng, Jie Zhou

date Time:2024-07-17

paper pdf:http://arxiv.org/pdf/2407.12665v1

摘要：
随着大型语言模型（LLMs）在语言理解和生成方面取得显著进展，其训练效率已成为一个关键问题。传统上，LLM 的训练目的是预测序列中的下一个标记。尽管标记级训练很成功，但由于需要处理大量标记，因此计算成本相当高。为了缓解这一问题，本文引入了 LLM 的补丁级训练，通过将多个标记压缩到单个补丁中来减少序列长度。在补丁级训练中，我们向语言模型输入较短的补丁序列，并训练它预测下一个补丁，从而以显著降低的计算成本处理大部分训练数据。之后，模型将继续对剩余的训练数据进行标记级训练，以与推理模式保持一致。在各种模型（3.7 亿-2.7 亿个参数）上进行的实验表明，与令牌级训练相比，补丁级训练可以将总体计算成本降低到 0.5 美元/次，而不影响模型性能。源代码：\url{https://github.com/shaochenze/PatchTrain}.

14.The Fabrication of Reality and Fantasy: Scene Generation with LLM-Assisted Prompt Interpretation

标题:编造现实与幻想：利用 LLM 辅助提示解释生成场景

author:Yi Yao, Chan-Feng Hsu, Jhe-Hao Lin, Hongxia Xie, Terence Lin, Yi-Ning Huang, Hong-Han Shuai, Wen-Huang Cheng

publish:Accepted by ECCV 2024

date Time:2024-07-17

paper pdf:http://arxiv.org/pdf/2407.12579v1

摘要：
尽管文本到图像生成技术近来取得了进步，但由于训练数据的多样性和复杂性受到限制，在处理复杂和富有想象力的提示时仍然存在局限性。这项研究探讨了扩散模型如何从需要艺术创造力或专业知识的提示中生成图像。我们引入了现实-幻想基准（RFBench），这是一个融合现实和幻想场景的新型评估框架。为了应对这些挑战，我们提出了现实-幻想网络（RFNet），这是一种将扩散模型与 LLM 集成在一起的免训练方法。广泛的人工评估和基于 GPT 的合成评估证明了我们的方法优于最先进的方法。我们的代码和数据集可在 https://leo81005.github.io/Reality-and-Fantasy/ 上获取。

15.Crafting the Path: Robust Query Rewriting for Information Retrieval

标题:设计路径：信息检索的稳健查询重写

author:Ingeol Baek, Jimin Lee, Joonho Yang, Hwanhee Lee

publish:1 figure, 12 tables

date Time:2024-07-17

paper pdf:http://arxiv.org/pdf/2407.12529v1

摘要：
查询重写的目的是生成一个新的查询，对原始查询进行补充，从而改进信息检索系统。最近关于查询重写的研究，如 query2doc (Q2D)、query2expand (Q2E) 和 querey2cot (Q2C)，都依赖于大语言模型（LLM）的内部知识来生成相关段落，为查询添加信息。然而，如果模型的内在参数中没有封装必要的知识，这些方法的功效就会明显下降。在本文中，我们提出了一种为检索系统量身定制的新型结构化查询改写方法，称为 “创建路径”（Crafting the Path）。Crafting the Path 包含一个三步流程，在每一步中都会精心制作与查询相关的必要信息，以便找到要搜索的段落。具体来说，Crafting the Path 从查询概念理解开始，然后是查询类型识别，最后是预期答案提取。实验结果表明，我们的方法优于以前的重写方法，尤其是在 LLM 不太熟悉的领域。我们证明，我们的方法对模型内部参数知识的依赖性较低，生成的查询较少出现事实不准确的情况。此外，我们还发现 Crafting the Path 与基线相比延迟更短。

16.Explainable Biomedical Hypothesis Generation via Retrieval Augmented Generation enabled Large Language Models

标题:通过检索增强生成启用大型语言模型的可解释生物医学假设

author:Alexander R. Pelletier, Joseph Ramirez, Irsyad Adam, Simha Sankar, Yu Yan, Ding Wang, Dylan Steinecke, Wei Wang, Peipei Ping

date Time:2024-07-17

paper pdf:http://arxiv.org/pdf/2407.12888v1

摘要：
如今，海量的生物医学信息给寻求有效消化、处理和理解这些研究结果的研究人员带来了巨大的挑战。大型语言模型（LLM）已成为驾驭这一复杂而又充满挑战的数据环境的有力工具。然而，大型语言模型可能会导致幻觉反应，因此检索增强生成（RAG）对于获得准确信息至关重要。在本协议中，我们介绍了 RUGGED（图引导下可解释疾病区分检索），这是一个全面的工作流程，旨在支持研究人员进行知识整合和假设生成，确定有效的前进路径。通过文本挖掘关联分析和疾病节点上的可解释图预测模型，对出版物和知识库中的相关生物医学信息进行审查、整合和提取，预测药物和疾病之间的潜在联系。这些分析与生物医学文本一起被整合到一个框架中，通过支持 RAG 的 LLM，促进用户导向的机制阐释和假设探索。一个临床用例展示了 RUGGED 评估和推荐心律失常性心肌病 (ACM) 和扩张型心肌病 (DCM) 治疗方法的能力，分析了处方药的分子相互作用和未开发用途。该平台最大限度地减少了 LLM 幻觉，提供了可行的见解，并改进了新型疗法的研究。

17.Predicting Emotion Intensity in Polish Political Texts: Comparing Supervised Models and Large Language Models in a Resource-Poor Language

标题:预测波兰政治文本中的情感强度：比较资源贫乏语言中的监督模型和大语言模型

author:Hubert Plisiecki, Piotr Koc, Maria Flakus, Artur Pokropek

publish:The Appendix is located at the very bottom of the manuscript

date Time:2024-07-16

paper pdf:http://arxiv.org/pdf/2407.12141v1

摘要：
本研究探讨了如何使用大型语言模型（LLMs）来预测波兰政治文本（一种资源匮乏的语言环境）中的情感强度。研究比较了几个 LLM 与一个在 10,000 篇社交媒体文本注释语料库上训练的监督模型的性能，该语料库由专家评委对情感强度进行评估。研究结果表明，虽然有监督模型的性能普遍优于 LLM，准确率更高，方差更小，但 LLM 是一种可行的替代方法，特别是考虑到数据注释的高成本。这项研究强调了 LLMs 在低资源语言环境中的潜力，并强调了进一步研究情绪强度预测及其在不同语言和连续特征中应用的必要性。研究的意义表明，研究人员和从业人员在根据资源可用性和任务的具体要求选择正确的情绪预测方法时，需要有一个细致入微的决策过程。

18.LLMs-in-the-loop Part-1: Expert Small AI Models for Bio-Medical Text Translation

标题:LLMs-in-the-loop Part-1：用于生物医学文本翻译的小型人工智能专家模型

author:Bunyamin Keles, Murat Gunay, Serdar I. Caglar

publish:14 pages, 2 figures, 9 tables

date Time:2024-07-16

paper pdf:http://arxiv.org/pdf/2407.12126v1

摘要：
机器翻译是医疗保健领域不可或缺的工具，它可以在全球范围内跨语言传播医学知识。然而，复杂的医学术语对实现适当的翻译质量和准确性提出了独特的挑战。本研究介绍了一种新颖的 "LLMs-in-the-loop "方法，用于开发专门针对医学文本进行优化的监督神经机器翻译模型。虽然大型语言模型（LLMs）已经显示出强大的能力，但本研究表明，在高质量领域内（主要是合成）数据上训练的小型专业模型甚至可以超越大型 LLMs。六种语言的定制并行语料库由科学文章、合成的临床文档和医学文本组成。我们的 "LLMs-in-the-loop "方法采用合成数据生成、严格评估和代理协调来提高性能。我们使用 MarianMT 基础模型开发了小型医学翻译模型。我们引入了一个新的医学翻译测试数据集，以规范该领域的评估。通过在该测试集上使用 BLEU、METEOR、ROUGE 和 BERT 分数进行评估，我们基于 MarianMT 的模型优于 Google 翻译、DeepL 和 GPT-4-Turbo。结果表明，我们的 LLM 在环方法与高质量、特定领域数据的微调相结合，使专用模型的性能超过了通用系统和一些大型系统。这项研究是更广泛的小型专家模型系列研究的一部分，它为未来与医疗相关的人工智能发展铺平了道路，包括去身份化和生物医学实体提取模型。我们的研究强调了量身定制的神经翻译模型和 LLMs-in-the-loop 方法的潜力，通过改进数据生成、评估、代理和建模技术来推动该领域的发展。

19.Efficiently Training 7B LLM with 1 Million Sequence Length on 8 GPUs

标题:在 8 个 GPU 上以 100 万序列长度高效训练 7B LLM

author:Pinxue Zhao, Hailin Zhang, Fangcheng Fu, Xiaonan Nie, Qibin Liu, Fang Yang, Yuanbo Peng, Dian Jiao, Shuaipeng Li, Jinbao Xue, Yangyu Tao, Bin Cui

date Time:2024-07-16

paper pdf:http://arxiv.org/pdf/2407.12117v1

摘要：
如今，大型语言模型（LLM）已经开始使用扩展的上下文长度进行训练，以促进更具创造性的应用。然而，考虑到 GPU 内存的限制，长上下文训练带来了巨大的挑战。它不仅会在训练过程中消耗大量激活内存，还会造成大量内存碎片。为了促进长语境训练，现有框架采用了重新计算和各种形式的并行等策略。然而，这些技术依赖于冗余计算或大量通信，导致模型 FLOPS 利用率（MFU）较低。在本文中，我们提出了一种新型 LLM 训练框架 MEMO，该框架专为细粒度激活内存管理而设计。考虑到使用 FlashAttention 时计算量的二次缩放和内存与序列长度的线性缩放，我们在每层前向传递后将消耗内存的激活卸载到 CPU 内存中，并在后向传递时获取它们。为了在不影响计算的情况下最大限度地交换激活，并避免耗尽有限的 CPU 内存，我们实施了一种令牌式激活重新计算和交换机制。此外，我们还采用双层混合整数编程（MIP）方法来解决内存碎片问题，优化变压器层之间的内存重用。经验结果表明，与 Megatron-LM 和 DeepSpeed 相比，MEMO 的 MFU 平均分别提高了 2.42 倍和 2.26 倍。这一改进归功于 MEMO 能够最大限度地减少内存碎片、减少重新计算和密集通信，并规避因碎片导致的内存重组过程相关延迟。通过利用细粒度激活内存管理，MEMO 可在 8 个 A800 GPU 上高效地训练 100 万序列长度的 7B LLM，实现 52.30% 的 MFU。

20.Better RAG using Relevant Information Gain

标题:利用相关信息获得更好的 RAG

author:Marc Pickett, Jeremy Hartman, Ayan Kumar Bhowmick, Raquib-ul Alam, Aditya Vempaty

publish:4 page paper submitted to EMNLP

date Time:2024-07-16

paper pdf:http://arxiv.org/pdf/2407.12101v1

摘要：
扩展大型语言模型（LLM）内存的常用方法是检索增强生成（RAG），即把从更大内存中检索到的文本插入 LLM 的上下文窗口。然而，上下文窗口通常仅限于几千个词组，这就限制了可为模型响应提供信息的检索段落的数量。因此，通过确保所检索段落的多样性来避免冗余信息占据上下文窗口空间是非常重要的。同时，这些信息还应该与当前任务相关。之前大多数鼓励检索结果多样性的方法，如最大边际相关性（MMR），都是通过在多样性和相关性之间进行明确权衡的目标来实现的。我们提出了一种基于相关信息增益的新颖、简单的优化指标，它是对一组检索结果中与查询相关的全部信息的概率度量。通过优化这一指标，我们的系统有机地产生了多样性。当用作 RAG 系统检索组件的直接替代品时，这种方法在检索增强生成基准（RGB）的问题解答任务中取得了一流的性能，超过了直接优化相关性和多样性的现有指标。

21.NeedleBench: Can LLMs Do Retrieval and Reasoning in 1 Million Context Window?

标题:NeedleBench：LLM 能否在 100 万语境窗口中进行检索和推理？

author:Mo Li, Songyang Zhang, Yunxin Liu, Kai Chen

date Time:2024-07-16

paper pdf:http://arxiv.org/pdf/2407.11963v1

摘要：
在评估大型语言模型（LLM）的长语境能力时，从原始长文档中识别与用户查询相关的内容是任何 LLM 回答基于长文本的问题的重要前提。我们提出的 NeedleBench 是一个框架，由一系列挑战性逐渐增加的任务组成，用于评估双语长文本能力，跨越多个长度区间（4k、8k、32k、128k、200k、1000k 及以上）和不同深度范围，允许在不同文本深度区域策略性地插入关键数据点，以严格测试模型在不同语境下的检索和推理能力。我们使用 NeedleBench 框架来评估领先的开源模型在双语长文本中识别与问题相关的关键信息并应用这些信息进行推理的能力。此外，我们还提出了 “祖先痕迹挑战”（ATC），以模拟现实世界长语境任务中可能出现的逻辑推理挑战的复杂性，从而为评估 LLM 处理复杂长语境情况提供了一种简单的方法。我们的研究结果表明，目前的 LLM 在实际长语境应用中还有很大的改进空间，因为它们难以应对现实世界长语境任务中可能出现的复杂逻辑推理挑战。所有代码和资源均可在 OpenCompass: https://github.com/open-compass/opencompass 上获取。

22.MINI-LLM: Memory-Efficient Structured Pruning for Large Language Models

标题:MINI-LLM：大型语言模型的记忆高效结构剪枝

author:Hongrong Cheng, Miao Zhang, Javen Qinfeng Shi

publish:13 pages

date Time:2024-07-16

paper pdf:http://arxiv.org/pdf/2407.11681v1

摘要：
随着大型语言模型（LLMs）规模的急剧增长，压缩和加速这些模型的趋势日益明显。以往的研究已经强调了梯度在神经网络压缩中重要性评分的作用，尤其是在剪枝中等规模的网络时。然而，利用反向传播计算梯度需要大量内存，这阻碍了梯度在指导 LLM 剪枝中的应用。因此，大多数 LLM 的剪枝策略都依赖于无梯度标准，如权重大小或权重大小与激活度的混合。在本文中，我们设计了一种混合剪枝标准，它适当地整合了幅度、激活度和梯度，以利用特征图谱的敏感性来剪枝 LLM。为了克服内存需求障碍，我们只使用前向传递来估计梯度。在此基础上，我们提出了一种用于 LLM 的内存效率结构化剪枝程序（MINI-LLM），以去除非关键通道和多注意头。实验结果表明，在三种 LLM 上，MINI-LLM 的性能优于现有的无梯度方法：LLaMA、BLOOM 和 OPT 在各种下游任务（分类、多选和生成）上的性能，同时 MINI-LLM 保持了与无梯度方法类似的 GPU 内存占用。

23.Fine-Tuning Medical Language Models for Enhanced Long-Contextual Understanding and Domain Expertise

标题:微调医学语言模型，增强长语境理解和领域专业知识

author:Qimin Yang, Rongsheng Wang, Jiexin Chen, Runqi Su, Tao Tan

publish:5 pages, 1 figure. Accepted by the Workshop on Long-Context
Foundation Models (LCFM) at ICML 2024

date Time:2024-07-16

paper pdf:http://arxiv.org/pdf/2407.11536v1

摘要：
大型语言模型（LLM）已广泛应用于各个专业领域。通过使用特定领域的问答数据集对模型进行微调，这些模型的专业领域知识和问答能力得到了显著提高，例如，使用医患问答数据进行微调的医学专业 LLMs 表现出了非凡的疾病诊断能力。然而，我们注意到，尽管在特定领域知识方面有所改进，但医学 LLM 在长语境理解方面的性能却明显下降，尤其是与具有类似参数的普通语言模型相比。本研究旨在调查医学 LLM 长语境理解性能下降的现象。我们设计了一系列实验，对所有模型进行开卷专业知识考试，以评估其阅读长语境的能力。在微调过程中，通过调整一般数据和医学数据的比例和数量，我们可以确定优化专业模型的最佳数据组成，实现长语境性能和特定领域知识之间的平衡。

24.Evaluation of RAG Metrics for Question Answering in the Telecom Domain

标题:电信领域问题解答的 RAG 指标评估

author:Sujoy Roychowdhury, Sumit Soman, H G Ranjani, Neeraj Gunda, Vansh Chhabra, Sai Krishna Bala

publish:Accepted for publication in ICML 2024 Workshop on Foundation Models
in the Wild

date Time:2024-07-15

paper pdf:http://arxiv.org/pdf/2407.12873v1

摘要：
检索增强生成（RAG）被广泛用于使大型语言模型（LLM）在不同领域执行问题解答（QA）任务。然而，基于开源 LLM 的 RAG 在评估生成的回答方面面临挑战。文献中一个流行的框架是 RAG Assessment (RAGAS)，这是一个使用 LLMs 进行评估的公开库。RAGAS 的一个缺点是缺乏评估指标数值推导的细节。这项工作的成果之一是针对少数指标（忠实度、上下文相关性、答案相关性、答案正确性、答案相似性和事实正确性）对该软件包进行了修改，通过该软件包，我们可以使用任何 LLMs 提供提示的中间输出。接下来，我们分析了专家对修改后的 RAGAS 软件包输出结果的评价，并观察了在电信领域使用该软件包所面临的挑战。我们还研究了正确检索与错误检索下的指标效果，发现正确检索下的指标值较高。我们还研究了基础嵌入与通过预训练和微调进行领域调整的嵌入之间的指标差异。最后，我们对这些指标在实际电信质量保证任务中的适用性和挑战进行了评论。

25.Graphusion: Leveraging Large Language Models for Scientific Knowledge Graph Fusion and Construction in NLP Education

标题:Graphusion：在 NLP 教育中利用大型语言模型进行科学知识图谱融合与构建

author:Rui Yang, Boming Yang, Sixun Ouyang, Tianwei She, Aosong Feng, Yuang Jiang, Freddy Lecue, Jinghui Lu, Irene Li

publish:24 pages, 11 figures, 13 tables. arXiv admin note: substantial text
overlap with arXiv:2402.14293

date Time:2024-07-15

paper pdf:http://arxiv.org/pdf/2407.10794v1

摘要：
知识图谱（KG）在人工智能领域至关重要，被广泛应用于下游任务，如增强问题解答（QA）系统。构建知识图谱通常需要领域专家的大量努力。最近，大语言模型（LLM）被用于知识图谱构建（KGC），然而，大多数现有方法都侧重于局部视角，从单个句子或文档中提取知识三元组。在这项工作中，我们引入了 Graphusion，这是一个从自由文本中提取知识的零射频 KGC 框架。核心融合模块提供了三元组的全局视图，包含实体合并、冲突解决和新型三元组发现。我们展示了 Graphusion 如何应用于自然语言处理（NLP）领域，并在教育场景中进行了验证。具体来说，我们介绍了 TutorQA，这是一个经过专家验证的新的图形推理和质量保证基准，包括六个任务和总共 1200 个质量保证对。我们的评估结果表明，Graphusion 在链接预测方面的准确率比监督基准高出 10%。此外，在概念实体提取和关系识别的人类评估中，Graphusion 分别获得了 2.92 和 2.37 的平均分（满分 3 分）。

26.GraphEval: A Knowledge-Graph Based LLM Hallucination Evaluation Framework

标题:GraphEval：基于知识图谱的 LLM 幻觉评估框架

author:Hannah Sansford, Nicholas Richardson, Hermina Petric Maretic, Juba Nait Saada

publish:12 pages, to be published at KiL’24: Workshop on Knowledge-infused
Learning co-located with 30th ACM KDD Conference, August 26, 2024, Barcelona,
Spain

date Time:2024-07-15

paper pdf:http://arxiv.org/pdf/2407.10793v1

摘要：
评估大型语言模型（LLM）响应和检测与所提供知识不一致（也称为幻觉）的方法，对于 LLM 应用越来越重要。目前的度量方法无法提供可解释的决定，也无法系统地检查响应中的所有信息，而且通常计算成本过高，无法在实践中使用。我们提出了 GraphEval：一种基于知识图谱（KG）结构的幻觉评估框架。我们的方法能识别知识图谱中容易产生幻觉的特定三元组，因此与之前的方法相比，我们能更深入地了解幻觉发生在反应的哪个环节（如果有的话）。此外，与使用原始自然语言推理（NLI）模型相比，将我们的方法与最先进的自然语言推理（NLI）模型结合使用可提高各种幻觉基准的平衡准确性。最后，我们探索了如何利用 GraphEval 的 KG 结构来纠正幻觉，我们将这种方法命名为 GraphCorrect，并证明大多数幻觉确实可以得到纠正。

27.Enhancing Retrieval and Managing Retrieval: A Four-Module Synergy for Improved Quality and Efficiency in RAG Systems

标题:加强检索和管理检索：提高 RAG 系统质量和效率的四模块协同作用

author:Yunxiao Shi, Xing Zi, Zijing Shi, Haimin Zhang, Qiang Wu, Min Xu

publish:ECAI2024 #1304

date Time:2024-07-15

paper pdf:http://arxiv.org/pdf/2407.10670v1

摘要：
检索增强生成（RAG）技术利用大型语言模型（LLM）的上下文学习能力，生成更准确、更相关的响应。RAG 框架起源于简单的 "检索-阅读 "方法，现已发展成为高度灵活的模块化范例。其中一个关键组件–查询重写模块–通过生成便于搜索的查询来增强知识检索。这种方法能使输入问题与知识库更紧密地结合起来。我们的研究发现了将 Query Rewriter 模块增强为 Query Rewriter+ 的机会，即通过生成多个查询来克服与单个查询相关的信息高原，以及通过重写问题来消除歧义，从而明确基本意图。我们还发现，当前的 RAG 系统在无关知识方面存在问题；为了克服这一问题，我们提出了知识过滤器。这两个模块都基于经过指令调整的 Gemma-2B 模型，共同提高了答题质量。最后一个发现的问题是冗余检索，我们引入了记忆知识库和检索触发器来解决这个问题。前者支持以无参数方式动态扩展 RAG 系统的知识库，后者优化了访问外部知识的成本，从而提高了资源利用率和响应效率。这四个 RAG 模块协同提高了 RAG 系统的响应质量和效率。这些模块的有效性已通过六个常见质量保证数据集的实验和消融研究得到验证。源代码可通过 https://github.com/Ancientshi/ERM4 访问。

28.An Empirical Study of Validating Synthetic Data for Formula Generation

标题:验证公式生成合成数据的经验研究

author:Usneek Singh, José Cambronero, Sumit Gulwani, Aditya Kanade, Anirudh Khatry, Vu Le, Mukul Singh, Gust Verbruggen

date Time:2024-07-15

paper pdf:http://arxiv.org/pdf/2407.10657v1

摘要：
大语言模型（LLM）可用于帮助在电子表格中书写公式，但这些公式的资源稀缺，既影响了预训练模型的基本性能，也限制了对其进行微调的能力。有了公式语料库，我们就可以使用另一种模型来生成合成自然语言语句，以便进行微调。然而，验证由 LLM 生成的自然语言是否确实准确，从而有利于微调是非常重要的。在本文中，我们用评估合成注释准确性的替代目标来验证这些合成训练示例的影响，并提供了实证结果。我们证明，在四个模型（两个开放权重模型和两个封闭权重模型）中，与原始数据相比，验证提高了性能。有趣的是，我们发现尽管验证往往会删除更具挑战性的示例，但它却增加了模型在验证数据上进行微调后所能解决的问题的复杂性。

29.Cutting Through the Clutter: The Potential of LLMs for Efficient Filtration in Systematic Literature Reviews

标题:拨开杂乱无章：LLM 在系统文献综述中高效过滤的潜力

author:Lucas Joos, Daniel A. Keim, Maximilian T. Fischer

publish:5 pages, 5 figures, 1 table

date Time:2024-07-15

paper pdf:http://arxiv.org/pdf/2407.10652v1

摘要：
在学术研究中，系统性文献综述具有基础性和高度相关性，但由于涉及大量出版物和劳动密集型流程，创建起来非常繁琐。通过基于关键字的过滤技术等传统方法系统性地选择相关论文有时可能不够充分，语义模糊和术语不一致也会导致结果不理想。为了减少所需的大量人工筛选，我们探索并评估了使用大型语言模型（LLM）来提高文献综述筛选的效率、速度和精确度的潜力，从而减少所需的人工筛选量。通过使用模型作为仅作用于结构化数据库的分类代理，我们避免了 LLM 固有的常见问题，如幻觉。在最近一篇文献调查论文的构建过程中，我们评估了这种设置的实际性能，该论文最初考虑的潜在相关文章超过 8.3 千篇，并将其与人类在同一数据集上的性能进行了比较。我们的研究结果表明，使用 GPT-4o、Claude 3.5 Sonnet、Gemini 1.5 Flash 或 Llama3 等先进的 LLM，再加上简单的提示，可以大大缩短文献过滤所需的时间–从通常需要数周的人工研究缩短到几分钟。同时，我们还证明了通过共识方案确实可以控制假阴性，在典型的人为误差阈值甚至超过阈值的情况下，召回率可以达到大于 98.8%，从而使筛选出的文章更准确、更相关。我们的研究不仅证明了文献综述方法的重大改进，还为负责任的人工智能在学术研究实践中的进一步整合和广泛应用奠定了基础。

30.Practical Unlearning for Large Language Models

标题:大型语言模型的实用解学习

author:Chongyang Gao, Lixu Wang, Chenkai Weng, Xiao Wang, Qi Zhu

publish:17 pages, 8 figures. The first two authors contribute equally and
they are ordered alphabetically

date Time:2024-07-14

paper pdf:http://arxiv.org/pdf/2407.10223v1

摘要：
尽管 LLM 在各种领域和任务中都表现出了令人印象深刻的性能，但其安全性问题也变得越来越严重。机器非学习（MU）是解决这些问题的一个很有前途的方案，它可以消除不需要的数据对目标模型的影响，同时又不影响模型在其他方面的效用。MU 通常假定可以完全访问原始训练数据以保持实用性，而这在 LLM 取消学习中很难实现。现有的 LLM 取消学习方法通常假定可以访问受非期望数据取消学习影响最大的数据。然而，这种假设低估了各种 LLM 能力之间的纠缠，忽略了由于各种问题造成的数据访问限制。此外，这些 LLM 取消学习方法没有充分考虑到现实世界场景中不断出现的取消学习请求。为了克服这些挑战，实现实用的 LLM 取消学习，我们提出了 O3 框架。O3 框架包括一个用于测量输入数据和解除学习数据之间相似性的 “分布外”（OOD）检测器，以及一个用于持续解除学习请求数据的 “正交低秩适配器”（LoRA）。OOD 检测器采用新颖的对比熵损失进行训练，并利用局部-全局层聚合评分机制。正交 LoRA 实现了持续解学习请求之间的参数解耦。在推理过程中，我们的 O3 框架可以根据 OOD 检测器的预测，明智地决定是否以及在多大程度上加载解学习 LoRA。值得注意的是，O3 的有效性并不依赖于任何保留数据。我们在三个任务和七个数据集上对 O3 和最先进的 LLM 解除学习方法进行了广泛的实验。结果表明，O3 始终能在解除学习效率和效用保护之间实现最佳权衡，尤其是在面对连续的解除学习请求时。

31.Causality extraction from medical text using Large Language Models (LLMs)

标题:使用大型语言模型（LLM）从医学文本中提取因果关系

author:Seethalakshmi Gopalakrishnan, Luciana Garbayo, Wlodek Zadrozny

date Time:2024-07-13

paper pdf:http://arxiv.org/pdf/2407.10020v1

摘要：
本研究探索了自然语言模型（包括大型语言模型）从医学文本，特别是从临床实践指南（CPG）中提取因果关系的潜力。我们介绍了从妊娠糖尿病临床实践指南中提取因果关系的结果，这在该领域尚属首次。我们报告了一组使用 BERT 变体（BioBERT、DistilBERT 和 BERT）和大语言模型（LLM）（即 GPT-4 和 LLAMA2）进行的实验。实验结果表明，BioBERT 的表现优于包括大型语言模型在内的其他模型，平均 F1 分数为 0.72。GPT-4 和 LLAMA2 的结果显示出相似的性能，但一致性较差。我们还发布了代码和妊娠糖尿病临床实践指南中的因果语句注释语料库。

32.On Mitigating Code LLM Hallucinations with API Documentation

标题:通过 API 文档缓解代码 LLM 幻觉

author:Nihal Jain, Robert Kwiatkowski, Baishakhi Ray, Murali Krishna Ramanathan, Varun Kumar

date Time:2024-07-13

paper pdf:http://arxiv.org/pdf/2407.09726v1

摘要：
在本研究中，我们探讨了各种软件工程环境中的 API 幻觉问题。我们介绍了 CloudAPIBench，这是一种新的基准，旨在测量 API 幻觉的发生率。CloudAPIBench 还提供了公共领域中 API 出现频率的注释，使我们能够研究不同频率水平的 API 幻觉。我们的研究结果表明，代码 LLM 在处理低频 API 时非常吃力：例如，GPT-4o 仅实现了 38.58% 的有效低频 API 调用。我们证明，文档增强生成（DAG）可显著提高低频应用程序接口的性能（使用 DAG 后性能提高到 47.94%），但在使用次优检索器时，会对高频应用程序接口产生负面影响（绝对值下降 39.02%）。为了缓解这一问题，我们建议智能地触发 DAG，根据 API 索引进行检查，或者利用代码 LLM 的置信度分数，只在需要时才进行检索。我们证明，我们提出的方法增强了低频和高频 API 性能之间的平衡，从而提高了 API 调用的可靠性（GPT-4o 的 CloudAPIBench 绝对值提高了 8.20%）。