【LLM】25.1.10 Arxiv LLM论文速递

25.1.9 12:00 - 25.1.10 12:00 共更新44 篇

—第1篇----

=====

AgroGPT: 高效的农业视觉-语言模型与专家调优

🔍 关键词: 农业, 视觉-语言模型, 大型多模态对话模型, 专家调优

PDF链接

摘要: 在推进大型多模态对话模型（LMMs）方面已经取得了显著进展，利用了在线可用的大量图像-文本数据存储库。尽管取得了这些进展，这些模型通常会遇到实质性的领域差距，阻碍它们在新领域进行复杂对话的能力。最近的努力旨在缓解这一问题，尽管依赖于特定领域的图像-文本数据来策划指令调优数据。然而，许多领域，例如农业，缺乏这样的视觉-语言数据。在本研究中，我们提出了一种利用仅视觉数据构建指令调优数据的农业领域方法。我们利用涵盖多个领域的多样化农业数据集，策划特定类别的信息，并使用大型语言模型（LLMs）构建一个专家调优集，最终生成一个包含70k专家调优数据集AgroInstruct。随后，我们进行了专家调优并创建了AgroGPT，这是一种高效的LMM，能够进行复杂的与农业相关的对话并提供有用的见解。我们还开发了AgroEvals进行评估，并将AgroGPT的性能与大型开源和闭源模型进行了比较。AgroGPT在识别细粒度农业概念方面表现出色，能充当农业专家，并为多模态农业问题提供有用的信息。代码、数据集和模型可在 https://github.com/awaisrauf/agroGPT 获取。

总结: AgroGPT 是一种专为农业领域优化的大型视觉-语言模型，能够进行复杂对话并提供专业见解。

【arXiv编号】2410.08405v2

【git】https://github.com/awaisrauf/agroGPT

【期刊】已被WACV 2025接受

【领域】农业、人工智能、计算机科学

[推荐指数：4]

AgroGPT通过利用农业领域的视觉数据和专家调优，显著提升了大型多模态模型在农业应用中的表现，具有较高的创新性和实用性。

—第2篇----

=====

文章名称

Using LLMs to Infer Non-Binary COVID-19 Sentiments of Chinese Micro-bloggers

🔍 关键词: 情感分析, 大型语言模型, COVID-19, 微博客, 社会情绪

链接1

摘要: 在危机期间研究公众情绪对于理解意见和情绪如何变化、社会如何极化至关重要。我们研究了中国最受欢迎的微博平台，在COVID-19危机爆发期间发布的帖子。研究期间包括COVID-19前期、爆发期和疫情防控早期。我们使用Llama 3 8B，大型语言模型，通过将用户情绪分类为积极、消极、讽刺和中立类别，来分析平台上的用户情绪。分析微博上的情绪变化提供了关于社会事件和政府行动如何影响公众舆论的见解。本研究有助于理解健康危机期间社会情绪的动态，填补了中国平台情感分析的空白。通过检查这些动态，我们旨在为数字通信在前所未有的全球挑战期间塑造社会反应的作用提供有价值的视角。

总结: 本文通过使用大型语言模型分析微博用户在COVID-19期间的多元情绪，揭示了社会事件和政府行动对公众舆论的影响。

###【arXiv编号】2501.05423

###【git】无

###【期刊】无

###【领域】计算机科学，情感分析

[推荐指数：4]

该研究创新性地使用先进的大型语言模型对中国微博平台的多元情绪进行分析，具有较高的实用性和学术价值，能够深入理解健康危机期间的社会情绪动态。

—第3篇----

=====

文章名称

ReFocus: Visual Editing as a Chain of Thought for Structured Image Understanding

🔍 关键词: 大型语言模型, 多模态, 结构化图像理解

arXiv链接

摘要: 结构化图像理解（如解释表格和图表）需要在图像内的各种结构和文本之间战略性地重新聚焦，形成推理序列以得出最终答案。然而，当前的多模态大型语言模型（LLM）缺乏这种多跳选择性注意能力。在本研究中，我们介绍了ReFocus，一个简单而有效的框架，能够通过代码对输入图像进行视觉编辑，生成“视觉思维”，从而为多模态LLM赋予生成“视觉思维”的能力，即通过调用工具和修改输入图像，依次绘制框、突出显示部分区域以及遮蔽某些区域，增强视觉推理过程。我们在涉及表格和图表的广泛结构化图像理解任务上进行了实验。ReFocus在所有任务上的表现都大幅优于未经视觉编辑的GPT-4o，表格任务平均提升11.0%，图表任务平均提升6.8%。我们对不同视觉编辑的效果进行了深入分析，并解释了为何在不引入额外信息的情况下ReFocus能够提升性能。此外，我们利用ReFocus收集了一个14k的训练集，证明这种具有中间信息的视觉链式思维比标准的VQA数据提供了更好的监督，相对于使用QA对训练的相同模型提升了8.0%，相对于CoT提升了2.6%。

总结: ReFocus框架通过视觉编辑增强多模态大型语言模型的视觉推理能力，显著提升了结构化图像理解任务的性能。

###【arXiv编号】
2501.05452v1

###【git】
不适用

###【期刊】
未提供

###【领域】
计算机科学

[推荐指数：4]

=====

—第4篇----

=====

A survey of textual cyber abuse detection using cutting-edge language models and large language models

🔍 关键词: 文本网络滥用检测, 语言模型, 大型语言模型, 在线滥用, 社交媒体

论文链接

摘要: 社交媒体平台的成功促进了数字社区中各种形式的在线滥用的出现。这种滥用表现为多种形式，包括仇恨言论、网络欺凌、情感虐待、诱骗和性行为。在本文中，我们对社交媒体中普遍存在的不同形式的滥用进行了全面分析，特别关注新兴技术，如语言模型（LMs）和大型语言模型（LLMs），如何重塑这些网络中滥用内容的检测和生成。我们深入探讨了社交媒体滥用得以延续的机制，探索了其心理和社会影响。此外，我们考察了先进语言模型的双重作用——强调它们增强自动检测系统以识别滥用行为的潜力，同时也承认它们生成有害内容的能力。本文旨在为关于在线安全和伦理的持续讨论做出贡献，提供有关网络滥用不断演变的格局以及既减轻又加剧这一问题的技术创新的见解。

总结: 本文全面分析了先进语言模型在检测和生成社交媒体滥用内容中的作用及其带来的伦理挑战。

【arXiv:2501.05443v1】

【git】无

【期刊】

正在审稿于《WIREs Data Mining and Knowledge Discovery》

【领域】

计算机科学 - 自然语言处理，网络安全

[推荐指数：4]

该调查论文系统综述了大型语言模型在文本网络滥用检测中的应用，具有较高的创新性和实用性，能够为相关研究提供重要参考。

—第5篇----

=====

FairCode: Evaluating Social Bias of LLMs in Code Generation

🔍 关键词: 大型语言模型, 代码生成, 社会偏见, 公平性评估

PDF链接

摘要: 大型语言模型（LLMs）在代码生成方面展示了显著的能力，并引起了对其输出质量和安全性的评估的越来越多的关注。然而，代码生成中的偏见研究仍然有限。现有研究通常通过应用恶意提示或重新使用用于判别模型的任务和数据集来评估偏见。鉴于LLMs通常与人类价值观一致，而先前的数据集未能充分优化用于代码相关任务，因此迫切需要专门设计用于评估代码模型的基准。在本研究中，我们引入了FairCode，一个用于评估代码生成中偏见的新型基准。FairCode包括两个任务：函数实现和测试用例生成，每个任务通过多样的场景评估社会偏见。此外，我们提出了一种新的度量标准，FairScore，用于评估模型在此基准上的性能。我们在广泛使用的LLMs上进行了实验，并提供了对结果的全面分析。研究发现，所有测试的LLMs都表现出偏见。代码可在https://github.com/YongkDu/FairCode获取。
总结: 本文提出了FairCode基准和FairScore指标，用于评估大型语言模型在代码生成中的社会偏见，发现所有测试模型均存在偏见。

###【arXiv编号】2501.05396v1
###【git】https://github.com/YongkDu/FairCode
###【期刊】未提供
###【领域】计算机

[推荐指数：4]

FairCode为评估代码生成模型中的社会偏见提供了创新的基准和评估指标，揭示了大型语言模型在公平性方面的不足，具有较高的学术价值和实用性。

—第6篇----

=====

文章名称

🔍 关键词: 大型语言模型, 显式记忆, 语言建模, 知识密集任务

链接1

摘要: 尽管当前的大型语言模型（LLMs）在许多与知识相关的任务上表现良好，但它们依赖于参数作为隐式存储机制，受限于此，它们在记忆罕见事件和随着时间变化更新记忆方面存在困难。此外，参数化记忆的不可解释性使得防止幻觉（hallucination）具有挑战性。模型编辑和通过专门的参数增强LLMs的记忆只是部分解决方案。本文介绍了MemLLM，一种通过集成结构化和显式的读写记忆模块来增强LLMs的新方法。MemLLM通过实现与记忆的动态交互，并改进LLM在使用存储知识方面的能力，解决上述挑战。我们的实验表明，MemLLM在通用语言建模和知识密集型任务中提高了LLM的性能和可解释性。我们认为MemLLM是通过记忆增强使LLMs更加有根基和事实化的重要一步。
总结: MemLLM通过集成显式读写记忆模块，提升了大型语言模型在知识密集任务中的性能和可解释性。

###【arXiv编号】2404.11672v2
###【git】: 无
###【期刊】: 无
###【领域】: 计算机科学，人工智能，自然语言处理

[推荐指数：4]

MemLLM在提升大型语言模型的知识处理能力和可解释性方面具有创新性和实用性，尤其适用于需要动态记忆和更新知识的应用场景。

—第7篇----

文章名称

🔍 关键词: Large Language Models, Foundation Models, Physics Research, AI Models

链接1

摘要: 本文探讨了物理特定的大规模人工智能模型（LPMs）的开发与评估的理念，并提供了潜在的路线图。这些模型基于大型语言模型（LLMs）等基础模型，经过针对物理研究需求的定制。LPMs 可以独立运行或作为集成框架的一部分，该框架可包含用于数学操作的符号推理模块、分析特定实验和模拟数据的框架，以及合成理论和科学文献的机制。文章首先审视物理社区是否应积极开发和完善专用模型，而不仅仅依赖商业LLMs。然后概述了通过物理学、计算机科学和科学哲学专家的跨学科合作实现LPMs的方法。为了有效整合这些模型，文章确定了三个关键支柱：开发、评估和哲学反思。开发侧重于构建能够处理物理文本、数学公式和多样化物理数据的模型。评估通过测试和基准测试来评估准确性和可靠性。最后，哲学反思包括分析LLMs在物理学中的更广泛影响，包括它们生成新科学理解的潜力以及可能在研究中出现的新型合作动态。受粒子物理实验合作组织结构的启发，作者提出了类似的跨学科和协作方法来构建和完善大型物理模型。该路线图提供了具体目标，定义了实现目标的途径，并确定了实现物理特定大规模AI模型所需解决的挑战。
总结: 本文提出了一个跨学科合作的发展路线图，用于构建和评估面向物理研究的大规模人工智能模型。

###【arXiv编号】
2501.05382v1

###【领域】
人工智能与物理学

[推荐指数：4]

该文章在人工智能与物理学交叉领域具有创新性，提出了具体的路线图和方法论，有助于推动物理学研究中的AI应用发展，实用性较强。

—第8篇----

=====

文章名称

Extracting Affect Aggregates from Longitudinal Social Media Data with Temporal Adapters for Large Language Models

🔍 关键词: 情感分析，长时间序列数据，社交媒体，语言模型，时间适配器

链接1

摘要: 本文提出了时间对齐的大型语言模型（LLMs）作为长期社交媒体数据分析的工具。我们在英国Twitter用户的完整时间线上微调了Llama 3 8B的时间适配器，并使用已建立的问卷调查提取情感和态度的纵向汇总。我们的分析重点放在对公共舆论和集体情绪产生强烈影响的新冠疫情初期。我们将估计结果与具有代表性的英国调查数据进行了验证，发现多个集体情绪具有强的正相关和显著性。所得估计在多个训练种子和提示公式中具有稳健性，并且与使用有标签数据训练的传统分类模型提取的集体情绪一致。我们通过时间适配器将影响分析扩展到纵向设置，演示了在没有预训练分类器的问题上的方法灵活性。该工作通过时间适配器将LLMs中的情感分析扩展到纵向设置，支持对社交媒体数据的纵向分析提供灵活的新方法。
总结: 本文通过时间适配器将大型语言模型应用于社交媒体数据的长期情感分析，展示了其在新冠疫情期间公共情绪研究中的有效性和灵活性。

###【arXiv编号】2409.17990v2
###【git】
###【期刊】未提供
###【领域】计算机科学，情感分析，自然语言处理

[推荐指数：4]

该研究在利用大型语言模型进行长期情感分析方面具有创新性和实用性，通过时间适配器有效地处理了社交媒体数据的纵向分析，验证结果可靠，适用广泛。

—第9篇----

=====

TradingAgents: Multi-Agents LLM Financial Trading Framework

🔍 关键词: 多代理系统, 大型语言模型, 金融交易, 股票交易框架

PDF链接

摘要: 在使用由大型语言模型（LLMs）驱动的代理社会进行自动化问题解决方面已经取得了显著进展。在金融领域，努力主要集中在处理特定任务的单一代理系统或独立收集数据的多代理框架。然而，多代理系统复制现实世界交易公司的协作动态的潜力仍然未被充分探索。TradingAgents提出了一个受交易公司启发的新颖股票交易框架，具有在专门角色（如基础分析师、情绪分析师、技术分析师和具有不同风险偏好的交易员）中的LLM驱动的代理。该框架包括评估市场状况的牛市和熊市研究代理，监控风险暴露的风险管理团队，以及从辩论和历史数据中综合见解以做出明智决策的交易员。通过模拟一个动态的协作交易环境，该框架旨在提升交易表现。详细的架构和广泛的实验表明其优于基线模型，在累计回报率、夏普比率和最大回撤方面都有显著改进，突显了多代理LLM框架在金融交易中的潜力。更多关于TradingAgents的细节可查阅https://TradingAgents-AI.github.io。
总结: 本框架通过模拟交易公司的协作动态，利用多代理LLM系统显著提升金融交易性能。

【arXiv:2412.20138v2】

【git】: 未提供

【期刊】: 未提供

【领域】: 金融交易, 人工智能, 多智能体系统

[推荐指数：4]

该研究提出了受交易公司启发的多代理LLM框架，通过模拟协作交易环境，显著提升了金融交易的表现，展现了多代理系统在金融领域的应用潜力，具有较高的创新性和实用性。

—第10篇----

=====

流式对齐器：通过分布引导实现高效的句子级对齐

🔍 关键词: 大型语言模型，对齐，句子级纠正，推理能力

链接1

摘要: 大型语言模型（LLMs）的快速发展带来了能力的显著提升，但也引发了关于它们与人类价值观和意图对齐的日益关注。目前的对齐策略，包括自适应训练和推断时方法，在这一领域展现了潜力。然而，这些方法在保持部署复杂性和在各项任务及困难中保持能力方面仍然面临挑战。在这项工作中，我们介绍了流式分布引导对齐器（Stream Aligner），一种新颖的对齐范式，结合了效率与在整个生成过程中多任务的增强性能。Stream Aligner 通过使用一个小模型学习后缀句子的偏好，动态进行句子级纠正，迭代纠正上游模型生成的后缀句子输出，然后使用纠正后的句子替换后续生成中的后缀句子，从而实现动态句子级纠正。与 Aligner 相比，我们的实验证明，Stream Aligner 减少了对额外模型能力的依赖，增强了 LLMs 的推理能力，并降低了用户交互时的延迟。具体而言，Stream Aligner-2B 模型在测试的 Llama2-70B-chat 模型上提高了 76.1% 的帮助性，36.0% 的无害性；而 Stream Aligner-8B 在测试的 Llama3-70B-Instruct 模型的数学能力上提高了 3.5%。

总结: 本文提出了一种名为 Stream Aligner 的新型对齐方法，通过动态句子级纠正显著提升了大语言模型的对齐效果和推理能力。

###【arXiv编号】2501.05336v1
###【git】无
###【期刊】无（AAAI Alignment Track 2025 Poster）
###【领域】计算机科学，人工智能，语言模型对齐