传神论文中心｜第14期人工智能领域论文推荐

在人工智能领域的快速发展中，我们不断看到令人振奋的技术进步和创新。近期，开放传神（OpenCSG）社区发现了一些值得关注的成就。传神社区本周也为对AI和大模型感兴趣的读者们提供了一些值得一读的研究工作的简要概述以及它们各自的论文推荐链接。

01 Claude 3.5 Sonnet

传神社区注意到这篇文章中有以下亮点:Claude 3.5 Sonnet 是一款新的语言模型，在多项常用基准测试（如 MMLU 和 HumanEval）上实现了最先进的性能。它在多个基准测试中的表现优于 Claude 3 Opus 和 GPT-4o，但在数学文字题解决任务方面除外。此外，它在视觉任务上也表现出色，这使得其在图像-文本转录和文物生成等新功能中表现卓越。

论文推荐链接：

https://opencsg.com/daily_papers/fRA8CPxCKTZU

02 DeepSeek-Coder-V2

传神社区注意到这篇文章中有以下亮点：DeepSeek-Coder-V2 在代码和数学生成任务中与闭源模型竞争，取得了优异成绩。在 HumanEval 上达到了 90.2%，在 MATH 上达到了 75.7%，这些结果高于 GPT-4-Turbo-0409 的性能报告。该模型包括 16B 和 236B 参数版本，具有 128K 的上下文长度。

论文推荐链接：

https://opencsg.com/daily_papers/5y9GeyeFSCj1

03 TextGrad

传神社区注意到这篇文章中有以下亮点：TextGrad 是一个新的框架，通过对由大型语言模型（LLM）提供的文本反馈进行反向传播实现自动微分。该框架改进了各个组件，并通过自然语言优化计算图。TextGrad 提供了一个无需调试提示或组件的目标函数。据称，当与 GPT4o 结合使用时，它在 LeetCodeHard 和 GPQA 基准测试上分别取得了最佳成绩和最先进的性能。

论文推荐链接：

https://opencsg.com/daily_papers/57J2WQD3MXrA

04 Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More?

传神社区注意到这篇文章中有以下亮点：《Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More?》对长上下文大型语言模型（LLMs）在上下文检索和推理中的性能进行了深入分析。研究首先提出了一个包含需要 1M 令牌上下文的真实世界任务的基准测试。报告指出，长上下文 LLMs 在未经过任何特定任务训练的情况下，可以媲美最先进的检索和 RAG 系统。然而，这些模型在处理 SQL 类任务所需的组合推理方面仍然具有挑战性。研究还鼓励继续对高级提示策略进行研究，因为在长上下文问题中应用这些策略时，性能显著提升。

论文推荐链接：

https://opencsg.com/daily_papers/7kdtB8F2QakH

05 PlanRAG

传神社区注意到这篇文章中有以下亮点：PlanRAG 是一种通过新颖的检索-生成（RAG）技术来增强决策的工具，称为迭代计划-再-RAG（PlanRAG）。它包括两个步骤：1) 一个语言模型通过检查数据架构和问题来生成决策计划；2) 检索器生成数据分析查询。最后一步检查是否需要新的计划进行进一步分析，并在之前的步骤上迭代或对数据做出决策。研究发现，PlanRAG 在提出的决策问答任务上比迭代 RAG 更为有效。

论文推荐链接：

https://opencsg.com/daily_papers/yBfVKjpCBX7Z

06 Mitigating Memorization in LLMs

传神社区注意到这篇文章中有以下亮点：《Mitigating Memorization in LLMs》提出了一种名为 goldfish loss 的修改版下一个词预测目标，以帮助减少对训练数据逐字生成的记忆。该技术通过在训练时排除伪随机子集的训练令牌来实现。研究表明，goldfish loss 能够抵制记忆，同时保持模型的实用性。然而，为了更有效地从训练数据中学习，模型可能需要更长的训练时间。

论文推荐链接：

https://opencsg.com/daily_papers/gFGpq7JhQzYv

07 Monte Carlos Tree Self-Refine

传神社区注意到这篇文章中有以下亮点：《Monte Carlo Tree Self-Refine》报告了一种将大型语言模型（LLMs）与蒙特卡罗树搜索（MCTS）结合的方法，达到了 GPT-4 级别的数学奥林匹克竞赛解题能力。该方法通过系统性探索、自我改进和自我评估等功能，增强了系统的数学推理性能。

论文推荐链接：

https://opencsg.com/daily_papers/dAsBR7woNqEb

08 From RAG to Rich Parameters

传神社区注意到这篇文章中有以下亮点：《From RAG to Rich Parameters》深入研究了大型语言模型（LLMs）在处理事实性查询时如何利用外部知识与参数化信息。研究发现，在 RAG 管道中，LLMs 倾向于“走捷径”，强烈依赖上下文信息来回答问题，而对其参数化记忆的依赖最小。

论文推荐链接：

https://opencsg.com/daily_papers/eQHuXwn3Dmzq

09 Open-Sora

传神社区注意到这篇文章中有以下亮点：Open-Sora 是一个开源的视频生成模型，可以生成16秒的720p视频。该模型拥有1.1B参数，基于超过3000万的数据进行训练，现已支持图像到视频的生成。它引入了增强的扩散模型和视频压缩网络，用于空间和时间的压缩，从而提高生成的可控性并降低训练成本。

论文推荐链接：

https://opencsg.com/daily_papers/sQZEkWwatqEz

10 Tree Search for Language Model Agents

传神社区注意到这篇文章中有以下亮点：《Tree Search for Language Model Agents》提出了一种推理时间的树搜索算法，帮助语言模型代理进行探索和多步推理。该算法在交互式网络环境中进行了测试，并应用于 GPT-4o，大幅提高了其性能。研究表明，随着测试时间计算量的增加，性能也相应提升。

论文推荐链接：

https://opencsg.com/daily_papers/grjnHevQkqsZ