传神论文中心|第14期人工智能领域论文推荐

在人工智能领域的快速发展中,我们不断看到令人振奋的技术进步和创新。近期,开放传神(OpenCSG)社区发现了一些值得关注的成就。传神社区本周也为对AI和大模型感兴趣的读者们提供了一些值得一读的研究工作的简要概述以及它们各自的论文推荐链接。

01 Claude 3.5 Sonnet

传神社区注意到这篇文章中有以下亮点:Claude 3.5 Sonnet 是一款新的语言模型,在多项常用基准测试(如 MMLU 和 HumanEval)上实现了最先进的性能。它在多个基准测试中的表现优于 Claude 3 Opus 和 GPT-4o,但在数学文字题解决任务方面除外。此外,它在视觉任务上也表现出色,这使得其在图像-文本转录和文物生成等新功能中表现卓越。

论文推荐链接:

https://opencsg.com/daily_papers/fRA8CPxCKTZU

图片

02 DeepSeek-Coder-V2

传神社区注意到这篇文章中有以下亮点:DeepSeek-Coder-V2 在代码和数学生成任务中与闭源模型竞争,取得了优异成绩。在 HumanEval 上达到了 90.2%,在 MATH 上达到了 75.7%,这些结果高于 GPT-4-Turbo-0409 的性能报告。该模型包括 16B 和 236B 参数版本,具有 128K 的上下文长度。

论文推荐链接:

https://opencsg.com/daily_papers/5y9GeyeFSCj1


 

图片

03 TextGrad

传神社区注意到这篇文章中有以下亮点:TextGrad 是一个新的框架,通过对由大型语言模型(LLM)提供的文本反馈进行反向传播实现自动微分。该框架改进了各个组件,并通过自然语言优化计算图。TextGrad 提供了一个无需调试提示或组件的目标函数。据称,当与 GPT4o 结合使用时,它在 LeetCodeHard 和 GPQA 基准测试上分别取得了最佳成绩和最先进的性能。

论文推荐链接:

https://opencsg.com/daily_papers/57J2WQD3MXrA

图片

04 Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More?

传神社区注意到这篇文章中有以下亮点:《Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More?》对长上下文大型语言模型(LLMs)在上下文检索和推理中的性能进行了深入分析。研究首先提出了一个包含需要 1M 令牌上下文的真实世界任务的基准测试。报告指出,长上下文 LLMs 在未经过任何特定任务训练的情况下,可以媲美最先进的检索和 RAG 系统。然而,这些模型在处理 SQL 类任务所需的组合推理方面仍然具有挑战性。研究还鼓励继续对高级提示策略进行研究,因为在长上下文问题中应用这些策略时,性能显著提升。

论文推荐链接:

https://opencsg.com/daily_papers/7kdtB8F2QakH

图片

05 PlanRAG

传神社区注意到这篇文章中有以下亮点:PlanRAG 是一种通过新颖的检索-生成(RAG)技术来增强决策的工具,称为迭代计划-再-RAG(PlanRAG)。它包括两个步骤:1) 一个语言模型通过检查数据架构和问题来生成决策计划;2) 检索器生成数据分析查询。最后一步检查是否需要新的计划进行进一步分析,并在之前的步骤上迭代或对数据做出决策。研究发现,PlanRAG 在提出的决策问答任务上比迭代 RAG 更为有效。

论文推荐链接:

https://opencsg.com/daily_papers/yBfVKjpCBX7Z

图片

06 Mitigating Memorization in LLMs

传神社区注意到这篇文章中有以下亮点:《Mitigating Memorization in LLMs》提出了一种名为 goldfish loss 的修改版下一个词预测目标,以帮助减少对训练数据逐字生成的记忆。该技术通过在训练时排除伪随机子集的训练令牌来实现。研究表明,goldfish loss 能够抵制记忆,同时保持模型的实用性。然而,为了更有效地从训练数据中学习,模型可能需要更长的训练时间。

论文推荐链接:

https://opencsg.com/daily_papers/gFGpq7JhQzYv

图片

07 Monte Carlos Tree Self-Refine

传神社区注意到这篇文章中有以下亮点:《Monte Carlo Tree Self-Refine》报告了一种将大型语言模型(LLMs)与蒙特卡罗树搜索(MCTS)结合的方法,达到了 GPT-4 级别的数学奥林匹克竞赛解题能力。该方法通过系统性探索、自我改进和自我评估等功能,增强了系统的数学推理性能。

论文推荐链接:

https://opencsg.com/daily_papers/dAsBR7woNqEb

图片

08 From RAG to Rich Parameters

传神社区注意到这篇文章中有以下亮点:《From RAG to Rich Parameters》深入研究了大型语言模型(LLMs)在处理事实性查询时如何利用外部知识与参数化信息。研究发现,在 RAG 管道中,LLMs 倾向于“走捷径”,强烈依赖上下文信息来回答问题,而对其参数化记忆的依赖最小。

论文推荐链接:

https://opencsg.com/daily_papers/eQHuXwn3Dmzq

图片

09 Open-Sora

传神社区注意到这篇文章中有以下亮点:Open-Sora 是一个开源的视频生成模型,可以生成16秒的720p视频。该模型拥有1.1B参数,基于超过3000万的数据进行训练,现已支持图像到视频的生成。它引入了增强的扩散模型和视频压缩网络,用于空间和时间的压缩,从而提高生成的可控性并降低训练成本。

论文推荐链接:

https://opencsg.com/daily_papers/sQZEkWwatqEz

图片

10 Tree Search for Language Model Agents

传神社区注意到这篇文章中有以下亮点:《Tree Search for Language Model Agents》提出了一种推理时间的树搜索算法,帮助语言模型代理进行探索和多步推理。该算法在交互式网络环境中进行了测试,并应用于 GPT-4o,大幅提高了其性能。研究表明,随着测试时间计算量的增加,性能也相应提升。

论文推荐链接:

https://opencsg.com/daily_papers/grjnHevQkqsZ

图片

图片

欢迎加入传神社区

•贡献代码,与我们一同共建更好的OpenCSG

•Github主页

欢迎🌟:https:// github.com/opencsg

•Huggingface主页

欢迎下载:https://huggingface.co/opencsg

•加入我们的用户交流群,分享经验

图片

扫描上方二维码添加传神小助手


“      关于OpenCSG

开放传神(OpenCSG)成立于2023年,是一家致力于大模型生态社区建设,汇集人工智能行业上下游企业链共同为大模型在垂直行业的应用提供解决方案和工具平台的公司。

关注OpenCSG

图片

加入传神社区

图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/36877.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【Qt+opencv】Mat图像类型

文章目录 前言图像与矩阵之间的关系cv:Matcv::Mat的定义cv::Mat的数据类型cv::Mat像素读写图像局部操作cv::Mat支持的运算 总结 前言 在计算机视觉和图像处理领域,图像的表示和处理是最基本也是最重要的一部分。OpenCV(开源计算机视觉库)是一…

深入理解Python元组及其应用

Python中的元组是一种不可变的序列,类似于列表,但其元素不能修改。元组使用圆括号 () 来表示,可以包含任意类型的元素,如整数、浮点数、字符串、甚至其他元组。元组的不可变性使其在某些场景下比列表更合适,例如用作字…

steam搬砖

​   CS2/Steam游戏拆砖项目如何赚钱,利润在哪里?    1、利润主要来自于汇差。例如,今天美元的汇率是1美元7.3人民币,100美元730人民币。但事实上,通过某些特定渠道(如TB)充值100美元仅需55…

Meet AI4S 直播预告丨房价分析新思路:神经网络直击复杂地理环境中的空间异质性

近年来,房地产市场起起落落,房价已经成为了扰动居民幸福感的重要影响因素。大多数家庭都需要面对「买不买房、何时买房、在哪儿买房、买什么房」的艰难抉择,每一个问题的答案都在某种程度上与房价的波动息息相关。 近年来,我国各…

详解HTTP:有了HTTP,为何需要WebSocket?

在日常生活中,HTTP 常用于请求数据。例如,当你打开一个天气预报网站时,浏览器会发送一个 HTTP 请求到服务器,请求当前的天气数据,服务器返回响应,浏览器解析并显示这些数据。 但是,当涉及到需要…

RocketMq源码解析九:刷盘机制及过期文件删除

一、刷盘机制 刷盘策略在不同时间进行刷写磁盘。RocketMQ的存储是基于JDK NIO的内存映射机制(MappedByteBuffer)的,消息存储首先将消息追加到内存,再根据配置的刷写磁盘 同步刷盘表示消息追加到内存后,立即将数据刷写到文件系统中。代码的调用链如下: submi…

MYBATIS大于等于、小于等于的写法

mybatis使用的是xml格式的文件。使用>和<号的时候&#xff0c;会存在与xml的标签的规范冲突。需要写成如下形式&#xff0c;否则会报错。 第一种写法 原符号 替换符号 < < < <> > > >& &amp; &…

【新版本来袭】ONLYOFFICE桌面编辑器8.1 —— 重塑办公效率与体验

文章目录 一、功能完善的PDF编辑器&#xff1a;重塑文档处理体验编辑文本插入和修改各种对象&#xff0c;如表格、形状、文本框、图像、艺术字、超链接、方程式等添加、旋转和删除页面添加文本注释和标注 二、幻灯片版式设计&#xff1a;创意展示的无限舞台三、改进从右至左显示…

OCR训练和C#部署英文字符训练

PaddleOCR是一个基于飞桨开发的OCR&#xff08;Optical Character Recognition&#xff0c;光学字符识别&#xff09;系统。其技术体系包括文字检测、文字识别、文本方向检测和图像处理等模块。以下是其优点&#xff1a; 高精度&#xff1a;PaddleOCR采用深度学习算法进行训练…

Web渗透:php反序列化漏洞

反序列化漏洞&#xff08;Deserialization Vulnerability&#xff09;是一种在应用程序处理数据的过程中&#xff0c;因不安全的反序列化操作引发的安全漏洞&#xff1b;反序列化是指将序列化的数据&#xff08;通常是字节流或字符串&#xff09;转换回对象的过程&#xff0c;如…

安装lora微调大模型

打开终端&#xff08;在Unix或macOS上&#xff09;或命令提示符/Anaconda Prompt&#xff08;在Windows上&#xff09;。 创建一个名为lora的虚拟环境并指定Python版本为3.9。 conda create --name lora python3.9激活新创建的虚拟环境。 conda activate lora克隆项目。 git …

【MySQL备份】lvm-snapshot篇

目录 1.简介 1.1.如何工作 1.2.应用场景 1.3.注意事项 1.4.优缺点 2.为什么选择lvm快照备份&#xff1f; 3.创建LVM 3.1.操作流程 3.2.正常安装MySQL后进行备份 3.3.MySQL运行一段时间后进行备份 3.3.1.准备lvm及文件系统//先添加一块磁盘 3.3.2.将数据迁移到LVM …

MySQL学习(5):SQL语句之数据查询语言:DQL

1.DQL语法 select 字段列表 from 表名列表 #DQL是可以进行多表查询的 where 条件列表 group by 分组字段列表 having 分组后条件列表 order by 排序字段列表 limit 分页参数 2.基本查询&#xff08;select&#xff09; 2.1查询多字段 select 字段1,字段2,字段3,......fro…

基于Volov7的安全帽检测系统

1 项目介绍 1.1 摘要 随着工业化和城市化的迅猛推进&#xff0c;工作场所的安全管理愈发受到重视。安全帽作为保护工人头部安全的关键装备&#xff0c;其实时监测和检测的重要性不言而喻。本文提出并深入研究了基于YOLOv7算法的安全帽佩戴检测技术&#xff0c;该技术旨在实现…

Kotlin/Android中执行HTTP请求

如何在Kotlin/Android中执行简单的HTTP请求

Spring Boot 使用 Mail 实现登录邮箱验证

Spring Boot 使用 Mail 实现登录邮箱验证 引言 在现代的 Web 应用中&#xff0c;用户验证是一个至关重要的功能。电子邮件验证可以有效地防止虚假注册&#xff0c;并确保用户提供的是有效的邮箱地址。在这篇文章中&#xff0c;我们将详细介绍如何使用 Spring Boot 实现用户注…

Day.js

Day.js 是什么&#xff1f; Day.js是一个极简的JavaScript库&#xff0c;可以为现代浏览器解析、验证、操作和显示日期和时间。 Day.js中文网 为什么要使用Day.js &#xff1f; 因为Day.js文件只有2KB左右&#xff0c;下载、解析和执行的JavaScript更少&#xff0c;为代码留下更…

作物检测:YOLOv8+SwanLab

1. 项目介绍 基于深度学习的作物检测通过精准管理和数据驱动决策&#xff0c;能够提高作物产量和质量&#xff0c;优化农业资源利用&#xff0c;推动农业自动化进程&#xff0c;从而保障粮食安全。目前&#xff0c;作物检测领域大多针对单类作物进行检测。因此&#xff0c;本项…

SDIO学习(2)--SD卡 2.0协议

本文参考文档&#xff1a; 《SD Specifications Part 1 Physical Layer Simplified Specification Version 2.00》 1 SD卡简介 1.1 SD卡概念 1.2 SD卡外形和接口 Clk&#xff1a;时钟线&#xff0c;由SDIO主机产生 CMD&#xff1a;命令控制线&#xff0c;SDIO主机通过改…

AI技术在现代社会中的广泛应用及其影响

目录 前言&#xff1a; 一、AI技术在医疗领域的应用 二、AI技术在教育领域的应用 三、AI技术在工业领域的应用 四、AI技术在金融领域的应用 五、AI技术在生活领域的应用 前言&#xff1a; 随着科技的不断发展&#xff0c;人工智能&#xff08;AI&#xff09;技术逐渐成为人…