传神论文中心|第14期人工智能领域论文推荐

在人工智能领域的快速发展中,我们不断看到令人振奋的技术进步和创新。近期,开放传神(OpenCSG)社区发现了一些值得关注的成就。传神社区本周也为对AI和大模型感兴趣的读者们提供了一些值得一读的研究工作的简要概述以及它们各自的论文推荐链接。

01 Claude 3.5 Sonnet

传神社区注意到这篇文章中有以下亮点:Claude 3.5 Sonnet 是一款新的语言模型,在多项常用基准测试(如 MMLU 和 HumanEval)上实现了最先进的性能。它在多个基准测试中的表现优于 Claude 3 Opus 和 GPT-4o,但在数学文字题解决任务方面除外。此外,它在视觉任务上也表现出色,这使得其在图像-文本转录和文物生成等新功能中表现卓越。

论文推荐链接:

https://opencsg.com/daily_papers/fRA8CPxCKTZU

图片

02 DeepSeek-Coder-V2

传神社区注意到这篇文章中有以下亮点:DeepSeek-Coder-V2 在代码和数学生成任务中与闭源模型竞争,取得了优异成绩。在 HumanEval 上达到了 90.2%,在 MATH 上达到了 75.7%,这些结果高于 GPT-4-Turbo-0409 的性能报告。该模型包括 16B 和 236B 参数版本,具有 128K 的上下文长度。

论文推荐链接:

https://opencsg.com/daily_papers/5y9GeyeFSCj1


 

图片

03 TextGrad

传神社区注意到这篇文章中有以下亮点:TextGrad 是一个新的框架,通过对由大型语言模型(LLM)提供的文本反馈进行反向传播实现自动微分。该框架改进了各个组件,并通过自然语言优化计算图。TextGrad 提供了一个无需调试提示或组件的目标函数。据称,当与 GPT4o 结合使用时,它在 LeetCodeHard 和 GPQA 基准测试上分别取得了最佳成绩和最先进的性能。

论文推荐链接:

https://opencsg.com/daily_papers/57J2WQD3MXrA

图片

04 Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More?

传神社区注意到这篇文章中有以下亮点:《Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More?》对长上下文大型语言模型(LLMs)在上下文检索和推理中的性能进行了深入分析。研究首先提出了一个包含需要 1M 令牌上下文的真实世界任务的基准测试。报告指出,长上下文 LLMs 在未经过任何特定任务训练的情况下,可以媲美最先进的检索和 RAG 系统。然而,这些模型在处理 SQL 类任务所需的组合推理方面仍然具有挑战性。研究还鼓励继续对高级提示策略进行研究,因为在长上下文问题中应用这些策略时,性能显著提升。

论文推荐链接:

https://opencsg.com/daily_papers/7kdtB8F2QakH

图片

05 PlanRAG

传神社区注意到这篇文章中有以下亮点:PlanRAG 是一种通过新颖的检索-生成(RAG)技术来增强决策的工具,称为迭代计划-再-RAG(PlanRAG)。它包括两个步骤:1) 一个语言模型通过检查数据架构和问题来生成决策计划;2) 检索器生成数据分析查询。最后一步检查是否需要新的计划进行进一步分析,并在之前的步骤上迭代或对数据做出决策。研究发现,PlanRAG 在提出的决策问答任务上比迭代 RAG 更为有效。

论文推荐链接:

https://opencsg.com/daily_papers/yBfVKjpCBX7Z

图片

06 Mitigating Memorization in LLMs

传神社区注意到这篇文章中有以下亮点:《Mitigating Memorization in LLMs》提出了一种名为 goldfish loss 的修改版下一个词预测目标,以帮助减少对训练数据逐字生成的记忆。该技术通过在训练时排除伪随机子集的训练令牌来实现。研究表明,goldfish loss 能够抵制记忆,同时保持模型的实用性。然而,为了更有效地从训练数据中学习,模型可能需要更长的训练时间。

论文推荐链接:

https://opencsg.com/daily_papers/gFGpq7JhQzYv

图片

07 Monte Carlos Tree Self-Refine

传神社区注意到这篇文章中有以下亮点:《Monte Carlo Tree Self-Refine》报告了一种将大型语言模型(LLMs)与蒙特卡罗树搜索(MCTS)结合的方法,达到了 GPT-4 级别的数学奥林匹克竞赛解题能力。该方法通过系统性探索、自我改进和自我评估等功能,增强了系统的数学推理性能。

论文推荐链接:

https://opencsg.com/daily_papers/dAsBR7woNqEb

图片

08 From RAG to Rich Parameters

传神社区注意到这篇文章中有以下亮点:《From RAG to Rich Parameters》深入研究了大型语言模型(LLMs)在处理事实性查询时如何利用外部知识与参数化信息。研究发现,在 RAG 管道中,LLMs 倾向于“走捷径”,强烈依赖上下文信息来回答问题,而对其参数化记忆的依赖最小。

论文推荐链接:

https://opencsg.com/daily_papers/eQHuXwn3Dmzq

图片

09 Open-Sora

传神社区注意到这篇文章中有以下亮点:Open-Sora 是一个开源的视频生成模型,可以生成16秒的720p视频。该模型拥有1.1B参数,基于超过3000万的数据进行训练,现已支持图像到视频的生成。它引入了增强的扩散模型和视频压缩网络,用于空间和时间的压缩,从而提高生成的可控性并降低训练成本。

论文推荐链接:

https://opencsg.com/daily_papers/sQZEkWwatqEz

图片

10 Tree Search for Language Model Agents

传神社区注意到这篇文章中有以下亮点:《Tree Search for Language Model Agents》提出了一种推理时间的树搜索算法,帮助语言模型代理进行探索和多步推理。该算法在交互式网络环境中进行了测试,并应用于 GPT-4o,大幅提高了其性能。研究表明,随着测试时间计算量的增加,性能也相应提升。

论文推荐链接:

https://opencsg.com/daily_papers/grjnHevQkqsZ

图片

图片

欢迎加入传神社区

•贡献代码,与我们一同共建更好的OpenCSG

•Github主页

欢迎🌟:https:// github.com/opencsg

•Huggingface主页

欢迎下载:https://huggingface.co/opencsg

•加入我们的用户交流群,分享经验

图片

扫描上方二维码添加传神小助手


“      关于OpenCSG

开放传神(OpenCSG)成立于2023年,是一家致力于大模型生态社区建设,汇集人工智能行业上下游企业链共同为大模型在垂直行业的应用提供解决方案和工具平台的公司。

关注OpenCSG

图片

加入传神社区

图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/36877.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

steam搬砖

​   CS2/Steam游戏拆砖项目如何赚钱,利润在哪里?    1、利润主要来自于汇差。例如,今天美元的汇率是1美元7.3人民币,100美元730人民币。但事实上,通过某些特定渠道(如TB)充值100美元仅需55…

Meet AI4S 直播预告丨房价分析新思路:神经网络直击复杂地理环境中的空间异质性

近年来,房地产市场起起落落,房价已经成为了扰动居民幸福感的重要影响因素。大多数家庭都需要面对「买不买房、何时买房、在哪儿买房、买什么房」的艰难抉择,每一个问题的答案都在某种程度上与房价的波动息息相关。 近年来,我国各…

RocketMq源码解析九:刷盘机制及过期文件删除

一、刷盘机制 刷盘策略在不同时间进行刷写磁盘。RocketMQ的存储是基于JDK NIO的内存映射机制(MappedByteBuffer)的,消息存储首先将消息追加到内存,再根据配置的刷写磁盘 同步刷盘表示消息追加到内存后,立即将数据刷写到文件系统中。代码的调用链如下: submi…

【新版本来袭】ONLYOFFICE桌面编辑器8.1 —— 重塑办公效率与体验

文章目录 一、功能完善的PDF编辑器:重塑文档处理体验编辑文本插入和修改各种对象,如表格、形状、文本框、图像、艺术字、超链接、方程式等添加、旋转和删除页面添加文本注释和标注 二、幻灯片版式设计:创意展示的无限舞台三、改进从右至左显示…

OCR训练和C#部署英文字符训练

PaddleOCR是一个基于飞桨开发的OCR(Optical Character Recognition,光学字符识别)系统。其技术体系包括文字检测、文字识别、文本方向检测和图像处理等模块。以下是其优点: 高精度:PaddleOCR采用深度学习算法进行训练…

Web渗透:php反序列化漏洞

反序列化漏洞(Deserialization Vulnerability)是一种在应用程序处理数据的过程中,因不安全的反序列化操作引发的安全漏洞;反序列化是指将序列化的数据(通常是字节流或字符串)转换回对象的过程,如…

【MySQL备份】lvm-snapshot篇

目录 1.简介 1.1.如何工作 1.2.应用场景 1.3.注意事项 1.4.优缺点 2.为什么选择lvm快照备份? 3.创建LVM 3.1.操作流程 3.2.正常安装MySQL后进行备份 3.3.MySQL运行一段时间后进行备份 3.3.1.准备lvm及文件系统//先添加一块磁盘 3.3.2.将数据迁移到LVM …

MySQL学习(5):SQL语句之数据查询语言:DQL

1.DQL语法 select 字段列表 from 表名列表 #DQL是可以进行多表查询的 where 条件列表 group by 分组字段列表 having 分组后条件列表 order by 排序字段列表 limit 分页参数 2.基本查询(select) 2.1查询多字段 select 字段1,字段2,字段3,......fro…

基于Volov7的安全帽检测系统

1 项目介绍 1.1 摘要 随着工业化和城市化的迅猛推进,工作场所的安全管理愈发受到重视。安全帽作为保护工人头部安全的关键装备,其实时监测和检测的重要性不言而喻。本文提出并深入研究了基于YOLOv7算法的安全帽佩戴检测技术,该技术旨在实现…

Day.js

Day.js 是什么? Day.js是一个极简的JavaScript库,可以为现代浏览器解析、验证、操作和显示日期和时间。 Day.js中文网 为什么要使用Day.js ? 因为Day.js文件只有2KB左右,下载、解析和执行的JavaScript更少,为代码留下更…

作物检测:YOLOv8+SwanLab

1. 项目介绍 基于深度学习的作物检测通过精准管理和数据驱动决策,能够提高作物产量和质量,优化农业资源利用,推动农业自动化进程,从而保障粮食安全。目前,作物检测领域大多针对单类作物进行检测。因此,本项…

SDIO学习(2)--SD卡 2.0协议

本文参考文档: 《SD Specifications Part 1 Physical Layer Simplified Specification Version 2.00》 1 SD卡简介 1.1 SD卡概念 1.2 SD卡外形和接口 Clk:时钟线,由SDIO主机产生 CMD:命令控制线,SDIO主机通过改…

基于C++标准库实现定时器类

基于C标准库实现定时器类 定时器类是多线程编程中经常设计到的工具类 简单的定时器原理其实很简单(是不是有点GNU is not unix的味道;): 创建一个新线程在那个线程里等待等待指定时长后做任务 python标准库中就有这么一个定时器类&#xf…

升级!升级!升级!MobPush基础标签推送全新升级,助力开发者精细化运营

“广播推送点击率不高,会员转化差” “新用户拉新后留存不高,次留、3日留存不达标” “用户的复购较低,黏性不高,导致GMV未达预期” 我们总是会听到运营人员关于目标达成过程中遇到这样或者那样的问题。这些问题汇总起来就回到…

STM32 HAL库 外部中断 实现按键控制LED亮灭

目录 1、为什么使用GPIO外部中断控制LED亮灭? 2、NVIC嵌套向量中断控制器 3、EXTI外部中断 4、项目的硬件排线 5、STM32CUBE_MX配置 6、HAL库代码 7、实际效果 1、为什么使用GPIO外部中断控制LED亮灭? 实现LED亮灭控制有很多方式,其中…

公文出错事非小,这些公文写作的常见错误,你中过招吗?

公文是企事业单位、相关部门内外沟通交流的重要工具,不少“笔杆子”经常需要与公文打交道,每天会接触大量的公文。然而在公文撰写的细微之处,稍有不慎,便可能犯下一些常见的错误。这些错误如同蚁穴,虽小却足以破坏公文…

stm32cubemx,adc采样的几种方总结,触发获取adc值的方法dma timer trigger中断

stm32cubemx adc采样的几种方总结,触发获取adc值的方法 timer trigger中断 方法1,软件触发方法2:,Timer触发ADC采集通过DMA搬运 触发获取adc值的方法 Regular Conversion launched by software 软件触发 调用函数即可触发ADC转换 Timer X Cap…

Python基于逻辑回归分类模型、决策树分类模型、LightGBM分类模型和XGBoost分类模型实现车辆贷款违约预测项目实战

说明:这是一个机器学习实战项目(附带数据代码文档视频讲解),如需数据代码文档视频讲解可以直接到文章最后获取。 1.项目背景 随着经济的发展和人民生活水平的提高,汽车消费在居民消费中所占比例逐渐增加,汽…

克服指标管理痛点,实现数据价值最大化

在当下的企业管理中,由于数据量的激增,管理方式逐渐从基于经验转向基于数据。在此过程中,我们能够通过数据探查业务情况、分析数据,从而获取更优的决策支持数据。这通常通过数据报表或分析平台来实现,对于临时性场景&a…

护眼大路灯哪个牌子好用?五款好用的护眼灯分享

护眼大路灯哪个牌子好用?现在的孩子从幼儿园开始就开始学习,面临的用眼压力就很大,但想要孩子视力不受影响,大路灯是得好好安排起来,但动辄大几千的护眼灯真是让我们这些普通家庭的家长望而却步,有没有好用…