大模型日报|6 篇必读的大模型论文

在这里插入图片描述

1.华为推出科学智能体 Agent K v1.0,已达 Kaggle 大师水平

在这项工作中,来自华为诺亚方舟实验室和伦敦大学学院的研究团队提出了 Agent K v1.0,它是一个端到端自主数据科学智能体(agent),旨在对各种数据科学任务进行自动化、优化和泛化。

通过从经验中学习,Agent K v1.0 可以完全自动化地管理整个数据科学生命周期。它利用高度灵活的结构化推理框架,在嵌套结构中动态处理记忆,有效地从积累的经验中学习,从而处理复杂的推理任务。它通过有选择地存储和检索关键信息来优化长期和短期记忆,并根据环境回报来指导未来决策。这种迭代方法允许它在不进行微调或反向传播的情况下完善决策,通过经验学习实现持续改进。

以 Kaggle 竞赛为案例,他们对 agent 的能力进行了评估。按照全自动协议,Agent K v1.0 系统地处理复杂的多模态数据科学任务,采用贝叶斯优化法进行超参数调整和特征工程。

他们利用新评估框架严格评估了 Agent K v1.0 的端到端功能,即从 Kaggle 竞赛 URL 开始生成和发送提交的功能。结果表明,Agent K v1.0 在表格、计算机视觉、NLP 和多模态领域的各项任务中取得了 92.5% 的成功率。通过计算每个人的 Elo-MMR 分数,在与 5856 名 Kaggle 人类竞争对手进行基准比较时,Agent K v1.0 排名前 38%,显示出与专家级用户相当的整体技能水平。值得注意的是,它的 Elo-MMR 分数介于人类特级大师分数的第一和第三四分位数之间。此外,结果表明,Agent K v1.0 的性能已达到相当于 Kaggle 大师的水平,根据 Kaggle 的晋级系统,它已获得 6 枚金牌、3 枚银牌和 7 枚铜牌。

论文链接:
https://arxiv.org/abs/2411.03562

2.Meta 团队提出自一致性偏好优化 ScPO

自对齐(Self-alignment),即模型在没有人类标注的情况下学会自我改进,是一个发展迅速的研究领域。然而,由于难以分配正确的奖励,现有技术往往无法改进复杂的推理任务。

众所周知,自一致性(self-consistency)是一种能提高正确性的正交方法,它是一种在推理时应用的基于多重采样的方法,目的是找到最一致的答案。在这项工作中,来自 Meta 和北卡罗来纳大学教堂山分校的研究团队扩展了“自一致性”的概念,他们提出了自一致性偏好优化(ScPO),在无监督的新问题上反复训练一致性答案,使其优先于不一致性答案。

研究表明,在 GSM8K 和 MATH 等推理任务上,ScPO 比传统的奖励模型训练有很大改进,缩小了与使用 gold answers 或偏好进行监督训练的差距。在 ZebraLogic 上,ScPO 将 Llama-3 8B 优化为优于 Llama-3 70B、Gemma-2 27B 和 Claude-3 Haiku。

论文链接:
https://arxiv.org/abs/2411.04109

3.微软、国科大提出 BitNet a4.8:4 位激活的 1 位 LLM

最近对 BitNet b1.58 等 1 位大语言模型(LLM)的研究,为降低 LLM 的推理成本并维持性能提供了一个很有前景的方向。

在这项工作中,来自微软研究院和中国科学院大学的研究团队提出了 BitNet a4.8,使 1 位 LLM 可以实现 4 位激活。BitNet a4.8 采用混合量化和稀疏化策略,以减少离群通道带来的量化误差。具体来说,他们对注意力和前馈网络层的输入采用 4 位激活,同时对中间状态进行 8 位量化稀疏化。

大量实验证明,BitNet a4.8 在训练成本相当的情况下,性能可与 BitNet b1.58 媲美,而在使用 4 位(INT4/FP4)内核进行推理时速度更快。此外,BitNet a4.8 只需激活 55% 的参数,并支持 3 位 KV 缓存,进一步提高了大规模 LLM 部署和推理的效率。

论文链接:
https://arxiv.org/abs/2411.04965

4.DynaMem:用于开放世界移动操纵的在线动态空间语义记忆

开放式词汇移动操控技术已经取得了重大进展,其目标是让机器人在任何环境中都能根据自然语言描述执行任务。然而,目前的大多数系统都假设环境是静态的,这就限制了系统在现实世界中的适用性,因为在现实世界中,环境经常会因为人类的干预或机器人自身的行动而发生变化。

在这项工作中,来自纽约大学和 Hello Robot 的研究团队提出了一种新的开放世界移动操控方法 DynaMem,其使用动态空间语义记忆来表示机器人的环境。DynaMem 构建了一个三维数据结构来维护点云的动态存储器,并使用多模态 LLM 或由 SOTA 视觉语言模型生成的开放词汇特征来回答开放词汇对象定位查询。在 DynaMem 的支持下,机器人可以探索新环境,搜索内存中没有的物体,并在物体移动、出现或消失在场景中时不断更新内存。

他们使用 Stretch SE3 机器人在三个真实场景和九个离线场景中进行了大量实验,在非静态物体上的平均拾取和投放成功率达到 70%,比 SOTA 静态系统提高了两倍多。

论文链接:
https://arxiv.org/abs/2411.04999
项目地址:
https://dynamem.github.io/

5.谷歌新研究:由视频生成带有相机轨迹的新视频

最近,视频建模技术取得了突破性进展,可以在生成的视频中控制相机轨迹。然而,这些方法不能直接应用于用户提供的视频,因为这些视频不是由视频模型生成的。

在这项研究中,来自谷歌和新加坡国立大学的研究团队提出了 ReCapture,这是一种从单个用户提供的视频中生成带有新颖相机轨迹的新视频的方法。通过这一方法,他们可以从不同的角度,以电影镜头的运动方式,重新生成包含所有现有场景运动的参考视频。

值得注意的是,使用这一方法,他们还可以生成参考视频中无法观察到的场景部分。他们的方法是:(1)使用多视角扩散模型或基于深度的点云渲染技术,用新的相机轨迹生成有噪声的锚视频,然后(2)使用遮蔽视频微调技术,将锚视频重新生成干净且时间上一致的重新纠缠视频。

论文链接:
https://arxiv.org/abs/2411.05003
项目地址:
https://generative-video-camera-controls.github.io/

6.TIP-I2V:用于图生视频的百万真实文本、图像提示数据集

视频生成模型正在彻底改变内容创作,其中图生视频模型因其更强的可控性、视觉一致性和实际应用而日益受到关注。然而,尽管这些模型很受欢迎,但它们依赖于用户提供的文本和图像提示,目前还没有专门用于研究这些提示的数据集。

在这项研究中,来自悉尼科技大学和浙江大学的研究团队提出了首个专门用于图像到视频生成的大规模数据集——TIP-I2V,其包含 170 多万个由用户提供的独特文本和图像提示。此外,他们还提供了由五种 SOTA 图生视频模型生成的相应视频。

首先,他们概述了这一大规模数据集的耗时耗资过程。接下来,他们将 TIP-I2V 与两个流行的 prompt 数据集 VidProM(文本到视频)和 DiffusionDB(文本到图像)进行比较,突出基本信息和语义信息的差异。该数据集有助于推进图生视频的研究。例如,为了开发出更好的模型,研究人员可以利用 TIP-I2V 中的提示来分析用户偏好,并评估其训练模型的多维性能;为了提高模型的安全性,研究人员可以重点解决图像视频模型引起的误报问题。

论文链接:
https://arxiv.org/abs/2411.04709
项目地址:
https://tip-i2v.github.io/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/60178.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Redis在docker中的主从,哨兵配置

主从配置 docker 中redis服务启动,将配置文件和数据挂载到 redisData中,记得先创建好redis.conf docker run -p 6379:6379 \--name redis \-v /root/redisData/data:/data \-v /root/redisData/conf/redis.conf:/etc/redis/redis.conf \-d redis redis-server /et…

游戏中的设计模式及杂项

概述 如果要做以下游戏功能会用到哪些设计模式。比如创建一个人物角色,这个角色可以装备刀,然后角色可以用刀砍怪物,造成流血。 对于这个游戏功能,可以使用以下设计模式: 工厂模式(Factory Pattern&#x…

MySQL核心业务大表归档过程

记录一下2年前的MySQL大表的归档,当时刚到公司,发现MySQL的业务核心库,超过亿条的有7张表,最大的表有9亿多条,有37张表超过5百万条,部分表行数如下: 在测试的MySQL环境 : pt-archiv…

cache(二)直接缓存映射

在知乎发现一份不错得学习资料 请教CPU的cache中关于line,block,index等的理解? PPT 地址 https%3A//cs.slu.edu/%7Efritts/CSCI224_S15/schedule/chap6-cache-memory.pptx 课程主页 https://cs.slu.edu/~fritts/CSCI224_S15/schedule/ 0. 缓存定义 这张图展示了缓…

探索Apache Spark:现代数据处理的闪电利剑

在大数据技术的快速发展中,Apache Spark凭借其高效的内存计算和友好的编程模型,成为了现代数据处理领域中的一颗耀眼明星。Spark的出现填补了批处理和实时处理之间的空白,使得数据分析任务能够以前所未有的速度和效率得以执行。本文将深入剖析…

光流法(Optical Flow)

一、简介 光流法(Optical Flow)是一种用于检测图像序列中像素运动的计算机视觉技术。其基于以下假设: 1.亮度恒定性假设:物体在运动过程中,其像素值在不同帧中保持不变。 2.空间和时间上的连续性:相邻像素之…

软考中级-软件设计师 Python篇

文章目录 Python 基础语法Python 数据结构函数与模块面向对象编程常用算法实现文件操作异常处理常用库 Python 基础语法 变量与数据类型:Python支持多种数据类型,包括整数 (int)、浮点数 (float)、字符串 (str)、布尔值 (bool) 和复数 (complex)。 x …

打造自己的RAG解析大模型:(可商用)智能文档服务上线部署

通用版面分析介绍 版面解析是一种将文档图像转化为机器可读数据格式的技术,广泛应用于文档管理和信息提取等领域。通过结合OCR、图像处理和机器学习,版面解析能够识别文档中的文本块、图片、表格等版面元素,最终生成结构化数据,大…

【MySQL】MySQL基础知识复习(下)

前言 上一篇博客介绍了MySQL的库操作,表操作以及CRUD。 【MySQL】MySQL基础知识复习(上)-CSDN博客 本篇将进一步介绍CRUD操作,尤其是查找操作 目录 一.数据库约束 1.约束类型 1.1NULL约束 1.2UNIQUE:唯一约束 …

新的服务器Centos7.6 安卓基础的环境配置(新服务器可直接粘贴使用配置)

常见的基础服务器配置之Centos命令 正常来说都是安装一个docker基本上很多问题都可以解决了,我基本上都是通过docker去管理一些容器如:mysql、redis、mongoDB等之类的镜像,还有一些中间件如kafka。下面就安装一个 docker 和 nginx 的相关配置…

第12课 二维数组(1)

string类型不知道各位童鞋们都掌握了没,没掌握的话,嘿嘿嘿(抱拳)我稍微练过一点散打哦。 好了,开玩笑的,今天的课程难度较高,所以我决定分三课讲,就是想让大家把二维数组彻底吃透&a…

什么是C/C++,有什么特点

C/C 简介 C 和 C 是两种广泛使用的编程语言,它们在计算机科学和软件开发中具有重要的地位。C 语言由 Dennis Ritchie 于 1972 年在贝尔实验室开发,主要用于编写操作系统(如 Unix)。C 语言由 Bjarne Stroustrup 于 1979 年在贝尔实…

性能测试|JMeter接口与性能测试项目

前言 在软件开发和运维过程中,接口性能测试是一项至关重要的工作。JMeter作为一款开源的Java应用,被广泛用于进行各种性能测试,包括接口性能测试。本文将详细介绍如何使用JMeter进行接口性能测试的过程和步骤。 JMeter是Apache组织开发的基…

linux物理内存管理:node,zone,page

一、总览 对于物理内存内存,linux对内存的组织逻辑从上到下依次是:node,zone,page,这些page是根据buddy分配算法组织的,看下面两张图: 上面的概念做下简单的介绍: Node&#xff1a…

npm i忽略依赖冲突

在使用npm安装依赖时,如果遇到依赖冲突,通常npm会提示错误并阻止安装。但是,如果你想要忽略这些依赖冲突,可以使用以下几种方法: 1.使用--force或-f参数:这个参数会强制npm忽略某些错误,包括依…

Pr:视频过渡快速参考(合集 · 2025版)

Adobe Premiere Pro 自带七组约四十多个视频过渡 Video Transitions效果,包含不同风格和用途,可在两个剪辑之间创造平滑、自然的转场,用来丰富时间、地点或情绪的变化。恰当地应用过渡可让观众更好地理解故事或人物。 提示: 点击下…

使用vscode 连接linux进行开发

1. 在Vscode中安装扩展功能remote ssh 2. 打开命令窗口 3. 在弹出的命令窗口输入ssh,并从弹出的提示中选择 Add New SSH Host 4. 在弹出的输入窗口中输入类似下面形式的 连接地址: 5. 输入回车后出现下面的对话框,这个对话框是说你要用哪个…

面试击穿mysql

Mysql三大范式: 第一范式(1NF): 不符合第一范式的典型情况是在一个字段中存放多种不同类型的详细信息。例如,在商品表中,若将商品名称、价格和类型都存储在同一个字段中,会带来诸多弊端。首先,在…

WRF-LES与PALM模型:风能资源评估、风力发电、大涡模拟、大尺度湍流涡旋、大雾预报、局地环流模拟、城市热岛效应、流场模拟

专题一、背景 1、流体力学简介 2、计算流体力学简介 3、应用场景举例 专题二、计算机基础与编程入门 1、计算机基础与编程入门 2、计算机基本概念和操作系统讲解 3、Linux基础命令与操作 专题三、科学计算与数据处理基础 1、NumPy基础:数组操作与科学计算 …

excel功能

统计excel中每个名字出现的次数 在Excel中统计每个名字出现的次数,您可以使用COUNTIF函数或数据透视表。以下是两种方法的详细步骤: 方法一:使用COUNTIF函数 准备数据:确保您的姓名列表位于一个连续的单元格区域,例如…