大模型日报|6 篇必读的大模型论文

在这里插入图片描述

1.华为推出科学智能体 Agent K v1.0,已达 Kaggle 大师水平

在这项工作中,来自华为诺亚方舟实验室和伦敦大学学院的研究团队提出了 Agent K v1.0,它是一个端到端自主数据科学智能体(agent),旨在对各种数据科学任务进行自动化、优化和泛化。

通过从经验中学习,Agent K v1.0 可以完全自动化地管理整个数据科学生命周期。它利用高度灵活的结构化推理框架,在嵌套结构中动态处理记忆,有效地从积累的经验中学习,从而处理复杂的推理任务。它通过有选择地存储和检索关键信息来优化长期和短期记忆,并根据环境回报来指导未来决策。这种迭代方法允许它在不进行微调或反向传播的情况下完善决策,通过经验学习实现持续改进。

以 Kaggle 竞赛为案例,他们对 agent 的能力进行了评估。按照全自动协议,Agent K v1.0 系统地处理复杂的多模态数据科学任务,采用贝叶斯优化法进行超参数调整和特征工程。

他们利用新评估框架严格评估了 Agent K v1.0 的端到端功能,即从 Kaggle 竞赛 URL 开始生成和发送提交的功能。结果表明,Agent K v1.0 在表格、计算机视觉、NLP 和多模态领域的各项任务中取得了 92.5% 的成功率。通过计算每个人的 Elo-MMR 分数,在与 5856 名 Kaggle 人类竞争对手进行基准比较时,Agent K v1.0 排名前 38%,显示出与专家级用户相当的整体技能水平。值得注意的是,它的 Elo-MMR 分数介于人类特级大师分数的第一和第三四分位数之间。此外,结果表明,Agent K v1.0 的性能已达到相当于 Kaggle 大师的水平,根据 Kaggle 的晋级系统,它已获得 6 枚金牌、3 枚银牌和 7 枚铜牌。

论文链接:
https://arxiv.org/abs/2411.03562

2.Meta 团队提出自一致性偏好优化 ScPO

自对齐(Self-alignment),即模型在没有人类标注的情况下学会自我改进,是一个发展迅速的研究领域。然而,由于难以分配正确的奖励,现有技术往往无法改进复杂的推理任务。

众所周知,自一致性(self-consistency)是一种能提高正确性的正交方法,它是一种在推理时应用的基于多重采样的方法,目的是找到最一致的答案。在这项工作中,来自 Meta 和北卡罗来纳大学教堂山分校的研究团队扩展了“自一致性”的概念,他们提出了自一致性偏好优化(ScPO),在无监督的新问题上反复训练一致性答案,使其优先于不一致性答案。

研究表明,在 GSM8K 和 MATH 等推理任务上,ScPO 比传统的奖励模型训练有很大改进,缩小了与使用 gold answers 或偏好进行监督训练的差距。在 ZebraLogic 上,ScPO 将 Llama-3 8B 优化为优于 Llama-3 70B、Gemma-2 27B 和 Claude-3 Haiku。

论文链接:
https://arxiv.org/abs/2411.04109

3.微软、国科大提出 BitNet a4.8:4 位激活的 1 位 LLM

最近对 BitNet b1.58 等 1 位大语言模型(LLM)的研究,为降低 LLM 的推理成本并维持性能提供了一个很有前景的方向。

在这项工作中,来自微软研究院和中国科学院大学的研究团队提出了 BitNet a4.8,使 1 位 LLM 可以实现 4 位激活。BitNet a4.8 采用混合量化和稀疏化策略,以减少离群通道带来的量化误差。具体来说,他们对注意力和前馈网络层的输入采用 4 位激活,同时对中间状态进行 8 位量化稀疏化。

大量实验证明,BitNet a4.8 在训练成本相当的情况下,性能可与 BitNet b1.58 媲美,而在使用 4 位(INT4/FP4)内核进行推理时速度更快。此外,BitNet a4.8 只需激活 55% 的参数,并支持 3 位 KV 缓存,进一步提高了大规模 LLM 部署和推理的效率。

论文链接:
https://arxiv.org/abs/2411.04965

4.DynaMem:用于开放世界移动操纵的在线动态空间语义记忆

开放式词汇移动操控技术已经取得了重大进展,其目标是让机器人在任何环境中都能根据自然语言描述执行任务。然而,目前的大多数系统都假设环境是静态的,这就限制了系统在现实世界中的适用性,因为在现实世界中,环境经常会因为人类的干预或机器人自身的行动而发生变化。

在这项工作中,来自纽约大学和 Hello Robot 的研究团队提出了一种新的开放世界移动操控方法 DynaMem,其使用动态空间语义记忆来表示机器人的环境。DynaMem 构建了一个三维数据结构来维护点云的动态存储器,并使用多模态 LLM 或由 SOTA 视觉语言模型生成的开放词汇特征来回答开放词汇对象定位查询。在 DynaMem 的支持下,机器人可以探索新环境,搜索内存中没有的物体,并在物体移动、出现或消失在场景中时不断更新内存。

他们使用 Stretch SE3 机器人在三个真实场景和九个离线场景中进行了大量实验,在非静态物体上的平均拾取和投放成功率达到 70%,比 SOTA 静态系统提高了两倍多。

论文链接:
https://arxiv.org/abs/2411.04999
项目地址:
https://dynamem.github.io/

5.谷歌新研究:由视频生成带有相机轨迹的新视频

最近,视频建模技术取得了突破性进展,可以在生成的视频中控制相机轨迹。然而,这些方法不能直接应用于用户提供的视频,因为这些视频不是由视频模型生成的。

在这项研究中,来自谷歌和新加坡国立大学的研究团队提出了 ReCapture,这是一种从单个用户提供的视频中生成带有新颖相机轨迹的新视频的方法。通过这一方法,他们可以从不同的角度,以电影镜头的运动方式,重新生成包含所有现有场景运动的参考视频。

值得注意的是,使用这一方法,他们还可以生成参考视频中无法观察到的场景部分。他们的方法是:(1)使用多视角扩散模型或基于深度的点云渲染技术,用新的相机轨迹生成有噪声的锚视频,然后(2)使用遮蔽视频微调技术,将锚视频重新生成干净且时间上一致的重新纠缠视频。

论文链接:
https://arxiv.org/abs/2411.05003
项目地址:
https://generative-video-camera-controls.github.io/

6.TIP-I2V:用于图生视频的百万真实文本、图像提示数据集

视频生成模型正在彻底改变内容创作,其中图生视频模型因其更强的可控性、视觉一致性和实际应用而日益受到关注。然而,尽管这些模型很受欢迎,但它们依赖于用户提供的文本和图像提示,目前还没有专门用于研究这些提示的数据集。

在这项研究中,来自悉尼科技大学和浙江大学的研究团队提出了首个专门用于图像到视频生成的大规模数据集——TIP-I2V,其包含 170 多万个由用户提供的独特文本和图像提示。此外,他们还提供了由五种 SOTA 图生视频模型生成的相应视频。

首先,他们概述了这一大规模数据集的耗时耗资过程。接下来,他们将 TIP-I2V 与两个流行的 prompt 数据集 VidProM(文本到视频)和 DiffusionDB(文本到图像)进行比较,突出基本信息和语义信息的差异。该数据集有助于推进图生视频的研究。例如,为了开发出更好的模型,研究人员可以利用 TIP-I2V 中的提示来分析用户偏好,并评估其训练模型的多维性能;为了提高模型的安全性,研究人员可以重点解决图像视频模型引起的误报问题。

论文链接:
https://arxiv.org/abs/2411.04709
项目地址:
https://tip-i2v.github.io/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/60178.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

MySQL核心业务大表归档过程

记录一下2年前的MySQL大表的归档,当时刚到公司,发现MySQL的业务核心库,超过亿条的有7张表,最大的表有9亿多条,有37张表超过5百万条,部分表行数如下: 在测试的MySQL环境 : pt-archiv…

cache(二)直接缓存映射

在知乎发现一份不错得学习资料 请教CPU的cache中关于line,block,index等的理解? PPT 地址 https%3A//cs.slu.edu/%7Efritts/CSCI224_S15/schedule/chap6-cache-memory.pptx 课程主页 https://cs.slu.edu/~fritts/CSCI224_S15/schedule/ 0. 缓存定义 这张图展示了缓…

光流法(Optical Flow)

一、简介 光流法(Optical Flow)是一种用于检测图像序列中像素运动的计算机视觉技术。其基于以下假设: 1.亮度恒定性假设:物体在运动过程中,其像素值在不同帧中保持不变。 2.空间和时间上的连续性:相邻像素之…

打造自己的RAG解析大模型:(可商用)智能文档服务上线部署

通用版面分析介绍 版面解析是一种将文档图像转化为机器可读数据格式的技术,广泛应用于文档管理和信息提取等领域。通过结合OCR、图像处理和机器学习,版面解析能够识别文档中的文本块、图片、表格等版面元素,最终生成结构化数据,大…

【MySQL】MySQL基础知识复习(下)

前言 上一篇博客介绍了MySQL的库操作,表操作以及CRUD。 【MySQL】MySQL基础知识复习(上)-CSDN博客 本篇将进一步介绍CRUD操作,尤其是查找操作 目录 一.数据库约束 1.约束类型 1.1NULL约束 1.2UNIQUE:唯一约束 …

新的服务器Centos7.6 安卓基础的环境配置(新服务器可直接粘贴使用配置)

常见的基础服务器配置之Centos命令 正常来说都是安装一个docker基本上很多问题都可以解决了,我基本上都是通过docker去管理一些容器如:mysql、redis、mongoDB等之类的镜像,还有一些中间件如kafka。下面就安装一个 docker 和 nginx 的相关配置…

性能测试|JMeter接口与性能测试项目

前言 在软件开发和运维过程中,接口性能测试是一项至关重要的工作。JMeter作为一款开源的Java应用,被广泛用于进行各种性能测试,包括接口性能测试。本文将详细介绍如何使用JMeter进行接口性能测试的过程和步骤。 JMeter是Apache组织开发的基…

linux物理内存管理:node,zone,page

一、总览 对于物理内存内存,linux对内存的组织逻辑从上到下依次是:node,zone,page,这些page是根据buddy分配算法组织的,看下面两张图: 上面的概念做下简单的介绍: Node&#xff1a…

Pr:视频过渡快速参考(合集 · 2025版)

Adobe Premiere Pro 自带七组约四十多个视频过渡 Video Transitions效果,包含不同风格和用途,可在两个剪辑之间创造平滑、自然的转场,用来丰富时间、地点或情绪的变化。恰当地应用过渡可让观众更好地理解故事或人物。 提示: 点击下…

使用vscode 连接linux进行开发

1. 在Vscode中安装扩展功能remote ssh 2. 打开命令窗口 3. 在弹出的命令窗口输入ssh,并从弹出的提示中选择 Add New SSH Host 4. 在弹出的输入窗口中输入类似下面形式的 连接地址: 5. 输入回车后出现下面的对话框,这个对话框是说你要用哪个…

面试击穿mysql

Mysql三大范式: 第一范式(1NF): 不符合第一范式的典型情况是在一个字段中存放多种不同类型的详细信息。例如,在商品表中,若将商品名称、价格和类型都存储在同一个字段中,会带来诸多弊端。首先,在…

excel功能

统计excel中每个名字出现的次数 在Excel中统计每个名字出现的次数,您可以使用COUNTIF函数或数据透视表。以下是两种方法的详细步骤: 方法一:使用COUNTIF函数 准备数据:确保您的姓名列表位于一个连续的单元格区域,例如…

单体架构 IM 系统之长轮询方案设计

在上一篇技术短文(单体架构 IM 系统之核心业务功能实现)中,我们讨论了 “信箱模型” 在单体架构 IM 系统中的应用,“信箱模型” 见下图。 客户端 A 将 “信件” 投入到客户端 B 的 “信箱” 中,然后客户端 B 去自己的 …

webpack loader全解析,从入门到精通(10)

webpack 的核心功能是分析出各种模块的依赖关系,然后形成资源列表,最终打包生成到指定的文件中。更多复杂的功能需要借助 webpack loaders 和 plugins 来完成。 1. 什么是 Loader Loader 本质上是一个函数,它的作用是将某个源码字符串转换成…

web——sqliabs靶场——第一关

今天开始搞这个靶场,从小白开始一点点学习,加油!!!! 1.搭建靶场 注意点:1.php的版本问题,要用老版本 2.小p要先改数据库的密码,否则一直显示链接不上数据库 2.第一道题&#xff0…

Linux基础—网络设置

linux系统的网络设置 1、网络的基本设置 2、dhcp和ftp 3、nfs共享文件共享系统和ssh远程连接 4、dns解析 5、pxe自动装机(centos) 网络的基本设置 查看网络接口信息: ipaddr/ip a 简略的查看网络接口信息 ifconfig 表示只显示当前活跃的设备 ifc…

ST-GCN模型实现花样滑冰动作分类

项目源码获取方式见文章末尾! 600多个深度学习项目资料,快来加入社群一起学习吧。 《------往期经典推荐------》 项目名称 1.【基于CNN-RNN的影像报告生成】 2.【卫星图像道路检测DeepLabV3Plus模型】 3.【GAN模型实现二次元头像生成】 4.【CNN模型实现…

android studio 配置过程

Android studio版本:Android Studio Ladybug | 2024.2.1 windows 10 x64 关键问题解决方法: 1.设置代理: 退出首次配置,进入ide(必要时新建工程)然后: 然后重启ide 等待下载完成。 代理地…

关于分治法左右区间单调遍历应该如何设计

阅读以下文章,首先至少要求通过一道分治法的题目或听过一道该类型的讲解。 对于分治的题目,想必你应该知道,通常我们是对于一个区间拆分两个部分,而最小子问题通常是只包含一个元素的区间数组。为了后续方便处理更大范围的区间&am…

【软件测试】敏捷模型(Scrum模型)和V模型、W模型

敏捷模型 前面的那些模型以前非常流行,但现在开发人员在使用的时候会遇到各种问题。主要困难包括在项目开发期间处理来自客户的变更请求,以及合并这些变更所需要的高成本和时间。 在实际工作中,一款产品的功能是不断在变化的 所以为了克服这…