大模型日报|今日必读的 8 篇大模型论文

在这里插入图片描述

大家好,今日必读的大模型论文来啦!

1.Google DeepMind 新研究:当 Transformer 遇见神经算法推理器

Transformer 以其简单而有效的架构彻底改变了机器学习。在互联网的海量文本数据集上预先训练 Transformer,为自然语言理解(NLU)任务带来了强大的泛化能力。然而,在执行算法形式的推理任务时,这种语言模型仍然很脆弱,计算必须精确而鲁棒。

为了解决这一局限性,来自 Google DeepMind 的研究团队提出了一种新方法,将 Transformer 的语言理解能力与基于图神经网络(GNN)的神经算法推理器(NARs)的鲁棒性结合起来。事实证明,当以图谱的形式指定时,这种 NARs 可以有效地作为算法任务的通用求解器。为了让 Transformer 可以访问它们的嵌入,他们提出了一种具有两阶段训练程序的混合架构,允许语言模型中的 token 与 NAR 中的节点嵌入交叉关注。他们在 CLRS-Text 模型(CLRS-30 基准的文本版本)上评估了产生的 TransNAR 模型,结果表明,在算法推理方面,无论是在发布中还是发布外,这一模型都比纯 Transformer 模型有显著提高。

论文链接:
https://arxiv.org/abs/2406.09308

2.清华团队推出 DiTFastAttn:解决 DiT 推理三大关键冗余

扩散 Transformer(DiT)在图像和视频生成方面表现出色,但由于自注意力的二次方复杂性而面临计算挑战。

为此,来自清华大学、Infinigence AI、卡内基梅隆大学、上海交通大学的研究团队提出了一种新型后训练压缩方法——DiTFastAttn。他们确定了 DiT 推理过程中注意力计算的三个关键冗余:1)空间冗余,即许多注意力集中在局部信息上;2)时间冗余,即相邻步骤的注意力输出之间具有高度相似性;3)条件冗余,即有条件推论和无条件推论表现出明显的相似性。为了解决这些冗余问题,他们提出了三种技术:1)利用残余缓存的窗口关注来减少空间冗余;2)利用步骤间的相似性实现时间相似性还原;3. 条件冗余消除,在条件生成过程中跳过冗余计算。

为了证明 DiTFastAttn 的有效性,他们将其应用于 DiT、PixArt-Sigma(图像生成任务)和 OpenSora(视频生成任务)。评估结果表明,对于图像生成,这一方法最多可减少 88% 的 FLOPs,并在高分辨率生成时实现高达 1.6 倍的速度提升。

论文链接:
https://arxiv.org/abs/2406.08552

3.斯坦福团队推出开源视觉-语言-动作模型 OpenVLA

结合互联网规模的视觉语言数据和各种机器人演示进行预训练的大型策略,有可能改变我们教授机器人新技能的方式:我们可以微调这种视觉-语言-动作(VLA)模型,从而获得鲁棒、通用的视觉运动控制策略,而不是从头开始训练新的行为。然而,将视觉-语言-动作模型广泛应用于机器人技术一直是个挑战,因为:1)现有的视觉-语言-动作模型大多是封闭的,公众无法访问;2)先前的工作未能探索针对新任务有效微调视觉-语言-动作模型的方法,而微调是采用视觉-语言-动作模型的关键要素。

为了应对这些挑战,来自斯坦福的研究团队及其合作者推出了一个具有 7B 参数的开源 VLA——OpenVLA,其在 97 万真实世界机器人演示的不同集合上进行了训练。OpenVLA 基于 Llama 2 语言模型和视觉编码器,后者融合了 DINOv2 和 SigLIP 的预训练特征。作为新增数据多样性和新模型组件的产物,OpenVLA 在通用操作方面取得了优异成绩,在 29 个任务和多个机器人示例中,OpenVLA 的绝对任务成功率比 RT-2-X(55B)等封闭模型高出 16.5%,而参数却减少到 1/7。

他们还进一步证明,可以针对新的环境对 OpenVLA 进行有效的微调,在涉及多个对象和强大语言基础能力的多任务环境中,OpenVLA 的泛化效果很好,比 Diffusion Policy 等从头开始模仿学习方法高出 20.4%。

他们还探索了计算效率;他们展示了 OpenVLA 可以通过低阶适应方法在消费级 GPU 上进行微调,并通过量化高效地提供服务,而不会影响下游成功率。最后,他们发布了模型检查点、微调笔记本,以及 PyTorch 代码库,该代码库内置支持在 Open X-Embodiment 数据集上大规模训练 VLA。

论文链接:
https://arxiv.org/abs/2406.09246
项目地址:
https://openvla.github.io/

4.港大、TikTok 推出 Depth Anything V2

在这项工作中,来自香港大学和 TikTok 的研究团队提出了 Depth Anything V2。与 V1 相比,V2 通过三个关键实践,产生了更精细、更鲁棒的深度预测:1)用合成图像替换所有标注的真实图像;2)扩大教师模型的容量;3)通过大规模伪标注真实图像的桥梁教授学生模型。与建立在 Stable Diffusion 基础上的模型相比,Depth Anything V2 明显更高效(快 10 倍以上)、更准确。

为支持广泛的应用场景,他们提供了不同规模的模型(从 2500 万到 1300 亿参数不等)。得益于其强大的泛化能力,他们利用度量深度标签对其进行了微调,从而获得了度量深度模型。此外,考虑到当前测试集的有限多样性和频繁出现的噪声,他们还构建了一个具有精确注释和多样化场景的多功能评估基准,从而促进未来的研究。

论文链接:
https://arxiv.org/abs/2406.09414

5.英伟达推出 HelpSteer2:用于训练更好奖励模型的开源数据集

高质量的偏好数据集对于训练奖励模型至关重要,这些模型可以有效地指导大语言模型(LLM)生成与人类偏好一致的高质量响应。随着 LLM 变得更强大、更符合人类偏好,Open Assistant、HH-RLHF 和 HelpSteer 等许可偏好数据集也需要更新,从而保持对奖励建模的有效性。从 GPT-4 等专有 LLM 中提炼偏好数据的方法受到模型提供者对商业使用的限制。

为了提高生成的响应和属性标签质量,来自英伟达的研究团队推出了 HelpSteer2,这是一个获得许可的偏好数据集(CC-BY-4.0)。利用在 HelpSteer2 上训练的强大内部基础模型,他们能够在 Reward-Bench 的主要数据集上获得 SOTA 分数(92.0%),超过目前列出的开放和专有模型(截至 2024 年 6 月 12 日)。值得注意的是,HelpSteer2 只包含一万个响应对,比现有的偏好数据集(如 HH-RLHF)低一个数量级,这使得它在训练奖励模型时非常高效。

大量实验证明,使用 HelpSteer2 训练的奖励模型可以有效地对齐 LLM。他们特别提出了 SteerLM 2.0,这是一种能有效利用奖励模型预测的丰富多属性得分的模型对齐方法。

论文链接:
https://arxiv.org/abs/2406.08673
GitHub 地址:
https://github.com/NVIDIA/NeMo-Aligner

6.谷歌推出 LLM 时间推理能力评估数据集

大语言模型(LLM)展示了非凡的推理能力,但它们仍然容易出错,尤其是在涉及复杂时间逻辑的时间推理(temporal reasoning)任务中。现有研究利用各种数据集和基准探索了 LLM 在时间推理方面的性能。然而,这些研究通常依赖于 LLM 在预训练时可能遇到的真实世界数据,或采用可能无意中引入事实不一致的匿名技术。

在这项工作中,来自谷歌的研究团队推出了新的合成数据集,专门用于评估 LLM 在各种场景下的时间推理能力,从而解决了这些局限性。这些数据集的问题类型多种多样,有助于系统地研究问题结构、规模、问题类型、事实顺序和其他因素对 LLM 性能的影响。研究结果为了解当前 LLM 在时间推理任务中的优缺点提供了宝贵的见解。

论文链接:
https://arxiv.org/abs/2406.09170

7.微软新研究:用于高效无限上下文语言建模的简单混合状态空间模型

如何高效地为具有无限上下文长度的序列建模是一个长期存在的问题。过去的工作要么存在二次计算复杂性问题,要么在长度泛化方面的外推能力有限。

在这项工作中,来自微软的研究团队提出了一种简单的混合架构 Samba,它分层结合了选择性状态空间模型(SSM)Mamba 和滑动窗口注意力(SWA)。Samba 可选择性地将给定序列压缩为递归隐藏状态,同时仍能保持利用注意力机制精确调用记忆的能力。

他们用 3.2T 个训练 token 将 Samba 扩展到 3.8B 个参数,结果表明,在各种基准测试中,Samba 都优于基于纯注意力或 SSM 的 SOTA 模型。在 4K 长度的序列上进行训练时,Samba 可以有效地推断出 256K 上下文长度,并具有完美的记忆召回能力,同时在高达 100 万上下文长度的情况下,Samba 的 token 预测能力也有所提高。作为一种线性时间序列模型,在处理 128K 长度的用户提示时,Samba 的吞吐量比使用分组查询注意力的 Transformer 高出 3.73 倍;在以无限流生成 64K token 时,Samba 的速度提高了 3.64 倍。

论文链接:
https://arxiv.org/abs/2406.07522
GitHub 地址:
https://github.com/microsoft/Samba

8.EMMA:让图像生成模型接受多模态提示

图像生成技术的最新进展使人们能够根据文本条件生成高质量的图像。然而,在面对多模态条件(如文本与参考图像相结合)时,现有方法难以有效平衡多种条件,通常会表现出对一种模态的偏好。

为了应对这一挑战,来自南洋理工大学和腾讯的研究团队推出了一种新型图像生成模型——EMMA,其可接受多模态提示,建立在文本到图像(T2I)SOTA 扩散模型 ELLA 的基础上。

EMMA 通过创新的多模态特征连接器设计,将文字和补充模态信息有效地整合在一起,利用一种特殊的注意力机制,将文字和补充模态信息无缝地整合在一起,从而指导图像生成。

通过冻结原始 T2I 扩散模型中的所有参数,仅调整一些附加层,他们发现,预训练的 T2I 扩散模型可以接受多模态提示。这一有趣的特性有助于轻松适应不同的现有框架,使 EMMA 成为制作个性化和情境感知图像甚至视频的灵活且有效的工具。

此外,他们还提出了一种策略,将学习到的 EMMA 模块组合在一起,同时生成以多模态为条件的图像,从而消除了对混合多模态提示进行额外训练的需要。大量实验证明,EMMA 能有效保持生成图像的高保真和细节,展示了其作为高级多模态条件图像生成任务的强大解决方案的潜力。

论文链接:
https://arxiv.org/abs/2406.09162
项目地址:
https://tencentqqgylab.github.io/EMMA/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/27642.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Java--多维数组

1.多维数组可以看成是数组的数组,比如二维数组就是一个特殊的一维数组,其每一个元素都是一个一维数组 2.二维数组 下列数组啊可看成一个两行五列的数组 int a[][] new int[2][5]; 3.输出二维数组的第一个数组中具体元素,通过调用打…

园区无线网新架构:无CAPWAP的集中式转发

1、从经典的APAC组网说起 谈及园区无线网,大家脑子里不免会蹦出同一个关键词。 没错,市面上常见的中大型企业/园区的无线网络组网方案,大多都是基于集中式网关转发的”APAC”模式。 顾名思义,该架构包括 AP 和AC两个关键角色。 …

shell脚本简单命令

shell脚本 脚本就是可运行代码的集合,脚本语言(计算机语言)脚本的特点:从上到下,按行执行。 python 脚本语言 格式更严谨 严格的执行锁进。也是从上到下按行执行。 shell脚本就是在shell环境(/bin/bash&…

在Kubernetes中部署Elasticsearch高可用集群详细教程

Hi~!这里是奋斗的小羊,很荣幸您能阅读我的文章,诚请评论指点,欢迎欢迎 ~~ 💥💥个人主页:奋斗的小羊 💥💥所属专栏:C语言 🚀本系列文章为个人学习…

2024下半年教师资格证报名全流程来啦!!

2024下半年教师资格证报名全流程来啦!! 一、重要时间节点 ✅2024下半年教师资格证考试 ⏰笔试报名:7月5日-8日 ⏰笔试时间:9月15日 ⏰笔试成绩查询:11月8日 ⏰面试报名:11月8日起 ⏰面试时间:12…

开源医疗大模型Llama3-Aloe-8B-Alpha,性能超越 MedAlpaca 和 PMC-LLaMA

前言 近年来,大型语言模型 (LLM) 在医疗领域展现出巨大潜力,能够帮助医生和研究人员更快地获取信息、分析数据,并提高医疗服务效率。然而,目前市场上大多数医疗 LLM 都是闭源模型,限制了其在学术研究和应用领域的推广…

移动端消息中心,你未必会设计,发一些示例出来看看。

APP消息中心是一个用于管理和展示用户收到的各种消息和通知的功能模块。它在APP中的作用是提供一个集中管理和查看消息的界面,让用户能够方便地查看和处理各种消息。 以下是设计APP消息中心的一些建议: 1. 消息分类: 将消息按照不同的类型进…

【Numpy】一文向您详细介绍 np.floor()

【Numpy】一文向您详细介绍 np.floor() 下滑即可查看博客内容 🌈 欢迎莅临我的个人主页 👈这里是我静心耕耘深度学习领域、真诚分享知识与智慧的小天地!🎇 🎓 博主简介:985高校的普通本硕,…

基于Python+Django+MySQL+HTML的创新创业平台

DjangoMySQLHTML 基于PythonDjangoMySQLHTML的创新创业平台 用户管理 系统监控 角色管理 资源管理 参数设置 角色管理 简介 学生创新创业平台是一个功能丰富的在线教育或协作系统,支持中文语言环境。它提供用户管理、系统监控、多角色权限控制、资源管理、参…

mac下Xcode在iphone真机上测试运行iOS软件

最近一个需求需要在iPhone真机上测试一个视频直播的项目。 需要解决如何将项目 app 安装到真机上 在进行真机调试。 安装Xcode 直接在App Store上搜索Xcode安装即可。 关键是要安装Simulator。项目需要安装iOS17.5但是由于安装包太大,并且网络不稳定的原因。在Xco…

Databricks超10亿美元收购Tabular;Zilliz 推出 Milvus Lite ; 腾讯云支持Redis 7.0

重要更新 1. Databricks超10亿美元收购Tabular,Databricks将增强 Delta Lake 和 Iceberg 社区合作,以实现 Lakehouse 底层格式的开放与兼容([1] [2])。 2. Zilliz 推出 Milvus Lite 轻量级向量数据库,支持本地运行;Milvus Lite 复…

C++入门 vector介绍及使用

目录 vector的介绍及使用 vector常用接口的介绍及使用 vector的定义 vector iterator 的使用 vector 空间增长问题 vector 增删查改 push_back/pop_back insert & erase & find operator[ ]的遍历 vector的介绍及使用 vector的文档介绍 vector是表示可变大…

Vue使用vue-esign实现在线签名

Vue在线签名 一、目的二、样式三、代码1、依赖2、代码2.1 在线签名组件2.2父组件 一、目的 又来了一个问题,直接让我在线签名(还不能存储base64),并且还得上传,我直接***违禁词。 二、样式 初始样式 点击前往组件&am…

金蝶云星空程序员开发快速入门

文章目录 一 前言1.1 学习步骤1.2 学习需知 二、学习金蝶*云星空的步骤2.1 下载金蝶*云星空安装到本地2.2 查看官网的学习资料2.3 如何使用C#进行插件开发2.4 sqlserver的表设计以及存储过程2.5 如何使用python进行插件的开发2.6 第三方程序如何调用金蝶*云星空的数据 三 后记 …

1089 狼人杀-简单版

solution 有两个狼人&#xff0c;其中一个狼人说谎&#xff0c;找到符合该条件的方案。若有多种则输出序号最小的方案&#xff0c;若无方案则输出No Solution。 枚举所以狼人的可能性&#xff0c;找到符合的方案输出并结束。 #include<iostream> using namespace std; …

CSRF攻击

改账号和密码 里面有改的账号和密码 我改这个代码的123为456&#xff0c;然后在新的浏览器去执行&#xff0c;然后密码就又被改了 假如黑客知道修改密码的url&#xff0c;那么就危险了 但是也不是随便改 是有前提的&#xff0c;前提是&#xff1a; 1、已经登录了要改密码的…

计算机网络:网络层 - IPv6

计算机网络&#xff1a;网络层 - IPv6 IPv6 数据报IPv6 地址冒号十六进制记法地址分类 IPv4 到 IPv6 过渡双栈协议隧道技术 IPv6 是互联网协议的最新版本&#xff0c;它被设计用来取代现有的 IPv4 协议。这是因为 IPv4 存在一些根本性的限制&#xff0c;而 IPv6 则可以解决这些…

【three.js案例一】智慧星球

直接附上源码: import * as THREE from three; import { OrbitControls } from three/addons/controls/OrbitControls.js;//场景 const scene = new THREE.Scene();const geometry = new THREE.SphereGeometry(50,32,16);console.log(.postion,geometry.attributes.position)…

【吊打面试官系列-Mysql面试题】实践中如何优化 MySQL?

大家好&#xff0c;我是锋哥。今天分享关于 【实践中如何优化 MySQL&#xff1f;】面试题&#xff0c;希望对大家有帮助&#xff1b; 实践中如何优化 MySQL&#xff1f; 最好是按照以下顺序优化&#xff1a; 1000道 互联网大厂Java工程师 精选面试题-Java资源分享网 1、SQL 语…