大模型日报|今日必读的9篇大模型论文

在这里插入图片描述
大家好,今日必读的大模型论文来啦!

1.Google DeepMind 提出 RecurrentGemma:超越 Transformer,迈向高效开放语言模型

Google DeepMind 团队提出了 RecurrentGemma,一个使用 Google 新颖的 Griffin 架构的开放语言模型。Griffin 将线性递归与局部注意力相结合,在语言上取得了优异的性能。它具有固定大小的状态,从而减少了内存使用,并能够对长序列进行有效的推理。

他们提出了一个具有 2B 非嵌入参数的预训练模型和一个指令微调的变体。尽管在更少的 token 上进行训练,但这两个模型都取得了与 Gemma-2B 相当的性能。

论文链接:
https://arxiv.org/abs/2404.07839

2.麻省理工大学新研究 JetMoE:10 万美元,达到 Llama2 表现

大型语言模型(LLMs)已经取得了显著的成果,但其日益增长的资源需求已经成为发展强大和可访问的超人类智能的主要障碍。

来自麻省理工大学和普林斯顿大学的研究团队提出了 JetMoE-8B,这是一种训练费用不到 10 万美元的新的 LLM,使用来自精心混合的开源语料库的 1.25T token 和 30000 个 H100 GPU 小时进行训练。

尽管成本低,但 JetMoE-8B 表现出了令人印象深刻的性能,它超过了 Llama2-7B 模型,JetMoE-8B-chat 超过了Llama2-13B-Chat 模型。

结果表明,LLM 训练可能比通常认为的更具成本效益。JetMoE-8B 基于高效的稀疏门控专家混合(SMoE)架构,由注意力和前馈专家组成。这两层都是稀疏激活的,允许 JetMoE-8B 具有 8B 参数,而每个输入 token 仅激活 2B,与 Llama2-7B 相比,减少了约 70% 的推理计算。

此外,JetMoE-8B 是高度开放和学术友好的,只使用公共数据集和训练代码。该团队详细介绍了所有训练参数和数据混合,从而促进未来开发开放式基础模型的努力。这种透明度旨在鼓励在可访问和高效的 LLMs 领域的合作和进步。

论文链接:
https://arxiv.org/abs/2404.07413
Github 地址:
https://github.com/myshell-ai/JetMoE

3.Any2Point:增强任何模态的大型模型有效的 3D 理解

最近,大型基础模型成为一个突出的兴趣焦点,在广泛的场景中取得了卓越的性能。由于 3D 数据的稀缺性,人们已经做出了许多努力,以适应预训练的变形从视觉到 3D 领域。

然而,由于潜在的空间几何损失和高计算成本,这种 2D-to-3D 方法仍然受到限制。更重要的是,他们的框架主要是为 2D 模型设计的,缺乏通用的任意到 3D 的范式。

来自上海 AI Lab 和北京大学的研究团队提出了一种参数有效的方法——Any2Point,来增强任何模态的大型模型(视觉,语言,音频)进行 3D 理解。

给定来自任何源模态的冻结 transformer,他们提出了一种 3D 到任意(1D或2D)虚拟投影策略,该策略将输入 3D 点与源模态内的原始 1D 或 2D 位置关联起来。该机制能够使用与预训练模型相匹配的位置编码来分配每个 3D token,从而避免了真实投影造成的 3D 损失,并更好地激励 transformer 使用 1D 或 2D 位置先验进行 3D 学习。然后,在每个 transformer 块内,他们插入一个任意到 3D 的引导适配器模块,用于参数高效微调。

该适配器结合了来自源模态的先验空间知识来指导 3D tokens 的局部特征聚合,强制任何模态转换器的语义自适应。实验证明,该方法具有有效性和效率。

论文链接:
https://arxiv.org/abs/2404.07989
Github 地址:
https://github.com/Ivan-Tang-3D/Any2Point

4.ResearchAgent:基于 LLM 的科学文献迭代研究思想生成

一些对改善人类生活至关重要的科学研究,由于其固有的复杂性、缓慢的速度和对专业专家的需求而受到阻碍。

为了提高它的生产力,来自韩国科学技术院和微软的研究团队,提出了一个大型语言模型驱动的研究思想写作智能—— ResearchAgent,它自动生成问题、方法和实验设计,同时根据科学文献迭代对它们进行改进。

具体来说,从一篇核心论文为主要焦点来产生想法开始,ResearchAgent 不仅通过连接学术图上的信息来关联出版物,而且根据其基本概念从以实体为中心的知识存储中检索实体,在许多论文中进行挖掘和共享。

此外,反映了人类通过同行讨论迭代改进想法的方法,利用多个评审智能体迭代来提供评审和反馈。用人类偏好对齐的大型语言模型来实例化它们,这些模型的评估标准来自实际的人类判断。他们在多学科的科学出版物上验证了 ResearchAgent,展示了其在基于人工和基于模型的评估结果生成新颖、清晰和有效的研究想法方面的有效性。

论文链接:
https://arxiv.org/abs/2404.07738

5.Ferret-v2:提高大型语言模型的引用和接地能力

来自苹果公司、哥伦比亚大学和加州大学的研究团队提出了 Ferret-v2。

Ferret-v2 具有三个关键设计:(1)任何分辨率基础和参考:一种灵活的方法,可以毫不费力地处理更高的图像分辨率,提高模型处理和理解图像更详细的能力。(2)多粒度视觉编码:通过集成额外的 DINOv2 编码器,模型可以更好地学习全局和细粒度视觉信息的多样化底层上下文。(3)三阶段训练范式:除了图像标题对齐外,在最终指令微调之前,还提出了一个高分辨率密集对齐的阶段。

实验表明,由于其高分辨率缩放和细粒度的视觉处理,Ferret-v2 比 Ferret 和其他先进方法有了很大的改进。

论文链接:
https://arxiv.org/abs/2404.07973

6.英伟达推出 Audio Dialogues:用于音频和音乐理解的对话数据集

现有的音频理解数据集主要集中在单回合交互(即音频字幕、音频问答)上,用于以自然语言描述音频,从而限制了通过交互式对话理解音频。

为了解决这一差距,英伟达研究团队提出了一个包含 163.8k 样本的多回合对话数据集——Audio Dialogues,用于一般音频和音乐。除了对话,Audio Dialogues 还具有问答对,可以一起理解和比较多个输入音频。

Audio Dialogues 利用基于提示的方法和来自现有数据集的标题注释,使用大型语言模型(LLM )生成多回合对话。在所提出的数据集上评估了现有的音频增强的大型语言模型,从而证明音频对话的复杂性和适用性。

论文链接:
https://arxiv.org/abs/2404.07616
Github 地址:
https://audiodialogues.github.io/

7. 厦大、清华、微软提出 Rho-1:不是所有 token 都是你需要的

以往的语言模型预训练方法对所有训练 tokens 统一应采用 next-token 的预测损失。

然而,来自厦门大学、清华大学和微软的研究团队认为“并不是语料库中的所有 token 对语言模型训练都同样重要”。他们初步分析深入到语言模型的 token-level 训练动态,揭示了不同 token 的不同损失模式。

利用这些见解,他们提出了名为 Rho-1 的新语言模型。与学习预测语料库中每下一个 token 的传统 LMs 不同,Rho-1 使用选择性语言建模(SLM),它选择性地训练与期望分布一致的有用 tokens。这种方法包括使用参考模型对预训练 token 进行评分,然后将集中损失的语言模型训练在具有较高超额损失的 token 上。

在 15B OpenWebMath 语料库中进行持续预训练时,Rho-1 在 9 个数学任务中的少样本准确率绝对提高了 30%。经过微调,Rho-1-1B 和 7B 在 MATH 数据集上分别取得了 SOTA,仅用 3% 的预训练 tokens 匹配 DeepSeekMath。此外,当对 80B 个通用 tokens 进行预训练时,Rho-1 在 15 个不同的任务上实现了 6.8% 的平均增强,提高了语言模型预训练的效率和性能。

论文链接:
https://arxiv.org/abs/2404.07965
Github 地址:
https://github.com/microsoft/rho

8.Controlnet++:利用高效一致性反馈改进条件控制

目前,为了增强文本到图像扩散模型的可控性,ControlNet 纳入了基于图像的条件控制。

然而,来自佛罗里达中央大学和字节跳动公司的研究团队提出,现有方法在生成与图像条件控制一致的图像方面仍然面临重大挑战。

他们提出了一种新方法 Controlnet++,通过显式优化生成图像和条件控制之间的像素级循环一致性,来改善可控生成。具体来说,对于一个输入条件控制,他们使用预训练的判别奖励模型来提取生成图像的相应条件,然后优化输入条件控制与提取条件之间的一致性损失。一个直接的实现方法是从随机噪声中生成图像,然后计算一致性损失,但这种方法需要存储多个采样时间步的梯度,消耗了相当大的时间和内存成本。

为了解决这个问题,他们提出了一种有效的奖励策略,通过添加噪声故意干扰输入图像,然后使用单步去噪图像进行奖励微调。这避免了与图像采样相关的大量成本,允许更有效的奖励微调。

大量实验表明,Controlnet++ 在各种条件控制下显著提高了可控性。例如,在分割掩码、线条艺术边缘和深度条件方面,它比 ControlNet 分别提高了 7.9% mIoU、13.4% SSIM 和 7.6% RMSE。

论文链接:
https://arxiv.org/abs/2404.07987
项目地址:
https://liming-ai.github.io/ControlNet_Plus_Plus/

9.UC 伯克利提出 LLoCO:离线学习长上下文

目前,由于自注意力机制的二次计算和内存开销以及生成过程中大量的 KV 缓存大小等问题,处理长上下文对于大型语言模型(LLMs)来说仍然是一个挑战。

加州大学伯克利分校团队提出了一种新的方法来解决这个问题,通过上下文压缩和域内高效参数微调来离线学习上下文。该方法使 LLM 能够创建原始上下文的简明表示,并有效地检索相关信息以准确回答问题。他们提出了 LLoCO——一种使用 LoRA 结合上下文压缩、检索和参数高效调优的技术。

他们的方法扩展了 4k token LLaMA2-7B 模型的有效上下文窗口,以处理多达 128k 的 tokens。他们在几个长上下文问答数据集上评估了该方法,证明 LLoCO 在推理期间使用的 token 在减少 30 倍的情况下,显著优于上下文学习。LLoCO 实现了高达 7.62 倍的加速比,并极大地降低了长文档问答的代价,是一种高效的长文本问答解决方案。

论文链接:
https://arxiv.org/abs/2404.07979

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/811466.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

PHP01——php快速入门 之 使用phpstudy快速搭建PHP环境

PHP01——php快速入门 之 使用phpstudy快速搭建PHP环境 0. 前言1. 下载小皮面板1.1 下载phpstudy(小皮面板)1.2 启动、简单访问1.2.1 启动Apache1.2.2 访问1.2.3 访问自定义文件或页面 2. 创建网站2.1 创建网站2.2 可能遇到的问题2.2.1 hosts权限问题&am…

【新版HI3559AV100开发注意事项(四)】

新版HI3559AV100开发注意事项(四) 三十、HI3559A参数中对输入分辨率限制的原因是? 答:分辨率限制有两个来源: 一个是时钟频率最高为600M,开启一拍两像素之后相当于1200M。你这个数据量太大了,6…

[大模型]基于 ChatGLM3 和 LangChain 搭建知识库助手

基于 ChatGLM3 和 LangChain 搭建知识库助手 环境配置 在已完成 ChatGLM3 的部署基础上,还需要安装以下依赖包: pip install langchain0.0.292 pip install gradio4.4.0 pip install chromadb0.4.15 pip install sentence-transformers2.2.2 pip inst…

微服务项目实战-黑马头条(一):环境搭建 + APP登录功能【前端静态资源+nginx反向代理+网关+过滤器】

文章目录 一、搭建nacos二、初始工程的搭建2.1 环境准备2.2主体结构 三、APP登录3.1 需求分析3.2 表结构分析3.3 接口定义3.4 功能实现 四、接口工具postman、swagger、knife4j4.1 postman4.2 swagger4.3 knife4j 五、网关5.1 网关搭建5.2 全局过滤器实现jwt校验 六、前端集成6…

目前电视盒子哪个最好?测评工作室盘点超强电视盒子推荐

每年我们会进行数十次电视盒子测评,对各个品牌的产品都有深入的了解,最近我们收到了很多私信不知道目前电视盒子哪个最好,这次我们结合配置总结了五款性能超强的电视盒子推荐给各位,预算足够想买高配电视盒子的朋友们可不要错过啦…

高级Java开发工程师手把手教你用AI人工智能帮你写JAVA代码实际案例二(生成自定义springboot定时器组件)全网唯一

高级Java开发工程师手把手教你用AI人工智能帮你写JAVA代码实际案例二全网唯一 一、需求背景案例说明 笔者有个实际的生产项目,想自己自定义定时器到数据库表里面,不想配置到配置文件里面,很麻烦!这次想用AI帮我写代码&#xff0…

蓝桥杯算法题:栈(Stack)

这道题考的是递推动态规划,可能不是很难,不过这是自己第一次靠自己想出状态转移方程,所以纪念一下: 要做这些题目,首先要把题目中会出现什么状态给找出来,然后想想他们的状态可以通过什么操作转移&#xf…

学习数通HCIE选择誉天有什么优势?

誉天数通课程亮点 课程内容详实,千万级实训环境 涵盖数通技术全场景热门技术,涉及传统园区网,虚拟化园区网,广域互联技术,数据中心网络,网络自动化运维 专业机房环境,全真机教学演示&#xf…

模块化组合优势凸显钡铼IOy系列轻松应对大规模工业自动化工程

模块化组合是钡铼IOy系列独立式I/O模块的一大优势,它为大规模工业自动化工程提供了灵活性、可扩展性和定制性,从而轻松应对不同规模和复杂度的工厂应用。以下是关于模块化组合优势的详细解析: 1. 灵活性和定制性 模块化设计使得钡铼IOy系列…

小鸡宝宝考考你每匹斑马身上的条纹都不相同吗?蚂蚁庄园4.13答案

蚂蚁庄园是一款爱心公益游戏,用户可以通过喂养小鸡,产生鸡蛋,并通过捐赠鸡蛋参与公益项目。用户每日完成答题就可以领取鸡饲料,使用鸡饲料喂鸡之后,会可以获得鸡蛋,可以通过鸡蛋来进行爱心捐赠。其中&#…

【工具-工具指南】

项目-开发工具 ■ 编辑器■ Xmind ■ UI交互设计■ AxureRP9 ■ 项目管理■ boardmix■ excalidraw ■ Markdown■ MarkText■ Typora■ Ulysses■ Notable■ VNote■ Mou■ Bears■ Notion■ 有道云■ 印象笔记 ■ 硬件画图■ AD■ Allegro■ PADS■ Eagle■ Altium■ Fritzin…

大型网站系统架构演化

大型网站质量属性优先级:高性能 高可用 可维护 应变 安全 一、单体架构 应用程序,数据库,文件等所有资源都在一台服务器上。 二、垂直架构 应用和数据分离,使用三台服务器:应用服务器、文件服务器、数据服务器 应用服…

Mongo 报错 Can‘t canonicalize query: BadValue $in needs an array

一、遇到的问题 Mongo in查询 [ UserId > array($in>$userIds)] $userIds数组不是连续索引,报错Cant canonicalize query: BadValue $in needs an array 二、解决 array_values($userIds) 重新索引一下变成连续索引即可。 Mongo in查询的数组要是连续索…

凡尔码搭建物流消防安全巡查系统

物流行业在现代经济中扮演着重要角色,由于物流过程涉及到大量的货物运输和存储,伴随着存在安全隐患、消防安全、设备设施安全等问题;安全问题也为物流企业管理者们需要高度关注的重要问题之一;近年来,随着消防安全管理…

华为校园公开课走入上海交大,鸿蒙成为专业核心课程

4月12日,华为校园公开课在中国上海交通大学成功举办,吸引了来自计算机等相关专业的150余名学生参加。据了解,由吴帆、陈贵海、过敏意、吴晨涛、刘生钟等教授在中国上海交通大学面向计算机系本科生开设的《操作系统》课程,是该系学…

揭秘大前端开发方向的新机遇!

众所周知,华为开发者大会2023,宣布不再兼容安卓,同时宣布了“鸿飞计划”,欲与iOS、安卓在市场三分天下,这对中国国产操作系统而言,具有划时代的意义。 鸿蒙应用开发的兴起&发展 鸿蒙操作系统是华为自…

如何androd动态注册编写计算器

源地址:https://www.ctvol.com/asreverse/41030.html 如何androd动态注册编写计算器 直接开上es开鲁,配置我们就不用多说了。 创建layout;在之后写debug时候回出现乱掉的情况,可以直接慢慢调试 在红圈中是layout基本设置&#…

细胞世界:1.内膜系统(物流网络)与跨膜运输(交通方式)

内膜系统就像一个高度组织化、效率卓越的现代化物流网络,各组成部分协同工作,确保细胞内外的物质转运和处理高效、准确进行。每个部分都承担着不同但相互关联的角色,通过这样的内部物流系统,细胞能够维持其生命活动,响…

网络广播系统是什么?网络广播的作用及应用

网络广播系统是什么?网络广播的作用及应用 商场广播的目的:提醒人员有序、监控配合点对点呼叫、物品遗失广播、背景音乐防噪、紧急情况呼叫等等,各个场景有各个场景的需求模式,广播系统的建设重点在于突发情况的应对,国家已经把广…

清明美食制作|“心灵护航,增能培力”残疾人职业能力提升培养

为提高残疾人的动手能力,提升个人的自身素质和自主就业创业能力,弘扬中华民族传统文化,临近清明之际,淳安县从益舍社会工作服务中心于浪川乡展开了以“品尝春天味道 制作清明粿 清明美食制作”为主题的清明节活动。 【清明粿制作】…