大模型日报|今日必读的 13 篇大模型论文

在这里插入图片描述

大家好,今日必读的大模型论文来啦!

1.MIT新研究:并非所有语言模型特征都是线性的

最近的研究提出了线性表征假说:语言模型通过操作激活空间中概念(“特征”)的一维表征来执行计算。与此相反,来自麻省理工学院(MIT)的研究团队探讨了某些语言模型表征是否可能本质上是多维的。

他们首先为不可还原的多维特征下了一个严格的定义,该定义基于这些特征是否可以分解为独立或不共存的低维特征。受这些定义的启发,他们设计了一种可扩展的方法,利用稀疏自动编码器自动发现 GPT-2 和 Mistral 7B 中的多维特征。这些自动发现的特征包括可解释示例,例如代表星期和月份的 circular 特征。他们确定了一些任务,在这些任务中,这些精确的 circular 被用来解决涉及一周中的天数和一年中的月份的模块运算问题。最后,通过对 Mistral 7B 和 Llama 3 8B 的干预实验,他们证明这些 circular 特征确实是这些任务中的基本计算单元。

论文链接:
https://arxiv.org/abs/2405.14860
GitHub 地址:
https://github.com/JoshEngels/MultiDimensionalFeatures

2.Google DeepMind 推出图像条件扩散模型 Semantica

Google DeepMind 团队研究了在不进行微调的情况下将图像生成模型适应不同数据集的任务。为此,他们提出了一种图像条件扩散模型——Semantica,其能够根据条件图像的语义生成图像。Semantica 完全是在网络规模的图像对上进行训练的,也就是说,它接收网页中的随机图像作为条件输入,并对同一网页中的另一张随机图像进行建模。他们的实验凸显了预训练图像编码器的表现力,以及基于语义的数据过滤对实现高质量图像生成的必要性。一旦经过训练,只需使用数据集中的图像作为输入,它就能自适应地从该数据集中生成新图像。

论文链接:
https://arxiv.org/abs/2405.14857

3.Visual Echoes:用于音频-视觉生成的简单统一 Transformer

近年来,随着逼真的生成结果和广泛的个性化应用,基于扩散的生成模型在视觉和音频生成领域都获得了极大的关注。与文本-图像生成或文本-音频生成的巨大进步相比,音频-视觉生成或视觉-音频生成的研究相对缓慢。近期的音频-视觉生成方法通常采用大型语言模型或可组合扩散模型。

在这项工作中,来自索尼的研究团队没有为音频-视觉生成设计另一个大型模型,而是退后一步,展示了一个在多模态生成中尚未得到充分研究的简单轻量级生成 Transformer,可以在图像-音频生成中取得优异的效果。Transformer 在离散的音频和视觉矢量量化 GAN 空间中运行,并以掩码去噪方式进行训练。训练完成后,无需额外的训练或修改,即可部署现成的无分类器引导,从而获得更好的性能。由于 Transformer 模型是模态对称的,因此也可直接用于音频-图像生成和协同生成。在实验中,他们发现这一简单方法超越了最近的图像-音频生成方法。

论文链接:
https://arxiv.org/abs/2405.14598

4.大型语言模型的分布式推测

加速大型语言模型(LLM)的推理是人工智能领域的一项重要挑战。

来自魏茨曼科学研究所、英特尔和麻省理工学院(MIT)的研究团队提出了一种新颖的分布式推理算法——分布式推测推理(DSI),与推测推理(SI)和传统的自回归推理(non-SI)相比,其推理速度更快。与其他自回归推理算法一样,DSI 在冻结的 LLM 上工作,不需要训练或架构修改,并能保留目标分布。

之前关于 SI 的研究表明,与 non-SI 相比,DSI 算法的经验速度有所提高,但这需要快速、准确的起草 LLM。在实践中,现成的 LLM 通常不具备足够快速和准确的匹配起草器。他们发现:当使用速度较慢或准确度较低的起草员时,SI 的速度会比非 SI 慢。他们通过证明 DSI 在使用任何起草器的情况下都比 SI 和 non-SI 更快,弥补了这一差距。通过协调目标和起草器的多个实例,DSI 不仅比 SI 更快,而且还支持 SI 无法加速的 LLM。

仿真显示,在现实环境中,现成的 LLMs 的速度都有所提高:DSI 比 SI 快 1.29-1.92 倍。

论文链接:
https://arxiv.org/abs/2405.14105

5.改进分布匹配蒸馏,实现快速图像合成

最近的一些方法表明,将扩散模型提炼成高效的一步生成器大有可为。其中,分布匹配蒸馏法(DMD)可以生成在分布上与其“教师”模型相匹配的一步生成器,而无需强制与“教师”的采样轨迹一一对应。然而,为了确保稳定的训练,DMD 需要额外的回归损耗,该损耗是使用由“教师”通过多步确定性采样器生成的大量噪声图像对计算得出的。这对于大规模文本到图像的合成来说成本很高,而且限制了“学生”模型的质量,使其与“教师”的原始采样路径过于紧密地联系在一起。

来自麻省理工学院(MIT)和 Adobe 的研究团队提出了一套能解除这一限制并改进 DMD 训练的技术——DMD2。首先,他们消除了回归损失和昂贵的数据集构建需求。他们证明了由此产生的不稳定性是由于假批评家没有准确估计生成样本的分布,并提出了一种双时间尺度更新规则作为补救措施。其次,他们将 GAN 损失集成到蒸馏过程中,以区分生成样本和真实图像。这样,他们就能在真实数据上训练“学生”模型,减轻“教师”模型对真实分数估计的不完美,提高质量。最后,他们修改了训练程序,以实现多步采样。在这种情况下,他们通过在训练期间模拟推理时间生成器采样,发现并解决了训练-推理输入不匹配的问题。

综合来看,他们的改进为一步图像生成设定了新的基准,在 ImageNet-64x64 上的 FID 分数为 1.28,在零样本 COCO 2014 上的 FID 分数为 8.35,尽管推理成本降低了 500 倍,但仍超过了原来的“教师”。此外,他们还展示了这一方法可以通过提炼 SDXL 生成百万像素图像,在几步法中展示了卓越的视觉质量。

论文链接:
https://arxiv.org/abs/2405.14867
项目地址:
https://tianweiy.github.io/dmd/

6.ReVideo:通过运动和内容控制重塑视频

尽管在利用扩散模型生成和编辑视频方面取得了重大进展,但实现精确的本地化视频编辑仍是一项巨大挑战。此外,现有的大多数视频编辑方法主要集中在改变视觉内容上,对动作编辑的研究十分有限。

在这项研究中,来自北京大学和腾讯的研究团队及其合作者,提出了一种新颖的“重塑视频”(ReVideo)尝试,通过指定内容和动作,在特定区域进行精确的视频编辑。内容编辑通过修改第一帧来实现,而基于轨迹的运动控制则提供了直观的用户交互体验。ReVideo 解决了内容和运动控制之间的耦合和训练不平衡问题。为了解决这个问题,他们开发了一种三阶段训练策略,从粗到细逐步解耦这两个方面。此外,他们还提出了一个时空自适应融合模块,以整合不同采样步骤和空间位置的内容和运动控制。

广泛的实验证明,ReVideo 在几种精确的视频编辑应用中具有良好的性能,即:1)局部改变视频内容,同时保持运动不变;2)保持内容不变,同时定制新的运动轨迹;3)同时修改内容和运动轨迹。该方法还可以无缝地将这些应用扩展到多区域编辑,而无需特定的训练,这证明了它的灵活性和鲁棒性。

论文链接:
https://arxiv.org/abs/2405.13865
项目地址:
https://mc-e.github.io/project/ReVideo/

7.360智脑技术报告

360智脑团队提出的 360Zhinao 模型具有 7B 参数大小和包括 4K、32K 和 360K 的上下文长度。为了实现预训练的快速发展,他们建立了一个稳定而灵敏的消融环境,以最小的模型规模对实验运行进行评估和比较。在这样的指导下,他们完善了数据清洗和合成策略,在 3.4T token 上对 360Zhinao-7B-Base 进行预训练。他们还主要强调对齐过程中的数据,通过过滤和重新格式化,努力平衡数量和质量。有了量身定制的数据,360Zhinao-7B 的上下文窗口很容易扩展到 32K 和 360K。RM 和 RLHF 根据 SFT 进行训练,并可靠地应用于特定任务。所有这些贡献使得 360Zhinao-7B 的性能在类似规模的模型中具有竞争力。

论文链接:
https://arxiv.org/abs/2405.13386
GitHub 地址:
https://github.com/Qihoo360/360zhinao

8.GameVLM:基于视觉语言模型和零和博弈的机器人任务规划决策框架

GPT-4V 等预训练视觉语言模型(VLM)具有突出的场景理解和推理能力,因此在机器人任务规划中受到越来越多的关注。与传统的任务规划策略相比,视觉语言模型在多模态信息解析和代码生成方面具有很强的优势,并显示出显著的效率。虽然 VLM 在机器人任务规划中展现出巨大潜力,但它也面临着幻觉、语义复杂性和上下文有限等挑战。

为了解决这些问题,来自复旦大学的研究团队提出了一种多智能体框架——GameVLM,从而增强机器人任务规划中的决策过程。该研究提出了基于 VLM 的决策智能体和专家智能体来执行任务规划。具体来说,决策智能体用于规划任务,专家智能体用于评估这些任务计划。研究引入了零和博弈理论来解决不同智能体之间的不一致性,并确定最佳解决方案。在真实机器人上进行的实验结果表明,所提出的框架非常有效,平均成功率高达 83.3%。

论文链接:
https://arxiv.org/abs/2405.13751

9.AlignGPT:具有自适应对齐功能的多模态大型语言模型

多模态大型语言模型(MLLM)被广泛认为是探索通用人工智能(AGI)的关键。MLLM 的核心在于其实现跨模态对齐的能力。为了实现这一目标,目前的 MLLM 通常采用两阶段训练模式:预训练阶段和指令微调阶段。

尽管这些模型取得了成功,但在对齐能力建模方面仍存在不足。首先,在预训练阶段,模型通常假定所有图像-文本对都是统一对齐的,但实际上不同图像-文本对之间的对齐程度并不一致。其次,目前用于微调的指令包含多种任务,不同任务的指令通常需要不同程度的对齐能力,但以往的 MLLM 忽视了这些差异化的对齐需求。

为了解决这些问题,来自南京大学的研究团队提出了一种新的多模态大型语言模型——AlignGPT。在预训练阶段,他们并不是对所有图像-文本对一视同仁,而是为不同的图像-文本对分配不同级别的对齐能力。然后,在指令微调阶段,他们自适应地组合这些不同级别的对齐能力,以满足不同指令的动态对齐需求。广泛的实验结果表明,AlignGPT 在 12 个基准测试中取得了具有竞争力的性能。

论文链接:
https://arxiv.org/abs/2405.14129
项目地址:
https://aligngpt-vl.github.io/

10.JiuZhang3.0:通过训练小型数据合成模型有效提高数学推理能力

数学推理是大型语言模型(LLMs)在实际应用中的一项重要能力。为了增强这一能力,现有的工作要么是收集大规模数学相关文本进行预训练,要么是依靠更强大的 LLM(如 GPT-4)来合成大规模数学问题。这两类工作通常都会导致训练或合成方面的巨大成本。

为了降低成本,来自中国人民大学的研究团队及其合作者,提出了一种基于开源文本的高效方法,即训练一个小型 LLM 来合成数学问题,从而有效地生成足够的高质量预训练数据。

为此,他们使用 GPT-4 创建了一个数据集,将其数据合成能力提炼到小型 LLM 中。具体来说,他们根据人类教育阶段精心设计了一套提示语,引导 GPT-4 归纳出涵盖不同数学知识和难度水平的问题。此外,让他们还采用了基于梯度的影响估计方法来选择最有价值的数学相关文本。这两者都被输入到 GPT-4 中,用于创建知识提炼数据集,训练小型 LLM。他们利用它合成了 600 万个数学问题,用于预训练 JiuZhang3.0 模型,该模型只需调用 GPT-4 API 9.3k 次,并在 4.6B 数据上进行预训练。实验结果表明,在自然语言推理和工具操作设置下,JiuZhang3.0 在多个数学推理数据集上都取得了 SOTA。

论文链接:
https://arxiv.org/abs/2405.14365

11.DeepSeek-Prover:通过大规模合成数据推进 LLM 中的定理证明

Lean 等证明助手彻底改变了数学证明验证,确保了高准确性和可靠性。尽管大型语言模型(LLM)在数学推理中大有可为,但由于缺乏训练数据,它们在形式定理证明中的发展受到了阻碍。

为了解决这个问题,来自 DeepSeek 和中山大学的研究团队及其合作者,提出了一种从高中和本科生水平的数学竞赛题中生成大量 Lean 4 证明数据的方法。这种方法包括将自然语言问题转化为形式化语句,过滤掉低质量语句,并生成证明以创建合成数据。

DeepSeekMath 7B 模型由 800 万条带有证明的形式化语句组成,在该合成数据集上对该模型进行微调后,模型在 Lean 4 miniF2F 测试中的整体证明生成准确率在 64 个样本中达到了 46.3%,累计达到了 52%,超过了基线 GPT-4 在 64 个样本中的 23.0%,以及树搜索强化学习方法的 41.0%。此外,模型还成功证明了 Lean 4 形式化国际数学奥林匹克(FIMO)基准测试 148 个问题中的 5 个问题,而 GPT-4 则未能证明任何问题。

这些结果证明了利用大规模合成数据提高 LLM 中定理证明能力的潜力。

论文链接:
https://arxiv.org/abs/2405.14333

12.将具身多智能体协作与高效 LLM 结合

由于物理世界的复杂性,将大型语言模型(LLMs)的推理能力与具身任务相结合是具有挑战性的。特别是多机器人协作的 LLM 规划需要机器人之间的交流或信用分配作为反馈,从而重新调整所提出的计划并实现有效协调。然而,现有方法过度依赖物理验证或自我反思,导致对 LLM 的查询过多且效率低下。

在这项工作中,来自清华大学、上海 AI Lab 和西北工业大学的研究团队及其合作者,提出了一种新颖的多机器人协作框架,该框架结合了强化优势反馈(ReAd)来实现计划的高效自我完善。具体来说,他们通过批判回归从 LLM 计划的数据中学习顺序优势函数,然后将 LLM 计划器视为优化器,生成优势函数最大化的行动。它赋予了 LLM 判断行动是否有助于完成最终任务的前瞻性。他们通过将强化学习中的优势加权回归扩展到多智能体系统,提供了理论分析。

在 Overcooked-AI 和 RoCoBench 的一个高难度变体上进行的实验表明,ReAd 在成功率上超过了基线,而且还显著减少了智能体的交互步骤和LLM的查询轮数,证明了它在为LLM打基础方面的高效率。

论文链接:
https://arxiv.org/abs/2405.14314
项目地址:
https://read-llm.github.io/

13.HippoRAG:神经生物学启发的大型语言模型长期记忆法

为了在恶劣和不断变化的自然环境中茁壮成长,哺乳动物的大脑在进化过程中存储了大量有关世界的知识,并不断整合新信息,同时避免灾难性遗忘。尽管取得了令人瞩目的成就,但大型语言模型(LLMs)即使采用了检索增强生成(RAG)技术,仍难以在预训练后高效地整合大量新经验。

在这项工作中,来自俄亥俄州立大学和斯坦福大学的研究团队提出了一种新颖的检索框架——HippoRAG,其灵感来自于人类长期记忆的海马索引理论,能够对新经验进行更深入、更高效的知识整合。HippoRAG 协同协调了 LLM、知识图谱和个性化 PageRank 算法,从而模拟新皮层和海马体在人类记忆中的不同作用。

他们将 HippoRAG 与现有的多跳问题解答 RAG 方法进行了比较,结果表明,这一方法明显优于其他方法,最高可达 20%。与 IRCoT 等迭代检索法相比,使用 HippoRAG 的单步检索法取得了相当或更好的性能,同时成本降低了 10-30 倍,速度提高了 6-13 倍。最后,他们展示了这一方法可以解决现有方法无法解决的新型场景。

论文链接:
https://arxiv.org/abs/2405.14831
GitHub 地址:
https://github.com/OSU-NLP-Group/HippoRAG

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/14622.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

CHI dataless 传输——CHI(4)

上篇介绍了read的操作类型,本篇我们来介绍一下dataless 目录 一、dataless操作概览 二、Non-CMO (Non-Cache Maintenance Operation) 1、CleanUnique 2、StashOnce and StashOnceSep 3、Evict 三、CMO (Cache Maintenance Operation) 一、dataless操作概览 名…

忍の摸头之术游戏娱乐源码

本资源提供给大家学习及参考研究借鉴美工之用,请勿用于商业和非法用途,无任何技术支持! 忍の摸头之术游戏娱乐源码,抖音上面非常火的摸头杀画面,看得我眼花缭乱,源码拿去玩吧; 目录说明 忍の摸头之术:域…

轻松同步:将照片从三星手机传输到iPad的简便方法

概括 想要在新 iPad 上查看三星照片吗?但是,如果您不知道如何将照片从三星手机传输到 iPad,则无法在 iPad 上查看图片。为此,本文分享了 7 个有用的方法,以便您可以使用它们在不同操作系统之间轻松发送照片。现在&…

EfficientSAM分割对象后求其中图像中的高

1 分割对象 EfficientSAM https://github.com/yformer/EfficientSAM 2 计算在图像中最高点即y值最小点 import os import cv2def read_images(folder_path):image_files [f for f in os.listdir(folder_path) iff.endswith(".jpg") or f.endswith(".png&quo…

虚拟化技术[1]之服务器虚拟化

文章目录 虚拟化技术简介数据中心虚拟化 服务器虚拟化服务器虚拟化层次寄居虚拟化裸机虚拟化VMM无法直接捕获特权指令解决方案 服务器虚拟化底层实现CPU虚拟化内存虚拟化I/O设备虚拟化 虚拟机迁移虚拟机动态迁移迁移内容:内存迁移迁移内容:网络资源迁移迁…

小短片创作-组装场景(一)

1、项目基础设置 通过第三人称模板,创建1个项目 1.自动曝光:关闭,因为要做专业的小短片,曝光需要手动控制。 2.扩展自动曝光中的默认亮度范围:启用 3.全局光照系统:选择屏幕空间光照(SSGI&am…

Transformer详解常见面试问题

文章目录 1. 各模块解决1.1 输入部分1.2 多头注意力(作者使用8个头)1.3 残差和LayerNorm1.4 Decoder部分 2.Transformer经典问题2.1 tranformer为何使用多头注意力机制?2.2 Transformer相比CNN的优缺点2.3 Encoder和decoder的区别&#xff1f…

Spring中RestTemplate用法

系列文章目录 文章目录 系列文章目录前言 前言 前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到网站,这篇文章男女通用,看懂了就去分享给你的码吧。 RestTemplate 是从…

自编译frida得一些记录

frida编译 这个过程坑肯定很多 但是只要大方向对得,解决掉每个小错误达到目的就ok得 # 就是想自己把frida代码done下来改一改 然后看看git clone gitgithub.com:frida/frida.git git fetch git checkout 14.1.3# 下载node包管理工具 apt install nvm nvm install …

Web Speech API(1)—— SpeechRecognition

Web Speech API 使你能够将语音数据合并到 Web 应用程序中。Web Speech API 有两个部分:SpeechSynthesis 语音合成(文本到语音 TTS)和 SpeechRecognition 语音识别(异步语音识别)。 SpeechRecognition 语音识别通过 S…

axios案例应用

1、Spring概述 Spring 是分层的 Java SE/EE 应用 full-stack 轻量级开源框架,以 IoC(Inverse Of Control: 反转控制)和 AOP(Aspect Oriented Programming:面向切面编程)为内核,提供了展现层 Spring MVC 和持久层。Spring JDBC 以及业务层事务管理等众多…

day16|二叉树的属性

相关题目 ● 104.二叉树的最大深度 559.n叉树的最大深度 ● 111.二叉树的最小深度 ● 222.完全二叉树的节点个数 二叉树的深度与高度 如图, 二叉树的深度表示:任意一个叶子节点到根节点的距离,是从上往下计数的,因此使用前序遍历…

2024年甘肃特岗教师招聘报名流程,速速查收哦!

2024年甘肃特岗教师招聘报名流程,速速查收哦!

python-鸡兔同笼问题:已知鸡和兔的总头数与总脚数。求笼中鸡和兔各几只?

【问题描述】典型的鸡兔同笼问题。 【输入形式】输入总头数和总脚数两个实数:h,f 【输出形式】笼中鸡和兔的个数:x,y 【样例输入】16 40 【样例输出】鸡12只,兔4只 【样例说明】输入输出必须保证格式正确。…

AI大模型探索之路-训练篇25:ChatGLM3微调实战-基于LLaMA-Factory微调改造企业级知识库

系列篇章💥 AI大模型探索之路-训练篇1:大语言模型微调基础认知 AI大模型探索之路-训练篇2:大语言模型预训练基础认知 AI大模型探索之路-训练篇3:大语言模型全景解读 AI大模型探索之路-训练篇4:大语言模型训练数据集概…

CS西电高悦计网课设——校园网设计

校园网设计 一,需求分析 所有主机可以访问外网 主机可以通过域名访问Web服务器 为网络配置静态或者动态路由 图书馆主机通过DHCP自动获取IP参数 为办公楼划分VLAN 为所有设备分配合适的IP地址和子网掩码,IP地址的第二个字节使用学号的后两位。 二…

ESP32 实现获取天气情况

按照小安派AiPi-Eyes天气站思路,在ESP32 S3上实现获取天气情况。 一、在ESP32 S3实现 1、main.c 建立2个TASK void app_main(void) {//lvgl初始化xTaskCreate(guiTask, "guiTask", 1024 * 6, NULL, 5, NULL);//wifi初始化、socket、json处理taskcustom_…

ES6之数值的扩展

1. 数值的扩展 1.1. 二进制和八进制字面量表示:1.2. 数值判断方法: 1.2.1. Number.isFinite() 检查一个值是否为有限的数值。1.2.2. Number.isNaN() 更准确地检测NaN值。1.2.3. 传统的全局方法 isFinite() 和 isNaN() 的区别 1.3. 数值转换方法:1.4. 整数检查与精度: 1.4.1. Nu…

防火墙技术基础篇:解析防火墙的网络隔离机制

防火墙技术基础篇:解析防火墙的网络隔离机制 网络安全在现代社会中扮演着重要的角色,保护网络系统、用户和数据免受未经授权的访问、破坏和窃取。个人、企业和国家都需要加强网络安全意识,采取有效措施保护自身的网络安全。随着网络攻击手段…

【QT八股文】系列之篇章2 | QT的信号与槽机制及通讯流程

【QT八股文】系列之篇章2 | QT的信号与槽机制及通讯流程 前言2. 信号与槽信号与槽机制介绍/本质/原理,什么是Qt信号与槽机制?如何在Qt中使用?信号与槽机制原理,解析流程Qt信号槽的调用流程信号与槽机制的优缺点信号与槽机制需要注…