大模型日报|今日必读的 5 篇大模型论文

在这里插入图片描述

大家好,今日必读的大模型论文来啦!

1.Meta 领衔:一文读懂视觉语言建模(VLM)

人们正在尝试将大型语言模型(LLMs)扩展到视觉领域。从可以引导我们穿越陌生环境的视觉助手,到仅使用高级文本描述就能生成图像的生成模型,视觉语言模型(VLM)的应用将极大地影响我们与技术的关系。然而,要提高这些模型的可靠性,还需要应对许多挑战。语言是离散的,而视觉是在一个维度更高的空间中发展的,其中的概念并不总是很容易被离散化。

为了更好地理解将视觉映射到语言背后的机制,来自 Meta 的研究团队及其合作者详细介绍了 VLM,希望能对任何想进入这一领域的人有所帮助。首先,他们介绍了什么是 VLM、VLM 如何工作以及如何训练 VLM。然后,他们介绍并讨论了评估 VLM 的方法。虽然这项工作主要侧重于将图像映射为语言,但他们也讨论了将 VLM 扩展到视频的问题。

论文链接:
https://arxiv.org/abs/2405.17247

2.Transformer 可以通过正确的嵌入进行算术运算

Transformer 在算术任务中表现不佳,似乎在很大程度上是由于它们无法跟踪大跨度数字中每个数字的准确位置。

来自马里兰大学的研究团队及其合作者,通过为每个数字添加嵌入,编码其相对于数字开头的位置,从而解决了这一问题。除了这些嵌入本身带来的提升外,他们还展示了这一修复措施能够通过输入注入和递归层等架构修改进一步提高性能。

在解决位置问题后,他们也研究了 Transformer 的逻辑外推能力——它们能否解决比训练数据更大、更复杂的算术问题?他们发现,只用一个 GPU 对 20 位数字进行为期一天的训练,就能达到 SOTA,在 100 位加法问题上实现高达 99% 的准确率。最后,他们还发现,计算能力的提高还能改善其他多步推理任务,包括排序和乘法。

论文链接:
https://arxiv.org/abs/2405.17399

3.清华朱军团队推出高保真 4D 重构模型 Vidu4D

视频生成模型由于能够生成逼真而富有想象力的画面而受到特别关注。此外,据观察,这些模型还表现出很强的 3D 一致性,大大提高了它们作为世界模拟器的潜力。

在这项工作中,清华大学朱军团队推出了一种新颖的重构模型——Vidu4D,其能从单个生成的视频中精确重构出 4D(即连续的 3D 呈现),解决了与非刚性和帧失真相关的难题。这种能力对于创建保持空间和时间一致性的高保真虚拟内容至关重要。

Vidu4D 的核心为动态高斯曲面(DGS)技术。DGS 优化时变翘曲函数,将高斯曲面(曲面元素)从静态状态转换为动态翘曲状态。这种变换可以精确地描绘运动和变形随时间的变化。

为了保持曲面对齐高斯曲面的结构完整性,他们设计了基于连续翘曲场的翘曲状态几何正则化,用于估计法线。此外,他们还对高斯曲面的旋转和缩放参数进行了细化,从而大大减轻了翘曲过程中的纹理闪烁,并增强了对细粒度外观细节的捕捉。Vidu4D 还包含一个新颖的初始化状态,为 DGS 中的翘曲场提供了一个正确的起点。Vidu4D 配备了现有的视频生成模型,整个框架在外观和几何方面都展示了高保真文本到 4D 的生成。

论文链接:
https://arxiv.org/abs/2405.16822
项目地址:
https://vidu4d-dgs.github.io/

4.谷歌新研究:将扩散模型提炼为一步生成器模型

虽然扩散模型可以学习复杂的分布,但采样需要一个计算昂贵的迭代过程。现有的蒸馏方法可以实现高效采样,但也有明显的局限性,例如采样步骤很少就会导致性能下降,依赖于训练数据访问,或可能无法捕捉到完整分布的寻模优化。

来自 Google DeepMind、Google Research 和加州大学洛杉矶分校的研究团队,提出了 EM Distillation(EMD)方法,这是一种基于最大似然法的方法,可将扩散模型提炼为一步生成器模型,同时将感知质量的损失降到最低。该方法从期望最大化(EM)的角度出发,使用扩散教师先验和推断生成器潜变量联合分布的样本来更新生成器参数。

他们开发了一种重新参数化的采样方案和一种噪音消除技术,共同稳定了蒸馏过程。他们进一步揭示了该方法与现有的最小化模式搜索 KL 方法之间的联系。在 ImageNet-64 和 ImageNet-128 上,就 FID 分数而言,EMD 优于现有的一步法生成方法,与之前的文本到图像扩散模型蒸馏方法相当。

论文链接:
https://arxiv.org/abs/2405.16852

5.Collaborative Video Diffusion:利用相机控制生成一致的多视频

视频生成方面的研究最近取得了诸多进步,能够根据文本提示或图像生成高质量视频。在视频生成过程中增加控制是未来的一个重要目标,而最近根据摄像机轨迹调节视频生成模型的方法则在这方面取得了进步。

然而,从多个不同的摄像机轨迹生成同一场景的视频仍然具有挑战性。解决这一多视频生成问题的方法,除其他应用外,还能利用可编辑的摄像机轨迹生成大规模三维场景。

为此,来自斯坦福大学、香港中文大学的研究团队提出了协同视频扩散(collaborative video diffusion,CVD),其包括一个新颖的跨视频同步模块,该模块利用对极注意力机制,促进从不同摄像机姿态渲染的同一视频的相应帧之间的一致性。在用于视频生成的相机控制模块基础上进行训练,CVD 生成的由不同相机轨迹呈现的多个视频的一致性明显优于基线,这一点已在大量实验中得到证实。

论文链接:
https://arxiv.org/abs/2405.17414
项目地址:
https://collaborativevideodiffusion.github.io/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/18094.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

富港银行 优惠链接 邀请码 兑换码 优惠码 分享

首次记得一定要点击链接注册,注册开户费50美金 限时!优惠开通国际银行账户! cbi帐户管理费:10美元/月,余额>500美元,1美元/月/,余额>2000美元,0美元/月。 一定要显示50的时候…

一分钟学习数据安全——数字身份的三种模式

微软首席身份架构师金卡梅隆曾说:互联网的构建缺少一个身份层。互联网的构建方式让你无法得知所连接的人和物是什么。这限制了我们对互联网的使用,并让我们面临越来越多的危险。如果我们坐视不管,将面临迅速激增的盗窃和欺诈事件,…

短视频内容创意方法有哪些?成都科成博通文化传媒公司

短视频内容创意方法有哪些? 随着移动互联网的迅猛发展,短视频平台已成为人们日常生活中不可或缺的一部分。短视频以其短平快的特点,迅速吸引了大量用户。然而,面对海量的短视频内容,如何让自己的作品脱颖而出&#xf…

web自动化-下拉框操作/键鼠操作/文件上传

在我们做UI自动化测试的时候,会有一些元素需要特殊操作,比如下拉框操作/键鼠操作/文件上传。 下拉框操作 在我们很多页面里有下拉框的选择,这种元素怎么定位呢?下拉框分为两种类型:我们分别针对这两种元素进行定位和…

Nocobase快速上手 -第一个collection

本文记录Nocobase中如何创建collection,以及如何将collection展示到页面中,并且配置CRUD相应的操作. Collection 在NocoBase中,collection(集合)是用来组织和存储各种数据的容器,如订单、产品、用户、评论…

汽车电子零部件(14):TMS热管理系统

前言: TMS(thermal management system)热管理系统,这是新能源汽车诞生后随之而产生的一种新汽车零部件,一旦热管理失控会触发自燃,这种现象也是对EV来说是件头疼的事。汽车的热管理系统(TMS)是一个关键部件,有助于调节汽车电池组、车厢和其他车辆系统的温度。TMS的主要…

M功能-分布式锁-支付平台(五)

target:离开柬埔寨倒计时-218day 珍藏的图片又拿出来了 前言 M系统中的撮合引擎是最最核心的功能,第一版的撮合引擎不是我写的,也没有做交易对的动态分配这样的功能,都是基于抢锁方式来决定谁拥有该交易对的撮合权限,所…

MySQL--复合查询

之前学过了基本的查询,虽然已经够80%的使用场景了,但是依旧需要了解剩下的20%。 一、多表笛卡尔积(多表查询) 以前我们使用基本查询的时候,from后面就跟一张表名,在多表查询这里,from后面可以跟…

13 VUE学习:组件v-model

基本用法 v-model 可以在组件上使用以实现双向绑定。 从 Vue 3.4 开始&#xff0c;推荐的实现方式是使用 [defineModel()]宏&#xff1a; <!-- Child.vue --> <script setup> const model defineModel()function update() {model.value } </script><te…

GitLab的安装及基础操作

1. 项目目标 &#xff08;1&#xff09;熟练使用rpm包安装gitlab &#xff08;2&#xff09;熟练配置gitlab &#xff08;3&#xff09;熟练创建gitlab群组、成员、项目 &#xff08;4&#xff09;熟练使用gitlab推送和拉取代码 2. 项目准备 2.1. 规划节点 主机名 主机I…

Gb 2024-05-22开源项目日报Top10

根据Github Trendings的统计,今日(2024-05-22统计)共有10个项目上榜。根据开发语言中项目的数量,汇总情况如下: 开发语言项目数量Python项目3非开发语言项目2Jupyter Notebook项目2Rust项目2JavaScript项目1Lua项目1编程面试大学:成为软件工程师的全面学习计划 创建周期:2…

查询DQL

016条件查询之等量关系 条件查询语法格式 select ... from... where过滤条件;等于 select empno, ename from emp where sal3000;select job, sal from emp where enameFORD;select grade, losal, hisal from salgrade where grade 1;不等于 <> 或 ! selectempno,en…

德比软件携手亚马逊云科技,用生成式AI赋能旅游行业降本增效

旅游行业是最早被数字化技术赋能的行业之一。比如&#xff0c;消费者早已习惯在携程、艺龙、Booking等OTA平台根据实时酒店信息预订酒店。 这种丝滑的消费者体验背后&#xff0c;离不开领先的管理软件支撑。实际上大型酒店集团与OTA平台之间的系统对接非常复杂&#xff0c;酒店…

Go GORM介绍

GORM 是一个功能强大的 Go 语言 ORM&#xff08;对象关系映射&#xff09;库&#xff0c;它提供了一种方便的方式来与 SQL 数据库进行交互&#xff0c;而不需要编写大量的 SQL 代码。 GORM的关键特性 全功能的ORM&#xff1a;支持几乎所有的ORM功能&#xff0c;包括模型定义、基…

在Ubuntu系统中使用Systemctl添加启动项的详细指南

在Ubuntu系统中使用Systemctl添加启动项的详细指南 在Ubuntu系统中&#xff0c;systemctl 是管理systemd服务的主要工具。通过它&#xff0c;你可以添加、启动、停止、重启、启用和禁用服务。 什么是Systemctl&#xff1f; systemctl 是一个用于管理systemd系统和服务管理器…

OpenHarmony迎来首个互联网技术统一标准,鸿蒙OS生态走向如何?

开源三年半&#xff0c;OpenHarmony(以下简称“开源鸿蒙”)迎来了新进展。在5月25日召开的「OpenHarmony开发者大会」上&#xff0c;鸿蒙官宣了开源鸿蒙设备统一互联技术标准。 一直以来&#xff0c;各行业品牌操作系统相互独立、难以协同,成为其互联互通的痛点。为进一步解决…

Unity SetParent第二个参数worldPositionStays的意义

初学Unity的小知识&#xff1a; 改变对象的父级有三种调用方式&#xff0c;如下&#xff1a; transMe.SetParent(transParent,true); transMe.SetParent(transParent,false); transMe.parent transParent;具体有什么区别呢&#xff0c;这里写一个测试例子来详细说明&#xff…

数据驱动的UI艺术:智能设计的视觉盛宴

数据驱动的UI艺术&#xff1a;智能设计的视觉盛宴 引言 在当今这个数据泛滥的时代&#xff0c;大数据不仅仅是一种技术手段&#xff0c;它更是一种艺术形式。当大数据遇上UI设计&#xff0c;两者的结合便催生了一种全新的艺术形式——数据驱动的UI艺术。本文将探讨如何将数据…

STM32建立工程问题汇总

老版本MDK&#xff0c;例如MDK4 工程内容如下&#xff1a; User文件夹中存放main.c文件&#xff0c;用户中断服务函数&#xff08;stm32f1xx.it.c&#xff09;&#xff0c;用户配置文件&#xff08;stm32f1xx_hal_conf.h&#xff09;等用户程序文件&#xff0c;或者mdk启动程序…