CV每日论文--2024.6.28

1、On Scaling Up 3D Gaussian Splatting Training

中文标题:扩展 3D 高斯泼溅训练

简介:3D高斯点描(3DGS)由于其卓越的视觉质量和渲染速度,越来越受欢迎用于3D重建。然而,3DGS的训练目前仅在单个GPU上进行,由于内存限制,它的处理高分辨率和大规模3D重建任务的能力受到限制。

为了解决这个问题,我们开发了Grendel,这是一个分布式系统,旨在将3DGS参数分区并在多个GPU上并行计算。由于每个高斯影响渲染像素的一个小的动态子集,Grendel采用稀疏全对全通信将必要的高斯传输到像素分区,并执行动态负载平衡。与现有的一次使用一个摄像头视图图像进行训练的3DGS系统不同,Grendel支持使用多个视图进行批量训练。

我们探索了各种优化超参数缩放策略,并发现简单的sqrt(批量大小)缩放规则非常有效。使用大规模、高分辨率场景的评估表明,Grendel通过在多个GPU上扩展3DGS参数来提高渲染质量。在Rubble数据集上,我们将4040万个高斯分布在16个GPU上,获得了27.28的测试PSNR,而在单个GPU上使用1120万个高斯时,只有26.28的PSNR。

Grendel是一个开源项目,可在 https://github.com/nyu-systems/Grendel-GS 上获得。

2、MultiDiff: Consistent Novel View Synthesis from a Single Image

中文标题:MultiDiff:从单个图像合成一致的新颖视图

简介:我们介绍了一种新颖的方法——MultiDiff,用于从单个RGB图像一致地合成场景的新视角。从单个参考图像合成新视角的任务本质上是高度不适定的,因为存在多个未观察区域的合理解释。

为了解决这个问题,我们采用了形式上的单目深度预测和视频扩散模型等强先验。单目深度使我们能够将模型的条件设置为目标视角的变形参考图像,从而提高几何稳定性。视频扩散先验为3D场景提供了强有力的代理,使模型能够学习生成图像之间的连续且像素精确的对应关系。与依赖于自回归图像生成的方法相比,后者容易出现漂移和误差积累,MultiDiff同时合成一系列帧,可以产生高质量和多视角一致的结果,即使是具有大相机移动的长期场景生成,同时将推理时间降低一个数量级。

为了进一步提高一致性和图像质量,我们引入了一种新颖的结构噪声分布。我们的实验结果表明,MultiDiff在具有挑战性的真实世界数据集RealEstate10K和ScanNet上优于最先进的方法。最后,我们的模型自然支持多视角一致的编辑,无需进一步调整。

3、ChronoMagic-Bench: A Benchmark for Metamorphic Evaluation of Text-to-Time-lapse Video Generation

中文标题:ChronoMagic-Bench:文本转延时视频生成的变形评估基准

简介:我们提出了一个新的文本到视频(T2V)生成基准,名为ChronoMagic-Bench,用于评估T2V模型(如Sora和Lumiere)在延时视频生成中的时间和形态能力。与现有基准侧重于所生成视频的视觉质量和文本相关性不同,ChronoMagic-Bench侧重于模型生成具有显著形态变化和时间连贯性的延时视频的能力。

该基准以自由形式文本查询的方式探测T2V模型的物理、生物和化学能力。为此,ChronoMagic-Bench引入了1,649个提示和真实世界视频作为参考,分为四类主要的延时视频:生物、人类创造、气象和物理现象,这些又进一步分为75个子类别。这种分类全面评估了模型处理各种复杂变换的能力。

为了准确地将人类喜好与基准对齐,我们引入了两个新的自动度量标准,MTScore和CHScore,用于评估视频的形态变化属性和时间连贯性。MTScore衡量形态变化幅度,反映随时间的变化程度,而CHScore评估时间连贯性,确保生成的视频保持逻辑进展和连续性。

基于ChronoMagic-Bench,我们对十个代表性的T2V模型进行了全面的手动评估,揭示了它们在不同提示类别下的优缺点,并提供了一个全面的评估框架,解决了视频生成研究中的当前差距。此外,我们创建了一个大规模的ChronoMagic-Pro数据集,包含460k对720p延时视频和详细标题,确保具有高物理相关性和大形态变化幅度。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/39041.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2024 年江西省研究生数学建模竞赛题目 B题投标中的竞争策略问题---完整文章分享(仅供学习)

问题: 招投标问题是企业运营过程中必须面对的基本问题之一。现有的招投标平台有国家级的,也有地方性的。在招投标过程中,企业需要全面了解招标公告中的相关信息,在遵守招投标各种规范和制度的基础上,选择有效的竞争策…

新手教学系列——【Python开发】不同系统更换pip源的方法

在使用Python进行开发时,你可能会发现使用pip安装包的速度较慢,尤其是在国内进行操作时。为了提高安装速度,我们可以将pip的默认源更换为国内的一些镜像源。本文将详细介绍如何在不同操作系统上进行这一操作,并给出常用的国内镜像源。 为什么要换源 pip默认使用的是官方的…

Steam社区101错误代码/steam社区报错、打不开怎么办

Steam社区是很多游戏玩家经常逛的一个互动空间,玩家可以在Steam社区了解游戏的相关评价,也可以在Steam社区和五湖四海的游戏玩家一起讨论最近游戏的心得,分享游玩技巧,探讨游戏战术等等,结识不同地区的玩家。不过很多玩…

Java案例实现双色球

一问题&#xff1a; 二具体代码&#xff1a; package 重修;import java.util.Random; import java.util.Scanner;public class first {public static void main(String[] args) {int []usersnumbersusernumslect();System.out.println("用户");for (int i 0; i <…

怎么找短视频素材在哪里找?推荐五个自媒体人必备的视频素材网站

自媒体时代&#xff0c;短视频创作已成为主流。高质量的视频素材不仅能够提升内容质量&#xff0c;还能增加观众的观看兴趣。本文将为各位自媒体创作者介绍五大必备的视频素材网站&#xff0c;帮助大家轻松解决素材寻找的困扰&#xff0c;确保视频内容的专业性和吸引力。 蛙学…

三步学会使用WebSocekt

目录 一 什么是websocket 二 如何使用websocket 1.导入websocket的maven坐标 2.创建websocket的服务类 3.创建websocket的配置类 4.按需求实现业务逻辑 5.前端实现websocket 一 什么是websocket websocket和HTTP一样是基于TCP的一个通信协议。不过他是支持客户端和服务端…

1688商品采集用什么?【1688采集API接口】无视大量复制-同行店铺采集-批量全店采集-包邮商品采集

功能亮点&#xff1a; 1688同行店铺采集&#xff0c;1688批量全店采集&#xff0c;1688包邮商品采集&#xff0c;仅采集一件代发产品&#xff0c;采集发货时间&#xff0c;比如48小时发货&#xff0c;1688运费价格采集:可以采集运费价格 功能介绍二&#xff1a; 仅采集一件代…

Android Compose 十二:常用组件列表 上拉加载

列表 上拉加载 当前思路 判断 列表最后一个显示的条目 为 数据集合的长度-1 用来记录刷新状态 var refreshing by remember {mutableStateOf(false)}数据集合 val list remember{List(10){"条目》》${it}"}.toMutableStateList()}用来记录列表当前状态及状态变化…

行业分析---造车新势力之极氪汽车

1 前言 在之前的博客中&#xff0c;笔者撰写了多篇行业类分析的文章&#xff08;科技新能源&#xff09;&#xff1a; 《行业分析---我眼中的Apple Inc.》 《行业分析---马斯克的Tesla》 《行业分析---造车新势力之蔚来汽车》 《行业分析---造车新势力之小鹏汽车》 《行业分析-…

fastapi swagger js css 国内访问慢问题解决

fastapi swagger js css 国内访问慢问题解决 直接修改fastapi包中静态资源地址为如下地址 swagger_js_url: str "https://cdn.bootcdn.net/ajax/libs/swagger-ui/3.9.3/swagger-ui-bundle.js", swagger_css_url: str "https://cdn.bootcdn.net/ajax/libs/sw…

1971计算机毕业设计asp.net游乐园信息管理系统 VS开发access数据库web结构c#编程计算机网页源码项目

一、源码特点 asp.net游乐园信息管理系统 是一套完善的web设计管理系统&#xff0c;系统具有完整的源代码和数据库&#xff0c;系统主要采用B/S模式开发。 asp.net游乐园管理系统 二、功能介绍 前台功能&#xff1a; 1&#xff09;系统首页浏览 2&#xff09;园区通知浏…

leetcode-19-回溯-组合问题(剪枝、去重)

引自代码随想录 一、[77]组合 给定两个整数 n 和 k&#xff0c;返回 1 ... n 中所有可能的 k 个数的组合。 示例: 输入: n 4, k 2 输出: [ [2,4], [3,4], [2,3], [1,2], [1,3], [1,4]] 1、大致逻辑 k为树的深度&#xff0c;到叶子节点的路径即为一个结果 开始索引保证不…

【计算机网络】网络层(作业)

【一】 1、某主机的 IP 地址为 166.199.99.96/19。若该主机向其所在网络发送广播 IP 数据报&#xff0c; 则目的地址可以是&#xff08;D&#xff09;。 A. 166.199.99.255B. 166.199.96.255C. 166.199.96.0D. 166.199.127.255 解析&#xff1a; 166.199.99.96/19166.199.0…

深入解读OkHttp3中的Dispatcher

OkHttp3是一个非常流行的HTTP客户端&#xff0c;用于与服务器通信。Dispatcher是OkHttp3中的一个关键组件&#xff0c;负责管理和调度请求。在这篇博客中&#xff0c;我们将深入探讨Dispatcher的工作原理、相关类的关系以及其实现细节。 什么是Dispatcher&#xff1f;&#x1…

STM32 看门狗 HAL

由时钟图可以看出看门狗采用的是内部低速时钟&#xff0c;频率为40KHz 打开看门狗&#xff0c;采用32分频&#xff0c;计数1250。 结合设置的分频系数和重载计数值&#xff0c;我们可以计算出看门狗的定时时间&#xff1a; 32*1250/40kHz 1s 主函数中喂狗就行 HAL_IWDG_Ref…

车载资料分享中:硬件在环、canoe、UDS诊断、OTA升级、TBOX测试

每日直播时间&#xff1a; 周一到周五&#xff1a;20&#xff1a;00-23&#xff1a;00 周六与周日&#xff1a;9&#xff1a;00-17&#xff1a;00 直播内容&#xff1a;&#xff08;车厂一比一测试&#xff09; HIL&#xff08;硬件在环&#xff09;测试、UDS功能诊断、UDS自动…

Java集合整理笔记

目录 1.集合基础概念 1.1 集合 1.2 单例集合 1.2.1 List系列 1、ArrayList 2、LinkedList 3、Voctor​编辑 1.2.2 Set系列 1、HashSet 集合 2、LinkedHashSet 集合 3、TreeSet集合 1.3 双例集合 1.3.1 HashMap 1.3.2 LinkedHashMap 1.3.3 TreeMap 1.4 快速失败…

一篇搞懂!LinuxCentos中部署KVM虚拟化平台(文字+图片)

&#x1f3e1;作者主页&#xff1a;点击&#xff01; &#x1f468;‍&#x1f4bb;Linux高级管理专栏&#xff1a;点击&#xff01; ⏰️创作时间&#xff1a;2024年6月28日15点11分 &#x1f004;️文章质量&#xff1a;94分 目录 ————前言———— KVM的优点 KVM…

【embedding 神经网络】神经网络算法 —— Embedding(嵌入)!!

文章目录 前言 1、Embedding的本质 &#xff08;1&#xff09;机器学习中的Embedding &#xff08;2&#xff09;NLP中的Embedding 2、Embedding的原理 &#xff08;1&#xff09;Image Embedding&#xff08;图像嵌入&#xff09; &#xff08;2&#xff09;Word Embed…

geoserver添加 GeoTiff

GeoTIFF 是一种广泛使用的地理空间栅格数据格式。它由一个包含数据和地理参考信息的文件组成。本节提供添加和发布 GeoTIFF 文件的说明。 打开 Web 浏览器并导航到 GeoServer欢迎页面。 从界面中选择添加商店。 从可用的栅格数据源集合中选择GeoTIFF - 带有地理信息的标记图…