【Intel CVPR 2024】通过图像扩散模型生成高质量360度场景,只需要一个语言模型

在当前人工智能取得突破性进展的时代,从单一输入图像生成全景场景仍是一项关键挑战。大多数现有方法都使用基于扩散的迭代或同步多视角内绘。然而,由于缺乏全局场景布局先验,导致输出结果存在重复对象(如卧室中的多张床),或者每个视图都需要耗时的人工文本输入。我们提出的 L-MAGIC 是一种新型方法,它利用大型语言模型进行引导,同时扩散 360 度全景场景的多个连贯视图。L-MAGIC 利用预先训练好的扩散和语言模型,无需微调,确保零误差性能。超分辨率和多视图融合技术进一步提高了输出质量。广泛的实验证明,与相关研究相比,所生成的全景场景具有更好的场景布局和透视图渲染质量,在人类评估中的优越性大于 70%。结合条件扩散模型,L-MAGIC 可以接受各种输入模式,包括但不限于文本、深度图、草图和彩色脚本。通过深度估计,还能生成三维点云,并利用摄像机的流体运动进行动态场景探索。
在这里插入图片描述

Pipeline

在这里插入图片描述
论文:https://arxiv.org/pdf/2406.01843

项目:https://zhipengcai.github.io/MMPano/

Github:https://github.com/IntelLabs/MMPano

在这里插入图片描述

方法

L-MAGIC 是一个结合了语言模型及扩散模型的场景生成框架。L-MAGIC 通过自然图像连接各类不同模态的输入。当输入不是一张自然图像时,L-MAGIC 使用成熟的条件扩散模型如 ControlNet 从各种模态的输入(文字,手绘草图,深度图等等)生成一张自然图像。

在获得自然图像之后,L-MAGIC 通过 iterative warping and inpainting 来生成 360 度场景的多个视角。在每一个 iteration 中,warping step 将已生成的多视角 warp 到一个新的视角,实例中的黑色部分代表新视角中的缺失像素。Inpainting step 使用基于扩散的图像 inpainting 模型(Stable Diffusion v2)生成缺失像素。为了使图像扩散模型能够生成多样的全局场景结构,L-MAGIC 使用语言模型控制扩散模型在每个视角需要生成的场景内容。

除了生成 360 度场景的全景图,利用深度估计模型,L-MAGIC 还能够生成包含相机旋转及平移的沉浸式视频,以及场景的三维点云。由于无需微调,L-MAGIC 能够有效地保持语言及扩散模型的泛化性,实现多样化场景的高质量生成。

L-MAGIC 的核心是使用语言模型全自动地控制扩散模型。

使用 ChatGPT 作为 LLM 控制器可以获得最佳性能,这需要您申请 OpenAI API 密钥。

如果您所在地区无法访问 ChatGPT API,我们还提供了使用免费开源 LLM 控制器(如 Llama3)的方法。有关如何启用的说明,请参阅下文。您可能需要设置 HF_TOKEN 或传递 huggingface 令牌。你也可以自由贡献代码,启用其他 LLM。

python3 mm_pano/mmpano.py \--init_image exp/example/0.png \--output_folder exp/outputs \--dtype bfloat16 --device hpu \--llm_model_name gpt-4 \--api_key <your ChatGPT API key> \--save_pano_img \  # To save the generated panorama picture--gen_video  # To generate and save the video

详情请看github

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/26739.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

[AIGC] 深入理解Java Map接口

深入理解Java Map接口 Java Map提供了一个存储键值对的数据结构&#xff0c;键是唯一的&#xff0c;但值可以重复。在Java中&#xff0c;Map接口是java.util包中的一部分&#xff0c;它定义了操作映射的方法。本篇文章将介绍Java Map接口中的常用API。 Map接口常用方法 以下…

Web前端限制下载速度:深入探索与实现策略

Web前端限制下载速度&#xff1a;深入探索与实现策略 在Web前端开发中&#xff0c;限制下载速度的需求可能源于多种场景&#xff0c;如节省带宽、控制资源消耗或模拟网络延迟等。然而&#xff0c;这一需求在技术上却带来了不小的挑战。本文将从四个方面、五个方面、六个方面和…

Armbian OS(基于ubuntu24) 源码编译mysql 5.7

最近弄了个S905X3的盒子刷完Armbian OS &#xff08;基于ubuntu24&#xff09;&#xff0c;开始折腾Arm64之旅。第一站就遇到了MySQL的问题&#xff0c;由于MySQL没有提供Arm64版本&#xff0c;又不想塞Docker镜像&#xff0c;因此选择源码来编译MySQL5.7。下面记录详细过程和遇…

Golang的GC

目录 介绍GC 概要 什么是根对象 三色标记法 什么情况下三色标记法会失效 屏障机制 “强-弱” 三色不变式 插入屏障 (强三色) 删除屏障(弱三色) Go 的混合写屏障机制 混合写屏障规则 介绍GC 概要 作用范围&#xff1a;只回收堆内存&#xff0c;不回收栈内存&#xf…

EtherCAT主站SOEM -- 31 -- STM32F767-SOEM从站IO模块采集DI及输出DO

EtherCAT主站SOEM -- 31 -- STM32F767-SOEM从站IO模块采集DI及输出DO 0 QT-SOEM及STM32F767-SOEM视频欣赏及源代码链接:0.1 QT-SOEM博客、视频欣赏及源代码链接0.2 STM32F767-SOEM 博客、视频欣赏及源代码链接1 程序文件修改替换1.1 allvalue.h1.2 allvalue.c1.3 motrorcontro…

举个栗子!Tableau 技巧(276):学做径向柱状图(Radial Column Chart)

关于 径向柱状图&#xff08;Radial Column Chart&#xff09;&#xff0c;俗称环形柱状图。它的用法跟柱形图基本一致&#xff0c;不同之处在于它的值刻度是环形的&#xff0c;数值从内到外依次增加&#xff0c;柱子越长代表数值越大。 数据粉可能会问&#xff1a;径向柱形图…

大学英语综合教程3翻译1-5单元

Unit1 十年之前,南希做了许许多多美国人梦寐以求的事.她辞去了经理职位,在临近地区开了一家家用器具商店.像南希那样的人做出这种决定主要是想改善生活质量. A decade ago, Nancy did what so many Americans dream about. She quit an executive position and opened a hous…

独具韵味的移动端 UI 风格

独具韵味的移动端 UI 风格

10.GLM

智谱AI GLM 大模型家族 最强基座模型 GLM-130B GLM (General Language Model Pretraining with Autoregressive Blank Infilling) 基于自回归空白填充的通用语言模型&#xff08;GLM&#xff09;。GLM通过增加二维位置编码并允许以任意顺序预测跨度来改进空白填充预训练&…

SQL 截取函数

目录 1、substring 2、left 3、right 4、substring_index 1、substring 用途&#xff1a;字段截取从指定开始的字符开始&#xff0c;截取要的数&#xff1b;指定开始的字符数字可以用负的&#xff0c;指定开始的字符从后往前(向左)数&#xff0c;截取要的数不能为负。 语…

go语言 | 快速生成数据库表的 model 和 queryset

就是生成 model 目录的 xxx.go 和 xxx_gen.go 文件 使用的工具&#xff1a; 快速生成 model&#xff1a;gentool&#xff1a;https://github.com/go-gorm/gen/tree/master/tools/gentool 根据 model 生成 queryset&#xff1a;go-queryset&#xff1a;https://github.com/jirfa…

第三十一篇-OneAPI+Ollama实现配置

本文介绍使用oneapiollama实现openai接口实现 环境要求 Docker version 26.1.3 具体安装不会&#xff0c;百度安装oneapi mkdir /home/oneapi/data docker run --name one-api -d --restart always -p 3000:3000 -e TZAsia/Shanghai -v /home/oneapi/data:/data justsong/on…

2024.6.13 作业 xyt

今日作业&#xff1a; 自由发挥登录窗口的应用场景&#xff0c;实现一个登录窗口界面 要求&#xff1a;每行代码都有注释 #include "my06zuoye.h"My06zuoye::My06zuoye(QWidget *parent): QMainWindow(parent) {//设置大小&#xff08;窗口&#xf…

java1.8运行arthas-boot.jar运行报错解决

报错内容 输入java -jar arthas-boot.jar&#xff0c;后报错。 [INFO] JAVA_HOME: D:\developing\jdk\jre1.8 [INFO] arthas-boot version: 3.7.2 [INFO] Can not find java process. Try to run jps command lists the instrumented Java HotSpot VMs on the target system.…

诚邀加盟!2025-CISP深圳国际体育展展位预定开启,共享发展机遇

2025-CISP深圳国际体育展定档官宣于2025年2月27-3月1日在深圳&#xff08;福田&#xff09;会展中心隆重开幕&#xff01;招商工作正式开启&#xff01; 体育创新融入现代生活&#xff0c;打造全球体育创新企业发布产品信息、展示前沿科技及倡导科学运动生活方式的全新平台。届…

为中小制造企业注入数字化转型活力

劳动力成本上升,原材料价格上涨,企业生产成本逐年增加&#xff0c;市场竞争越来越激烈&#xff0c;传统的中小制造企业面临着巨大的压力。 通过数字化转型应对环境的变化已成为行业共识&#xff0c;在数字化的进程中&#xff0c;中小企业首要考虑生存问题&#xff0c;不能沿用…

RPC(远程过程调用):技术原理、应用场景与发展趋势

摘要&#xff1a; RPC&#xff08;Remote Procedure Call&#xff09;是一种通信协议&#xff0c;用于实现跨网络的进程间通信。它提供了一种简单高效的方式&#xff0c;使得分布式系统中的不同组件能够像调用本地函数一样调用远程函数。本篇博客将介绍RPC的基本概念&#xff0…

Conda编译

一、背景 最近要将一个使用PySide6写GUI的程序部署到英伟达Jetson Nano上。原本以为装个conda就能很快装好环境,结果发现arm的生态有点太糟糕了,啥都要自己编译安装,尤其是这个Pyside6。主要参考博客。当时编译没成功,直接下载编译后的文件安装。 二、目标 编译conda没有的…

【主要推荐算法概览,包括召回与排序】

文章目录 1、基于内容的推荐协同过滤推荐两大类2、召回算法2.1、基于规则策略的召回2.2、5类基础召回算法2.2.1、关联规则召回算法2.2.2、聚类召回算法2.2.3、朴素贝叶斯召回算法2.2.4、协同过滤召回算法2.2.5、矩阵分解召回算法 2.3、基于复杂算法的召回2.3.1、嵌入方法召回&a…

c++ 中检查 cuda 是否可用以及 cuda 版本

代码 main.cpp #include <iostream>#ifdef HAVE_CUDA #include <cuda_runtime.h> #include <cuda.h> #endifint main() {std::cout << "Checking CUDA availability..." << std::endl;#ifdef HAVE_CUDAint deviceCount 0;cudaError…