论文笔记:通用世界模型WorldDreamer

整理了WorldDreamer: Towards General World Models for Video Generation via Predicting Masked Tokens 论文的阅读笔记

  • 背景
  • 模型
  • 实验

背景

在这里插入图片描述
  现有的世界模型仅限于游戏或驾驶等特定场景,限制了它们捕捉一般世界动态环境复杂性的能力。针对这一挑战,本文提出了WorldDreamer,这是一个开创性的世界模型,旨在培养对一般世界物理和运动的全面理解,这大大增强了视频生成的能力。 通过把视觉输入映射到离散标记并预测被屏蔽的标记,worlddream将世界建模框架为无监督的视觉序列建模挑战。在此过程中,结合了多模态提示来促进世界模型内的交互。实验表明,WorldDreamer 擅长生成不同场景的视频,包括自然场景和驾驶环境。

模型

  WorldDreamer的整体框架如图2所示。初始阶段包括使用视觉标记器将视觉信号(即图像和视频)编码为离散的标记。这些令牌在被STPT处理之前经过精心设计的屏蔽策略。同时,文本信号和动作信号分别编码到嵌入中,作为多模态提示。STPT 参与预测屏蔽视觉标记的关键任务,然后由视觉解码器对其进行解码,从而促进多个上下文中的视频生成和编辑。
在这里插入图片描述  为了训练 WorldDreamer,文中构建了 Visual-Text-Action 数据的三元组,其中训练监督仅涉及预测屏蔽的视觉标记,而无需任何额外的监督信号。WorldDreamer还支持没有文本或动作数据的训练,这不仅降低了数据收集的难度,而且使WorldDreamer能够学习无条件或单条件视频生成。在推理时,WorldDreamer可以完成各种视频生成和视频编辑任务:
  图像到视频,仅需要单个图像输入,并将剩余帧视为被屏蔽。WorldDreamer 还可以根据单个图像条件和文本条件预测未来帧。
  视频风格化,可以输入视频片段,并随机屏蔽某些像素。WorldDreamer 可以根据两种输入语言改变视频风格,例如创建秋季主题效果。
  文本到视频,提供语言输入允许 WorldDreamer 预测相应的视频,假设所有视觉标记都被屏蔽。
  视频修复,可以输入视频片段,并手动屏蔽感兴趣区域。WorldDreamer 可以根据输入语言和未屏蔽的视觉信号填充屏蔽部分。
  动作到视频,输入驾驶场景的初始帧以及未来的驾驶命令可以让 WorldDreamer 预测未来的帧。

实验

  文中进行了全面的视觉实验,展示了 Worlddreamer 在不同场景下实现视频生成和视频编辑的能力,以证明 WorldDreamer 对一般世界的一般视觉动态有了深刻的理解。
  图像到视频 WorldDreamer 擅长在各种场景中生成高保真图像到视频。如图 5 所示,根据初始图像输入,Worlddreamer 能够生成高质量的电影景观视频。
在这里插入图片描述
  文本到视频 图 6 展示了 WorldDreamer 在从跨各种风格范式的文本生成视频方面的出色熟练程度。
在这里插入图片描述  视频修复 如图 7 所示,WorldDreamer 展现出卓越的高质量视频修复能力。
在这里插入图片描述
  视频风格化 图 8 展示了 WorldDreamer 在提供高质量视频风格化方面表现出色。通过提供随机生成的视觉令牌蒙版和指示所需修改的风格提示,WorldDreamer 令人信服地转换原始视频,在风格化过程中实现真正逼真的结果。在这里插入图片描述  从动作到视频 WorldDreamer 展示了根据自动驾驶背景下的动作生成视频的能力。如图9所示,给定相同的初始帧和不同的驾驶动作,WorldDreamer可以根据不同的驾驶动作(例如控制汽车左转或右转)生成不同的未来视频。
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/57803.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

qt QHBoxLayout详解

QHBoxLayout 是 Qt 框架中用于创建水平布局的类。它将子控件以横向的方式排列,并自动调整大小,以适应父窗口的尺寸变化。 重要方法 QHBoxLayout(QWidget *parent nullptr):创建一个 QHBoxLayout 对象,并指定其父窗口部件。addWi…

【ArcGIS微课1000例】0125:ArcGIS矢量化无法自动完成面解决方案

文章目录 一、坐标系统问题二、正确使用自动完成面工具一、坐标系统问题 1. 数据库坐标系 arcgis矢量化的过程中,无法自动完成面,可能是因为图层要素没有坐标系造成的。双击数据库打开数据库属性,可以查看当前数据框的坐标系。 2. 图层坐标系 双击图层,打开图层属性,切…

深度学习——线性神经网络(五、图像分类数据集——Fashion-MNIST数据集)

目录 5.1 读取数据集5.2 读取小批量5.3 整合所有组件 MNIST数据集是图像分类中广泛使用的数据集之一,但是作为基准数据集过于简单,在本小节将使用类似但更复杂的Fashion-MNIST数据集。 import torch import torchvision from torch.utils import data fr…

前端零基础入门到上班:【Day3】从零开始构建网页骨架HTML

HTML 基础入门&#xff1a;从零开始构建网页骨架 目录 1. 什么是 HTML&#xff1f;HTML 的核心作用 2. HTML 基本结构2.1 DOCTYPE 声明2.2 <html> 标签2.3 <head> 标签2.4 <body> 标签 3. HTML 常用标签详解3.1 标题标签3.2 段落和文本标签3.3 链接标签3.4 图…

使用Python来下一场深夜雪

效果图&#xff1a;&#xff08;真实情况是动态的&#xff09; 完整代码&#xff1a; import turtle import random# 初始化画布 turtle.bgcolor("#001f3f") # 偏深蓝色的背景 turtle.title("下雪的画面") turtle.speed(0) turtle.hideturtle() turtle.t…

创建ODBC数据源SQLConfigDataSource函数的用法

网络上没有这个函数能实际落地的用法说明&#xff0c;我实践后整理一下&#xff1a; 1.头文件与额外依赖库&#xff1a; #include <odbcinst.h> #pragma comment(lib, "legacy_stdio_definitions.lib") 2.调用函数&#xff1a; if (!SQLConfigDataSourceW(…

集创赛比赛细则了解

一、赛道划分 数字与SOC设计 紫光展锐杯不推荐大家参加&#xff0c;设计比较复杂 Arm杯是芯片IP封装测试&#xff0c;在FPGA上做外部总线协议设计。 Robei杯是作为FPGA的应用背景&#xff0c;包括控制算法 平头哥杯是阿里旗下专注于VSC的平台。通过平头哥的平台实现专门的应用…

【C语言】控制台学生成绩管理系统

文章目录 C语言编程&#xff1a;学生成绩管理系统一、程序概述二、代码实现三、程序解释 C语言编程&#xff1a;学生成绩管理系统 在这篇文章中&#xff0c;我们将一起探讨如何使用C语言来创建一个简单的学生成绩管理系统。这个系统将允许用户输入学生数量、学号和成绩&#x…

Web刷题日记1---清风

[GDOUCTF 2023]EZ WEB 题目网站在NSSCTF 这个题目有一个新的知识点&#xff0c;对于我来说比较的少见吧&#xff0c;第一次遇见。em...是什么呢?后面再说 进入靶场&#xff0c;比较突兀&#xff0c;点了这个button后&#xff0c;提示flag在附近 查看源码&#xff0c;有提示…

react18中使用redux管理公共数据仓库实现数据immutable更新

Immutable.js出自Facebook&#xff0c;是最流行的不可变数据结构的实现之一。它实现了完全的持久化数据结构&#xff0c;使用结构共享。所有的更新操作都会返回新的值&#xff0c;但是在内部结构是共享的&#xff0c;来减少内存占用。Immutablejs官网 在上一篇介绍redux的文章&…

FFMPEG+Qt 实时显示本机USB摄像头1080p画面以及同步录制mp4视频

FFMPEGQt 实时显示本机USB摄像头1080p画面以及同步录制mp4视频 文章目录 FFMPEGQt 实时显示本机USB摄像头1080p画面以及同步录制mp4视频1、前言1.1 目标1.2 一些说明 2、效果3、代码3.1 思路3.2 工程目录3.3 核心代码 4、全部代码获取 1、前言 本文通过FFMPEG(7.0.2)与Qt(5.13.…

有色行业测温取样机器人 - SNK施努卡

SNK施努卡有色行业熔炼车间机器人测温取样 在有色行业&#xff0c;测温取样机器人专门设计用于自动化处理高温熔体的温度监测和样品采集任务。这类机器人在铜、铝、锌等金属冶炼过程中扮演着关键角色&#xff0c;以提高生产效率、确保产品质量并增强工作安全性。 主要工作项 …

基于 matlab 计算 TPI(地形位置指数)

1. TPI 简介 地形位置指数算法由 Weiss 提出&#xff0c;主要是根据局部地形高程对各类地貌单元提取。 其基本原理为&#xff1a;在邻域分析方法的基础上&#xff0c;计算每个栅格的高程值和该栅格领域内所有栅格的平均高程之间的差值&#xff0c;正值表示该栅格点高于领域内栅…

element ui中el-image组件查看图片的坑

比如说上传组件使用el-image-viewer组件去看&#xff0c;如果用错了&#xff0c;你会发现&#xff0c;你每次只能看一张图片 <template><div><el-upload action"#" list-type"picture-card" :auto-upload"false" :file-list"…

Spring Cloud --- Sentinel 熔断规则

熔断规则 慢调用比例 发送10个请求&#xff0c;每个请求理想响应时长为200毫秒。统计1秒钟&#xff0c;如果10个请求响应时间超过200毫秒的比例大于等于10%&#xff0c;则触发熔断&#xff0c;熔断5秒。 异常比例 1秒内&#xff0c;发送请求出现异常率为20%&#xff0c;则触…

arcgis中dem转模型导入3dmax

文末分享素材 效果 1、准备数据 (1)DEM (2)DOM 2、打开arcscene软件 3、加载DEM、DOM数据 4、设置DOM的高度为DEM

LabVIEW中句柄与引用

在LabVIEW中&#xff0c;句柄&#xff08;Handle&#xff09; 是一种用于引用特定资源或对象的标识符。它类似于指针&#xff0c;允许程序在内存中管理和操作复杂的资源&#xff0c;而不需要直接访问资源本身。句柄用于管理动态分配的资源&#xff0c;如队列、文件、网络连接、…

Vision-Language Models for Vision Tasks: A Survey阅读笔记

虽然LLM的文章还没都看完&#xff0c;但是终究是开始看起来了VLM&#xff0c;首当其冲&#xff0c;当然是做一片文献综述啦。这篇文章比较早了&#xff0c;2024年2月份出的last version。 文章链接&#xff1a;https://arxiv.org/abs/2304.00685 GitHub链接&#xff1a;GitHu…

Java Web开发教程:从入门到精通

Java Web开发教程&#xff1a;从入门到精通 前言 在当今互联网时代&#xff0c;Web开发已成为一个炙手可热的领域。Java作为一种成熟的编程语言&#xff0c;以其稳定性和跨平台性&#xff0c;成为了Web开发的热门选择。本文将带您从基础知识入手&#xff0c;逐步深入Java Web…

C#与C++交互开发系列(十):数组传递的几种形式

前言 在C#和C的交互开发中&#xff0c;数组传递是一个非常常见且实用的场景。数组可以作为方法的参数&#xff0c;也可以作为响应结果返回。在本篇博客中&#xff0c;我们将探讨几种常见的数组传递方式&#xff0c;展示如何在C#与C之间进行有效的数据交换。我们将主要介绍以下…