有点意思!腾讯 ARC Lab 最新发布的MiraData数据集,用于长视频生成,从这些方面做了clip分层描述……

最近小编网上冲浪时,被腾讯 PCG ARC Lab 新开源的文本-视频数据集——MiraData 吸引了目光。

图片

这个数据集有多新?Readme在一天前刚更新完的那种,而且数据集有一大特点,是专门为长视频生成任务设计的大规模视频数据集,不仅提供了时长更长的数据,还从视频主体、背景、风格等不同维度进行了非常详细的文本“分层”描述,关注视频生成的小伙伴不容错过!相信一定能给你启发,赶紧和小编一睹为快。

MiraData项目地址:https://github.com/mira-space/MiraData

一、数据集概览

视频数据集在sora等视频生成大模型中发挥着至关重要的作用。然而,现有的文本-视频数据集在处理长视频序列捕获镜头过渡方面往往存在不足。为了解决这些限制,腾讯 PCG ARC Lab 研究人员引入了MiraDataMi ni-So ra Data),这是一个专门为长视频生成任务设计的大规模视频数据集。

(MiraData 官方Demo Video截图,来源:https://www.youtube.com/watch?v=3G0p7Jo3GYM)

 MiraData 的主要特点

1. 长视频时长:与以前的数据集不同,以前的数据集视频剪辑通常非常短(通常小于 6 秒),MiraData 专注于时长从 1 到 2 分钟不等未剪辑视频片段。这种延长的持续时间允许对视频内容进行更全面的建模。

2. 结构化描述:MiraData 中的每个视频都附有结构化描述。这些标题从不同角度提供了详细描述,增强了数据集的丰富性。描述平均长度为349字,保证了视频内容的全面呈现。

数据集构成

在这次初始发布的版本中,MiraData 包含 57,803 个视频片段,总时长 1,754 小时,主要提供游戏城市/风景探索两个场景。clip数量和视频时长如下所示:

图片

2种场景内容

● 游戏场景:包含了丰富的游戏体验相关视频;

● 城市或自然景观场景:通过视频捕捉了多样的城市风貌和自然美景。

6种类型的描述

MiraData 中的每个视频都附有结构化描述,从以下6种不同角度进行了详细地描述,增强了数据集的丰富性:

● 主体描述(Main Object Description):描述视频中的主要目标或主体,包括它们在整个视频中的属性、动作、位置和运动。

● 背景(Background):提供有关环境或场景的信息,包括物体、地点、天气和时间。

● 风格(Style):涵盖艺术风格、视觉和摄影方面,如写实、赛博朋克、电影风格。

● 摄像机运动(Camera Movement):详细说明摄像机的平移、变焦或其他运动。

● 简短描述(Short Caption):一段简洁的摘要,描述视频的精髓,使用Panda-70M字幕模型生成。

● 密集描述(Dense Caption):一个更详尽和详细的、总结了上述五种类型的描述。

举个“栗子”

看1个官方提供的例子,就明白了,比如这个游戏视频

(开头画面冲击力较强,注意谨慎观看)

描述内容有:

主体描述

从玩家的视角出发,最初与一个对手搏斗,这一点可以从机械部件和玩家手部的特写镜头中得到证实。随后,焦点转移到一位老年女性身上,她最初表现出攻击性或防御性,高举着铲子,好像随时准备出击。接着她转身,带领玩家绕到一个木制结构的侧面,那可能是她的家。随着时间的推移,她的态度变得柔和,看起来像是在和玩家交谈,因为她放下了手中的铲子,姿态变得更加放松。

背景描述

背景描绘了郁郁葱葱的乡村环境,有一座木屋或棚屋,周围环绕着绿色植物、岩石和红色花朵。环境具有自然主义的感觉,晴朗的天空和日光表明这是白天的环境。背景中没有可见的其他人物或移动元素,这表明这是一个虽然与世隔绝但平静的地点。

风格描述

视觉风格是现实主义的,具有详细的角色模型、自然光照以及高度的环境细节,共同营造出一个沉浸式且令人信服的乡村环境,适合于电子游戏的背景设定。

镜头描述

相机视角在整个序列中始终与第一人称视点保持一致。初始画面表明了一场动态的斗争,伴随着快速的动作,而随后的画面则显示了玩家与女性互动时更为稳定的相机。镜头跟随女人移动,将她保持为焦点,并且拍摄角度会随着玩家视角的变化而变化,以保持女人在视野中,特别是当她移动和转身时。

简短描述

一个电子游戏角色站在房子前面。

密集描述

该视频序列展示了视频游戏角色在乡村环境中与不可玩角色 (NPC) 互动的第一人称视角。最初,玩家角色似乎正在与敌人或生物搏斗,如特写斗争和火花或余烬的存在所示。场景切换到玩家角色站在一位老年妇女面前,她以防御或威胁的姿势挥舞着铲子。该女子的表情和姿势表明她对玩家持警惕或对抗态度。随着视频的进展,这名女子似乎稍微放松了一点,放下了铲子并与玩家交谈,这一点从她不断变化的面部表情和肢体语言可以看出。

二、数据采集与标注

为了收集MiraData,研究团队首先手动选择不同场景下的YouTube频道。然后,使用PySceneDetect下载并分割相应频道中的所有视频。之后,选择了时长在1到2分钟之间的视频片段。对于超过2分钟的视频片段,他们将其分成多个2分钟的片段。最后,使用 GPT-4V 为视频剪辑添加描述。

GPT-4V 描述

研究团队测试了现有的开源视觉LLM方法和GPT-4V,发现GPT-4V的描述在时间序列方面的语义理解上表现出更好的准确性和连贯性。它还可以更准确地描述主要主体和背景物体,减少物体遗漏和幻觉问题。因此,他们使用GPT-4V来生成密集描述主体描述背景描述镜头描述风格描述

Panda-70M 描述

为了平衡标注成本和描述准确性,他们为每个视频统一采样 8 帧,并将它们排列成一张大图像的 2x4 网格。然后,使用Panda-70M的描述模型为每个视频添加一句话描述,作为主要内容的提示,并将其输入到他们的微调 prompt 中。

通过将微调的提示和 2x4 大图像输入 GPT-4V,他们可以在一轮对话中高效地输出多个维度的描述。具体提示内容可以在caption_gpt4v.py中找到,欢迎大家贡献更多优质的文字-视频数据。

caption_gpt4v.py链接:https://github.com/mira-space/MiraData/blob/main/caption_gpt4v.py

三、统计

数据集信息统计如下:

图片

密集字幕的总文本长度统计

图片

六种类型字幕的总文本长度统计

简短描述词云

图片

密集描述的词云

四、数据集下载

作者提供的描述元文件,除了上述6种维度描述外,还提供了YouTube视频ID等相关信息:

● 元文件字段:

· index : 视频片段索引,由以下部分组成{download_idx}_{video_id}-{clip_id}

· video_id : YouTube 视频 ID

· start_frame : YouTube 视频的剪辑开始帧

· end_frame : YouTube 视频的剪辑结束帧

· main_object_caption:视频中主体描述

· background_caption : 视频背景描述

· style_caption:视频风格描述

· camera_caption : 镜头描述

· Short_caption:简短描述

· dend_caption:密集描述

· fps:用于提取帧的视频帧率

*你可以使用 start_frame/fps 或 end_frame/fps 获取开始和结束时间戳

另外,作者提供了视频下载并分割的脚本:

python download_data.py --meta_csv miradata_v0.csv --video_start_id 0 --video_end_id 10631 --raw_video_save_dir miradata/raw_video --clip_video_save_dir miradata/clip_video

其中--video_start_id和表示要下载的元文件的--video_end_id开始值和结束值。游戏场景范围为0至7416,城市/风景探索范围为7417至10631。download_idxindex

更多数据集,请访问OpenDataLab:https://opendatalab.org.cn/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/817247.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2024年生物医学与食品安全国际会议 (ICBFS 2024)

2024年生物医学与食品安全国际会议 (ICBFS 2024) 2024 International Conference on Environmental Prevention and New Materials 【会议简介】 2024年生物医学与食品安全国际会议即将在成都召开。本次会议将汇聚全球生物医学与食品安全领域的专家学者,共同探讨生…

【JavaSE进阶】05-集合

集合继承结构图 集合继承结构图_Collection部分 注&#xff1a;泛化关系即继承关系&#xff0c;is a&#xff1b;关联关系&#xff0c;has a&#xff1b;实现关系&#xff0c;like a 1 接口java.util.Collection<E>: 接口Collection是集合中的超级父接口 Iterator it…

英特尔推出中国特供版Gaudi 3芯片,性能暴降92%以应对美国出口管制|TodayAI

英特尔近期发布消息&#xff0c;其将在中国市场推出专为该地区定制的“特供版”Gaudi 3 AI芯片&#xff0c;以符合美国对AI芯片的出口管制。这一版本包括HL-328型号的OAM兼容夹层卡&#xff0c;预计将于6月24日发布&#xff1b;以及HL-388型号的PCIe加速卡&#xff0c;计划在9月…

从建表语句带你学习doris_表索引

1、doris建表概述 1.1、doris建表模板 CREATE [EXTERNAL] TABLE [IF NOT EXISTS] [DATABASE.]table_name (column_definition1[,column_deinition2,......][,index_definition1,[,index_definition2,]] ) [ENGINE [olap|mysql|broker|hive]] [key_desc] [COMMENT "tabl…

不花一分钱,四大方法教你免费申请SSL证书

在数字化时代&#xff0c;数据安全与隐私保护的重要性日益凸显。为了确保在线信息传输的机密性和完整性&#xff0c;数字证书&#xff0c;尤其是SSL/TLS证书扮演着至关重要的角色。为个人及企业用户提供了经济、高效的加密解决方案。随着市场对SSL证书的逐渐重视&#xff0c;免…

docker run启动一个开发备忘清单速查表 —— 筑梦之路

docker run -itd --name reference -p 3000:3000 registry.cn-beijing.aliyuncs.com/deanmr/reference:latest包含&#xff1a;运维&#xff0c;前端&#xff0c;后端&#xff0c;工具&#xff0c;命令&#xff0c;数据库 部分截图展示&#xff1a;

【Bugku】sqli-0x1

1.打开靶场&#xff0c;进入实验场景 2.按F12查看源代码&#xff0c;发现有一个/?pls_help路径&#xff0c;在url后加上查看。 3.得到的php源码 首先&#xff0c;代码通过 error_reporting(0) 和 error_log(0) 关闭了错误报告&#xff0c;这可以防止攻击者从错误信息中获取敏…

设计模式之大话西游

8年前深究设计模式&#xff0c;现如今再次回锅&#xff5e; 还是大话设计模式 这本书还是可以的 大话西游经典的台词&#xff1a;“曾经有一份真挚的爱情摆在我面前,我没有珍惜,等我失去的时候,我才后悔莫及,人世间最痛苦的事莫过于此。如果上天能够给我一个再来一次的机会,我会…

【每周精选资讯 | 第 5 期】2024-04-08 ~ 2024-04-14

文章目录 前言内容百度智能云发布干帆大模型一体机&#xff0c;加速企业私有化部署大模型北大开源 aiXcoder-7B 代码大模型&#xff0c;专为企业私有部署设计WPS AI 企业版发布&#xff1a;多个大模型自由切换英特尔发布 AI 芯片 Gaudi 3&#xff0c;称性能超越英伟达 H100马云…

国外站群服务器有哪几种?

国外站群服务器种类繁多&#xff0c;它们各具特色&#xff0c;适用于不同的业务需求和场景。以下将为您科普几种常见的国外站群服务器及其特点。 首先&#xff0c;美国站群服务器以其丰富的IP资源和强大的网络技术著称。作为全球网络技术和数据中心发展的领先者&#xff0c;美国…

数据库SQL语言实战(二)

目录 检索查询 题目一 题目二 题目三 题目四 题目五 题目六 题目七 题目八 题目九&#xff08;本篇最难的题目&#xff09; 分析 实现&#xff08;两种方式&#xff09; 模板 总结 检索查询 按照要求查找数据库中的数据 题目一 找出没有选修任何课程的学…

YesPMP众包平台 | 活动有礼,现金奖励点击领取!

YesPMP众包平台在线发福利啦&#xff0c;4月16日活动火热开启&#xff0c;现金奖励等你来领&#xff0c;最高可领千元&#xff0c;赶快参与将奖励收入囊中&#xff0c;一起来了解活动细节吧&#xff01; 一、活动内容&#xff1a; 活动一&#xff1a;【项目征集令】活动&…

Python Flask-Security- 构建安全而强大的Web应用

Flask-Security是一个基于Flask的安全扩展&#xff0c;为开发者提供了构建安全且强大的Web应用的工具。本文将深入探讨Flask- Security的核心功能、基本用法以及在实际应用中的一些高级特性&#xff0c;通过丰富的示例代码&#xff0c;助您更全面地了解和应用这一用于Web应用安…

2024年【危险化学品经营单位主要负责人】考试题库及危险化学品经营单位主要负责人新版试题

题库来源&#xff1a;安全生产模拟考试一点通公众号小程序 危险化学品经营单位主要负责人考试题库是安全生产模拟考试一点通总题库中生成的一套危险化学品经营单位主要负责人新版试题&#xff0c;安全生产模拟考试一点通上危险化学品经营单位主要负责人作业手机同步练习。2024…

python+playwright 学习-88 禁止加载图片等资源

前言 对于爬虫的小伙伴来说,有时候只需抓取页面的文本,不用加载图片,可以加快操作页面速度,那么我们可以设置禁止加载图片等资源。 禁止图片加载 根据url地址的后缀,图片资源后缀一般是png,jpg,jpeg,gif等格式。 from playwright.sync_api import sync_playwrightwith…

Gradle 实战 - 插件-ApiHug准备-工具篇-015

&#x1f917; ApiHug {Postman|Swagger|Api...} 快↑ 准√ 省↓ GitHub - apihug/apihug.com: All abou the Apihug apihug.com: 有爱&#xff0c;有温度&#xff0c;有质量&#xff0c;有信任ApiHug - API design Copilot - IntelliJ IDEs Plugin | Marketplace ApiHug …

rv1103/buildroot系统中添加包如v4l2

v4l2: rv1103给出的包中已经有v4l,只需要在menuconfig中打开编译选项&#xff0c;步骤如下&#xff1a; 在luckfox的github网站中下载的源代码在~/linux/luckfox/luckfox-pico-main中目录结构如下&#xff1a; 打开编译选项 cd ./sysdrv/source/buildroot/buildroot-2023.02.…

一种驱动器的功能安全架构介绍

下图提供了驱动器实现安全功能的架构 具有如下特点&#xff1a; 1.通用基于总线或者非总线的架构。可以实现ethercat的FSOE&#xff0c;profinet的profisafe&#xff0c;或者伺服本体安全DIO现实安全功能。 2.基于1oo2D架构&#xff0c;安全等级可以达到sil3。 3.高可用性。单…

第十五篇【传奇开心果系列】Python自动化办公库技术点案例示例:深度解读Python 自动化处理图像在各行各业的应用场景

传奇开心果博文系列 系列博文目录Python自动化办公库技术点案例示例系列 博文目录前言一、行业应用场景介绍二、 **计算机视觉研究与开发示例代码**三、人工智能与机器学习示例代码四、医疗健康领域示例代码五、制造业与质量控制示例代码六、农业与环境科学示例代码七、电子商务…

小米汽车值得去吗?最终拒了 offer。

车企选择 今天逛某职场 App 时&#xff0c;无意间看到一篇寻求 offer 抉择意见的帖子&#xff1a; 这位同学刚从加班闻名&#xff08;但 CEO 强调既学华为狼性&#xff0c;也学华为分配&#xff09;的理想汽车离职。 经过了 6 轮面试&#xff0c;收到了小米 offer&#xff0c;但…