还得是抖音,字节推出竖屏视频理解数据集,入选CVPR2024

    ChatGPT狂飙160天,世界已经不是之前的样子。
新建了免费的人工智能中文站https://ai.weoknow.com
新建了收费的人工智能中文站https://ai.hzytsoft.cn/

更多资源欢迎关注


短视频在当下社交媒体逐渐成为主导的视频格式。传统视频处理技术和研究一般都专注于横屏视频的理解和解析,而竖屏视频因其拍摄手法和内容重点不同,展示出与横屏视频数据不同的特性。

针对这一不同,字节跳动技术团队发布了专注于竖屏视频理解的数据集,提出了多个针对竖屏视频处理的技术点以及一个初始方案。这项研究对准确的竖屏视频理解和基础技术架构有较为重要的意义,论文已入选 CVPR2024。

视频 demo 展示、数据特性演示以及竖屏视频类别分类,请见 https://mingfei.info/PMV

图片

论文地址:https://arxiv.org/abs/2312.13746

视频分类作为基础的计算机视觉技术,对视频内容的分类、特征提取,以及推荐等有着重要的作用。竖屏视频是目前社交媒体平台上主导的短视频格式,受到用户的广泛青睐。而竖屏的视频分类技术在目前的研究中鲜有关注,为了激发这一领域的研究,团队提出了一个专用的数据集 PortraitMode-400,包含真实的视频数据和 400 个结构化的类别标签。

进一步,通过自建数据和公开数据子集实验,团队初步展示了横屏数据和竖屏数据之间的不同,和独特的先验分布,并针对不同的技术点进行实验,提出了针对竖屏视频处理的技术方案。

图片

团队首先从公开数据 Kinetics-700 中抽取包含竖屏视频数量的子集 S100-PM,并对应的抽取同等数量的横屏视频得到 S100-LM。团队分别在 S100-PM 和 S100-LM 上训练两个相同的模型(不含任何预训练),并在相同的测试集上进行公平测试,以观察竖屏和横屏视频所含的不同数据特性。

如下方所示,以上半为例,团队将 S100-PM 训练的模型在竖屏测试集上做滑窗测试(16x9 个不重叠的均匀分布的滑窗)得到 Probing-P,同样的可以得到 S100-LM 训练模型的测试结果 Probing-L。为了观察 S100-PM 模型对 S100-LM 模型的优势,团队做差值图得到 c 图,黄色框 1 表示此位置竖屏训练的模型以大于 9 个点的差值显著优于横屏训练的模型。同样的,团队可以得到下半所示的差值图,S100-LM 训练模型在横屏中下区域的准确率低于 S100-PM 训练模型。

可以观察得到,在确保所有训练和测试条件一致的情况下,训练数据的不同带来准确率空间分布上的显著差异,而且差值呈哑铃状分布。

图片

图片

横屏与竖屏视频的不同,说明竖屏视频是一种不同于以往数据的新视频格式,有着不同的数据特性。为了进一步推动领域研究,团队提出了数据集 PortraitMode-400,通过自底向上的方式综合大量的热门搜索词,人工筛查和提取得到 400 个包含显著动作内容的类别集合,涵盖从饮食运动到休闲娱乐等等领域。每个类别包含至少 100 个公开的竖屏视频链接,并已通过人工审查的方式确保数据的高质量可用。

图片

此外,团队还真对竖屏视频数据的不同特性进行实验,以期提出一套合理有效的技术方案。为此,团队利用不同的模型类别,如 CNN(X3D)、Transformer(MViT v2)、Hyrid-Transformer(Uniformer)在竖屏数据上进行广泛实验。团队发现,与传统横屏数据处理相比,竖屏数据对数据预处理有着不一样的倾向。

如下图上半所示,在 CNN 模型下倾向于 Inception-style 方案,而在 Transformer 类模型下倾向于 shorter-side resize 方案。进一步的,团队发现更好的保持原始视频在训练时的长宽比,可以在同等测试条件下获得更好的准确率。

如下半所示,随着采样框长宽比增大,Transformer 类模型表现逐渐增强,而 CNN 模型表现相反。这些实验现象表明了,竖屏数据不同于横屏数据的特性;提供了不同模型架构下的训练偏好设置。

图片

图片

最后,团队还在时间信息显著性、音频模态重要性等方面进行了实验。发现时间信息的加入和音频模态的引入,都可以对竖屏数据的准确率带来不小的提升,展示了在相关领域的研究空间和可能性。

图片

应用落地和展望

视频分类作为基础的计算机视觉技术,对视频内容的分类、特征提取,以及推荐等有着重要的作用。针对竖屏视频的专门研究可以进一步推动相关技术的发展,增强内容推荐等关键能力,进一步激发竖屏领域的其他类型研究,如生成等。

    ChatGPT狂飙160天,世界已经不是之前的样子。
新建了免费的人工智能中文站https://ai.weoknow.com
新建了收费的人工智能中文站https://ai.hzytsoft.cn/

更多资源欢迎关注


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/791247.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

58商铺全新UI试客试用平台网站php源码

探索未来商铺新纪元,58商铺全新UI试客试用平台网站PHP源码完整版震撼来袭! 在这个数字化飞速发展的时代,58商铺一直致力于为商家和消费者打造更加便捷、高效的交易平台。今天,我们荣幸地推出全新UI试客试用平台网站PHP源码完整版…

C/C++ 项目:分别用精密星历和广播星历计算卫星坐标

文章目录 Part.I IntroductionChap.I rinex.hChap.II gmain_body.h Part.II 使用方法扩展阅读 Part.I Introduction 本文将介绍一个小项目的使用方法,此项目可用精密星历和广播星历计算卫星位置,并将两者结果做差,输出至文件。 其实 『分别…

SWM341系列应用(上位机应用)

SWM341系列之上位机应用 1、分级图像和PNG、JPG的应用 现象:客户使用SWM34SVET6HMI_0.4.1版本上位机进行UI界面布局,反馈在模拟运行时(PC端)流畅,在Demo平台(设备端)运行卡顿。 分析及解决&…

【fastadmin】脚本模式下,日志钩子函数执行出现死循环,导致内存溢出奔溃

问题出现原因是想对项目中error级别的日志,接入钉钉告警,方便查看 于是使用钩子方法,日志写入完成后,自动调用自定义的告警方法中 1、在application/tags.php 中添加log_write_done > [app\\common\\behavior\\Common, ],2、在…

【THM】Nmap Post Port Scans(后端口扫描)-初级渗透测试

介绍 本房间是 Nmap 系列的最后一个(网络安全简介模块的一部分)。在这个房间中,我们重点关注端口扫描之后的步骤:特别是服务检测、操作系统检测、Nmap脚本引擎和保存扫描结果。 Nmap实时主机发现Nmap基本端口扫描Nmap高级端口扫描Nmap后端口扫描在本系列的第一个房间中,我…

代码随想录第29天|491.递增子序列 46.全排列 47.全排列 II

目录: 491.递增子序列 46.全排列 47.全排列 II 491.递增子序列 491. 非递减子序列 - 力扣(LeetCode) 代码随想录 (programmercarl.com) 回溯算法精讲,树层去重与树枝去重 | LeetCode:491.递增子序列_哔哩哔哩_bili…

DTFT及其反变换的直观理解

对于离散时间傅里叶变换(DTFT)及其反变换的讲解,教材里通常会先给出DTFT正变换的公式,再举个DTFT的简单变换例子,推导一下DTFT的性质,然后给出DTFT反变换的公式,再证明一下正变换和反变化的对应关系。总的来说就是&…

Spring-IoC 基于xml管理

现大多使用注解方式,xml方式并不简洁,本文仅记录xml用作基础学习。 0、前提 首先在父项目的pom.xml中配置好依赖们。然后子模块也可以使用这些依赖。 在resource目录下创建Spring的xml文件,名称无要求,本文使用bean.xml。文件最…

黄锈水过滤器 卫生热水工业循环水色度水处理器厂家工作原理动画

​ 1:黄锈水处理器介绍 黄锈水处理器是一种专门用于处理“黄锈水”的设备,它采用机电一体化设计,安装方便,操作简单,且运行费用极低。这种处理器主要由数码射频发生器、射频换能器、活性过滤体三部分组成,…

uniapp uni.scss中使用@mixin混入,在文件引入@include 样式不生效 Error: Undefined mixin.(踩坑记录一)

问题: 在uni.scss文件定义mixin 2. 在vue文件引入: 3. 出现报错信息: 4. 问题思考: 是不是需要引入uni.scss ? 答案不需要 uni.scss是一个特殊文件,在代码中无需 import 这个文件即可在scss代码中使用这里的样式变量。uni-app的…

原创【matcap材质在ue4中的实现办法】

matcap材质在ue4中的实现办法 2023-08-29 15:34 https://www.bilibili.com/video/BV1GR4y1b76n/?spm_id_from333.337.search-card.all.click&vd_sourced76b773892c830a157c0ccc97ba78411 评论(0)

《C Prime Plus》02

1. UNIX 系统 C语言因UNIX系统而生,也因此而流行,所以我们从UNIX系统开始(注意:我们提到的UNIX还包含其他系统,如FreeBSD,它是UNIX的一个分支,但是由于法律原因不使用该名称)。 UN…

【运输层】网络数据报协议 UDP

目录 1、UDP 的特点 2、UDP 的首部格式 UDP 只在 IP 协议之上增加了很少的一些功能,比如复用、分用以及差错检测等。 1、UDP 的特点 UDP是无连接的,即发送数据之前不需要建立连接,因此减少了开销和发送数据之前的时延。 UDP使用尽最大努力…

基于vscode Arduino插件开发Arduino项目

基于vscode Arduino插件开发arduino项目 插件配置问题记录1. 指定编译输出文件夹2. 编译下载时不输出详细信息3. 输出端口信息乱码4. 通过串口输出中文,vscode对应的串口助手上会显示乱码(未解决) 插件配置 环境:Arduino插件版本…

苏州金龙助力旅游客运加速蜕变

近日,北京铭悦旅游客运有限公司又迎来一批苏州金龙海格纯电动客车。(以下简称北京铭悦旅游)总经理郭保生在车辆交付时说到,“为迎接强劲复苏的旅游市场,要求旅游客运向绿色客运转型,以及人民对品质生活、美…

【LeetCode热题100】51. N 皇后(回溯)

一.题目要求 按照国际象棋的规则,皇后可以攻击与之处在同一行或同一列或同一斜线上的棋子。 n 皇后问题 研究的是如何将 n 个皇后放置在 nn 的棋盘上,并且使皇后彼此之间不能相互攻击。 给你一个整数 n ,返回所有不同的 n 皇后问题 的解决方…

4.3学习总结

[HNCTF 2022 WEEK2]Canyource(无参数) 通过这题又接触了一种无参数RCE的方法,前面学习的getallheaders只有在apache环境下才能使用,具有一定的局限性 这里是利用php函数来构造读取flag的方法 localeconv() – 函数返回一个包含本…

当Pycharm中右键运行python程序时出现Run ‘pytest in tests ***py‘,如何解决?

1、在Pycharm中右键运行python程序时出现Run pytest in tests ***py ,这是进入了Pytest模式。 2、解决办法 进入到File->Settings->Tools->Python integrated Tools页面或者快捷键(CtrlAltS) 找到Testing下的Default test runner …

Ubuntu Desktop 安装有道词典

Ubuntu Desktop 安装有道词典 1. 有道词典2. Installation2.1. 解压 deb 包到 youdao 目录2.2. 解压 deb 包中的 control 信息 (包的依赖写在该文件里面)2.3. 编辑 control 文件,删除依赖里面的 gstreamer0.10-plugins-ugly2.4. 创建 youdaobuild 目录,重…

大模型量化技术-GPTQ

大模型量化技术-GPTQ 2022年,Frantar等人发表了论文 GPTQ:Accurate Post-Training Quantization for Generative Pre-trained Transformers。 这篇论文详细介绍了一种训练后量化算法,适用于所有通用的预训练 Transformer模型,同时只有微小的性能下降。 GPTQ算法需要通过…