@开发者,第二届马栏山杯国际音视频算法大赛高分攻略请查收,心动大奖等你来战!...

一秒让墙上的广告消失,保留完整墙面;户外大屏幕显示LOGO被擦除后,背景毫不违和……

欢迎来到魔法世界——

停!这其实并不是什么魔法,而是由弗吉尼亚理工大学提出的基于流的视频补全算法FGVC的一项应用。作为视频的“橡皮擦”,FGVC可应用在视频去水印、物体移除、画面扩展等方面,并入选 ECCV 2020,极具研究意义。

在智能时代,通过视频补全算法,后期可以利用影视剧集数据构建模型,将非局部流连接引入到时间遥远帧,实现真正的视频补全或者抹除,堪称音视频产品的魔法师。正因如此,视频补全也成为第二届“马栏山”杯国际音视频算法大赛重要赛题之一。

我们不难发现,随着AI技术的持续发展,算法带来了无限的想象空间。比如优质视频的推荐,视频水印的消除,甚至还能通过算法来掌握音乐节奏,让人人都能享受更加优质的音视频服务。那么作为开发者,要如何才能在算法的浪潮之中实现突破呢?

为给广大开发者及算法爱好者提供一个展现自身实力的舞台,共同推进业界难题攻坚、行业创新探索,由中国(长沙)马栏山视频文创产业园和芒果TV联合举办第二届“马栏山”杯国际音视频算法大赛正式拉开序幕。本次大赛分为邀请赛、正式赛及现场颁奖交流分享三个阶段,其中邀请赛阶段已经结束,而正式赛则分为视频补全、视频推荐及音乐节拍检测三大赛道,更有心动大奖,为了帮助大家取得更好的成绩,笔者为大家梳理一下每个赛题的题目要求和解题思路。

三大赛题,瞄准音视频算法业务焦点

NO.1视频补全赛道

视频补全技术是用新合成的内容填充给定的时空区域,可以应用在视频修复、视频编辑、特效处理、去水印等场景中。新合成的内容应该无缝嵌入视频中,使得更改不被察觉。而此赛道就是要求以大赛组织方提供的视频片段数据为基础,进行模型训练,对缺失区域进行补全。其难点在于确保补全后的视频连贯自然,不具有违和感。

在这个领域,几年前常用的方法是基于补丁的合成技术直接填补像素,该方法合成速度慢、较难控制。目前常用的视频补全方法通常需要借助深度学习来实现,如果仅依赖卷积神经网络来借用复制补充,不仅效率低,合成图像很容易因为图形和纹理的模糊导致用户观感较差。这里可以参考FGVC算法,经过计算稠密光流(RAFT)、计算边缘(Canny)、补全边缘(EdgeConnect)、补全光流、传播RGB值等一系列流程,能够取得更好效果。

v2-c5bf77d14d5c6c9c39cd571c3432b819_b.jpg

此外,结合利用Deepfill进行图像补全也是一个不错的思路。相关论文和项目地址详细传送门如下:

FGVC论文地址:arxiv.org/pdf/2009.0183

Deepfill论文地址:arxiv.org/pdf/1801.0789

NO.2视频推荐赛道

据艾媒咨询数据显示,中国短视频行业覆盖的用户规模不断扩大,2020年达7.22亿人。如何吸引用户点击视频,吸引用户观看,成为各大视频平台的关键技术之一。而本次视频推荐赛题,也直击真实的推荐业务场景,打造了一个多任务的推荐问题,希望选手设计出一套精准有效的推荐模型。

推荐算法本质上是一种信息处理逻辑。模型获取了用户和视频各自信息后,会按照一定的逻辑处理信息,得到推荐结果。以往粗放推荐缺乏精确度,而推荐算法则需要制定复杂的规则运算逻辑,挖掘用户兴趣,实现千人千面的个性化推荐。其难点在于特征提取、内容匹配和排序,在实际应用中,推荐算法可以分为五步,即召回、过滤、精排、混排和强规则。

本次比赛,官方提供了海量的特征维度和数据信息,用户可以基于此使用XGboost、GBDT等传统机器学习模型,也可以使用DSSM、DIN、DeepFM等深度学习模型来针对视频特征和用户特征进行建模。一般而言,深度学习与传统模型有两种融合方式:松耦合模型和紧耦合模型,二者各有优势,松耦合模型可以灵活组装,而紧耦合模型则可以通过联合训练从而得到整体最优效果。

这里比较推荐《深度学习在推荐算法上的应用进展》一文,大家可以自行百度搜索作为参考,同时,官方提供的baseline链接如下:ad-implant.oss-cn-beijing.aliyuncs.com

NO.3音乐节拍检测赛道

通过检测音乐节奏,来合理识别出音乐节拍的准确位置,对音频处理尤为关键。此赛道出题方要求以指定的数据集为研究基础,通过算法实现对节拍beat和重拍downbeat的检测并标识时间点位。

随着多媒体技术的发展,在智能节奏检测、节奏跟踪等上出现一些研究成果,如基于贝叶斯理论的单音音乐节奏提取方法,引入贝叶斯节奏模型,采用基于贝叶斯理论的序列蒙特卡洛方法推断音乐片段的小节和节拍的位置,但这些研究可能存在计算复杂度较高、准确度较低等缺点。

当然,条条大路通罗马,检测音乐节拍不只有一种思路,论文《Beat Tracking by Dynamic Programming》便提供了借助动态规划算法来构建模型的思路,论文地址如下:ee.columbia.edu/~dpwe/p

v2-b4ac1c4164ff44b9ee9a3255b90f292c_b.jpg

其建模思路主要分为三步:首先计算Onset Strength Envelope(Onset的能量包络),然后计算全局的Tempo,最后基于动态规划计算beats。

此外,论文《Real Time Beat Tracking: A Mixed Approach Category: Music》提供了另一种解题方式,论文地址如下:

cs230.stanford.edu/proj

该论文中表示,除了以往基于信号处理,利用CNN和RNN打造的实时或离线处理系统之外,也可以有不依赖神经网络的方法,通过傅里叶变换也可以探查音乐中的音符、和弦以及打击节奏等事件,再次对这些事件进行傅里叶变换就可以找到其中周期性从而确定节奏和节拍的位置。当然,最终采用哪种方法,选手可以结合实际情况自行选择。

机会与奖励已就绪,待八方“攻城狮”来战

随着人工智能、5G技术的飞速发展,音视频算法新赛道已然呈现。

由中国(长沙)马栏山视频文创产业园和芒果TV联合举办第二届“马栏山”杯国际音视频算法大赛不仅提供了一个让大家一展才华和交流学习的舞台,还设置了丰富的奖励和奖金等你来拿!

奖项设置情况如下:

视频补全赛道中,冠军33万元,亚军8.5万元季军,季军3.5万元,排名第4至10名均可获得8000元;
视频推荐赛道中,冠军24万元,亚军6万元,季军2.5万元,排名第4至10名均可获得5000元;
音乐节拍检测赛道中,冠军24万元,亚军6万元,季军2.5万元,排名第4至10名均可获得5000元;

正式赛的赛程安排情况如下:

正式赛报名:2021年5月20日-2021年7月17日
正式赛比赛:2021年6月5日-2021年7月20日
获奖公布:2021年7月26日

需要注意的是,本次大赛不会设答辩环节,最终成绩以线上评分为准,同时大赛所设奖项奖金均为含税金额。

还等什么?赶快加入大赛,与各路高手一较高下吧!

链接:challenge.ai.mgtv.com/c

challenge.ai.mgtv.com/h (二维码自动识别)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/478372.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

论文小综 | Attention in Graph Neural Networks

作者 | 方尹、杨海宏,浙江大学在读博士,主要研究方向为图表示学习近年来,图卷积神经网络(Graph Convolutional Network, GCN)利用图卷积从图结构数据中提取特征,成功应用于节点分类、图分类、链接预测等任务,用途广泛。…

LeetCode 126. 单词接龙 II(图的BFS)

1. 题目 给定两个单词(beginWord 和 endWord)和一个字典 wordList,找出所有从 beginWord 到 endWord 的最短转换序列。 转换需遵循如下规则: 每次转换只能改变一个字母。转换过程中的中间单词必须是字典中的单词。 说明: 如果…

外卖订单量预测异常报警模型实践

外卖业务的快速发展对系统稳定性提出了更高的要求,每一次订单量大盘的异常波动,都需要做出及时的应对,以保证系统的整体稳定性。如何做出较为准确的波动预警,显得尤为重要。 从时间上看,外卖订单量时间序列有两个明显的…

聊一聊“超大模型”

文 | 金雪锋源 | 知乎最近经常被问,你看“万亿的模型都出来了,你们训练的千亿模型是不是落伍了?”我想说:“虽然都叫超大模型,但是类型是不一样的,虽说每一类模型训出来都不容易,不过澄清一下概…

技术动态 | 不确定性知识图谱的表示和推理

本文转载自漆桂林知乎。作者 | 张嘉韬、漆桂林、吴天星文章链接 | https://zhuanlan.zhihu.com/p/369068016

LeetCode 665. 非递减数列(双指针)

1. 题目 给定一个长度为 n 的整数数组&#xff0c;你的任务是判断在最多改变 1 个元素的情况下&#xff0c;该数组能否变成一个非递减数列。 我们是这样定义一个非递减数列的&#xff1a; 对于数组中所有的 i (1 < i < n)&#xff0c;满足 array[i] < array[i 1]。…

数据还是模型?人类知识在深度学习里还有用武之地吗?

文 | Severus编 | 小戏近些年来&#xff0c;随着数据量越来越多&#xff0c;算力价格越来越便宜&#xff0c;根植于数据算力的深度学习茁壮成长。在这种背景下&#xff0c;作为一种强有力的表示学习方法的深度学习让人们惊讶的发现&#xff0c;只要投喂足够多的数据&#xff0c…

LeetCode 130. 被围绕的区域(图的BFS/DFS)

文章目录1. 题目2. 解题2.1 BFS2.2 DFS1. 题目 给定一个二维的矩阵&#xff0c;包含 ‘X’ 和 ‘O’&#xff08;字母 O&#xff09;。 找到所有被 ‘X’ 围绕的区域&#xff0c;并将这些区域里所有的 ‘O’ 用 ‘X’ 填充。 示例: X X X X X O O X X X O X X O X X 运行你的…

论文浅尝 - ECIR2021 | 两种实体对齐方法的严格评估

笔记整理 | 谭亦鸣&#xff0c;东南大学博士生来源: ECIR 2021在这篇工作中&#xff0c;作者对两种SOTA实体对齐方法做了广泛的研究&#xff1a;首先仔细分析了现有benchmark的过程&#xff0c;并论证了其中存在一些缺陷&#xff0c;使得原始方法给出的实验结果之间可能存在不可…

Android App包瘦身优化实践

随着业务的快速迭代增长&#xff0c;美团App里不断引入新的业务逻辑代码、图片资源和第三方SDK&#xff0c;直接导致APK体积不断增长。包体积增长带来的问题越来越多&#xff0c;如CDN流量费用增加、用户安装成功率降低&#xff0c;甚至可能会影响用户的留存率。APK的瘦身已经是…

NLP界新SOTA!吸纳5000万级知识图谱,一举刷爆54个中文任务!

大家还记得2019年底首次将GLUE榜单分数刷过90大关的百度ERNIE模型吗&#xff1f;在随后一年多的时间里&#xff0c;又陆续出现了GPT-3、Switch Transformer等一众靠模型体量取胜的千亿乃至万亿参数规模的超大预训练模型&#xff0c;似乎新训一个预训练模型没有个千亿参数都不好…

LeetCode 543. 二叉树的直径(DFS)

1. 题目 给定一棵二叉树&#xff0c;你需要计算它的直径长度。一棵二叉树的直径长度是任意两个结点路径长度中的最大值。这条路径可能穿过根结点。 示例 : 给定二叉树1/ \2 3/ \ 4 5 返回 3, 它的长度是路径 [4,2,1,3] 或者 [5,2,1,3]。注意&#xff1a;两结点之…

论文浅尝 | 用于嵌套命名实体识别的二部平面图网络(BiFlaG)

笔记整理 | 栾岱洋&#xff0c;东南大学来源&#xff1a;ACL 2020链接&#xff1a;https://www.aclweb.org/anthology/2020.acl-main.571.pdf本文提出了一种可以实现重叠主体的识别的BiFlaG&#xff08;bipartite flatgraph network&#xff09;模型&#xff0c;包含两个子图模…

不是所有问题都适合用神经网络去搞!

文 | YukiRain知乎不是所有问题都适合用神经网络预测&#xff0c;YukiRain总结了以下几种不适合用神经网络做预测的场景&#xff1a;小样本情况&#xff0c;无论是低维还是高维&#xff0c;不如SVM和贝叶斯模型低维数据&#xff0c;大样本量&#xff0c;不如各种ensemble类算法…

从Google白皮书看企业安全最佳实践

前不久Google发布了一份安全方面的白皮书Google Infrastructure Security Design Overview&#xff0c;直译的版本可以参考“网路冷眼”这版《Google基础设施安全设计概述》&#xff0c;直译点评的版本可以参考“职业欠钱”的《Google基础设施安全设计概述翻译和导读》。 此前G…

LeetCode 415. 字符串相加(大数加法)

1. 题目 给定两个字符串形式的非负整数 num1 和num2 &#xff0c;计算它们的和。 注意&#xff1a;num1 和num2 的长度都小于 5100. num1 和num2 都只包含数字 0-9. num1 和num2 都不包含任何前导零。 你不能使用任何內建 BigInteger 库&#xff0c; 也不能直接将输入的字符串…

会议交流 | 智能风控技术峰会(请关注图分析相关论坛)

2021年5月15日&#xff0c;9:00-18:00&#xff0c;DataFunSummit——智能风控技术峰会将如约而至&#xff0c;本次峰会由3位主席和8位出品人精心策划而成&#xff0c;邀请来自业界的40余位嘉宾从风控系统的架构&#xff0c;到智能风控的核心算法&#xff0c;再到内容、金融、交…

深度学习,路在何方?

文 | Severus最近&#xff0c;AI领域的三位图灵奖获得者Yoshua Bengio、Yann LeCun和Geoffrey Hinton共同发表了一篇文章&#xff0c;名为Deep Learning for AI&#xff0c;文中讨论了深度学习的起源、发展、成就及未来。文章标题&#xff1a;Deep Learning for AI原文链接&…

前端渲染引擎doT.js解析

背景 前端渲染有很多框架&#xff0c;而且形式和内容在不断发生变化。这些演变的背后是设计模式的变化&#xff0c;而归根到底是功能划分逻辑的演变&#xff1a;MVC—>MVP—>MVVM&#xff08;忽略最早混在一起的写法&#xff0c;那不称为模式&#xff09;。近几年兴起的R…

elasticsearch7使用指导

目录结构&#xff1a; 一、es概述 二、es安装/head插件安装/kibana安装 三、es核心概念 四、IK分词器 五、RestFul操作 六、CRUD(增删改查) 七、Springboot集成es ---------------------------------------分割线&#xff1a;正文------------------------------------…