阿里云视频AI全能力解读

摘要：结合人工智能视频理解流程和用户的需求场景，我们将视频AI的功能分成四个大部分，视频智能审核、视频内容理解、视频智能编辑、视频版权保护。其中视频审核功能包括视频鉴黄、暴恐涉政识别、广告二维码识别、无意义直播识别等，利用识别能力将网络上没营养和不健康的视频内容进行排查和处理；视频理解功能包括视频分类、标签，人物识别、语音识别，同时也包括对视频中的文字进行识别（OCR）；视频编辑层面可以实现视频首图、视频摘要、视频highlight的生成，同时支持新闻拆条；关于视频版权，支持视频相似性、同源视频检索和音视频指纹等功能。

点此查看原文： http://click.aliyun.com/m/40746/

写在前面
近期，阿里视频云推出了智能视频解决方案，依托阿里云强大的计算能力和多媒体人工智能技术，可以提高视频审核、处理的效率，助力视频产业加速。

行业背景
根据行业报告显示，2017上半年中国在线视频行业用户规模已经接近6亿，而2017年在线视频市场规模已经达到了503.3亿元，视频行业进入了用户规模稳中有升、市场规模快速扩大的阶段。其中直播、短视频等视频形态的崛起和大范围的行业交叉分布也带动了PGC、UGC的内容发展，海量的视频等多媒体数据随之产生。

市场的繁荣也促进了技术进步，视频云市场风起云涌，大量厂商加入角逐大军，提供从一站式音视频云服务到垂直细分技术服务等各类解决方案。平台方也希望通过推陈出新的技术来重塑视频的观看体验，从而沉淀更多用户。这其中VR、AR、AI技术也走进视频，开始为整个行业带来创新。尤其是行业关注度非常高的人工智能技术，它是可以基于云计算和人工智能模块来对海量视频数据进行分析、研究和处理。那么人工智能技术可以在视频领域应用于哪些场景呢？

需求场景

视频智能审核需求
网络发展也带来了内容的肆意泛滥，淫秽色情、暴恐、恐怖等不良视频影响了和谐的网络氛围，也给平台方带来了很多隐患。从2014年快播被关停至今，多家在线视频、直播、短视频平台都受到了处罚、整改、关停等监管措施。稍有不慎，平台方就会置身于违规违法的边缘。随着UGC短视频的爆发，传统的人工审核方式效率低下，很难满足快速、准确的审核海量的视频内容的需求，利用AI技术来提升视频数据的审核效率与精准度是一个新的方向。

视频内容理解需求
海量的视频源源不断的产生，如何将视频推给最合适的人群是一个巨大的挑战。在大多数情况下，为了方便用户的选择和观看，在线视频网站的视频是需要分类管理的，有的短视频APP还可以按照用户的喜好标签来推送指定的小视频，以提高视频点击率，优化用户体验，这一切都需要对视频数据进行最初的理解和判断。除此之外，在视频监控场景中，安防管控、人流监控等动作都是以视频理解技术为支撑的。

视频智能编辑需求
在我们浏览直播APP的时候，经常会被漂亮的封面图所吸引，从而进入直播间。有研究称最受用户喜欢的视频长度在2.1分钟左右，那么如何从2分钟的视频内选取最精华的缩影作为首图，是非常重要的提升用户点击率的手段。通常，平台方会通过编辑操作或提示用户选择一张效果最好的截图作为封面，但是这个办法效果并不理想。而且在广电新闻行业，也经常会出现需要将大段新闻拆成单条短新闻的业务场景，人工操作效率和准确率并不理想。利用AI技术，对视频进行编辑，就可以解决这个问题。

视频版权保护需求
网络盗版一直都是在线视频行业的一颗毒瘤，不仅影响了版权方的利益，也不利于行业健康的发展。在线教育、金融财经分析、版权剧等平台方都知道，如何对视频排重、相似度判断、盗版鉴定和防止侵权是非常重要的。目前PGC短视频盛行，那平台方对这些视频进行内容保护，可以鼓励原创性，推动视频内容的蓬勃发展。视频AI技术可以抓取视频数据进行鉴别，防止自有版权内容被侵权。

视频AI大图
图片描述

根据用户的需求场景，阿里云推出了视频AI解决方案。上图是通过基础层、技术层、应用层、业务层四个层面来解读了视频AI解决方案的能力。在最底层，也就是基础层，主要是做算法的准备，保障算法的效率和效果，包括数据、离线训练、在线服务、移动端、高性能计算等等；第二层是技术层，这一层是算法的技术实现，分为四类：第一是视频检索，可以实现视频指纹、时序表征、视频索引。第二是视频理解，可以对视频进行识别、分类、语义分割和目标跟踪。第三是视频编辑，实现结构化分析、内容编解码和内容生成。第四是多模态分析，实现OCR/ASR/Face/Motion和跨媒体理解；第三层是应用层，是在搜索、识别、交互、编辑、监控这五类典型场景中，进行功能的封装；最上层是业务层，在这一层中，我们结合客户的实际业务，进行功能的提供，比如视频内容审核和视频版权保护的功能可以帮助安全业务更准确、高效的开展。

结合人工智能视频理解流程和用户的需求场景，我们将视频AI的功能分成四个大部分，视频智能审核、视频内容理解、视频智能编辑、视频版权保护。其中视频审核功能包括视频鉴黄、暴恐涉政识别、广告二维码识别、无意义直播识别等，利用识别能力将网络上没营养和不健康的视频内容进行排查和处理；视频理解功能包括视频分类、标签，人物识别、语音识别，同时也包括对视频中的文字进行识别（OCR）；视频编辑层面可以实现视频首图、视频摘要、视频highlight的生成，同时支持新闻拆条；关于视频版权，支持视频相似性、同源视频检索和音视频指纹等功能。

图片描述

功能与应用

视频智能审核

视频智能审核依托阿里集团海量场景数据，具备高效数据流转体系，历经双11保障考验，可以对色情、暴恐、涉政、广告内容、二维码、无意义的视频进行识别，同时能够识别性暗示等未明显露点的色情行为和gif鉴黄，保证审核的高准确度。

功能实现了从产品接入、测试、策略管理、运营监控、到审核打标及模型/规则动态优化的闭环能力支撑。在通用能力满足常用场景的基础上，支持对高级能力的定制，可根据用户管控尺度进行灵活调整和快速迭代。为不同场景(视频/直播/社交/电商)提供视频内容安全审核的整套完整解决方案。

相对于传统的10万张/人/天的人工效率，智能审核可以达到10亿张/天的超高处理效率，同时大大节省了人力，成本得以压缩。

视频内容理解
在视频内容理解这个阶段，阿里云提供视觉、语音、文本、运动多模态信息分析技术，全方位理解视频，可以把非结构化的内容进行结构化处理。主要功能体现在以下五个方面。

1. 视频分类
通过视频多模态特征分析，自动对视频进行类目分类，提高视频分发、管理的效率。

图片描述

2. 语音识别
将语音转成文字的服务，能支持中文、普通话、英文的语音识别。可应用于实时会议记录、视频直播实时字幕等场景。

其中一个典型的应用场景是会议内容的实时转写，法庭庭审识别。智能语音识别技术将参会人所说的每一句话实时转写成文字并进行存储，依靠人工智能技术替代了人工记录会议内容，法庭庭审中取代书记员。另一个典型应用场景是视频直播实时字幕，现场演讲、直播场景下,将视频中的音频实时转写成字幕展示。相应速度极快，几乎与直播同步，提升了视听体验。

3. 视频标签
分析视频中图像、文字、语音、人脸、物体、行为等多模态信息,自动为视频打多维度标签。
图片描述

这个功能的应用场景包括：视频的个性化推荐和视频检索，基于视频内容，可以实现快速给视频打多维度标签，并在新增热门标签时快速补充，解决新视频标签缺失和新热门标签缺失的问题。

4. 人脸识别
人脸识别(Facial Recognition)是提供视频帧和图像中人脸分析的服务,包括人脸检测、人脸特征提取、人脸关键点定位、人脸检索等服务。可应用于人脸美化、人脸识别和认证、大规模人脸检索、照片管理等场景。
图片描述

人脸识别的功能应用场景非常广泛，包括会场、大厦等安防管控中的大规模人脸检索，零售行业通过人流监控分析货品摆放合理性，出勤率统计，照片管理与智能分类，娱乐美颜等等方面。

5. 目标检测
目标检测(Object Detection)是基于深度学习的目标检测技术,准确找出给定视频的视频帧中多目标及位置,并给出每个目标的具体类别。应用场景包括：第一，可以检测并识别特定类目的目标，对特定目标做有趣的交互；第二，可以识别视频中的目标位置及目标分类，为视频提供丰富的分类标签，可用于个性化推荐和视频搜索；第三，在目标检测后，可以对目标进行实时跟踪定位，精确地分割出目标的时域片段，用于智能监控系统、流量控制系统等。举个最实际的例子，在淘宝商家上传视频过程中，可以自动检测商品并跟踪，在前端展示的时候，感兴趣的用户点击锚点可以直接进入商品页。

图片描述

视频智能编辑
视频编辑是为了更好的输出内容，提升用户点击率，优化用户体验。在这个环节，人工智能可以让视频千人千面，结合用户行为和封面图属性，同一个视频向不同用户展示不同的画面。并且支持类目定制，结合行业运营经验，定制不同的封面图生成模型。同时，视频编辑功能具有高精准度，利用多项AI技术，对视频进行全方位理解后，甄别出最优、最高精准度的画面或片段。

1. 视频首图
通过对视频内容的理解结合画面美学，选出最优的关键帧或关键片段作为视频封面图。

图片描述
这个功能非常适用于UGC视频封面，用户上传的视频,使用智能生成封面图服务，为海量视频自动生成具有代表性的高质量封面图，提升用户视觉体验，展示在 feed 流、视频搜索结果页等场景。同时，在长视频场景中，通过智能生成封面图服务，截取精彩片段作为视频看点,利用动态展示方式吸引用户并快速展示精彩内容。