计算机视觉及智能影像报告:未来规模超200亿美元

640?wx_fmt=png

来源:网易智能


近日,Forrester咨询公司对中国计算机视觉及智能影像市场进行了调查,访问了包括研究机构、科研院校、投资机构以及部分互联网企业,视频行业企业,针对以视频行业为代表的文娱产业中人工智能的应用趋势、面临的挑战进行了分析,并提出相应的战略建议。


网易智能节选整理如下:


近年来,在互联网、大数据、超级计算、传感网、脑科学等新理论、新技术以及经济社会发展强烈需求的共同驱动下,人工智能呈现出飞跃式的进步,进入新的发展阶段。无论是企业还是政府在人工智能方面的关注和投入,都在不同层面推动着人工智能技术和应用的蓬勃发展。各种创新的AI应用逐步开始进入社会生活的各个场景。


同时,我们也看到,新兴科技正在推动新一轮全球产业变革,而人工智能毫无疑问成为了释放产业变革潜能的重要力量。作为人工智能技术的重要分支,计算机视觉技术在算法、数据及算力的加持下,更是得到了飞速的发展,已经具备大规模应用的可行性。特别是在文娱产业得到了广泛应用的智能影像技术已经成为行业变革的核心驱动力,将进一步催生新应用、新产品、新产业、新业态、新模式的出现,推动智能影像产业生态的繁荣。


01

调查结果摘要


人工智能为影像分析技术带来变革。人工智能在影像行业的综合应用, 特别是通过对动态视觉内容的理解和重构,是计算机视觉技术及计算机动画技术的交叉和融合,给智能影像产业带来了充满想象力的广阔舞台和空间。


智能影像技术为产业变革带来强劲动力。过去几年文娱产业经历了快速的发展,以内容制作方、视频平台方为代表行业参与者正面临着诸多的挑战,各方仍在行业变局中摸索前行,期望不断通过运用新兴技术和应用的创新提升自身的核心竞争力。智能影像技术在行业的应用日渐深入,成为新一轮行业变革的核心驱动力。


把握数字化转型新契机,智能影像技术加速业务变革。智能影像技术不仅成为文娱产业商业价值变现的核心引擎,也在逐渐进入更多的内容原创领域,通过自动化影像加工、生产技术为产业升级提供动力。而且, 智能影像技术也通过全面赋能推动应用在教育、零售等更多领域落地, 成为行业价值创新的基石。


深耕行业场景,聚焦价值创造,拓展行业生态。智能影像技术企业需要聚焦行业实践、商业价值闭环,以及开放性平台技术,推动智能影像行业的协同发展和生态的进一步繁荣。


02

智能影像技术的发展历程


2006年以来,随着深度学习技术的进展,人工智能再次获得了广泛关注。特别在图像领域,深度学习带来的突破性效果在很多领域已经超过人类水平,各种类型的神经网络不断涌现,伴随着计算力的提升以及海量数据的积累,人工智能为广阔的图像分析领域带来深刻变革。资本市场对与计算机视觉的热度空前高涨。



根据Forrester统计,全球在计算机视觉领域的投资持续增长,截止到2018年11月末投资较2017年增长113%,在过去的五年中复合增长率高达135%,在本次访谈调研中了解到,未来五年内全球计算机视觉软件及服务市场规模将超过200亿美金。


640?wx_fmt=png


影像相关的市场规模相当可观,人工智能技术的赋能将会催生更多商业场景,进一步推动整体市场繁荣。在众多细分领域中,智能影像生产技术直接从源头上提高了视频影像的生产能力。除了与影像源头密切相关的文娱产业,智能影像还将赋能广告营销、教育、游戏、零售乃至制造等相关行业。


影像生产技术以计算机视觉 (Computer Vision) 与计算机图形学为基础。计算机视觉诞生于上世纪六十年代,是指能够赋予机器自然视觉能力的学科,关注图像的识别和分割。在初步兴起的二十年时间里,“识别”领域进展有限,而分割领域取得了一定的进展。进入本世纪,随着互联网的不断发展,图片的来源日趋丰富,各类图像数据库开始出现,标注数据进一步促进计算机视觉的发展。


在深度学习广泛应用之前,视觉算法一般分为:特征感知、图像预处理、特征提取、特征筛选、推理与识别。手工设计特征需要对相关领域具有足够的积累和经验,对于提取的特征还需要进行大量调试工作。不同的特征对应的后端机器学习算法也有所不同。二者组合起来,通用性差而且需要投入大量工程性工作,进展缓慢且效果不佳,与人类水平有很大差距,迟迟难以大规模商用,对于图像之外的多模态感知识别更是困难重重。


计算机图形学(Computer Graphics)是指在计算机上用专门的软件和硬件用来表现和控制图像数据,它同样诞生于上世纪六十年代。自诞生之初开始即开始踊跃发展,分形理论、曲面造型技术、光栅图形学算法、光照模型、光线追踪算法、辐射度算法等技术手段陆续被提出。80年代中期,皮克斯使用SGI计算机创作了第一段完全用计算机生成的短片。1995 年首部计算机生成的动画影片《玩具总动员》全球上映,1996年最早的全三维游戏《雷神之锤》发售。


一些事实标准的出现,如SGI公司开发的OpenGL开放式三维图形标准,微软公司的标准接口DirectX,Adobe公司的Postscript等,进一步加速了影像生产的产业化进程。但是,影像生产中大量人工仍然不可避免,具体到面向大众的个性化影像生产而言,重复性的人力劳动已经严重制约了产能,亟需智能化、自动化的影像生产技术推动产业的升级。


03

智能影像生产技术的发展现状


Forrester对人工智能技术进行分类研究时采用了Sense、Act、Think 的框架。类比来看,在感知(Sense)层面,人工智能技术为静态图片识别乃至多模态影像识别带来了突破;在思考(Think)层面,基于多模态识别结合商业需求可以形成深入的影像智能化理解。以感知、思考为基础,在行动(Act)层面,人工智能技术为自动化影像生产带来了强劲动力。为此,我们将智能影像生产技术分为两部分:影像智能化理解(Sense和Think) 和影像自动化生成(Act)。


640?wx_fmt=png


传统的计算机视觉技术大量聚焦在特征生成和选择。端到端深度学习带来了自动特征学习能力,从而极大促进了计算机视觉的发展。深度学习所需的大量训练数据以及运算能力在当下也得到了良好的供应。对于“识别”这种人类无需思考即可在极短时间内作出判断的任务目前是人工智能最擅长的领域。从包括图像、语音、文字的多模态识别,人工智能对于影 像感知和理解能力不断提升,推动了智能影像产业的快速发展。


640?wx_fmt=png


此外,各种神经网络的组合为静态图像识别提供了有力武器。凭借着AlexNet在ILSVRC竞赛的一战成名,卷积神经网络(CNN)因其良好的泛化能力以及优秀的实际效果已经替代了众多传统计算机视觉算法,成为当前图像识别领域的主流。


在此基础上,ResNet、Inception、Xception、DenseNet、ShuffleNet等多种改良结构也不断涌现,推动了识别效果的进一步提高,在大规模人脸与人体识别、物体检测与追踪、3D视觉等领域都获得了广泛应用,已经达到了可以广泛实际落地的程度,甚至有的受访者表示这类任务的性能一定程度上已经达到饱和。


图像、语音、文本等多模态识别进一步丰富了影像识别能力。深度学习不仅赋能了计算机视觉领域,还为语音识别、文本分析领域带来突破。循环神经网络(RNN)及其变种LSTM在这些领域取得令人瞩目的进展而成为主流。以此为基础,各种增强技术如双向LSTM、Attention model等也开始得以广泛应用。深度学习的理论基础在“去黑盒化”的 道路上已经取得进展,各种技术的组合为也不断刷新着各类任务的效果新高。多模态识别已成为计算机视觉和AI 最令人激动的领域之一,现有感知能力甚至已经超出商业变现的步伐。寻找应用场景、促进技术落地的难度开始大于技术本身。


影像语义理解增加了商业模式的可能性。通过视频结构化分析、目标检测跟踪、动作态势感知、人物识别以及情感分析等多模态感知技术,人类已经可以从动态影像中获取浅层信息。但是要做到商业模式变现,仍需进一步从语义的层面深入理解影像内容。


在这一领域,需要有大量的行业积累,例如对综艺类视频节目中人物、物体等的识别标注,需要专业的经验,基于编剧、布景、拍摄等角度,对视频进行结构化建模进行分析和学习,把特征空间提升到语义空间。在此基础上对影像数据生成语义标签、业务分类乃至文字描述以供后续业务场景使用。常识的建立可以极大提升机器性能,既有经验与多种深度网络的融合将会形成企业差异化的竞争优势。


04

智能影像行业案例


Netflix:总部位于美国加州的Netflix成立于1997年,是一家在线影片服务提供商。Netflix以投入优质内容吸引用户,通过用户加入会员付费观看内容获取收入。但近年来面临新增用户增长放缓以及内容成本急剧攀升的压力,Netflix 2018Q2新增了447 万国际用户和 67 万美国用户,低于Q1 的500 万和 120 万。随着用户对内容的要求越来越高,在线视频平台围绕优质内容进行竞争,内容正成为流量入口,Netflix也不例外,投入大量资源自己制作的内容,代表作包括《纸牌屋》,《怪奇物语》等。用户对视频形态也发生了变化,随着用户的观看视频的时间碎片化,短视频、倍速观看、跨屏看等等的个性化和自主化趋势对体验提出了更高挑战。


在这个挑战下,Netflix在继续加大对原创内容投入的同时,积极尝试并希望通过机器学习、神经网络和深度学习、计算机视觉等新兴AI技术, 保持行业优势,优化内部运营。


Netflix尝试将人工智能应用在核心系统上,带来的直接效果就是付费用户超过1亿,推荐引擎提高3到4倍的点击率。同时,通过对视频及客户观影数据的分析,避免购买低收益的视频内容,累计已经实现了超过十亿美元的内容成本的节省。


影谱科技(Moviebook):他们通过整合视频类渠道,覆盖了各硬件终端与计算机芯片、贯穿可视化场景,其智能影像生产技术具有批量自动化处理、子像素级分析、智能叠加和无痕展示等特征。


在人工智能业务领域,Moviebook通过Vedio AI制作引擎,实现影像内容生产制作的“从视频中捕获动作” Motion Capture from Video System(MCVS)框架。MCVS无需预先进行动作捕捉合成的高度结构化数据,就可以让机器直接模仿大量已存视频片段来学习高难度技能,允许数据为驱动的模仿以生成无监督学习视频内容。


640?wx_fmt=png


该系统MCVS每天可以处理日常视频网络上的数百万端视频图像,提取关键帧,进行自动结构化,为下游任务提供大量数字化资源,如视频搜索、原生视频内容营销、视频内容创作、视频识别、游戏生产、在线教育等。


迪士尼:迪士尼研究院的一项内部研究,正在改变影片和VR的创作。过去,拍摄影片或开发一款VR游戏/内容,都需要先有剧本描述人物及场景等,但文字难以直观地描述复杂场景,这一步骤将耗费大量时间。为了在编写故事的过程中协助编剧,迪士尼开发了一个系统,可以从自然语言故事中提取信息,并允许以故事为中心以及以人物为中心的推理。这些推理功能通过直观的查询系统向创作人员开放,允许脚本编写者向系统询问有关故事和角色信息的问题,并形成可视化的动画或简单视频的展示,导演更直观地了解角色将如何在场景中进行表演,以及脚本的变化会怎样影响场景。


640?wx_fmt=png


这项技术将应用在电影的创作和拍摄中,通过初步自动生成简单动画,进行现场整合及语音录制,然后戴上ⅤR头显直接在虚拟场景中进行预览,提供“亲临”影片故事场景的体验,制作人员还可移动预览场景中的虚拟人物角色的位置。这项技术将与迪士尼的数字影像、人工智能以及特效技术整合用于电影的创作制作以及后期过程。


未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。


未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。


  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”


640?wx_fmt=jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/492609.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

权威报告丨2018-2019 新型互联网生态研究报告摘要

来源:商业伙伴摘要:核心观点:1、传统ICT企业与互联网企业,正在相互进入对方业务领地;2、新型互联网企业既有互联网的基因,又专注于B端企业级市场;3、政府、金融与制造是新型互联网市场规模最大的…

【杂】如何修复视频--> Wondershare Repairit

近日换宿舍,从一个校区搬到另一个校区,突发奇想决定用相机录一点视频~ 浅浅尝试一下录vlog才发现做短视频也并非想象中那般容易,尤其是构思内容和文案,并且实施起来也会有很多问题,比如手拿着相机录真的很抖o((⊙﹏⊙)…

中国独角兽企业总榜发布:百亿超级独角兽达13家(附榜单)

来源:悟空智能科技摘要:这份榜单中的独角兽企业均为2018年有外部融资且估值超10亿美元的优秀企业,中国共有203家企业上榜。这203家独角兽企业涉及金融、文化娱乐、汽车交通、企业服务、物流、硬件、本地生活、医疗健康、电子商务、房产服务、…

一文读懂图像传感器

来源:传感器技术图像传感器是各种工业及监控用相机、便携式录放机、数码相机,扫描仪等的核心部件。目前,这个快速增长的市场现在已经延伸到了玩具、手机、PDA、汽车和生物等领域。图像传感器图像传感器定义及种类图像传感器应用成像物镜将外界…

MyEclipse配置Tomcat 6

打开首选项 禁用MyEclipse自带的Tomcat 6 下载apache-tomcat-6.0.29.tar.gz 地址:http://yunpan.cn/cKg6kq2RmjdUB 提取码 986a 地址:http://pan.baidu.com/s/1kTDqZiv 下载后只需要解压即可使用。 配置下载的Tomcat 6地址 转载于:https://www.cnblogs.…

一文读懂5G:颠覆生活资费天价?

来源:网易手机当我们还在习惯于用非智能机慢速浏览web网页的时候,3G网络悄然而至,当我们认为3G已经能够满足日常所需的时候,4G已经走入了我们的生活,而当我们直到今天,依然感叹于4G的快速时,更加…

6分钟完成ImageNet训练,NVIDIA创下六项AI性能新记录!

来源:智东西自AlphaGo引爆人工智能大潮以来,其中的大热门——机器学习,不仅在计算机视觉、语音处理等领域不断突破技术的瓶颈,而且开始快速普及到安防、金融、医疗等多个传统行业。从刷脸支付到个性化推荐,机器学习已经…

一文看尽2019 MWC十大新机

来源:网易智能、网易手机一年一度的世界移动通信大会(MWC 2019)在巴塞罗那正式拉开了帷幕,今年的MWC因为有了折叠屏的加入,看点更足,同时随着5G技术与5G设备的推进,整场大会逛下来,相…

新型人造DNA结构信息密度加倍

来源:中国科学报脱氧核糖核酸(DNA)中存储着遗传代码。它由4种核苷酸组成,以4个不同字母表示。美国研究人员最新合成一种由8个字母组成的新型DNA结构。其信息存储密度加倍,未来有望应用于合成生物等领域。DNA是存储及传…

未来的农业没有农民

来源 : science robotics作者 :Senthold Asseng、Frank Asche编译:机器之能 微胖摘要:本文取自最新一期Science Robotics 的Future farms without farmers 一文。文章认为,未来农场的所有组成部分已经存在。随着时间的…

模式识别与机器学习笔记(一)

本系列博文是对研一课程《模式识别与机器学习》的随堂笔记,希望将老师所讲的与自己的见解记录下来,方便加深自己的理解以及以后复习查看,笔记完全按照老师所讲顺序,欢迎交流。 一、模式识别与机器学习的基本问题 机器学习主要解…

重磅推荐:中国人工智能趋势报告(完整版)

未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云…

模式识别与机器学习笔记(二)机器学习的基础理论

机器学习是一门对数学有很高要求的学科,在正式开始学习之前,我们需要掌握一定的数学理论,主要包括概率论、决策论、信息论。 一、极大似然估计(Maximam Likelihood Estimation,MLE ) 在了解极大似然估计之…

Cell Stem Cell:研究人员开发出大脑类器官用于研究认知障碍!

图片来源:Cell Stem Cell来源:细胞摘要:来自耶鲁大学的研究人员近日在实验室培养皿中模拟了两种大脑结构以及它们之间的相互作用,为揭示神经精神疾病的起因带来了曙光。耶鲁大学遗传学副教授In-Hyun Park及其团队创造了大脑中丘脑…

图像处理与图像识别笔记(一)

本系列是研一课程《图像处理与图像识别》的随堂笔记,主要内容是数字图像处理方面,根据老师的讲课内容与自己的理解所书写,还会有一些具体实现的代码,基于Python,欢迎交流。本篇主要介绍图像处理与图像识别的基础知识。…

java日期处理总结

1.java.sql.Date 从数据库中取出的日期格式(rs.getDate())是java.sql.Date,这是java.util.Date的子类。查询API后发现可用的方法很少。包含构造只有4个: Date(long date) 使用给定毫秒时间值构造一个 Date 对象。voidsetTime(long date) …

神经网络的黎明

来源:中信出版社摘要:任何人工智能的难题都可以被解决。唯一能证明这一论断成立的是这样一个事实:自然界通过进化已经解决了这些难题。但在20 世纪50年代就已经存在各种暗示,如果AI 研究者能够选择完全不同于符号处理的方式&#…

计算机视觉(一)概述

一、什么是计算机视觉 计算机视觉(Computer Vision)是一门如何使计算机“看”的学问,让摄像头和电脑代替人眼对目标进行识别、跟踪、测量等机器视觉。计算机视觉能够模拟人类视觉的优越的能力,如识别物体、估计立体空间与距离、躲避障碍、理解图像、想象…

图像处理与图像识别笔记(二)图像变换

在本章节中,将介绍几种常用的图像变换的方法,即利用数学公式将图像变换成另一种具有特定物理意义的图像,通过新的图像,我们可以观察出原图像的某些特性,且可以对原图像进行滤波、压缩等图像处理的操作,包括…

图解|2018年度中国科学十大进展

来源:锐科技 2019年2月27日,科技部基础研究管理中心召开“2018年度中国科学十大进展专家解读会”,发布了2018年度中国科学十大进展。以下10项重大科学进展入选:01 基于体细胞核移植技术成功克隆出猕猴02 创建出首例人造单染色体真…