AI重新定义音视频生产力“新范式”

  //  

编者按:AIGC无疑是当下的热门话题和场景。面对AI带来的技术变革和算力挑战,该如何应对?LiveVideoStackCon 2023上海站邀请到了网心科技副总裁武磊为我们分享网心在面对AI应用场景和业务需求下的实践经验。

文/武磊

编辑/LiveVideoStack

大家好,我今天分享的主题是AI重新定义音视频生产力“新范式”。

分享内容主要分为三部分:①AI引领内容消费升级;②“云”训练“边”推理是最优架构;③网心的音视频架构演进。

-01-

AI引领内容消费升级

首先是内容视频化。过去几年,整个社会的表达、创作都在视频化转型与升级。从人类自身来看,大脑处理视觉信息的速度比文字要快60000倍,视觉辅助可以将学习效率提高多达400%。这在科学层面印证了视频化叙事的喜闻乐见。从中国整个视频用户规模来看,2010到2022年的12年时间里增长了3.5倍,并于2022年网络视听用户规模也正式超越了即时通讯,成为互联网第一大应用。而移动互联网的用户使用时长更能反映出这种趋势,2019年短视频用户使用总时长还落后即时通讯15%,到2021年已经实现反超,今年5月这一数据已经扩大到6.1%。

第二点是优质内容视频化效率有待提升。从网文到漫画、电影的内容视频化,产生了很多成功的商业案例。斗罗大陆最早在起点中文网上连载,到2018年点击量达到6千多万,期间也改编过动画,凭借着广泛的受众面,在游戏化后创造了破百亿的累计流水。还有大家熟知的鬼吹灯系列,2015年改编上映的《寻龙诀》电影,由陈坤和黄渤等主演,票房高达16.8亿,成为当年度中国电影票房第三名。

优质IP的视频化拥有非常显著的经济效益,但从视频化的效率上来看,还有很多待提升的空间。比如将IP拍成电影,需要经历剧本的打磨、选角、道具准备、拍摄、后期制作、宣发、时间和人力上都是巨大的投入。以阅文为例,2022年进入IP改编的作品还不到新增作品的0.5%。随着AI技术的加入,在剧本、剪辑、配音、特效、宣发海报等环节,都能够很好地利用AI工具实现自动化生成,带来效率提升。

第三点是AI+音视频的全方位创新。从图片、音乐、配音、视频和交互等各方面已经有了很成熟的应用。

最近发生了好莱坞罢工事件,演员和编剧们对于被AI取代的担忧已经逐渐成为了现实,技术的革命意味着行业的洗牌和利益的重新分配。

以游戏制作为例,在AIGC的加持下逐渐构建出来了新的创作模式与内容价值。具体来说:1、AIGC可以给创意产生提供思路,同时提升画质和交互性。2、为游戏制作提效。我们都知道《原神》,它从立项到上线测试耗时2年左右,如果在一些环节使用AI的确可以提升游戏制作效率,例如网易现在用自研AI技术应用于游戏工业化全流程,对关键环节的工作效率提升多达90%。3、降本,由于减少了人员和时间投入,可以很好地降低制作成本。4、玩法迭代,助力游戏创新。

来自第三方的调查数据显示,游戏行业平均研发费用占收入比例为25%左右,如果用AI的方式,可优化制作成本约266亿元,40%的研发成本可以得到优化。这里包含了美术设计、自动化测试、音效制作等环节。

从文字到视频,用户量级呈几何倍数的增加。阅文2022年平均月付费用户为790万人,而视频应用仅爱奇艺一家会员用户就是过亿,抖音用户更是达到惊人的8.09亿。视频的特点是内容听得到、看得着、强交互,具有广覆盖的用户群体,从网文到音视频的转化,网文IP价值进一步放大,随着AI的加入,生成大量的虚拟人物,产生强互动,为元宇宙的到来奠定基础。

从文字到音视频的内容消费升级,内容生产成本从过去的以人工单位定价转为算力定价。过去的配音、动漫制作、影视剧制作还是游戏开发,核心的成本还是人员投入。但在AIGC模式下,平均算力成本主要由GPU性能等决定;训练成本与推理成本的比例大约是1:9,以Midjourney为例,大约10%的云成本用于训练,90%是用户制作图像的推理。

AI的投入,在带来生产力质的飞跃同时,背后是天量算力的缺口。OpenAI分析表明,2012-2019年,AI训练使用的算力每3.5个月就会翻一倍,相对比摩尔定律是每18个月翻倍,对算力的需求七年增长了30万倍。而巨大的算力需求背后是高昂的算力成本。以GPT3训练为例,单次训练成本高达460万美元,日常运营对应的单月运营成本高达千万美元。

-02-

“云”训练“边”推理是最优架构

实际上,边缘计算一定不是建设驱动和比拼资金密度的行业,基于碎片化的供给,会有很强的平台效应。

网心通过合作招募+自建+共建等方式触达到的云、边、端的资源,这也是网心从2015年一直从各个渠道拓宽触达更广的边缘资源。有了稳定供给的资源,中间一层核心工作是异构资源的治理和标准化,通过统一的接入流程,千万节点的容器化的平台支撑,做到资源的合理调度和高效应用。最上层是我们的解决方案产品矩阵,网心当前两大成熟场景:边缘计算平台和基于边缘资源的带宽加速解决方案。

网心的定位是做边缘云计算服务提供商,提供支持未来任何算力的需求场景;在算力场景,我们构建了一个健壮,弹性,高可用的基础设施平台,通过智能调度服务,能够更加经济节省的满足客户的AI推理,自动驾驶,工业互联网等场景需求。

我们希望通过提供底层的边端资源,中心云进行模型训练、算法迭代等,得到一个合适的推理模型放在边缘做数据建模。例如,我们最近在和某电动汽车厂商合作,尝试把智能语音模型推理从云端改到边端。

接下来讲一下新架构带来的变化。

第一、多云融合,需要把中心云和边缘云的能力进行契合,通过探索和实践实现训练和推理的无缝衔接。

第二、资源视图升级为服务视图,我们不仅作为资源提供方,更要亲身实践,提供相关的服务。

第三、边缘云的多层计算力分配,将分散、异构、多层级、闲置的算力集合起来。

第四、延时降低,交互增加,带来更多的沉浸式和“临场感”需求,需要增加相应的技术积累。

在此基础上,我们提出IAAS+架构。最底层就是上文提到的中心云与边缘云的合作,以提供更好的资源管理;中间层通过模型托管平台,把开源和闭源模型做好衔接;最上层是应用层,包括端到端应用等。

在AIGC实践上。我们尝试将AIGC中的某些业务模块,所需要的算力从中心下沉至边缘节点,当然目前还是将数据回传至中心存储,未来希望能直接存储在边缘,达到真正的云边端协同。

-03-

网心的音视频架构演进

AIGC的爆发会使更多的内容在边缘产生,同时带来了低延时的需求。

在直播场景中,需要将一路流拆分成多路,分配到离用户更近的边缘节点,在播放端需要这路流时,寻找多个边缘节点拉起多路子流合成最终直播流。这个流程目前已经相对成熟,无论是在QoS还是QoE方面,都和传统的方式没有太大差异。

目前我们的要求有两点:1、质量上与云厂持平,包括流畅度、画质、延时等;2、成本上保证边缘要服务80%以上的流量。在关键技术点上,云负责起播和回切,边负责多链路传输通道以及网络传输优化。

在做双端优化的过程中,我们通过用户端的网络容量评估,实现对单个链路的带宽分配,通过用户和每个链路之间的实时质量评估以及冗余FEC多通道容错机制,尽量减少重传。

在云游戏中,延时要求更高。接入端和玩家距离越近,延迟越低,网心智能调度服务可以根据网络距离实现最优覆盖,通过调度返回最优节点列表,实现更低延迟。

在这里,谈谈基于Serverless构建边缘算力服务。内容在边缘产生,边缘是一定有用的。内容在边缘分发,超低延时的技术积累一定有用。

内容在边缘大量产生,就需要把它们组织起来。我们目前的思路是,中心云在Serverless存在实践难点,而在边缘云当中是刚需,所以需要充分发挥新业务+端+Serverless相结合的优势。

网心作为全球边缘计算创领者,从2015年至今一直深耕边缘计算,目前拥有首屈一指的边缘网络资源,而且资源的丰富度和异构度是非常充足。

关于未来网心的业务演进方向,大致是三步走的策略:

第一步是降本增效,采用更高效的方式、更好的资源配比,助推企业良性扩张。

第二步是功能迭代,在算力场景下不断积累,逐步探索和实践出真正能跑通的业务场景和商业模型。

第三步是构建生态,推动边缘网络和算力叠加,对接产业场景并实现产业场景产品化,并构建开放网络平台,吸引开发者、合作伙伴共同构建生态。

以上就是我的分享,谢谢大家!


edffe134d3588186b12e42309fe34e26.jpeg

LiveVideoStackCon是每个多媒体技术人的舞台,如果您在团队、公司中独当一面,在某一领域或技术拥有多年实践,并热衷于技术交流,欢迎申请成为LiveVideoStackCon的出品人/讲师。

扫描下方二维码,可查看讲师申请条件、讲师福利等信息。提交页面中的表单完成讲师申请。大会组委会将尽快对您的信息进行审核,并与符合条件的优秀候选人进行沟通。

dd34e49988427706541d4fe2220df856.jpeg

扫描上方二维码 

填写讲师申请表单

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/44512.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

八股文之框架篇(Spring Boot、SSM)

文章目录 Spring中的单例bean是线程安全的吗什么是AOP,项目中有没有使用到AOPSpring中的事务是如何实现的Spring中事务失效的场景有哪些Bean的生命周期Spring中的循环依赖(循环引用)SpringMVC的执行流程SpringBoot自动配置原理Spring、Spring…

Python学习:迭代器与生成器的深入解析

函数在Python中扮演着重要角色,不仅可以封装代码逻辑,还能通过迭代器和生成器这两种强大的技术,实现更高效的数据处理和遍历。本篇博客将深入探讨Python函数的迭代器和生成器,结合实际案例为你揭示它们的神奇,以及如何…

线段树详解——影子宽度

OK,今天来讲一讲线段树~~ 线段树是什么线段树的实现线段树的时间复杂度线段树的应用线段树的节点结构其他操作和优化例题——影子宽度输入输出格式输入格式输出格式 输入输出样例输入样例输出样例 例题讲解 线段树是什么 线段树( S e g m e n t Segmen…

C语言实例_解析GPS源数据

一、GPS数据格式介绍 GPS(全球定位系统)数据格式常见的是NMEA 0183格式,NMEA 0183格式是一种用于导航设备间传输数据的标准格式,定义了一套规范,使得不同厂商的设备可以通过串行通信接口(常见的是RS-232&a…

Java 中操作 Redis

文章目录 一、Redis 常用数据类型二、Redis 常用操作命令1. 字符串命令2. 哈希命令3. 列表命令4. 集合命令5. 有序集合命令6. 通用命令 三、在 Java 中操作 Redis1. 导入 maven 坐标2. 配置 Redis 数据源3. 编写配置类 四、在代码中的具体使用 一、Redis 常用数据类型 Redis 存…

大文本的全文检索方案附件索引

一、简介 Elasticsearch附件索引是需要插件支持的功能,它允许将文件内容附加到Elasticsearch文档中,并对这些附件内容进行全文检索。本文将带你了解索引附件的原理和使用方法,并通过一个实际示例来说明如何在Elasticsearch中索引和检索文件附…

SpringBoot---内置Tomcat 配置和切换

😀前言 本篇博文是关于内置Tomcat 配置和切换,希望你能够喜欢 🏠个人主页:晨犀主页 🧑个人简介:大家好,我是晨犀,希望我的文章可以帮助到大家,您的满意是我的动力&#x…

Spring Cloud Alibaba -微服务架构(二)

1. 微服务架构介绍 微服务架构, 简单的说就是将单体应用进一步拆分,拆分成更小的服务,每个服务都是一个可以独立运行的项目。 1.1 微服务架构的常见问题 一旦采用微服务系统架构,就势必会遇到这样几个问题: 这么多小…

(已解决)PySpark : AttributeError: ‘DataFrame‘ object has no attribute ‘iteritems‘

AttributeError: ‘DataFrame’ object has no attribute ‘iteritems’ 原因在使用SparkSession对象中createDataFrame函数想要将pandas的dataframe转换成spark的dataframe时出现的 因为createDataFrame使用了新版本pandas弃用的iteritems(),所以报错 解决办法&…

city walk结合VR全景,打造新时代下的智慧城市

近期爆火的city walk是什么梗?它其实是近年来备受追捧的城市漫步方式,一种全新的城市探索方式,与传统的旅游观光不同,城市漫步更注重与城市的亲密接触,一步步地感受城市的脉动。其实也是一种自由、休闲的方式&#xff…

Vue的鼠标键盘事件

Vue的鼠标键盘事件 原生 鼠标事件(将v-on简写为) click // 点击 dblclick // 双击 mousedown // 按下 mousemove // 移动 mouseleave // 离开 mouseout // 移出 mouseenter // 进入 mouseover // 鼠标悬浮mousedown.left 键盘事件 keydown //键盘按下时触发 keypress …

Django实现音乐网站 ⑾

使用Python Django框架制作一个音乐网站, 本篇主要是前端开发前的一些必要配置和首页展示开发。 目录 配置应用路由 创建应用路由文件 应用路径加入项目路径 创建项目模板 创建项目及应用模板路径 设置模板路径 设置静态资源路径 创建静态资源路径 配置静态…

thinkphp6前后端验证码分离以及验证

1.验证码接口生成验证码: public function verify(){return captcha(); } 也可以自己写方法 2.验证方法和普通模式session验证有区别,需要改原文件: 修改后的代码: <?php // +---------------------------------------------------------------------- // | ThinkP…

Shell脚本基础( 四: sed编辑器)

目录 1 简介 1.1 sed编辑器的工作流程 2 sed 2.1 基本用法 2.2 sed基本格式 2.2.1 sed支持正则表达式 2.2.2 匹配正则表达式 2.2.3 奇数偶数表示 2.2.4 -d选项删除 2.2.5 -i修改文件内容 2.2.6 -a 追加 2.3 搜索替代 2.4 变量 1 简介 sed是一种流编辑器&#xff0c;…

最快的JS甘特图:Bryntum Gantt 5.5.1 Crack

最快的JS甘特图 Bryntum Gantt 是一个超快速且完全可定制的甘特图套件&#xff0c;适用于您的 React / Angular / Vue / JS 应用程序。 快如闪电 甘特图是用纯 JavaScript / ES6 构建的&#xff0c;并使用非常快速的渲染引擎。这意味着您可以加载大型数据集&#xff0c;并且仍然…

自动化测试用例设计实例

在编写用例之间&#xff0c;笔者再次强调几点编写自动化测试用例的原则&#xff1a; 1、一个脚本是一个完整的场景&#xff0c;从用户登陆操作到用户退出系统关闭浏览器。 2、一个脚本脚本只验证一个功能点&#xff0c;不要试图用户登陆系统后把所有的功能都进行验证再退出系统…

Windows如何部署Jenkins

一、简介 Jenkins 是国际上流行的免费开源软件项目&#xff0c;基于Java 开发持续集成工具&#xff0c;用于监控持续重复的工作&#xff0c;提供一个开放的易用的软件平台&#xff0c;使软件的持续集成自动化&#xff0c;大大节约人力和时效。 二、Java JDK 访问 OpenLogic…

Threejs学习05——球缓冲几何体背景贴图和环境贴图

实现随机多个三角形随机位置随机颜色展示效果 这是一个非常简单基础的threejs的学习应用&#xff01;本节主要学习的是球面缓冲几何体的贴图部分&#xff0c;这里有环境贴图以及背景贴图&#xff0c;这样可以有一种身临其境的效果&#xff01;这里环境贴图用的是一个.hdr的文件…

C语言入门_Day7 逻辑运算

目录&#xff1a; 前言 1.逻辑运算 2.优先级 3.易错点 4.思维导图 前言 算术运算用来进行数据的计算和处理&#xff1b;比较运算是用来比较不同的数据&#xff0c;进而来决定下一步怎么做&#xff1b;除此以外还有一种运算叫做逻辑运算&#xff0c;它的应用场景也是用来影…

C语言:字符函数和字符串函数

往期文章 C语言&#xff1a;初识C语言C语言&#xff1a;分支语句和循环语句C语言&#xff1a;函数C语言&#xff1a;数组C语言&#xff1a;操作符详解C语言&#xff1a;指针详解C语言&#xff1a;结构体C语言&#xff1a;数据的存储 目录 往期文章前言1. 函数介绍1.1 strlen1.…