如何打造“面向体验”的音视频能力——对话火山引擎王悦

编者按:随着全行业视频化的演进,我们置身于一个充满创新与变革的时代。在这个数字化的浪潮中,视频已经不再只是传递信息的媒介,更是重塑了我们的交互方式和体验感知。作为字节跳动的“能力溢出”,火山引擎正在飞速奔跑。根据2023《中国视频云市场跟踪,2023上半年》报告显示,在视频云解决方案市场上,火山引擎的市场占有率排在第五位。

从在北京创业时听着路演写代码,到成为火山引擎视频云架构的技术总监,王悦的经历横跨了几代视频编解码标准的长度,而他的每一步都不偏不倚地踩在了视频发展的重要节点。这次的LiveVideoStackCon上,他将带领火山引擎带来「抖音背后的体验增长」的实战揭秘。他所在的火山引擎视频云部门期望借助海量的富媒体内容带来更顺畅的画质体验、更优质的交互体验、更流畅的播放体验和更佳的性能体验,再通过火山,给整个行业去提供整个端到端的视频云的解决方案。以下是LiveVideoStack与王悦的对话——

视频,重塑了我们的生活方式

LiveVideoSatck:2018年加入字节跳动(以下简称字节),如今已经五年了。这五年的时间里,你都经历了哪些变化和成长,其中让你印象最深刻的是什么?

王悦:整体上都是围绕多媒体技术和架构,职责和工作重心随着业务的增长和组织的需求持续有些调整。印象最深刻的应该还是随着公司业务的成长,我们的技术、业务和组织理念逐步实现了一个比较大的转变,从一个偏解决方案、技术支撑的部门角色演进到了围绕云上的商品和服务来建设,因此大家看到了今天的火山引擎,今天的视频云。

LiveVideoStack:过去十年是飞速发展的十年。从传统互联网到移动互联网再到现在一个相对平稳的状态,你怎么总结上个十年的行业的变化,或者说它在你身上产生的投影?

王悦:其实我们可以算一下,你每天刷抖音、短视频多长时间,每天是不是要开几个视频会议,这些典型的场景在行业上又催生出多少个像抖音、腾讯或Zoom这样的公司。从另外一个角度讲,我们每天面对这些太司空见惯了,所以去回顾当时的产品可能没有那么深的感触。但我记得十年前第一次出现 UGC 直播创业的公司、第一次用 Zoom 开会、第一次看到桌面共享居然可以做到这么丝滑。在看到那些场景的时候你会觉得这种创新变革是非常巨大的,那个时候的兴奋感是非常强的。总体来说,视频编解码的标准虽然一直在变,但基本框架这20年来几乎没怎么变过,用户对于超高清、低延时、强交互的体验需求也一直存在,我们也在根据行业和用户场景的需求不断地适应、迭代和改进。

抖音背后,用户体验提升的秘诀

LiveVideoStack:你之前有提到过,目前视频编码的迭代的速度已经追赶不上这个视频数量增长速度,火山引擎是如何解决这一问题的?

王悦简单来讲就是提升算力的密度和规模。在并行计算方面,摩尔定律还没失效,这也是为什么现在NVIDIA还是能持续高速地增长。首先就是挖掘一个场景,在这个场景下,确保算力能够指数级地跟上业务的需求。另外就是专芯专用,就是专用的芯片去做专业的事情。因为通用计算做编解码效率并没有那么高。为什么现在大家都在做专用的视频编码芯片,它就是可以把单位芯片面积的算力发挥到极致。所以综合这两点,一个是这个专业计算,一个是极致密度,我们通过异构计算的矩阵,充分保障了我们视频转码和处理的效率。

LiveVideoStack:提到NVIDIA,你们一同合作的视频处理框架(BMF)在今年8月份正式发布,目前,实践起来情况如何,对抖音、西瓜等带来了怎样的帮助?

王悦:我们与NVIDIA合作的视频处理框架BMF在抖音、西瓜等内部业务上经过了充分应用和验证。对于量更大、处理链路更复杂的点播转码场景,BMF已经全量上线了,包括了视频检测、增强、转码等各个环节,过程中BMF的性能和稳定性,以及对于开发效率的提升已经被充分验证。除此之外,BMF在内部的审核抽帧、云编辑、直播转码、移动端增强等场景都有广泛的应用。我们自己主要的收益点还是提升了开发效率,降低维护成本和出错概率,加快新业务、新功能的接入和上线速度。

LiveVideoStack:拿视频云团队来说,你们对于降本增效有压力吗?

王悦:目前来看的话其实还好,未来多媒体的的增量空间还有多少我们可能都会考虑。现在看来起码两三年内还是比较乐观的,我们自己做ToB虽然很难,但是从0到1还是有很多去发力的空间。对于火山引擎自己的经验来说的话,之前一直要给大家剖析一个非常详细的方法论,这次在深圳站结束之后,我们联合抖音撰写了一份面向体验的白皮书,比如“体验、成本和技术三者的均衡,抖音是怎么做的?火山又是通过什么技术驱动的手段实现的?” 、“沉浸上的体验、画质的体验和交互的体验在点播、RTC和架构上怎样实现的”,以上这些内容我们都会详细阐述。

关于危机、机会和未来

LiveVideoStack:目前,我们能看到的主流的流媒体公司都在增效、减员、压缩。下一个时代看上去是属于人工智能的时代,是不是证明流媒体的时代就结束了,或者说暂时告一段落了?

王悦:首先,我觉得不能叫结束吧,只能说现在整个行业渗透到了一个相对平稳的时期了,但这并不意味着这个行业的人就失业了,只是像十年前那样从0到1 的机会和空间越来越少。但回想我10年前博士毕业的时候,当时的音视频从业者也非常少,我硕士毕业的时候,9个同学有8个去了银行,那个时候做视频编解码的公司几乎没有,只有外企去做标准,国内你会用ffMPEG,会做基本的一些开源方案的使用或维护就够了。现在看我们整个国内的音视频流媒体的从业人员有多少?这其实已经是十年以前不可比拟的。所以从这个角度讲我觉得不能说是停滞了,只是无法保持像上个十年一样的增速。

LiveVideoStack:其实流媒体的从业者,无论从智商还是能力上来讲,都是非常出色的人。你觉得面临人工智能这样的一个新兴的技术革新的危机,我们应该怎么面对或者拥抱它?

王悦:其实我觉得不止流媒体,所有技术人都会面临技术被革新的难题。你需要去学新的语言、新的开发框架。但是未来是否AI就取代了流媒体?我觉得这不是两个冲突的概念。流媒体的本质是帮助我们获取信息、分享信息和传递信息的载体,但AI本身是一个工具,它能做的是帮助我们提升分享内容的效率,或者是提升内容本身的丰富度。我们完全可以用 AI 的工具帮助我们把流媒体这个空间打开的更大一些。因为技术本身是没有边界的,我们做流媒体的人跨界去学点 AI 的东西,完全没有任何问题。

大模型会释放出很多机会,一些偏机械化的开发工作可能不需要人去做,并且整个行业还在持续聚集。马太效应还在一直往前走,就像刚才说的,可能最早做直播的有上百家上千家,但现在会相对更精专化。未来如果持续集中的话,这些底层的技术资源也会相应的集中。

LiveVideoSatck:单个人创造的价值可能会更大。

王悦:是的。

LiveVideoSatck:抛开这种内部的优化升级,你觉得未来新的增量机会在哪?

王悦:虽然整体上大家觉得可能该挖掘的都被挖掘了,但我们还是要保持乐观。10年前甚至20年前,我们第一次用VCD的时候,我们是想象不到会有今天这样一个场景的。目前行业确实比较饱和,大家看不到新的增量空间。但市场是为未来买单的,说不定未来我们还是能挖掘到一些新的场景,能够让我们获取信息或者分享模式上有一些变革。可能我给不出一些明确的答案,但是一定不排除市场上有一些新的创业公司,或者一些新的突发事件能够带给这个行业一些新的变革。

LiveVideoStack:这次11月24-25日的LiveVideoStack Con 大会上,火山引擎会重点分享抖音的体验优化,给我们介绍一下其中的方法吧。

:之前关于体验优化关于这方面已经分享了很多,简单归纳的话,首先明确数据指标,找到指北针,关键的业务目标是什么,要优化的QoE和QoS指标什么,这些指标之间有怎样的量化和內联关系;然后,要让数据体系正向运转起来,需要一套完善、稳定的工程系统和数据工具,如AB test、智能分析工具等;最后,这套优化体系的原动力,还是来自于一系列的算法和策略,如何提升画质、降低延时和卡顿,这就主要依靠技术同学的技术能力和洞察力了。


c89d392fbbd440727c23005978d74f84.jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/168188.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

RK3588平台 USB框架与USB识别流程

一.USB的基本概念 在最初的标准里,USB接头有4条线:电源,D-,D,地线。我们暂且把这样的叫做标准的USB接头吧。后来OTG出现了,又增加了miniUSB接头。而miniUSB接头则有5条线,多了一条ID线,用来标识身份用的。 热插拔&am…

最新AIGC创作系统ChatGPT网站源码,Midjourney绘画系统,支持GPT-4图片对话能力(上传图片并识图理解对话),支持DALL-E3文生图

一、AI创作系统 SparkAi创作系统是基于OpenAI很火的ChatGPT进行开发的Ai智能问答系统和Midjourney绘画系统,支持OpenAI-GPT全模型国内AI全模型。本期针对源码系统整体测试下来非常完美,可以说SparkAi是目前国内一款的ChatGPT对接OpenAI软件系统。那么如…

2023亚太杯数学建模B题完整原创论文讲解

大家好呀,从发布赛题一直到现在,总算完成了2023亚太地区数学建模竞赛B题玻璃温室的微气候调控完整的成品论文。 本论文可以保证原创,保证高质量。绝不是随便引用一大堆模型和代码复制粘贴进来完全没有应用糊弄人的垃圾半成品论文。 论文共6…

软著项目推荐 深度学习 opencv python 实现中国交通标志识别

文章目录 0 前言1 yolov5实现中国交通标志检测2.算法原理2.1 算法简介2.2网络架构2.3 关键代码 3 数据集处理3.1 VOC格式介绍3.2 将中国交通标志检测数据集CCTSDB数据转换成VOC数据格式3.3 手动标注数据集 4 模型训练5 实现效果5.1 视频效果 6 最后 0 前言 🔥 优质…

游览器缓存讲解

浏览器缓存是指浏览器在本地存储已经请求过的资源的一种机制,以便在将来的请求中能够更快地获取这些资源,减少对服务器的请求,提高页面加载速度。浏览器缓存主要涉及到两个方面:缓存控制和缓存位置。 缓存控制 Expires 头&#…

RAM模型从数据准备到pretrain、finetune与推理全过程详细说明

提示:RAM模型:环境安装、数据准备与说明、模型推理、模型finetune、模型pretrain等 文章目录 前言一、环境安装二、数据准备与解读1.数据下载2.数据标签内容解读3.标签map内容解读 三、finetune训练1.微调训练命令2.load载入参数问题3.权重载入4.数据加载…

使用new Vue()的时候发生了什么?

前言 Vue.js是一个流行的JavaScript前端框架,用于构建单页面应用(SPA)和用户界面。当我们使用new Vue()来创建一个Vue实例时,Vue会执行一系列的初始化过程,将数据变成响应式,编译模板,挂载实例…

RabbitMQ之发送者(生产者)可靠性

文章目录 前言一、生产者重试机制二、生产者确认机制实现生产者确认(1)定义ReturnCallback(2)定义ConfirmCallback 总结 前言 生产者重试机制、生产者确认机制。 一、生产者重试机制 问题:生产者发送消息时&#xff0…

分布式事务总结

文章目录 一、分布式事务基础什么是事务?本地事物分布式事务分布式事务的场景 二、分布式事务解决方案全局事务可靠消息服务TCC 事务 三、Seata 分布式事务解决方案3.1 Seata-At模式3.2 秒杀项目集成 Seata启动 Seata-Server项目集成seata配置AT模式代码实现 3.3 Se…

openstack(2)

目录 块存储服务 安装并配置控制节点 安装并配置一个存储节点 验证操作 封装镜像 上传镜像 块存储服务 安装并配置控制节点 创建数据库 [rootcontroller ~]# mysql -u root -pshg12345 MariaDB [(none)]> CREATE DATABASE cinder; MariaDB [(none)]> GRANT ALL PR…

1、Docker概述与安装

相关资源网站: ● docker官网:http://www.docker.com ● Docker Hub仓库官网: https://hub.docker.com/ 注意,如果只是想看Docker的安装,可以直接往下拉跳转到Docker架构与安装章节下的Docker具体安装步骤,一步步带你安…

82基于matlab GUI的图像处理

基于matlab GUI的图像处理,功能包括图像一般处理(灰度图像、二值图);图像几何变换(旋转可输入旋转角度、平移、镜像)、图像边缘检测(拉普拉斯算子、sobel算子、wallis算子、roberts算子&#xf…

【Rust日报】2023-11-22 Floneum -- 基于 Rust 的一款用于 AI 工作流程的图形编辑器

Floneum -- 基于 Rust 的一款用于 AI 工作流程的图形编辑器 Floneum 是一款用于 AI 工作流程的图形编辑器,专注于社区制作的插件、本地 AI 和安全性。 Floneum 有哪些特性: 可视化界面:您无需任何编程知识即可使用Floneum。可视化图形编辑器可…

oled的使用 动态的变量 51

源码均在IIC手写程序中 外部中断实现变量加一 #include "reg52.h" #include "main.h" #include <intrins.h> #include "OLED.h" #include "bmp.h" #include "Delay.h" sbit LED1 P1^0; sbit LED2 P1^1; sbit LED3…

Python报错:AttributeError(类属性、实例属性)

Python报错&#xff1a;AttributeError&#xff08;类属性、实例属性&#xff09; Python报错&#xff1a;AttributeError 这个错误就是说python找不到对应的对象的属性&#xff0c;百度后才发现竟然是初始化类的时候函数名写错了 __init__应该有2条下划线&#xff0c;如果只有…

构建未来:云计算 生成式 AI 诞生科技新局面

目录 引言生成式 AI&#xff1a;开发者新伙伴云计算与生成式 AI 的无缝融合亚马逊云与生成式 AI 结合的展望/总结我用亚马逊云科技生成式 AI 产品打造了什么&#xff0c;解决了什么问题未来科技发展趋势&#xff1a;开发者的机遇与挑战结合实践看未来结语开源项目 引言 2023年…

SpectralGPT: Spectral Foundation Model 论文翻译1

遥感领域的通用大模型 2023.11.13在CVPR发表 原文地址&#xff1a;[2311.07113] SpectralGPT: Spectral Foundation Model (arxiv.org) 摘要 ​ 基础模型最近引起了人们的极大关注&#xff0c;因为它有可能以一种自我监督的方式彻底改变视觉表征学习领域。虽然大多数基础模型…

VSCode 连接远程服务器问题及解决办法

端口号不一样&#xff0c;需要在配置文件中添加Port Host 27.223.26.46HostName 27.223.*.*User userForwardAgent yesPort 14111输入密码后可以连接 在vscode界面&#xff0c;终端&#xff0c;生成公钥&私钥 ssh-keygen可以看到有id_rsa和id_rsa.pub两个文件生成&#…

C#,《小白学程序》第五课:队列(Queue)其一,排队的技术与算法

日常生活中常见的排队&#xff0c;软件怎么体现呢&#xff1f; 排队的基本原则是&#xff1a;先到先得&#xff0c;先到先吃&#xff0c;先进先出 1 文本格式 /// <summary> /// 《小白学程序》第五课&#xff1a;队列&#xff08;Queue&#xff09; /// 日常生活中常见…

nodejs微信小程序+python+PHP-青云商场管理系统的设计与实现-安卓-计算机毕业设计

目 录 摘 要 I ABSTRACT II 目 录 II 第1章 绪论 1 1.1背景及意义 1 1.2 国内外研究概况 1 1.3 研究的内容 1 第2章 相关技术 3 2.1 nodejs简介 4 2.2 express框架介绍 6 2.4 MySQL数据库 4 第3章 系统分析 5 3.1 需求分析 5 3.2 系统可行性分析 5 3.2.1技术可行性&#xff1a;…