「人眼视觉不再是视频消费的唯一形式」丨智能编解码和 AI 视频生成专场回顾@RTE2024

在这里插入图片描述

你是否想过,未来你看到的电影预告片、广告,甚至新闻报道,都可能完全由 AI 生成?

在人工智能迅猛发展的今天,视频技术正经历着一场前所未有的变革。从智能编解码到虚拟数字人,再到 AI 驱动的视频生成,这一领域的创新正以惊人的速度推进。这些进步不仅提升了技术指标,更为实时互动、内容创作、广告营销等场景带来了全新的可能性。

在本届 RTE2024 实时互联网大会上,来自学界和业界的多位专家深入探讨了视频 AI 技术的最新进展。阿里巴巴达摩院的陈建华、声网的周世付、鹏城实验室的林荣群、双深科技的曹磊、生数科技的张旭东等行业专家分享了他们的研究成果和洞见。

北京大学的马思伟教授和声网视频编解码负责人戴伟分别主持了主题分享和圆桌讨论环节。

在这里插入图片描述

林荣群:AI 时代下的智能视频编解码新思路

在这里插入图片描述

鹏城实验室的林荣群博士以一个问题开篇:「如果视频内容全部由 AI 生成,我们该如何进行编码?」

林博士首先回顾了视频编码的发展历程,从早期以人眼感知为导向的保真度指标,到注重商业评级的阶段,再到如今 AI 时代对智能任务的需求,视频编码的目标不断演变。他指出,未来的智能编码不仅要满足人类视觉体验,更要服务于机器识别、检测等 AI 任务。

在介绍智能编码技术时,林博士强调了两个关键点:智能作为工具,提升我们对编码对象的理解;智能作为目标,服务于下游智能应用。他认为,智能编码的核心挑战在于对场景和对象进行结构化表示。「深入理解压缩对象,才能大幅提升压缩效率。」林博士解释道。

林博士随后详细介绍了几种智能编码的技术路线,包括传统编码与深度学习的融合、全神经网络框架以及生成式编码。他还特别介绍了鹏城实验室在文生视频大模型领域的实践,展示了团队基于国产框架和算力平台的最新成果。

展望未来发展方向,林博士提出了几个关键点:数据处理的重要性、算法优化、模型轻量化以及推理和采样速度的提升。

在这里插入图片描述

周世付:虚拟数字人的发展趋势与技术突破

在这里插入图片描述

声网人工智能算法负责人周世付首先介绍了虚拟数字人的基本概念,指出它是存在于数字空间中,拥有近似真人或卡通人物外貌、行为和特质的角色。一个成功的虚拟数字人需要兼具「好看的皮囊和有趣的灵魂」。

他将虚拟数字人的制作流程概括为三个阶段:建模、驱动和交互。建模阶段利用 AI 技术为特定人物创建模型;驱动阶段运用计算机视觉技术,赋予模型动态的表情和动作;最后,借助大语言模型,实现与虚拟数字人的自然流畅的交互。

展望未来,周世付认为虚拟数字人的发展将呈现四大趋势:

  1. 3D 智能数字人:3D 形式将成为主流,结合大语言模型实现更高级的智能化。
  2. 实时互动:传输表情参数而非图像像素,依靠终端设备重建数字人形象,实现低延迟、高流畅度的互动体验。
  3. 虚实融合:将数字人融入虚拟空间,增强沉浸式互动体验。
  4. 低成本应用:通过技术进步降低计算量和成本,推动数字人在更广泛的场景中应用。

在这里插入图片描述

陈建华:新一代视频编解码标准 VVC 的机遇与挑战

在这里插入图片描述

阿里巴巴达摩院高级算法专家陈建华从一线研发和应用的角度,深入剖析了 VVC(Versatile Video Coding)标准在实际落地过程中的关键问题。

关于 VVC 标准发布四年多来的发展现状,陈建华介绍说,支持 VVC 硬件的芯片正逐渐增多,包括联发科(MediaTek)、瑞昱(RealTek)等厂商均已发布相关产品。基于这些芯片,市场上已经出现了超过 100 款支持 VVC 的智能电视、机顶盒等设备。在软件生态方面,除了标准参考软件 VTM 之外,多个开源编解码器和播放器也已支持 VVC,为开发者提供了丰富的学习和研究资源。

以达摩院自研的 DAMO 266 为例,陈建华介绍了他们在软件解码器优化方面的创新成果。通过异构计算技术,将关键算法迁移到 DSP 等单元,显著降低了功耗,使 VVC 软解码在移动端的性能已接近 H.265 硬解码水平。这不仅扩展了 VVC 的设备覆盖范围,也为其大规模应用扫清了障碍。

在这里插入图片描述

曹磊:AI Codec 将引领视频编解码技术革新

在这里插入图片描述

双深科技 CEO 曹磊指出,在图像和视频大爆发的时代,提升编解码性能是实现降本增效的关键手段。AI 正在计算机视觉领域发挥越来越重要的作用,贯穿从成像到应用的整个过程。如果编解码也能融入 AI,整个流程将更加智能化。

曹磊指出,传统编解码技术发展到 H.266 后,提升空间已趋于平缓,且编码复杂度高,落地困难。相比之下,AI Codec 基于深度学习的端到端编码,能更好地表达细微特征,拥有更大的发展潜力。他引用了团队最新的研究成果,表明他们研发的 ANF 基础模型在平均数据序列上,相比 H.266 的参考软件 VTM,压缩率提升了约 25%,超越了 DCVC 等现有方案。同时,他还介绍了 IEEE 1857.11 HIV 标准,其中双深科技贡献了一项高效的并行熵编码核心专利。

曹磊重点分享了 AI Codec 在移动端落地的实践。为了实现落地,团队致力于模型轻量化,包括模型剪枝、蒸馏和量化等,并在算子定制化部署上投入了大量精力,以适应不同型号的手机 NPU。

在这里插入图片描述

张旭东:AI 视频生成技术的飞跃与实践

在这里插入图片描述

生数科技产品总监张旭东分享了 AI 视频生成技术的最新进展。他带领的团队深耕多模态大模型领域多年,亲历了从 GPT-3 到 ChatGPT 的技术变革,以及从图像生成到视频生成的跨越式发展。

张旭东回顾了团队在视频生成领域的探索历程。早在 2022 年,他们就提出了 U-ViT 框架,这一架构与后来备受瞩目的 Sora 有着诸多相似之处,其核心优势在于能够进行连续预测,从而获得更佳的一致性和效果。

生数科技的视频生成模型在实践中展现出多项显著优势:

  1. 强大的语义理解能力:能够精准捕捉复杂的场景描述。
  2. 多镜头语言支持:实现镜头间的流畅过渡。
  3. 极致的推理速度:仅需 30 秒即可生成一段视频。
  4. 出色的一致性表现:在不同场景中保持人物形象、动物特征等元素的一致性。
  5. 参考图像支持:可以根据提供的商品图、人物照片等生成相关视频。

这些特性赋予 AI 生成视频在广告制作、影视宣发等领域巨大的应用潜力。张旭东以动画电影《熊猫呼呼》和科幻电影《毒液》的宣传视频为例,展示了 AI 技术如何将原本 1-2 天的制作周期压缩至 3 小时内,极大地提升了效率。

在这里插入图片描述

圆桌讨论:视频生成的 ChatGPT 时刻何时到来?

在这里插入图片描述
在这里插入图片描述

在主题是「视频生成的 ChatGPT 时刻何时到来」的圆桌讨论中,声网视频编解码负责人戴伟担任主持人,邀请了包括始智 AI wisemodel 创始人刘道全、声网人工智能算法负责人周世付、生数科技联合创始人张旭东以及学界代表马思伟教授等嘉宾参与讨论。

在这里插入图片描述

刘道全认为,真正的「视频生成的 ChatGPT 时刻」需要融合图像、文本和语音等多种模态,生成完整的视频。目前的难点在于 多模态融合 ,但随着 LLaMA-Omni 等音频语言模型的出现,这种融合正在加速,未来可期。他还提到了始智 AI 在开源社区的贡献,例如 Sora 复刻计划,鼓励大家共同探索。

张旭东则对未来充满乐观。他认为,从技术的可用性来看,视频生成已经不再像过去那样生成不可用的内容,甚至已经与索尼等国际大 IP 达成合作,解决实际问题。但他指出,成本和渗透率仍然是制约因素 。目前单次视频生成的成本较高,限制了大规模应用。随着算力提升和算法优化,成本下降,渗透率将会提高,真正的「视频生成的 ChatGPT 时刻」也将到来。

周世付则从交互角度出发,认为 以语音交互为基础 ,结合大语言模型和数字人,或许会更快地推动「视频生成的 ChatGPT 时刻」的到来。

马思伟老师补充道,虽然视频生成面临一致性、时长等技术挑战,但从应用模式和技术发展来看,一些公司例如生数科技、智谱 AI 的 会员付费模式 ,既带来了资金支持,也积累了训练数据,形成了良性循环,推动着技术的进步。他乐观地认为,2024 年或许可以视为「视频生成 ChatGPT 时刻」的开端。

当机器也开始「生产」和「观看」视频,视频的意义将被重新定义。RTE2024 大会让我们思考,在人眼视觉之外,视频还能为我们带来什么?在机器视觉的时代,视频技术又将如何发展?这些问题,或许正是未来视频技术探索的方向。

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/59515.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

「QT」文件类 之 QTemporaryFile 临时文件类

✨博客主页何曾参静谧的博客📌文章专栏「QT」QT5程序设计📚全部专栏「Win」Windows程序设计「IDE」集成开发环境「UG/NX」BlockUI集合「C/C」C/C程序设计「DSA」数据结构与算法「UG/NX」NX二次开发「QT」QT5程序设计「File」数据文件格式「UG/NX」NX定制…

和 Nostr 探索 Web5 的未来

Nostr 是一个我过去两年一直在关注的协议。跟所有社区一样,Nostr 的发展也是起起伏伏,有过一些破圈被主流熟悉的时刻,也有一些像现在这样可能让人会觉得有点沉寂的时刻。但我还是经常关注 Nostr,没有特别的原因,就是单…

论文学习——一种基于决策变量分类的动态约束多目标进化算法

论文题目: A dynamic constrained multiobjective evolutionary algorithm based on decision variable classification 一种基于决策变量分类的动态约束多目标进化算法(Yinan Guo a,b, Mingyi Huang a, Guoyu Chen a,*, Dunwei Gong c, Jing Liang d, …

数据分析案例-笔记本电脑价格数据可视化分析

🤵‍♂️ 个人主页:艾派森的个人主页 ✍🏻作者简介:Python学习者 🐋 希望大家多多支持,我们一起进步!😄 如果文章对你有帮助的话, 欢迎评论 💬点赞&#x1f4…

第T7周:Tensorflow实现咖啡豆识别

🍨 本文为🔗365天深度学习训练营 中的学习记录博客🍖 原作者:K同学啊 目标 具体实现 (一)环境 语言环境:Python 3.10 编 译 器: PyCharm 框 架: (二)具体步骤 1. 使…

vue2项目中在线预览csv文件

简介 希望在项目中,在线预览.csv文件,本以为插件很多,结果都只是支持excel(.xls、.xlsx)一到.csv就歇菜。。。 关于文件预览 vue-office:文档、 查看在线演示demo,支持docx、.xlsx、pdf、ppt…

【Excel】身份证号最后一位“X”怎么计算

大多数人身份证号最后一位都是数字,但有个别号码最后一位却是“X"。 如果你查百度,会得到如下答案: 当最后一位编码是10的时候,因为多出一位,所以就用X替换。 可大多数人不知道的是,这个10是怎么来的…

【HAProxy09】企业级反向代理HAProxy高级功能之压缩功能与后端服务器健康性监测

HAProxy 高级功能 介绍 HAProxy 高级配置及实用案例 压缩功能 对响应给客户端的报文进行压缩,以节省网络带宽,但是会占用部分CPU性能 建议在后端服务器开启压缩功能,而非在HAProxy上开启压缩 注意:默认Ubuntu的包安装nginx开…

【Java Web】JSON 以及 JSON 转换

JSON(JavaScript Object Notation)一种灵活、高效、轻量级的数据交换格式,广泛应用于各种数据交换和存储场景。 基本特点 1、简单易用:JSON格式非常简单,易于理解和使用。 2、轻量级:相比XML等其他数据格…

第四十一章 Vue之初识VueX

目录 一、引言 1.1. vuex的概念 1.2. vuex使用场景 1.3. 优势 二、创建演示项目 2.1. 构建项目步骤 2.2. 项目最终生成结构 2.3. 创建项目文件 2.3.1. App.vue 2.3.2. Son1.vue 2.3.3. Son2.vue 三、创建一个空仓库 3.1. 安装vuex 3.2. 新建仓库 3.3. 挂载仓库…

编程之路,从0开始:内存函数

Hello大家好!很高兴我们又见面了。 给生活添点passion,开始今天的编程之路! 今天我们来讲C语言中的内存函数。 目录 1、memcpy内存复制 2、memmove可重叠内存拷贝 3、memset设置字符 4、memcmp比较 1、memcpy内存复制 memcpy就是内存复制…

【C语言】值传递和地址传递

值传递 引用传递(传地址,传引用)的区别 传值,是把实参的值赋值给行参 ,那么对行参的修改,不会影响实参的值。 传地址,是传值的一种特殊方式,只是他传递的是地址,不是普通…

Springboot采用jasypt加密配置

目录 前言 一、Jasypt简介 二、运用场景 三、整合Jasypt 2.1.环境配置 2.2.添加依赖 2.3.添加Jasypt配置 2.4.编写加/解密工具类 2.5.自定义加密属性前缀和后缀 2.6.防止密码泄露措施 2.61.自定义加密器 2.6.2通过环境变量指定加密盐值 总结 前言 在以往的多数项目中&#xff0…

axios平替!用浏览器自带的fetch处理AJAX(兼容表单/JSON/文件上传)

fetch 是啥? fetch 函数是 JavaScript 中用于发送网络请求的内置 API,可以替代传统的 XMLHttpRequest。它可以发送 HTTP 请求(如 GET、POST 等),并返回一个 Promise,从而简化异步操作 基本用法 /* 下面是…

贪吃蛇小游戏设计

贪吃蛇小游戏 1.引言1.1 背景1.2 目的1.3 意义1.4 任务1.5 技术可行性分析1.5.1执行平台1.5.2 语言特性与功能方面 2.需求分析2.1 环境需求2.2开发环境分析2.3游戏功能分析2.4 游戏性能分析2.5 数据流图2.6 数据字典 3.概要设计3.1 设计思路3.2 游戏界面设计3.3 总设计模块的划…

DNS面临的4大类共计11小类安全风险及防御措施

DNS在设计之初,并未考虑网络安全限制,导致了许多问题。DNS安全扩展(DNSSEC)协议的开发旨在解决DNS的安全漏洞,但其部署并不广泛,DNS仍面临各种攻击。接下来我们一起看下DNS都存在哪些安全攻击及缓解措施,旨在对DNS安全…

【大数据学习 | flume】flume的概述与组件的介绍

1. flume概述 Flume是cloudera(CDH版本的hadoop) 开发的一个分布式、可靠、高可用的海量日志收集系统。它将各个服务器中的数据收集起来并送到指定的地方去,比如说送到HDFS、Hbase,简单来说flume就是收集日志的。 Flume两个版本区别: ​ 1&…

Jmeter中的定时器(一)

定时器 1--固定定时器 功能特点 固定延迟:在每个请求之间添加固定的延迟时间。精确控制:可以精确控制请求的发送频率。简单易用:配置简单,易于理解和使用。 配置步骤 添加固定定时器 右键点击需要添加定时器的请求或线程组。选…

区块链技术在慈善捐赠中的应用

💓 博客主页:瑕疵的CSDN主页 📝 Gitee主页:瑕疵的gitee主页 ⏩ 文章专栏:《热点资讯》 区块链技术在慈善捐赠中的应用 区块链技术在慈善捐赠中的应用 区块链技术在慈善捐赠中的应用 引言 区块链技术概述 定义与原理 发…

[数组二分查找] 0074. 搜索二维矩阵

文章目录 1. 题目链接2. 题目大意3. 示例4. 解题思路5. 参考代码 1. 题目链接 74. 搜索二维矩阵 - 力扣(LeetCode) 2. 题目大意 描述:给定一个 mn 大小的有序二维矩阵 matrix。矩阵中每行元素从左到右升序排列,每列元素从上到下…