数字内容“遍地开花”,AI技术如何创新“造梦”?

文 | 智能相对论

作者 | 陈泊丞

这是春晚舞台西安分会场《山河诗长安》的一幕:“李白”现世,带领观众齐颂《将进酒》,将中国人骨子里的豪情与浪漫演绎得淋漓尽致。

这又是浙江义乌商品市场里的另一幕:只会说几个英文单词的女老板秒变外语达人,无缝切换36国语言流畅介绍自家商品,疯狂带货。

这一幕幕不可思议的画面,成就了今天中国文化、商业的频频出圈。而一切的背后,都有着相同的支持:AI技术赋能数字内容生产和应用。

近年来,随着AI大模型技术的持续升级与赋能,数字内容生产与应用的趋势愈发强烈,现实场景与数字内容不断融合,悄然改变着整个内容创作行业的格局,甚至进一步推动了相关产业和商业的新变革。

技术创新重塑数字内容生产与应用新范式

数字人“李白”的精彩演绎、义乌女老板的AI带货——这些热门事件的背后,是技术创新突破所带来的结果。AI大模型的成熟应用,让越来越多不同形式的数字内容得以爆发,并广泛进入大众视野。

在6月21日举办的华为开发者大会(HDC 2024)上,华为云盘古大模型迎来5.0版本升级,其中盘古媒体大模型在语音生成、视频生成以及AI翻译上的技术创新就重塑了数字内容生产和应用的新范式。

对比过去的技术能力,新的技术所带来的效果是非常显著的。

一、语音生成进阶:只需三言两语,沉浸式、真实感的语音易如反掌

过去的语音生成依赖传统的声音克隆模型,由于模型比较小,精度低等原因,往往在实际操作上就要复杂得多。比如,在数据收集阶段,对目标人物的语音数据就要尽可能的多样化,包括不同的语速、语调、音量以及不同语境下的语音,需用到几百句话的录音。

然后到了预处理阶段,需要对收集到的语音数据进行清洗,通过人工标注等形式去除噪声、静音片段和其他不需要的部分。进而还要进行语音分割,将连续的语音信号切割成较小的语音片段(如音素或单词)。最后提取音频特征,再用于后续的声音建模。

以上,还只是数据收集和预处理,尚未进入真正的语音生成阶段。但其中的工作量和操作复杂度就已经很大了,对语音生成的效率和质量都是一个非常大的影响和挑战。

时至今日,随着技术的创新,基于更先进的模型,比如盘古媒体大模型的语音生成能力,这一问题得到了很好的解决。只需要几句话、几秒钟的声音,AI即可学习到个性化的音色、语调、表达韵律,从而获得高质量的个性化语音。同时,还支持喜怒哀乐等拟人情感语音,闲聊、新闻、直播等10多种语气风格,让生成的语音更真实、更有情感色彩,能沉浸式地应用到不同场景中。

比如,在视频译制中,AI将能做到配音演员的专业程度——通过盘古媒体大模型提供的视频翻译能力,AI可以把视频翻译为目标语言,并保留原始角色的音色、情感、语气。华为云也在积极联合伙伴逻辑智能,打造高感情语音克隆以及14国小语种配音,共同构建高感情超拟人多模态音频应用能力等。同时,再结合盘古媒体大模型的口型驱动模型,还可以实现音唇同步,尤其是在侧面、多人对话、物体遮挡以及人物移动等场景,也能做到很好的口型匹配。

二、视频生成跨越:只需几十张图,可控的、一致的视频唾手可得

传统的视频生成技术在资源需求、数据集、时序一致性、物理定律遵守、效率与质量平衡、可控性、逼真度和连贯性以及应用限制等方面都存在一定的局限性。如今,基于盘古媒体大模型,只需要训练几十张特定美学风格的图片,如吉卜利、二次元等风格,再输入实拍视频即可快速生成该风格的动漫视频。

除了按需时长生成稳定的动漫视频,再通过ID一致性模型,还能对生成画面中的关键角色进行一致性处理,确保视频中角色样貌特征在前一帧和后一帧中所呈现的效果始终一致,在侧脸、运动轨迹下的视觉效果合理一致,由此增强AI视频生成的可控性、一致性,让视频内容更合理、真实。

此外,业内对视频生成的真实度、复杂度也在聚焦增强。比如,OpenAI的Sora正在试图模拟复杂的摄像机运镜,同时准确地保持角色和视觉风格一致,让AI创作的数字内容更加趋于现实创作。英伟达更是发布了一系列技术套件如ACE(NVIDIA Avatar Cloud Engine)、NeMo™以及RTX™等,去增强数字内容的真实感,让数字人物的互动、对话更加复杂、逼真。

三、AI翻译强化:准确性>93%,实时的、跨语言沟通指日可待

过去的机器翻译系统往往是基于统计模型或规则模型构建的,因此翻译结果大多无法与原文一致,显得生硬、不自然,并不具备应用到不同场景的条件。现如今,华为云通过AI实现多语种实时传译,准确性>93%,可应用于实时通话、云会议等需要实时翻译场景。

同时,基于盘古媒体大模型的语音复刻、AI文字翻译以及TTS技术,便可以实现语音的同声传译,成功实现跨语言母语沟通体验。甚至还可以结合数字人技术,让数字人来模拟用户说话,结合口型模型技术做到口型与声音精准匹配,让AI翻译、数字人与语音生成高度结合用于线上开会、跨国贸易交流等场景中。

技术的“瓶颈”在收缩?

技术的创新和突破带来了数字内容生产和应用的爆发,但另一方面随着生产和应用的进程加速,相应的技术瓶颈也在出现,并不断收缩、聚焦。目前,AI大模型在数字内容生产和应用上的问题主要呈现在三个层面。

其一,能源与计算效率瓶颈。当前,大模型训练的算力当量还在进一步增大,从GPT-3到GPT-4算力当量增长了68倍。随着训练的token数、模型参数增加,大模型训练所需的计算量也需要随之增加。

更重要的是,其背后的成本投入是难以为继的。根据计算,训练一个5000亿参数规模的Dense模型,基础算力设施投入约10亿美金,无故障运行21个月,电费约5.3亿元——这远远超出了企业的承受范围。

但是,如果想要规模化地生产高质量的数字内容,大模型的精进又是必要的路径。在这个阶段,业内开始寻求更高效、更优的算力解决方案。像华为云昇腾AI云服务就在致力于提供方便、好用的算力服务,在算力层面不断革新计算能力和计算效率,提供从云化算力、模型开发、模型托管到生态的全栈服务。

其二,算法架构的优化挑战。随着大模型参数的增加,想要实现更好的计算结果和输出更优的答案,那么其处理的时长就会不断延长的。但是,这在实际应用中是一个困扰数字内容生产和应用的显著问题,非常不利于数字内容的规模化、商业化发展。

由此,业内也开始在算法架构上进行优化,调整计算逻辑、处理方法来实现更优效果。其中,以稀疏激活机制为代表的MoE模型就是目前AI行业的一个焦点,类似于“术业有专攻”的理念,稀疏激活机制通过对数据任务进行拆解,分门别类,再分配给特定的“专家”(Experts)进行处理,最终综合加权输出——不仅实现了计算效率优化,也让输出结果更加全面、强大。

其三,安全与伦理问题。大模型内部运行机制复杂,生产出来的内容欠缺可解释性和可控性,又易受对抗样本攻击,存在监管难题和安全漏洞。对此,在数字内容生产和应用中,相关的安全和伦理问题随着行业的广泛发展而日趋突显。

因此,在数字内容行业高速发展的阶段,尽管企业能吃上数字内容的红利,但也需要鉴别模型的安全性、可靠性,避免因模型的安全和伦理问题而引发负面舆论影响。在这样的挑战下,华为云盘古大模型也随即作出升级,在数据治理、安全合规等方面达到了较高标准。

以技术“造梦”,数字内容未来可期

新范式的明确带来更明确的技术方向,对于整个数字内容行业而言,这意味着未来的发展已经有了基础的雏形,前景仍是乐观的。但是,不可忽视的是,技术的瓶颈客观存在,且更加突出,摆在行业面前的依旧是一条较为严峻的发展之路。

尽管抛开技术瓶颈不谈,在具体的实践中,数字内容的生产和应用也不简单,往往都需要面对很多在技术之外的具像化问题,只有基于问题去一步步解决才能最终完成落地。

华为云团队在进行纪录片译制时就发现,项目实际开展起来会遇到各种各样的问题,比如环境声音太杂太乱,AI无法准确识别人声保证音译的完整度,或是随着场景的切换,人物的状态、口型都呈现出不同的样子,需要AI精准地匹配等等。

如果这些问题不一一解决,AI译制的效果就打了个大大的折扣。对此,华为云团队通过精准分析问题,采用不同的技术去解决各类细微问题,比如通过分离模型技术让环境声和人声分开,通过口型模型技术让声音与口型精准匹配等。

技术或许一直都有,但是如何用恰恰才是项目落地的关键。换句话说,在今天数字内容行业高速发展、技术创新加速迭代的阶段,只有实践了才能真正推动行业的发展。这是一个比拼项目的阶段,谁家的项目经验越丰富,越能知道相关的技术应该如何应用才能发挥出应有的效果。

目前,中影集团与华为云合作,将媒体大模型应用到影视工业,共同打造影视译制大模型,通过AI将视频译制成不同语言,并保留原始角色的音色、情感、语气,还能支持口型匹配,为影片译制提供全新的AI制作方式。

今天,数字内容迎来迸发,越来越多精彩内容面世的另一面恰恰是厂商们不断运用技术、验证技术、完善技术的过程。未来的项目之路任重而道远,同时也是行业走向成熟的必经之路。静待技术在创新中、实践中持续升级、完善,未来便更快能看到一个数字内容精彩纷呈,如同梦境一般的世界。

*本文图片均来源于网络 

此内容为【智能相对论】原创,

仅代表个人观点,未经授权,任何人不得以任何方式使用,包括转载、摘编、复制或建立镜像。

部分图片来自网络,且未核实版权归属,不作为商业用途,如有侵犯,请作者与我们联系。

•AI产业新媒体;

•澎湃新闻科技榜单月度top5;

•文章长期“霸占”钛媒体热门文章排行榜TOP10;

•著有《人工智能 十万个为什么》

•【重点关注领域】智能家电(含白电、黑电、智能手机、无人机等AIoT设备)、智能驾驶、AI+医疗、机器人、物联网、AI+金融、AI+教育、AR/VR、云计算、开发者以及背后的芯片、算法等。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/33874.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

因为存在技术问题?《幻兽帕鲁》开发商称很难登录Switch

原标题:《幻兽帕鲁》首席执行官:移植Switch平台存在技术难度 易采游戏网6月25日消息:近日,《幻兽帕鲁》的开发商Pocketpair在接受媒体采访时讨论了将游戏移植到任天堂Switch平台的可能性。Pocketpair首席执行官Takuro Mizobe表示&…

fail2ban自动屏蔽之jumpserver

fail2ban是一款实用软件,可以监视你的系统日志,然后匹配日志的错误信息(正则式匹配)执行相应的屏蔽动作。 jumpserver是一款开源堡垒机,其拥有一定的防护登录,也可以做登录限制,但是相对于防火…

【深度强化学习】如何使用多进程(multiprocessing、pipe)来加速训练

文章目录 实验结果实现思路思路1思路2 进程与线程介绍如何实现multiprocessing、Pipe的范例关于时间对比上的问题代码修改收敛为何不稳定 技巧进程资源抢占问题线程问题cpu和gpu问题 进阶(还没看懂/还没实验)附代码raw代码mul代码 实验结果 实验平台&am…

Vue下载接口返回流的处理

1.下载接口返回流如下: 2.可以写公共方法处理 excelDownload(obj, name Date.now(), suffix xlsx) {//Date.now()获取当前日期const url window.URL.createObjectURL(//Blob是二进制大对象new Blob([obj], { type: application/vnd.ms-excel }))const aDOM docu…

在Visual Studio Code中使用Phi-3模型

更多数字生产力内容,欢迎关注我的公众号“ONE生产力”。 先前的文章中,我们已经介绍使用LM Studio在本地环境中运行Phi-3。LM Studio是一款革命性的桌面应用程序,它允许用户在自己的计算机上本地运行、管理和部署大型语言模型,但有…

走近数据变更捕获(CDC):定义、优势和用例

在当今快节奏的数字化环境下,企业需要数据来做出决策、提高运营效率、优化客户体验。然而,获得最新最准确的数据有时并不容易,尤其是当数据来自于多个系统和应用程序时。这时,数据变更捕获(Change Data Capture&#x…

内存卡数据移走了怎样恢复?简易步骤与解决方案

随着科技的快速发展,内存卡已成为我们日常生活中不可或缺的一部分,特别是在行车记录仪、手机、相机等设备上。然而,当内存卡中的数据意外移走或删除时,我们往往会感到焦虑和困惑。本文将为您介绍如何简易恢复内存卡中移走的数据&a…

基于SpringBoot+Vue北部湾地区助农平台设计和实现(源码+LW+调试文档+讲解等)

💗博主介绍:✌全网粉丝1W,CSDN作者、博客专家、全栈领域优质创作者,博客之星、平台优质作者、专注于Java、小程序技术领域和毕业项目实战✌💗 🌟文末获取源码数据库🌟 感兴趣的可以先收藏起来,还…

震惊!CURRENT_TIMESTAMP不能乱用

事情发生在签到和查询签到记录. 设置mysql时间默认值为CURRENT_TIMESTAMP可以随系统生成默认时间戳,即生成该数据的时间戳, 但是有些特殊场景要避免由mysql给我们生成默认时间: 1、首先签到成功之后返回给前端, 2、前端收到执行成功之后立马去查询签到记录, 3、发现并没有…

leetcode-17-[235]二叉搜索树的最近公共祖先[701]二叉搜索树中的插入操作[450]删除二叉搜索树中的节点

一、[235]二叉搜索树的最近公共祖先 class Solution {public TreeNode lowestCommonAncestor(TreeNode root, TreeNode p, TreeNode q) {if(rootnull){return null;}//左子树if (root.val > p.val && root.val > q.val) {return lowestCommonAncestor(root.left…

智慧校园-实习管理系统总体概述

智慧校园实习管理系统是专为高校、企业和学生设计的一体化数字解决方案,它革新了传统实习管理的方式,通过科技手段促进了实习资源的高效对接与管理。该系统整合了实习信息发布、申请管理、过程监督、评估反馈等多个核心环节,构建了一个无缝连…

钡铼BL101网关6串口Modbus转MQTT优化智慧园区设备互联

BL101网关:优化智慧园区设备互联的关键利器 在当今快速发展的智能化时代,智慧园区管理对于设备之间的高效互联至关重要。钡铼(BL101)网关作为一款功能强大的Modbus转MQTT设备,不仅支持多种通信协议和硬件接口&#xf…

Excel条件格式的经典用法

目录: 一、自动设置填充颜色 二、设置Excel到期自动销毁 三、隔行自动标记 四、美化表格 五、快速突出显示重复值 六、标记空单元格 七、突出显示前N名单元格数值 八、表格添加新内容自动加边框 一、自动设置填充颜色 1、选择内容 首先我们选中表格的数据…

常微分方程算法之编程示例三(预估-校正法)

目录 一、研究问题 二、C代码 三、计算结果 一、研究问题 本节我们采用预估校正法(改进欧拉法)求解算例。 预估-校正法的原理及推导请参考: 常微分方程算法之预估-校正法(改进Euler法)_、改进欧拉法-CSDN博客https…

规则引擎-Aviator 表达式校验是否成立

目录 介绍特性使用更多文献支持 介绍 Aviator是一个轻量级、高性能的Java表达式执行引擎,它动态地将表达式编译成字节码并运行。 特性 支持绝大多数运算操作符,包括算术操作符、关系运算符、逻辑操作符、位运算符、正则匹配操作符(~)、三元表达式(?:…

IDEA services模块无法启动springboot服务(添加了springboot但是为空白)

https://blog.csdn.net/m0_54042402/article/details/117918995 https://blog.csdn.net/qq_46550964/article/details/122235235 Alt8 显示services模块 发现有springboot启动模块,点一下springboot之后,这个模块就消失了 会自动在.idea文件夹下的work…

五十八、openlayers官网示例Map Graticule解析——给地图添加经纬度网格线

这篇没啥好说的,写出来完全是嘲笑一下自己蠢,以及,,,帮大家避个坑。。。。 之前一个项目需要展示这种经纬线,但是我不知道openlayers有这种图层,于是拿canvas画上去的。。。。 很好&#xff0c…

【嵌入式Linux】<总览> 多进程

文章目录 前言 一、进程的概念与结构 1. 相关概念 2. 内核区中的进程结构 3. 进程的状态 4. 获取进程ID函数 5. 进程组 6. 会话 二、进程创建 1. fork和vfork函数 2. 额外注意点 3. 构建进程链 4. 构建进程扇 三、进程终止 1. C程序的启动过程 2. 进程终止方式…

2024年无线领夹麦克风选购指南,领夹麦克风哪个品牌好

"领夹麦克风"这个名词对于大多数人可能还比较陌生,但在互联网专业人士和短视频制作者的世界里,它却是一个不可或缺的工具。如果你有志于成为短视频领域的创作者,或者想要参与视频拍摄、直播等多媒体内容的制作,那么了解…

计算机工具软件安装攻略:Chrome浏览器下载安装及使用

1 Chrome简介 Chrome是谷歌公司开发的一款免费网页浏览器它快速、稳定、安全拥有简洁流畅的界面和丰富的应用程序内置了强大的谷歌搜索引擎。Chrome使用Blink浏览器引擎和V8 JavaScript引擎支持多种插件和扩展程序让浏览网页更便捷。它可以与Android手机良好同步支持跨设备浏览…