“荔枝音频处理目标就是两个字:清静——清晰、安静。让用户听得更清晰、更真切、更好。”荔枝集团技术副总裁刘晓宇谈及音频技术要攻克的几个难点时一针见血地提到。
随着疫情下直播、在线社交、在线课堂、在线会议等快速发展和元宇宙产业不断壮大,音频技术在其中扮演的角色越来越重要。但当下流行视频直播、音视频群聊、1对1语音匹配聊天等社交场景,却常常伴随吵闹的环境噪声,如键盘敲击声、家里宠物吵闹声、儿童哭闹声等,这些都会通过互动场景传送到接受者耳中,语音社交过程充满干扰。
近日,从位于大湾区“中国音频第一股”荔枝集团获悉,该公司大湾区的音频技术团队使用硬件或软件降噪、不同软件降噪算法、降噪与场景结合等方法,引入AI降噪,可以有效抑制互动文娱场景下音视频通话过程中的背景噪声,并保证语音无损伤,最终有效提升在多种复杂场景下的实时互动体验。目前,荔枝音质高保真的降噪技术领跑全球。
荔枝集团技术副总裁刘晓宇此前参加华为开发者大会
- 大湾区团队AI降噪实现强降噪、高保真,领跑世界
随着疫情在线互动娱乐普及,直播互动文娱场景重要性凸显。荔枝集团音频技术负责人魏敦晓介绍,不同的在线场景对于音频高音质的体验需求不一样。比如教育类场景中,其着重在于知识的获取和声音清晰,及时互动;会议类场景则看重语音的流畅度和清晰度;而文娱场景中,除了有趣的内容吸引用户外,音频的高音质体验和互动性功能,是让用户愿意持续参与的其中一个最重要因素。
随着算力持续增长,基于大数据训练的AI语音降噪算法具有强大的能力,使实时AI语音降噪算法在互动娱乐场景中成为可能。相比于传统的降噪算法,荔枝技术团队自研的 AI 降噪的效果有巨大提升,对直播场景可能经常会遇到敲键盘、喝饮料、背景讨论等噪声能进行有效抑制乃至降低到最低影响。
“互动娱乐业务场景中要求对全频带进行降噪,考虑到CPU性能和降噪处理时间,采用一种混合架构来对全频带进行降噪,低频采用AI模型处理,高频采用传统降噪处理。”魏敦晓表示。
在大量的用户使用和反馈中,荔枝音频技术团队发现,互动娱乐社交产品使用场景中,瞬态噪声占比较多,特别是触碰声、吃薯片等居家场景这类声音占比很大。
荔枝技术团队利用站内海量的语音样本,训练的这个 AI降噪模型,能够过滤掉不需要的声音,因此每个人的音频都可以更加清晰传递到接收者耳朵里,即使大家同时发言,特别是荔枝App内多人语音连麦场景下。“AI降噪与传统降噪相比,有更强的降噪能力,但对语音损伤的可能性较大,但是荔枝AI降噪对语音几乎没有损伤,使每个人的声音高保真地传输。”
此外,荔枝音频研发人员选择业务占比前10的手机机型进行大量实验和反馈,确保主流平台以低音质损伤、高性能、低功耗方式运行,使用户的设备不卡、不烫。
据介绍,荔枝在音频互动文娱场景下的音质高保真的AI降噪技术已经领跑全球,为大湾区乃至国内下一步的互动娱乐场景下音频娱乐沉浸式体验开发奠定了良好的基础。
2. 互动娱乐场景理解新突破
音频行业AI技术发展到目前,算法、数据外场景和行业知识成为了一个关键。发展就是要让声音做到“声临其境”。消灭所有会影响现场感的因素像噪声、回声、杂音等,然后根据所处的真实或虚拟的环境,重塑其中的音源和空间感知。
荔枝APP常见场景是直播+连麦的场景,即主播大部分时间是单人直播,用户一般以听众角色收听,但有时也可以通过点代表连麦的按钮上线,主播收到连麦请求后,若通过,则此用户可与主播在RTC的系统里进行实时互动。
主播可以依赖强大的主播引擎为直播添加音乐或音效播放、也可以调用调音台进行声音美化或通过变声增强互动的娱乐性。此场景下,多个主播在房间中进行互动或娱乐表演,而用户既可以收听、也可以上麦和主播们互动社交。主播或用户是处在一个RTC系统里,而听众既可以加入RTC系统,也可以通过CDN进行拉流。
要做降噪首先就是做声音理解,通过声音理解去分析场景中各种音频。用户玩荔枝社交产品时候,喜欢吃着薯片、敲着键盘、喝着冰镇汽水,然后各种触碰声音。生活中噪音类型很多,甚至是在家做饭的声音、家用电器扫地、台风天气风噪。这些声音要处理好的话,行业内公认技术是最难的。
“深入理解降噪需要先理解我们的产品要解决什么噪声,再去降噪抑制这些噪声,这是跟业务场景很贴合的一种创造。”
魏敦晓介绍,互动娱乐场景相比其他场景,其技术差异方向主要在不同外设的接入、多条通道的支持、AI变声需求、声音的理解以及链路音质的提升等方面。跟会议场景声音源主要来源采集输入通道不一样,文娱场景为了丰富娱乐性,在主播端要支持音乐播放通道、音效播放通道、屏幕共享通道等。当主播进行才艺表演或播放音乐时,整个互动娱乐场景对于音质的要求就会提高。从音频体验来讲,要让用户像在本地一样声临其境沉浸式的参与到互动场景当中,不受各种身边噪音输入干扰,这也成为了音频行业的一大技术难点。
“荔枝音频的AI降噪是找到那些噪音的特征进行针对性的降。AI就是喂它什么,它就能干什么。我们把敲击声、碰撞声、噪音灌到这个学习系统里,AI认识了这个东西,后面可以把它处理掉。”荔枝技术人员会针对性录一些声音训练算法。
不过,刘晓宇也补充到,在主要语音场景上,算法带来的差异并不大(硬件会掩盖差距),在一些硬件不覆盖的场景,比如音乐场景,屏幕分享中的视频声音场景,对音质有较高要求,这要求在核心算法上有突破,“目前看,这对整个行业都是比较大挑战,团队正在做相关的技术研究以应对将来的场景。”
有大厂的业内资深人士评价此项技术表示,荔枝的AI降噪在音质保护方面达到了“出乎意料的高水准”。
荔枝技术副总裁刘晓宇总结,随着元宇宙的到来,用户对声音的质量、沉浸式体验要求越来越高,接入设备的效果、低延时、空间音频技术、环境声学模拟等,均是目前音频互动娱乐需要攻克的难点。荔枝技术团队正在不断奋力向前,继续推动中国互联网音频社交技术处于世界领先地位。