杜比全景声——空间音频技术

什么是杜比？
是否是标清、高清、超清之上的更清晰的格式？
杜比全景声 和传统多声道立体声的差别？
杜比全景声音频的渲染方式？
车载平台上杜比技术的应用？

杜比技术的起源

杜比实验室（Dolby Laboratories）是一家总部位于美国的公司，由雷·杜比（Ray Dolby）于1965年在英国伦敦创立。雷·杜比是一位物理学家和电子工程师，他的目标是改进录音质量。他的第一个发明是杜比降噪系统，这是一种可以显著减少磁带录音中背景噪声的技术。
2010年6月，杜比推出了杜比7.1环绕声（Dolby Surround 7.1），并在全球范围建立起与影院的合作，推出配置7.1环绕音箱的杜比影厅
杜比全景声（Dolby Atmos）是杜比实验室于2012年推出的高级环绕声标准，用于电影院，通过将前置、侧置、后置和天空扬声器加上复杂的音频处理和算法相结合，提供高达最高64声道的环绕声，增加空间沉浸感

杜比技术的应用

杜比的技术在电影制作中尤其重要。杜比数字（Dolby Digital）是一种音频压缩技术，它使得电影制作人可以在电影中使用更丰富、更逼真的声音。杜比全景声（Dolby Atmos）则进一步提升了这种体验，它允许声音在三维空间中移动，给观众带来沉浸式的体验。

杜比的三大核心技术

杜比数字（Dolby Digital）： 一种音频压缩技术，比如AC-3格式，将6个声道的数据压缩到一个数据流中。应用于DVD、蓝光光盘；
杜比全景声 （Dolby Atoms）： 音频领域革命性的技术，彻底摒弃传统声道概念，将声音视为“对象”，在三维空间自由移动，从而模拟逼真的场景。应用在电影、电视和音乐制作；
杜比视界（Dolby Vision）： 高动态范围（HDR）视频技术，提供更亮、更暗、更丰富的颜色。主要用于投影和高端电视。

基础概念科普

4.1 音频编码技术

PCM 是指脉冲编码调制（Pulse Code Modulation），是数字通信的编码方式之一，是一种将模拟信号数字化的方法。主要过程是将话音等模拟信号每隔一定时间进行取样，使其离散化，同时将抽样值按分层单位四舍五入取整量化，同时将抽样值按一组二进制码来表示抽样脉冲的幅值。

我们熟悉的MP3、AAC、OPUS通常都是基于PCM进行压缩编码的格式

4.2 声道（Channel）/声床（Bed）

声道(Sound Channel )：是指声音在录制或播放时在不同空间位置采集或回放的相互独立的音频信号，所以声道数也就是声音录制时的音源数量或回放时相应的扬声器数量。声床是制作端对于声道的对应说法。

4.2.1 1维音频

基于单声道的PCM编码，我们称为一维音频

4.2.2 2维音频

用两个不同的PCM进行双声道播放，可以称为二维音频

4.2.3 2.5维音频

多个声道进行播放，即为2.5维音频

2.5维音频常见的配置有：

5.1声道： 表示有五个普通声道+1个低音声道：

7.1：7个普通声道+1个低音声道

超重低音声道提供20-120Hz的声音

4.1.4 3维音频

引入天空声道，即为3维音频

代表性的是7.1.4： 7个平面声道+1个低音声道+4个天空声道

9.1.6： 9个平面声道+1个低音声道+6个天空声道

x.y.z的涵义：

x通常代表耳平面的传统环绕声道的数量(如前置、中置、环绕)；
y代表低音声道的数量，虽然我们见到的大多都是1，但在“多炮”的扬声器排布下，甚至可以提高到4个或更多低音扬声器，在更大的空间中实现理想的低频响应；
z代表天空声道的数量，天空(或称高度)声道的存在使得扬声器排布从平面提升为立体，能够通过响度和时间差的调整，控制声像在三维空间中的方向。

传统声道的概念还是基于左右两声道完成，每个声音元素的发声点局限在空间中相对固定的声道/扬声器中，要求声道数量和摆放位置完全一样

在飞机飞过的时候，音量、频率、延时等等都会发生变化

4.1.5 立体声音效发展历程

4.3 声音对象（Object）

声音不再局限于声道或者音箱，可以自由摆放在虚拟的三维空间中的任意位置，可以按照设计的轨迹进行运动。

设计好每个对象的轨迹之后，这些对象的位移信息再由渲染器进行计算出哪个音箱要出多大声或者要延迟多少ms才能使得某个声音元素听起来像是它本来应该在的位置。

这种概念的引入使得回放系统的配置更加灵活，这样一来不论是简单的Soundbar，或者耳机，或者5.1.2、9.3.6的家庭影院，都可以通过计算而渲染出全景声音效

Pan-through array: The sound can travel through each speaker placed around and above the audience as it moves across the cinema, in what’s called a pan-through array.

优点：

全景特效：声音更真实，更立体
兼容性高：不需要Care具体的播放设备的规格、数量及设备的摆放，都能达到同样的效果

杜比全景声的产生过程

解码方式：

直通（Passthrough）： 指电视或投影或机顶盒——不对音轨进行任何解码，直接将原音频数据传输给回音壁或者功放。一台机器想要支持源码输出，需要经过杜比和DTS的授权认证。
解码： 指将Dolby AtmoS的音频信息在电视或投影或机顶盒端先完成解码再映射到回音壁的方式。由于杜比公司有专利保护，任何想要解码的硬件或软件播放器，都需要向杜比支付授权费才能获得解码密钥。这也是很多设备并不支持的自己解码的原因。
转码： 指播放Dolby Atmos的设备或软件本身不是直连回音壁，还需要将声音传给中间商。此时会把音频打包转码成普通的LPCM音频格式，在这个过程中会丢失的是全景声的元数据。就不再是7.1.2而上7.1声道。效果也是有损的
双耳渲染

6.1 头部跟踪

头部跟踪的必要性是一个大话题，为了更清晰地认知头部跟踪的必要性，我们需要了解人对于声音方位感的感知原理。人们对声音方位感的判断主要有4个依据：时间差、声级差、人体滤波效应和头部晃动

时间差（Interaural Time Difference, ITD）：

声音到达双耳的距离不一样，时间不一样，会有延时

声级差（Interaural Level Difference, ILD）：

由于双耳和音源的距离差异，也会造成此外，头部的遮挡，也会使得到达左耳与右耳声音的声压级是不同的，进一步形成声级差。

不同频率的声波会发生衍生的效果也不一样

人体滤波效应：

人的头部、肩颈、躯干，会对来自不同方向的声音产生不同的作用，形成反射、遮挡或衍射。

大脑通过这些不同的滤波效果产生对声源方位的判断，这就是著名的头部相关传输函数——HRTFs (Head-Related Transfer Functions)。

头部的晃动：

当一个声源的位置难以判断的时候，人们常常会不自觉的轻微晃动头部，使时间差、声级差或人体滤波效应产生变化，并依据这些变化进行快速的重新定位

在现实中，声源位于三维的空间中，通常都需要我们综合时间差、声级差、人体滤波效应这三个要素可以被综合的表述为头部相关传输函数(Head-Related Transfer Functions, HRTFs)，这项技术构成了绝大部分三维声定位技术的基础。头部晃动虽然并不是一个决定性因素，但是无论在哪个方向上，都对我们判断声源的位置有着极大地帮助

6.2 双耳渲染

室内声场有3个组成部分：直达声、早期反射声和混响声。人们对于声音的空间感主要是依据早期反射声和混响声来建立的。

直达声

声音直接穿到人耳所感知到的声音

反射声

声音通过回音壁和障碍物经过多次反射进入人耳所感知到声音

混响声

声音在空间中不断反射、衰减，形成了均匀、密集的混响声，与直达声、反射声共同建立起室内声场。这是一个经过多次反射的、没有方向性的声音，当然没有方向性也就是说它会来自三维空间内的各个方向。

6.3 声音的采集

目前移动设备拥有最大用户基群，耳机成为主要的播放场景。双耳信号回放的终极目标就是在听音者鼓膜处再现与实际听音环境相同的声学信号

常见的有两种采集方式：

在同一位置进行录音和回放(Dummy Head人头录音)

这种方式缺点显而易见，制约了现代音乐产业中的混音工作，不适合非现场演出的录音和回放

采取“计算音频”的方式，模拟在真实听音环境中聆听一个或多个真实扬声器的听觉体验

从理论上来说，只要模拟足够精确，双耳重放应该完全可以重现多个扬声器的听感(不包括其他感官)，毕竟人的耳朵本身也是双声道的

移动设备的杜比全景声回放

对于用户终端对于杜比全景声的回放处理，下面先看一张表，这张表整理了各个流媒体平台在各个硬件终端上对于杜比全景声的处理方式，表中撰写的状态，是APP从云端下发给终端设备的音源的规格

Atmos	Android	iOS	WIndows	Mac	TV* (For AVR)
Apple Music	EAC3-JOC 768kbps	EAC3-JOC 768kbps	无	EAC3-JOC	EAC3-JOC
QQ音乐	AC4-IMS 256kbps	双耳渲染	EAC3-JOC 448kbps	无	无
网易云音乐	双耳渲染	无	EAC3-JOC 768kbps	无	无
Apple TV	无	EAC3-JOC 768kbps	无	7.1.4	EAC3-JOC
爱奇艺	5.1(部分厂商)	双耳渲染	立体声	立体声	EAC3-JOC
优酷	双耳渲染	双耳渲染	立体声	立体声	立体声
腾讯视频	双耳渲染	多声道	立体声	立体声	EAC3-JOC
Bilibili	双耳渲染	多声道	立体声	立体声	立体声
本地音视频APP	√(Android 13)	√	√	？	无