杜比全景声——空间音频技术

  • 什么是杜比?
  • 是否是标清、高清、超清之上的更清晰的格式?
  • 杜比全景声 和传统多声道立体声的差别?
  • 杜比全景声音频的渲染方式?
  • 车载平台上杜比技术的应用?
  1. 杜比技术的起源

  • 杜比实验室(Dolby Laboratories)是一家总部位于美国的公司,由雷·杜比(Ray Dolby)于1965年在英国伦敦创立。雷·杜比是一位物理学家和电子工程师,他的目标是改进录音质量。他的第一个发明是杜比降噪系统,这是一种可以显著减少磁带录音中背景噪声的技术。
  • 2010年6月,杜比推出了杜比7.1环绕声(Dolby Surround 7.1),并在全球范围建立起与影院的合作,推出配置7.1环绕音箱的杜比影厅
  • 杜比全景声(Dolby Atmos)是杜比实验室于2012年推出的高级环绕声标准,用于电影院,通过将前置、侧置、后置和天空扬声器加上复杂的音频处理和算法相结合,提供高达最高64声道的环绕声,增加空间沉浸感
  1. 杜比技术的应用

杜比的技术在电影制作中尤其重要。杜比数字(Dolby Digital)是一种音频压缩技术,它使得电影制作人可以在电影中使用更丰富、更逼真的声音。杜比全景声(Dolby Atmos)则进一步提升了这种体验,它允许声音在三维空间中移动,给观众带来沉浸式的体验。

  1. 杜比的三大核心技术

  • 杜比数字(Dolby Digital): 一种音频压缩技术,比如AC-3格式,将6个声道的数据压缩到一个数据流中。应用于DVD、蓝光光盘;
  • 杜比全景声 (Dolby Atoms): 音频领域革命性的技术,彻底摒弃传统声道概念,将声音视为“对象”,在三维空间自由移动,从而模拟逼真的场景。应用在电影、电视和音乐制作;
  • 杜比视界(Dolby Vision): 高动态范围(HDR)视频技术,提供更亮、更暗、更丰富的颜色。主要用于投影和高端电视。
  1. 基础概念科普

4.1 音频编码技术

PCM 是指脉冲编码调制(Pulse Code Modulation),是数字通信的编码方式之一,是一种将模拟信号数字化的方法。主要过程是将话音等模拟信号每隔一定时间进行取样,使其离散化,同时将抽样值按分层单位四舍五入取整量化,同时将抽样值按一组二进制码来表示抽样脉冲的幅值。

我们熟悉的MP3、AAC、OPUS通常都是基于PCM进行压缩编码的格式

4.2 声道(Channel)/声床(Bed)

声道(Sound Channel ): 是指声音在录制或播放时在不同空间位置采集或回放的相互独立的音频信号,所以声道数也就是声音录制时的音源数量或回放时相应的扬声器数量。声床是制作端对于声道的对应说法。

4.2.1 1维音频

基于单声道的PCM编码,我们称为一维音频

4.2.2 2维音频

用两个不同的PCM进行双声道播放,可以称为二维音频

4.2.3 2.5维音频

多个声道进行播放,即为2.5维音频

2.5维音频常见的配置有:

  • 5.1声道: 表示有五个普通声道+1个低音声道:

  • 7.1:7个普通声道+1个低音声道

超重低音声道提供20-120Hz的声音

4.1.4 3维音频

引入天空声道,即为3维音频

  • 代表性的是7.1.4: 7个平面声道+1个低音声道+4个天空声道

  • 9.1.6: 9个平面声道+1个低音声道+6个天空声道

x.y.z的涵义:

  • x通常代表耳平面的传统环绕声道的数量(如前置、中置、环绕);
  • y代表低音声道的数量,虽然我们见到的大多都是1,但在“多炮”的扬声器排布下,甚至可以提高到4个或更多低音扬声器,在更大的空间中实现理想的低频响应;
  • z代表天空声道的数量,天空(或称高度)声道的存在使得扬声器排布从平面提升为立体,能够通过响度和时间差的调整,控制声像在三维空间中的方向。

传统声道的概念还是基于左右两声道完成,每个声音元素的发声点局限在空间中相对固定的声道/扬声器中,要求声道数量和摆放位置完全一样

在飞机飞过的时候,音量、频率、延时等等都会发生变化

4.1.5 立体声音效发展历程

4.3 声音对象(Object)

声音不再局限于声道或者音箱,可以自由摆放在虚拟的三维空间中的任意位置,可以按照设计的轨迹进行运动。

设计好每个对象的轨迹之后,这些对象的位移信息再由渲染器进行计算出哪个音箱要出多大声或者要延迟多少ms才能使得某个声音元素听起来像是它本来应该在的位置。

这种概念的引入使得回放系统的配置更加灵活,这样一来不论是简单的Soundbar,或者耳机,或者5.1.2、9.3.6的家庭影院,都可以通过计算而渲染出全景声音效

Pan-through array: The sound can travel through each speaker placed around and above the audience as it moves across the cinema, in what’s called a pan-through array.

优点:

  • 全景特效:声音更真实,更立体
  • 兼容性高:不需要Care具体的播放设备的规格、数量及设备的摆放,都能达到同样的效果
  1. 杜比全景声的产生过程

解码方式:

  1. 直通(Passthrough): 指电视或投影或机顶盒——不对音轨进行任何解码,直接将原音频数据传输给回音壁或者功放。一台机器想要支持源码输出,需要经过杜比和DTS的授权认证。

  2. 解码: 指将Dolby AtmoS的音频信息在电视或投影或机顶盒端先完成解码再映射到回音壁的方式。由于杜比公司有专利保护,任何想要解码的硬件或软件播放器,都需要向杜比支付授权费才能获得解码密钥。这也是很多设备并不支持的自己解码的原因。

  3. 转码: 指播放Dolby Atmos的设备或软件本身不是直连回音壁,还需要将声音传给中间商。此时会把音频打包转码成普通的LPCM音频格式,在这个过程中会丢失的是全景声的元数据。就不再是7.1.2而上7.1声道。效果也是有损的

  4. 双耳渲染

6.1 头部跟踪

头部跟踪的必要性是一个大话题,为了更清晰地认知头部跟踪的必要性,我们需要了解人对于声音方位感的感知原理。人们对声音方位感的判断主要有4个依据:时间差、声级差、人体滤波效应和头部晃动

  1. 时间差(Interaural Time Difference, ITD):

声音到达双耳的距离不一样,时间不一样,会有延时

  1. 声级差(Interaural Level Difference, ILD):

由于双耳和音源的距离差异,也会造成此外,头部的遮挡,也会使得到达左耳与右耳声音的声压级是不同的,进一步形成声级差。

不同频率的声波会发生衍生的效果也不一样

  1. 人体滤波效应:

人的头部、肩颈、躯干,会对来自不同方向的声音产生不同的作用,形成反射、遮挡或衍射。

大脑通过这些不同的滤波效果产生对声源方位的判断,这就是著名的头部相关传输函数——HRTFs (Head-Related Transfer Functions)。

  1. 头部的晃动:

当一个声源的位置难以判断的时候,人们常常会不自觉的轻微晃动头部,使时间差、声级差或人体滤波效应产生变化,并依据这些变化进行快速的重新定位

在现实中,声源位于三维的空间中,通常都需要我们综合时间差、声级差、人体滤波效应这三个要素可以被综合的表述为头部相关传输函数(Head-Related Transfer Functions, HRTFs),这项技术构成了绝大部分三维声定位技术的基础。头部晃动虽然并不是一个决定性因素,但是无论在哪个方向上,都对我们判断声源的位置有着极大地帮助

6.2 双耳渲染

室内声场有3个组成部分:直达声、早期反射声和混响声。人们对于声音的空间感主要是依据早期反射声和混响声来建立的。

  1. 直达声

声音直接穿到人耳所感知到的声音

  1. 反射声

声音通过回音壁和障碍物经过多次反射进入人耳所感知到声音

  1. 混响声

声音在空间中不断反射、衰减,形成了均匀、密集的混响声,与直达声、反射声共同建立起室内声场。这是一个经过多次反射的、没有方向性的声音,当然没有方向性也就是说它会来自三维空间内的各个方向。

6.3 声音的采集

目前移动设备拥有最大用户基群,耳机成为主要的播放场景。双耳信号回放的终极目标就是在听音者鼓膜处再现与实际听音环境相同的声学信号

常见的有两种采集方式:

  1. 在同一位置进行录音和回放(Dummy Head人头录音)

这种方式缺点显而易见,制约了现代音乐产业中的混音工作,不适合非现场演出的录音和回放

  1. 采取“计算音频”的方式,模拟在真实听音环境中聆听一个或多个真实扬声器的听觉体验

从理论上来说,只要模拟足够精确,双耳重放应该完全可以重现多个扬声器的听感(不包括其他感官),毕竟人的耳朵本身也是双声道的

  1. 移动设备的杜比全景声回放

对于用户终端对于杜比全景声的回放处理,下面先看一张表,这张表整理了各个流媒体平台在各个硬件终端上对于杜比全景声的处理方式,表中撰写的状态,是APP从云端下发给终端设备的音源的规格

AtmosAndroidiOSWIndowsMacTV* (For AVR)
Apple MusicEAC3-JOC 768kbpsEAC3-JOC 768kbpsEAC3-JOCEAC3-JOC
QQ音乐AC4-IMS 256kbps双耳渲染EAC3-JOC 448kbps
网易云音乐双耳渲染EAC3-JOC 768kbps
Apple TVEAC3-JOC 768kbps7.1.4EAC3-JOC
爱奇艺5.1(部分厂商)双耳渲染立体声立体声EAC3-JOC
优酷双耳渲染双耳渲染立体声立体声立体声
腾讯视频双耳渲染多声道立体声立体声EAC3-JOC
Bilibili双耳渲染多声道立体声立体声立体声
本地音视频APP√(Android 13)

可以看到,各大终端里,只有Apple在自己的硬软件生态内保持了相对原始的声道信息,亦即保留了更多的空间信息。

从2020年开始,安卓厂商们还陆续往手机里集成了Dolby格式的解码器,配合着杜比的效果调试(包扩DRC,人声增强,响度均衡,频响调整,声道互馈等),就统称为“杜比全景声”。

  1. 杜比全景声的制作

渲染流程:

制作过程:

  1. Eletre中的杜比

路特斯 lambda 配置豪华的座舱 音响系统

  • 选用英国品牌KEF,两个配置:

    • 2D配置支持15扬,7.1全景声,额定功率1400W
    • 3D配置支持23扬,7.1.4全景声,额定功率2120W。
  • 需要刷杜比Key才能使用,杜比Key是杜比官方授权密钥,不安装不能播放。565和台架均不能播放

  • 杜比全景声内容:主要包括杜比介绍视频、QQ音乐+索尼高品质的7.1.4音乐展示、音乐播放器、音乐播放的信

息展示及控制(HUD显示、语音控制、方控等)、整车声音设置的杜比全景声的试听及

app入口。

  • 杜比播放器也叫高品质音乐,英文名是:HYPER Music,图标如下:

杜比App主界面:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/43399.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

大数据基础:Hadoop之MapReduce重点架构原理

文章目录 Hadoop之MapReduce重点架构原理 一、MapReduce概念 二、MapReduce 编程思想 2.1、Map阶段 2.2、Reduce阶段 三、MapReduce处理数据流程 四、MapReduce Shuffle 五、MapReduce注意点 六、MapReduce的三次排序 Hadoop之MapReduce重点架构原理 一、MapReduce概…

ORACLE重装之后恢复数据库,相当于sqlserver的附加数据库

在开发机器上经常会遇到重装系统的问题,重装之前如果ORACLE没有及时备份的话重装之后就纠结了,数据还原很头疼。 只能找到一些ORACLE安装与重装系统前目录相同的解决办法,目录不同就没招了。 我用的是oracle11G。老版的应该相似。 经过我的尝试,找到了几个关键点,现在分…

讲讲 JVM 的内存结构(附上Demo讲解)

讲讲 JVM 的内存结构 什么是 JVM 内存结构?线程私有程序计数器​虚拟机栈本地方法栈 线程共享堆​方法区​注意永久代​元空间​运行时常量池​直接内存​ 代码详解 什么是 JVM 内存结构? JVM内存结构分为5大区域,程序计数器、虚拟机栈、本地…

C# 泛型

泛型 泛型不是语法糖,而是由框架提供的一种便捷语法,首次出现在.NET 2.0中。 1. 泛型定义 泛型:是一种程序特性,定义时不对类型做出明确的规定,使用时规定且不能改变。一般应用:泛型集合、泛型方法、泛型…

机器学习——LR、‌GBDT、‌SVM、‌CNN、‌DNN、‌RNN、‌Word2Vec等模型的原理和应用

LR(逻辑回归) 原理: 逻辑回归模型(Logistic Regression, LR)是一种广泛应用于分类问题的统计方法,尤其适用于二分类问题。其核心思想是通过Sigmoid函数将线性回归模型的输出映射到(0,1)区间,从…

【AI前沿】深度学习:神经网络基础

文章目录 📑引言一、神经元和感知器1.1 神经元的基本概念1.2 感知器模型 二、多层感知器(MLP)2.1 MLP的基本结构2.2 激活函数的重要性2.3 激活函数2.4 激活函数的选择 三、小结 📑引言 深度学习是现代人工智能的核心技术之一&…

kotlin Flow 学习指南 (三)最终篇

目录 前言Flow生命周期StateFlow 替代LiveDataSharedFlow其他常见应用场景处理复杂、耗时逻辑存在依赖关系的接口请求组合多个接口的数据 Flow使用注意事项总结 前言 前面两篇文章,介绍了Flow是什么,如何使用,以及相关的操作符进阶&#xff…

如何挑选适合的需求池管理系统?10款优质工具分享

本文将分享10款优质需求池管理工具:PingCode、Worktile、Teambition、Epicor Kinetic、TAPD、SAP IBP、Logility、RELEX Solutions、JIRA、明道云。 在管理项目和产品需求时,正确的工具能够大幅提高效率与透明度。如何从众多需求池工具中选择最适合团队的…

第一节 SHELL脚本中的常用命令(2)

二,网络管理命令nmcli 1.查看网卡 # 或者先用ip addr或ip a等查看网卡 ip a s 网卡名 ifconfig 网卡名 nmcil device show 网卡名 nmcil device status nmcil connection show 网卡名2.设置网卡 a)当网卡未被设置过时 设置dncp网络工作模式 nmcil connection add con-name…

Rust编程-编写自动化测试

编写单元测试步骤: 1. 准备所需的数据 2. 调用需要测试的代码 3. 断言运行结果与我们所期望的一致 Rust的test元数据: #[cfg(test)]:是一个属性宏(attribute macro)。用于控制特定的代码段仅在测试环境中编译…

自定义类型:联合体

像结构体一样,联合体也是由一个或者多个成员组成,这些成员可以是不同的类型。 联合体类型的声明 编译器只为最⼤的成员分配⾜够的内存空间。联合体的特点是所有成员共⽤同⼀块内存空间。所以联合体也叫:共⽤体。 输出结果: 联合体…

size_t 数据类型的好处

什么是size_t size_t 类型在不同的平台上对应不同的底层整数类型,具体取决于平台的指针大小。size_t 主要用于表示大小和长度,如数组的元素数量、缓冲区的大小等,它的设计目的是为了匹配指针的大小,以避免类型不匹配引起的错误。…

代码随想录算法训练营DAY58|101.孤岛的总面积、102.沉没孤岛、103. 水流问题、104.建造最大岛屿

忙。。。写了好久。。。。慢慢补吧。 101.孤岛的总面积 先把周边的岛屿变成水dfs def dfs(x, y, graph, s):if x<0 or x>len(graph) or y<0 or y>len(graph[0]) or graph[x][y]0:return sgraph[x][y]0s1s dfs(x1, y, graph, s)s dfs(x-1, y, graph, s)s dfs(…

【爬虫入门知识讲解:xpath】

3.3、xpath xpath在Python的爬虫学习中&#xff0c;起着举足轻重的地位&#xff0c;对比正则表达式 re两者可以完成同样的工作&#xff0c;实现的功能也差不多&#xff0c;但xpath明显比re具有优势&#xff0c;在网页分析上使re退居二线。 xpath 全称为XML Path Language 一种…

软考高级第四版备考--第16天(规划沟通管理)Plan Communication Management

定义&#xff1a;基于每个干系人或干系人群体的信息需求、可用的组织资产以及具体的项目的需求&#xff0c;为项目沟通活动制定恰当的方法和计划的过程。 作用&#xff1a; 及时向干系人提供相关信息&#xff1b;引导干系人有效参与项目&#xff1b;编制书面沟通计划&#xf…

【基于R语言群体遗传学】-16-中性检验Tajima‘s D及连锁不平衡 linkage disequilibrium (LD)

Tajimas D Test 已经开发了几种中性检验&#xff0c;用于识别模型假设的潜在偏差。在这里&#xff0c;我们将说明一种有影响力的中性检验&#xff0c;即Tajimas D&#xff08;Tajima 1989&#xff09;。Tajimas D通过比较数据集中的两个&#x1d703; 4N&#x1d707;估计值来…

vue项目中常见的一些preset及其关系

Babel的作用 Babel主要用途是用来做js代码转换的&#xff0c;将最新的js语法或者api转换成低版本浏览器可兼容执行的代码。 语法兼容是指一些浏览器新特性增加的js写法&#xff0c;例如箭头函数 ()>{}&#xff1b;低版本的浏览器无法识别这些&#xff0c;会导致一些语法解…

spark shuffle写操作——UnsafeShuffleWriter

PackedRecordPointer 使用long类型packedRecordPointer存储数据。 数据结构为&#xff1a;[24 bit partition number][13 bit memory page number][27 bit offset in page] LongArray LongArray不同于java中long数组。LongArray可以使用堆内内存也可以使用堆外内存。 Memor…

秋招突击——7/9——字节面经

文章目录 引言正文八股MySQL熟悉吗&#xff1f;讲一下MySQL索引的结构&#xff1f;追问&#xff1a;MySQL为什么要使用B树&#xff1f;在使用MySQL的时候&#xff0c;如何避免索引失效&#xff1f;讲一下MySQL的事物有哪几种特征&#xff1f;MySQL的原子性可以实现什么效果&…

GESP C++ 三级真题(2023年9月)T2 进制判断

进制判断 问题描述 N进制数指的是逢N进一的计数制。例如&#xff0c;人们日常生活中大多使用十进制计数&#xff0c; 而计算机底层则一般使用二进制。除此之外&#xff0c;八进制和十六进制在一些场合也是 常用的计数制(十六进制中&#xff0c;一般使用字母A至F表示十至十五…