音频采集的相关基础知识

本文引注:

https://zhuanlan.zhihu.com/p/652629744

1.麦克风的种类

(1)模拟麦克风

ECM麦克风:驻极体电容麦克风(ECM),典型的汽车ECM麦克风是一种将ECM单元与小型放大器电路整合在单个外壳中的装置。放大器提供一个模拟信号,其电压电平允许信号通过数米长的电线进行传输,这也是典型汽车应用的要求。若不放大,原始ECM信号对于如此长的电线来说太低,由于电线上的电磁干扰,信噪比(SNR)会降低过多。即使放大信号,也需要屏蔽线缆——通常是双线电缆,通过一个偏置电压(8V)为麦克风装置供电。

ECM的少数优点之一是其内置声学指向性,通常将其调整为超心型极性图(MEMS麦克风也可以做成指向的,但通常需要更复杂的声学设计)。通常可以实现10 dB或更多的后向衰减,"后向"是指朝向挡风玻璃的方向,从其中只会产生噪声(即没有期望的信号,例如讲话者的语音)。

在期望信号的进入方向上具有更高灵敏度非常有利于提高SNR。然而,定向ECM单元会引入不必要的副作用,例如高通特性——灵敏度在较低频率时会降低。这种高通响应的3 dB截止频率通常在300 Hz至350 Hz范围内。在HF技术的早期,这种高通特性是一个优势,因为发动机噪声主要以较低频率存在,发动机声音本身会经过麦克风衰减。然而,自从宽带或HD通话出现以来,这种高通特性开始成为一个问题。在宽带通话中,有效带宽从300 Hz到3400 Hz增加为100 Hz至7000 Hz。麦克风的自身高通滤波特性使得有必要在后处理单元中放大100 Hz至300 Hz的信号,而如果麦克风本身能提供更好的音频带宽,则不需要放大此范围内的信号。

ECM技术的另一个缺点是不同器件的灵敏度和频率响应差异很大。ECM的制造公差相对较大,这对于单个麦克风应用可能不是问题。但是,如果在间距较小的麦克风阵列应用中部署多个麦克风信号,则麦克风之间的严格匹配对于实现优质阵列性能至关重要。在这种情况下,ECM难以使用。此外,从物理尺寸角度看,传统ECM单元一般不适合于小型麦克风阵列。

麦克风阵列具有广泛的适用性,包括在车内,因为与传统ECM相比,阵列能提供类似(常常更优越)的定向性能。关于声音冲击方向的空间信息,可以使用阵列中分组的两个或更多个合适的麦克风来从麦克风信号中提取。这类算法常被称为波束成型(BF)。

"波束成型"一词源自与相控阵天线技术的类比,利用简单的纯线性滤波器和求和算法可以将天线阵列发射的无线电"波束"聚焦在某个方向上。虽然麦克风阵列中没有这样的波束,但波束成型这一术语在麦克风信号处理领域也很常见,相比于简单的线性波束成型处理,它涵盖了更广泛的线性和非线性算法,支持实现更高的性能和更大的灵活性。

除了波束成型处理之外,原始麦克风信号几乎总是需要后处理,因为每个HF麦克风都会同时捕获期望的语音信号和环境(若座舱)中的干扰。风噪、路噪和发动机噪声会降低SNR,通过扬声器播放的信号——通常称为扬声器回波——也是不需要的信号源。为了减少这种干扰并改善语音质量,需要采用复杂的数字信号处理技术,常常称之为回声消除和降噪(AEC/NR)。

AEC从麦克风中消除扬声器声音,否则它会作为在线路另一端讲话的人声的回声传输。NR则在降低恒常存在的行驶噪声的同时提高所传输信号的SNR。虽然国际电信联盟(ITU)发布了详细规范(例如ITU-T P.1100和P.1110)来定义HF系统的许多性能细节,但在行驶车辆中通话时,如果AEC/NR处理达不到标准,人们对通信质量的主观印象可能不会满意。与前面提到的BF算法一起,AEC/NR/BF的组合赋能广泛的新型应用,所有这些应用都与某种程度的数字音频信号处理相关。为了支持这些应用,需要新一代消除了传统ECM缺点的麦克风技术。

模拟麦克风的接口,通常为模拟信号输入,如下图所示:
在这里插入图片描述
对于模拟麦克风来说,它输出的是模拟音频信号,但是在进入ADC之前,需要有MIC BIAS(偏置电压),这样才能将模拟麦克风的输出信号接入系统中。同时,由于ECM麦克风的输出信号较小,因此需要有一个前置放大器,才能顺利地接入ADC。通常情况下,选择合适的ADC,可以提供MIC BIAS和PreAMP,即可顺利地接入ECM麦克风。

(2)数字麦克风

MEMS麦克风:微机电系统(MEMS)技术迅速成为麦克风的新行业标准,因为相比传统ECM,它提供了许多优势。首先,MEMS使得声音传感器比现有ECM单元要小得多。此外,将MEMS传感器与模数转换器(ADC)集成在单个IC中所得到的数字麦克风,能够提供可立即进行AEC/NR/BF(波束成型,用于麦克风阵列)处理的信号。

模拟接口MEMS麦克风也存在,但其具有与模拟ECM相同的许多缺点,而且若使用传统双线模拟接口工作,甚至需要比ECM更复杂的放大器电路。只有采用全数字接口技术,才能显著减轻模拟线路固有的干扰和SNR问题。此外,从生产角度看,MEMS也占优。因为MEMS麦克风的生产规格偏差比ECM单元要小得多,这对于BF算法很重要。最后,MEMS IC麦克风的制造工艺大大简化,因为可以采用自动化安装技术,整体生产成本得以降低。从应用角度看,更小的尺寸是最大的优势,并且由于声音入口非常小,MEMS麦克风阵列实际上可以做成不可见的。

传感器的入口和声音通道要求在设计和生产质量方面特别小心。如果声学密封不牢,来自内部结构的噪声可能到达传感器,两个传感器之间的泄漏可能降低BF算法的性能。与可以设计和制造成全向或定向的典型ECM单元不同,MEMS麦克风元件几乎总是制造成全向式(即声音接收没有内在方向性)。因此,MEMS麦克风是忠实于相位的全向声压传感器,为高级BF算法提供理想的信号,衰减方向和波束宽度可以由用户通过软件进行配置。

对于数字麦克风来说,它输出的信号就是数字信号,因此无需在数据通路上再集成ADC,也避免了模拟音频通道线,直接在PCB板上采用数字音频接口即可。如下图所示:
在这里插入图片描述

2.数字音频接口

一般来说,在PCB板内部芯片之间使用的音频信号传输接口,有I2S,TDM,PCM,PDM等;在PCB板间长距离,需要使用电缆传输的,有AVB,A2B,SPDIF等总线。

(1) I2S

I2S(Inter—IC Sound)总线, 又称集成电路内置音频总线,是飞利浦公司为数字音频设备之间的音频数据传输而制定的一种总线标准。

I2S是简单的总线协议,它用于成对设备之间的音频数据传输。一个为master,另一个为slave。主从设备的区别在于谁主动发起数据传输,能提供时钟信号的即为master。数据可以从master发送到slave,也可以从slave发送到master。

在I2S协议中有3个主要信号:
1.串行时钟SCLK,也叫位时钟(Bit CLK),即对应数字音频的每一位数据,SCLK都有1个脉冲。SCLK的频率=2×采样频率×采样位数。
2. 帧时钟LRCK,也称左右声道选择信号Word Select(WS),用于切换左右声道的数据。LRCK为“1”表示正在传输的是右声道的数据,为“0”则表示正在传输的是左声道的数据。LRCK的频率等于采样频率。
3.串行数据SDATA,音频数据 SD。

SD是串行数据,在I2S中以二进制补码的形式在数据线上传输。在WS变化后的第一个SCK脉冲,先传输最高位(MSB, Most Significant Bit)。

SD数据线可以为1根或者多根。当只有1根时,可单向传输双声道,称为SDOUT;如果是2根,可双向传输,每根信号线传输双声道,分别为SDIN和SDOUT。也可以增加到4根SD信号线,此时可以双向传输4通道音频。

2S数据的计算:
例如:设声音的采样频率为44.1 kHz,即声道选择信号(帧时钟)WS的频率必须也为44.1 kHz;左/右2个声道的量化深度均为16 bit,则I2S的SCK的频率为:44.1 kHz×16×2=1.4112 MHz。

如果需要传输20 bit、24 bit或32 bit的左右声道的数据,可以提高SCK的频率,由上式可以计算出需要的SCK的频率。

(2)PCM

PCM(Pulse Code Modulation)脉冲编码调制是数字通信的编码方式之一。在PCM 过程中,将输入的模拟信号进行采样、量化和编码,用二进制进行编码的数来代表模拟信号的幅度 ;接收端再将这些编码还原为原来的模拟信号。即数字音频的 A/D 转换包括三个过程 :采样,量化,编码。

1.采样
采样是把模拟信号以其信号带宽2倍以上的频率提取样值,变为在时间轴上离散的抽样信号的过程。例如,话音信号带宽被限制在0.3~3.4kHz内,用 8kHz的抽样频率(fs),就可获得能取代原来连续话音信号的抽样信号。对一个正弦信号进行抽样获得的抽样信号是一个脉冲幅度调制(PAM)信号,对抽样信号进行检波和平滑滤波,即可还原出原来的模拟信号。

2.量化
抽样信号虽然是时间轴上离散的信号,但仍然是模拟信号,其样值在一定的取值范围内,可有无限多个值。显然,对无限个样值一一给出数字码组来对应是不可能的。为了实现以数字码表示样值,必须采用“四舍五入”的方法把样值分级“取整”,使一定取值范围内的样值由无限多个值变为有限个值。这一过程称为量化。

量化后的抽样信号与量化前的抽样信号相比较,当然有所失真,且不再是模拟信号。这种量化失真在接收端还原模拟信号时表现为噪声,并称为量化噪声。量化噪声的大小取决于把样值分级“取整”的方式,分的级数越多,即量化级差或间隔越小,量化噪声也越小。

3.编码
量化后的抽样信号在一定的取值范围内仅有有限个可取的样值,且信号正、负幅度分布的对称性使正、负样值的个数相等,正、负向的量化级对称分布。若将有限个 量化样值的绝对值从小到大依次排列,并对应地依次赋予一个十进制数字代码(例如,赋予样值0的十进制数字代码为0),在码前以“+”、“-”号为前缀,来 区分样值的正、负,则量化后的抽样信号就转化为按抽样时序排列的一串十进制数字码流,即十进制数字信号。简单高效的数据系统是二进制码系统,因此,应将十进制数字代码变换成二进制编码。根据十进制数字代码的总个数,可以确定所需二进制编码的位数,即字长。这种把量化的抽样信号变换成给定字长的二进制码流的过程称为编码。
在这里插入图片描述
在I2S接口上传输的数字音频信号,也正是PCM类型的编码。

PCM接口与I2S相似,电路信号包括:
1.PCM_CLK 数据时钟信号
2.PCM_SYNC 帧同步时钟信号
3.PCM_IN 接收数据信号
4.PCM_OUT 发送数据信号
在这里插入图片描述

(3)TDM

TDM (Time Division Multiplexing) ,是指通过时分复用的方式,在一个物理通道上传输多路PCM音频数据的方式。一般来说,I2S接口只能传输双声道,而TDM可以传输16路甚至32路数据。

TDM的物理数据通道与PCM或I2S一样,也是采用4根信号线用于数据传输,只是在采样率,数据位宽,以及通道数上具有不同的参数。

音频TDM通过使用BLCK作为位时钟信号来确定数据传输的时钟速率和时序。Frame Sync信号用于标识音频帧的开始和结束,确保正确地组合和解析音频数据。Data IN和Data OUT信号引脚用于输入和输出音频数据,实现多路音频信号的合并和传输。

BLCK(Bit Clock):BLCK引脚是音频TDM中的时钟信号引脚。在每个BLCK时钟周期内,只能传输一个数据位。BLCK信号的频率决定了数据传输的速率,每个数据位在一个时钟周期内进行传输。发送端在每个时间槽中依次填充数据位,并在每个BLCK时钟周期根据BLCK信号的边沿将数据位传输出去。接收端根据BLCK信号的时钟边沿来采样和解析数据位,以还原音频信号。
Frame Sync(帧同步):Frame Sync引脚用于标识数据帧的开始和结束。在音频TDM中,多个slot被组合成一个完整的音频帧。Frame Sync信号的状态变化指示一个新的音频帧的开始。接收端根据Frame Sync信号来识别和解析每个slot的数据,并将其组合成原始的音频信号。
SD IN引脚:SD IN引脚是用于输入音频数据的引脚。
SD OUT引脚:SD OUT引脚是用于输出音频数据的引脚。

在这里插入图片描述
在I2S中,通过WS引脚来区分左右声道,每个样本由左右声道交替传输。而在TDM中,通过Frame Sync信号来标识音频帧的开始和结束,一个音频帧可以包含多个slot。在TDM传输时,需要配置slot的个数,采样频率,采样数据的位宽,即可得出TDM的系统时钟速率,或者说可传输的数据带宽。

例如,Frame Sync的频率等于音频的采样率(例如44.1 kHz,48 kHz等)。Frame每次传输包括所有声道的数据。PCM采样音频数据量化深度一般在16,24,or 32bit。那么对于16个声道,每个声道32bit音频数据,采样率48kHz的系统,TDM的BCLK系统时钟速率为:16 × 32 × 48kHz = 24.576 MHz。

(4)PDM

PDM(Pulse Density Modulation)是一种用数字信号表示模拟信号的调制方法。同为将模拟量转换为数字量的方法,PCM使用等间隔采样方法,将每次采样的模拟分量幅度表示为N位的数字分量(N = 量化深度),因此PCM方式每次采样的结果都是N bit字长的数据。PDM则使用远高于PCM采样率的时钟采样调制模拟分量,只有1位输出,要么为0,要么为1。因此通过PDM方式表示的数字音频也被称为Oversampled 1-bit Audio。相比PDM一连串的0和1,PCM的量化结果更为直观简单。

如下图所示,PDM的采样输出为:
在这里插入图片描述
PCM方式的逻辑更加简单,但需要用到数据时钟,采样时钟和数据信号三根信号线;PDM方式的逻辑相对复杂,但它只需要两根信号线,即时钟和数据。在数字麦克风领域,应用最广的就是PDM接口,其次为I2S接口。

通过PDM接口方式,传输双声道数据只要用到两根信号线。如下图所示,两个PDM接口的发送设备与同一个接收设备的连接情况,比如Source 1/2分别作为左右声道的麦克风,通过这种方式可以将采集到的双声道数据传送到接收设备。主设备(此例中作为接收设备)为两个从设备提供时钟,分别在时钟的上升沿和下降沿触发选择Source 1/2作为数据输入。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/159608.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

JavaScript 如何拷贝对像(Object)或者数组(Array)

目录 JavaScript数据拷贝类型 浅拷贝 深拷贝 举例: 浅拷贝 数组 对象 深拷贝 lodash cloneDeep使用示例 自定义深拷贝方法示例 JSON.parse() 和 JSON.stringify()使用示例 JavaScript数据拷贝类型 浅拷贝 数组可以使用Array.prototype.slice()方法 …

python实现鼠标实时坐标监测

python实现鼠标实时坐标监测 一、说明 使用了以下技术和库: tkinter:用于创建GUI界面。pyperclip:用于复制文本到剪贴板。pynput.mouse:用于监听鼠标事件,包括移动和点击。threading:用于创建多线程&…

PWM实验

PWM相关概念 PWM:脉冲宽度调制定时器 脉冲:方波信号,高低电平变化产生方波 周期:高低电平变化所需要时间 频率:1s钟可以产生方波个数 占空比:在一个方波内,高电平占用的百分比 宽度调制:占…

AI:86-基于深度学习的街景图像地理位置识别

🚀 本文选自专栏:人工智能领域200例教程专栏 从基础到实践,深入学习。无论你是初学者还是经验丰富的老手,对于本专栏案例和项目实践都有参考学习意义。 ✨✨✨ 每一个案例都附带有在本地跑过的代码,详细讲解供大家学习,希望可以帮到大家。欢迎订阅支持,正在不断更新中,…

Leetcode:622. 设计循环队列 题解【具详细】

目录 一、题目: 二、思路详解: 1.循环队列的存储定义 2.循环队列的创建 3.循环队列的判空与判断情况 (1) 循环队列的判空: (2) 循环队列的判满 4.循环队列元素的插入 5.循环队列元素的删除 6.获取队头元素 7.获取队尾元素 8.循环队列释放 三…

打不开clickonce问题解决过程

1.用户电脑user文件夹下有xx和xx.1两个账户,原先安装在xx账户下,后修了电脑原数据保留在xx.1,新创建XX,之后clickonce就打不开了表现为没有反应,,删除注册表和appdata都只能正常安装,但是不能打开,没有任何报错,发现在我的电脑下打开有这样的提示,,在用户电脑上没有 尝试通过修…

大家为什么开始配置长效IP代理?长效IP代理有什么优势?

随着网络技术的发展,越来越多的人开始关注网络安全和隐私保护。其中,长效IP代理作为一种安全、高效的解决方案,受到了越来越多人的关注。本文将探讨大家为什么开始配置长效IP代理,以及长效IP代理的优势。 一、长效IP代理的优势1.保…

目前市面上进销存软件有哪些?那个牌子靠谱?

目前市面上进销存软件有哪些?哪个牌子靠谱? 说起进销存软件,如果你是没用过,正在寻找一款合适的,你是不是遇到了以下问题: 公司多部门协作还在用Excel,没有信息化支撑?跨部门存在信…

C语言——深入理解指针——函数指针

一、函数指针变量 1.1 函数指针变量的创建 什么是函数指针变量呢&#xff1f; 函数指针变量应该是用来存放函数地址的&#xff0c;未来通过地址能够调⽤函数的。 那么函数是否有地址呢&#xff1f; 我们做个测试&#xff1a; #include <stdio.h> void test() {print…

软考中级哪个科目最简单?

那必须是系统集成项目管理工程师&#xff01; 系统集成项目管理工程师考试内容少&#xff0c;题型简&#xff0c;报考门槛低&#xff0c;零基础就能报考&#xff0c;学习内容比较简单&#xff0c;接近工作和生活。 系统集成项目管理工程师证书是中国计算机技术职业资格&#…

2024年湖北省水利厅的安管人员水安ABC证报考指南

2024年湖北省水利厅的安管人员水安ABC证报考指南 关于水安ABC报考&#xff0c;很多企业乃至个人都不是很清楚流程&#xff0c;叙后尘来给大家科普一下报考详细细节。2023年年度仅剩一次的报考时间定于2023年11月23日至11月28日。在这个时间段才可以网上填写报考资料&#xff0…

js读取json文件

1. 原生的两种方法 1.1 XMLHttpRequest const xhr new XMLHttpRequest(); xhr.overrideMimeType("application/json"); xhr.open(GET, data.json, true); xhr.onreadystatechange function () {if (xhr.readyState 4 && xhr.status 200) {const data …

使用EasyPlayer播放H.265视频流

使用EasyPlayer播放H.265视频流 EasyPlayer流媒体视频播放器 EasyPlayer流媒体视频播放器 EasyPlayer流媒体视频播放器可支持H.264与H.265编码格式&#xff0c;性能稳定、播放流畅&#xff0c;能支持RTSP、RTMP、HLS、FLV、WebRTC等格式的视频流播放&#xff0c;并且已实现网页…

Cannot read properties of undefined (reading ‘resetFields‘)“ 报错解决

遇到这种报错 先去相关页面搜索关键字 定位到具体的报错代码 Cannot read properties of undefined (reading ‘resetFields’)" 关键字&#xff1a;resetFields 此方法作用&#xff1a;对整个表单进行重置 将所有字段值重置为初始值并移除校验结果 报错场景&#xff1a;…

坚鹏:湖北银行数字化转型背景下银行运营管理创新培训圆满结束

湖北银行正式成立于2011年2月27日&#xff0c;总部设在武汉。现有员工5000余人。营业网点从成立之初的93家增长至241家&#xff0c;实现全省17个市州、59个县域营业网点全覆盖。截至2022年末&#xff0c;全行资产总额4026亿元&#xff0c;存款总额2956亿元&#xff0c;贷款总额…

人工标签不准确的一种解决方案:PCA降维可视化筛选正样本

背景 在实际的业务场景里&#xff0c;用会话文本构建模型&#xff08;机器学习/深度学习&#xff09;来做意图分类之类的任务时&#xff0c;经常会出现人工打标不够准确的问题&#xff0c;标签都不准确的话模型当然无法学习到有效信息了。这个问题真的非常头疼…除了与业务沟通…

d3dcompiler_47.dll缺失怎么修复,d3dcompiler_47.dll的作用有哪些

d3dcompiler_47.dll丢失是一种常见的电脑问题。如果你遇到了这个问题&#xff0c;不要惊慌&#xff0c;下面的方法可以帮助你解决。本文将详细介绍解决d3dcompiler_47.dll丢失问题的步骤&#xff0c;让你手把手地学会。 一.解决d3dcompiler_47.dll丢失问题的步骤 解决方法一&a…

CSS伪类选择器详细讲解

前言 伪类选择器在CSS中起到的作用可以说是至关重要的&#xff0c;如果CSS没有伪类选择器&#xff0c;有很多效果都要借助js来完成&#xff0c;这样不仅代码量增加&#xff0c;维护起来你难度也大。这样程序员的工作量大&#xff0c;也违背了CSS诞生的作用&#xff0c;就是提高…

重磅!TikTok Shop将以新方式重启印尼业务

据报道&#xff0c;TikTok将通过与印尼电商平台合作的方式重启电商业务。 据悉&#xff0c;印尼合作社和中小企业部就TikTok Shop将在印尼重新开业的消息发表了讲话。合作社和中小企业部Temmy Satya Permana证实TikTok Shop将在印尼重新开业的消息。他表示&#xff0c;TikTok …

使用 Python脚本在3DMAX中加载图像和读取图像中的像素值

如何使用Python在3dmax中加载和显示图像文件&#xff1f;我们先看下面的代码&#xff1a; *测试的3dmax文件和图像文件位于同一目录中。 from MaxPlus import BitmapManagerimage_file_path rje_gray_02_4k.exrbmp_storage MaxPlus.Factory.CreateStorage(17)bmp_info bmp…