智能音箱 之 音频通路质量--测试与参数

一、概述

当将语音识别算法接入到设备时,务必要保证设备的音频通路具有足够的质量。因此对设备进行音频测试,以评估能够影响语音识别性能的音频前端的音频参数。如下要点对语音识别至关重要:

  • 自然声音
  • 合适的增益
  • 良好的信噪比
  • 一致的响应,信号不能包括如下信息: 自动增益控制 AGC  启动响应  直流偏置过大
  • 适当的频响 (高低滚降,理想平滑,没有混跌)

二、测试设备

  • 带有录音软件的被测试设备
  • 音频测试仪器:CD机,均衡器,音箱,人工嘴和声压计
  • 带分析工具的PC机(CoolEditor、Audition、Audacity和Wavesurfer等)

三、音频文件

  • 正常音频文件:用于主观判断音频质量和增益设置以及信噪比;
  • 大增益文件:用于判定削波时的增益设置;
  • 1K-sine增益Sweep文件0~105dB:用于评估削波,决定最大数值和判定AGC存在与否;
  • 0~8K/16K扫频文件:用于测试设备的频响和混跌;

四、测试项目

1. 主观听音

用质量好的耳机去听设备的音质,从而发现一些非正常声音;比如:杂音、谐波和共振等;

音频路径上过多的信号处理可能导致声音畸变为人造声,不符合正常自然声音,会对软件识别造成很大困难。

2. 增益评估

设备在各种使用场景下,务必保持增益的设置不要使信号削波;削波会严重降低识别性能,必须禁止。

95dB的声音应该刚好填满16bit音程;

3. 信噪比

静默值作为底噪,声音波形的中部作为信号;尤其注意某些记录将具有数据实际值为零的引导/拖尾部分,不要使用这部分作为静默测量;麦克风单体的信噪比,除了本身规格书之外,在实际产品中收到电路噪声影响很大,尤其注意模拟麦克风bias电源

信号比:S/N>30对于识别是良好的比值,大于20也是可行的;如果小于20的话,则说明音频路径上太吵了导致很难识别成功。

 

4. 自动增益控制AGC

AGC的存在,当音频信号的幅度增大时,它通常表现为增益逐步减小。它会影响识别效果,所以得关闭此功能,类似的有自动电平控制寄存器ALC等。

同时部分功放带有动态调节音量的功能,务必关闭此项功能,否则严重影响AEC效果;所有的动态调节都务必在AEC采样点之前进行,具体如下图示意:

 

 

 

5. 启动瞬态Startup transients

音频系统经常在录音命令下达后,需要一段时间才能真正启动操作,这导致了启动瞬态;如果这主要包括低频的话,将不会对识别造成影响,因为识别器中有低通滤波器。

然而试图消除瞬态的话,将信号钳位在零电平上超过几十毫秒的话,会严重影响识别。在这种情况下,最好完全跳过音频,而不是将此错误信息发送给识别器。

                

上图中红色框中125ms的启动瞬态,应该跳过。

6. 直流偏置过大DC offset

直流偏置可以看作是静音信号在零信号线上高于或者低于的信号;

如果偏移量为满刻度限制的百分之几或者更少,是没有问题的;

但是如果超过10%则需要纠正,很大的偏移将导致不对称削波。

7. 频响曲线Response curve

为了隔绝麦克分录音到其他杂音,麦克风需要与喇叭足够近,大致2.5cm处录音。

检查FFT大小设置为2048个采样点,采样窗口设置为Blackmann Harris;

理想的频率响应曲线在顶端220Hz和3200~3900Hz之间的几分贝内是平坦的,差值一般控制在10dB以内是可以接受的(16K采样率的为6400Hz~7400Hz)如下图所示:

                                          

频响曲线是个慢慢的渐变过程,如果个别区域出现急剧变化,应该重点关注并研究,音频可能存在其他问题。

8. 混叠Aliasing

当超过采样速率的一半(奈奎斯特极限)的信号被允许进入模数转换器(ADC)时,出现混叠现象。如下为ES7210调试初期出现的混叠现象:

                                  

混叠是影响识别的一个重大因素,必须消除混叠;

故ADC需要有抗混叠处理,例如抗混叠滤波器等。

9. 谐波失真Harmonic distortion

当录音系统增加输入信号的泛音时,会出现谐波失真;

AEC对信号失真是非常敏感的,音频通路的整体谐波失真需要控制在5%以内,故从麦克风到功放到扬声器和音腔,均需要严格控制;除了单体品质之外,尤其注意功放和扬声器的功率匹配、阻抗匹配和频率匹配;

如下图为1K-sine信号的频谱图,有奇次谐波、偶次谐波:

                                           

 

如下图为8K-sweep信号的频谱图,有奇次谐波、偶次谐波:

                                          

谐波失真越小越好,一般要求最好是小于3%。

 

补充小结项:

1-灵敏度和谐波失真
2-频响和混叠
3-失真和完整性
4-麦阵相关性
5-相对延迟、系统延迟
6-底噪

汇总补充如下:

麦克风信噪比:60~70 分近中远三场景;

麦克风灵敏度:-40(模拟)  -26(数字);

频响平坦度:2dB (100Hz~6KHz);

收音孔气密性:大于20dB;

麦克风一致性:相位小于10,幅度小于2dB;

麦克风间距:25~60mm之间; 间距小影响低频,间距大影响高频;叠加装配的误差率,体验上在常规噪音环境下影响唤醒率和打断率1个点左右;

 

采样信号幅度:最大幅度下不截幅;

采样信号非线性失真:低频小于10%,300Hz~2KHz小于3%;

采样信号底噪:小于-70dB;

各通道信号同步;采样波形无畸变,无混叠;

参考信号信噪比:大于40dB;

参考信号:无截幅;

 

 

 

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/253351.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Python学习 - 常用模块(二)

目录 一. 常用模块 - hashlib 二. 常用模块 - hmac 三. 常用模块 - logging 四. 常用模块 - re 五. 常用模块 - requests 六. 常用模块 - paramiko 一. 常用模块 - hashlib hash: 一种算法, 3.x里代替了md5模块和sha模块, 主要提供 SHA1, SHA224, SHA256, SHA384, SHA512, MD5 …

UART介绍

1. 概述 UART, Universal Asynchronous Receiver-Transmitter, 通用异步收发器; 串口:在嵌入式里指的是UART口,常用TTL电平即3.3V或者5.0V; COM口:在台式机上常用的口,DB9那种接口,接口协议只…

mongodb环境安装

1、mongodb安装 我采用的是离线安装, (1)在mongodb的官方网址下载所需要的版本。我下载的是 mongodb-linux-x86_64-ubuntu1604-3.4.5.tgz 。 (2)下载后解压缩到待安装目录,我这里下载在了Downloads目录…

IIC 总线接口详细介绍

1. 概述 IIC Inter Integrated-Circuit 总线是PHLIPS公司推出的一种串行总线,是具备多主机系统所需的包括总线裁决和高低速器件同步功能的高性能串行总线,它支持多主控(multimastering),其中任何能够进行发送和接收的设备都可以成为主总线。…

Android JNI开发系列(二)HelloWorld

2019独角兽企业重金招聘Python工程师标准>>> 入门HelloWorld 新建项目 Configure your new project部分选中 Include C Support 复选框 Next 正常填写所有其他字段并完成向导接下来几个部分 在向导的Customize C Support 部分,您可以使用谢列选项自定…

sublime text3安装js提示的插件

今天安装Sublime Text3的js插件,在网上查了很多资料,为了方便以后看,写一个安装插件的总结和方法。 要安装js相关的插件,就要先安装一个Package Control(插件管理器)的插件,通过这个插件再去安装…

SPI接口详细介绍

1. 概述 SPI Serial Peripheral Interface,是串行外围设备接口,是一种高速,全双工,同步的通信总线。常规只占用四根线,节约了芯片管脚,PCB的布局省空间。现在越来越多的芯片集成了这种通信协议&#xff0…

H.264 Profile、Level、Encoder三张简图

H.264有四种画质级别,分别是BP、EP、MP、HP: 1、BP-Baseline Profile:基本画质。支持I/P 帧,只支持无交错(Progressive)和CAVLC;   2、EP-Extended profile:进阶画质。支持I/P/B/SP/SI 帧&…

智能音箱 之 平台方案简介

智能音箱,被认为是物联网时代的入口,在去年成为了各大厂商争相投入的风口。在当今互联网时代,它不仅仅是一台单纯的音乐播放器,在其背后支撑的 AI 技术才是整个产品的核心,也是各大公司觊觎物联网入口的最根本原因。经…

Linux编程 23 shell编程(结构化条件判断 命令if -then , if-then ... elif-then ...else,if test)...

一.概述 在上一篇里讲到了shell脚本,shell按照命令在脚本中出现的顺序依次进行处理,对于顺序操作已经足够了,但许多程序要求对shell脚本中的命令加入一些逻辑流程控制,这样的命令通常叫做 结构化命令。 1.1 使用if - then语句 --最…

IIS接口详细介绍

1. 概述 I2S Inter-IC Sound Integrated Interchip Sound IIS,是飞利浦在1986年定义(1996年修订)的数字音频传输标准,用于数字音频数据在系统内器件之间传输,例如编解码器CODEC、DSP、数字输入/输出接口、ADC、DAC…

继承进阶

先讲一个例子&#xff1a; #老师有生日&#xff0c;怎么组合哪&#xff1f; class Birthday: # 生日def __init__(self,year,month,day):self.year yearself.month monthself.day dayclass Teacher: # 老师<br>def __init__(self,name,birth):self.name nameself.b…

PCM接口详细介绍--TDM方式

1. 概述 PCM = Pulse Code Modulation 是通过等时间隔(即采样率时钟周期)采样将模拟信号数字化的方法。图为4 bit 采样深度的PCM数据量化示意图: PCM数字音频接口,说明接口传输的音频数据是通过PCM方式采样得到的,区别于PDM形式;IIS传输的也是PCM类型数据,属于其一个特…

Kconfig文件结构(图文)简介

1 Kconfig和Makefile 毫不夸张地说&#xff0c;Kconfig和Makefile是我们浏览内核代码时最为依仗的两个文件。基本上&#xff0c;Linux 内核中每一个目录下边都会有一个Kconfig文件和一个Makefile文件。Kconfig和Makefile就好似一个城市的地图&#xff0c;地图引导我们去 认识一…

PDM接口介绍

1. 概述 PDM Pulse Density Modulation是一种用数字信号表示模拟信号的调制方法。 PDM则使用远高于PCM采样率的时钟采样调制模拟分量&#xff0c;只有1位输出&#xff0c;要么为0&#xff0c;要么为1。因此通过PDM方式表示的数字音频也被称为Oversampled 1-bit Audio。相比P…

Kaggle 泰坦尼克

入门kaggle&#xff0c;开始机器学习应用之旅。 参看一些入门的博客&#xff0c;感觉pandas&#xff0c;sklearn需要熟练掌握&#xff0c;同时也学到了一些很有用的tricks&#xff0c;包括数据分析和机器学习的知识点。下面记录一些有趣的数据分析方法和一个自己撸的小程序。 1…

语音交互设备 前端信号处理技术和语音交互过程介绍

一、前端信号处理 1. 语音检测&#xff08;VAD&#xff09; 语音检测&#xff08;英文一般称为 Voice Activity Detection&#xff0c;VAD&#xff09;的目标是&#xff0c;准确的检测出音频信号的语音段起始位置&#xff0c;从而分离出语音段和非语音段&#xff08;静音或噪…

【BZOJ1500】[NOI2005]维修数列 Splay

【BZOJ1500】[NOI2005]维修数列 Description Input 输入的第1 行包含两个数N 和M(M ≤20 000)&#xff0c;N 表示初始时数列中数的个数&#xff0c;M表示要进行的操作数目。第2行包含N个数字&#xff0c;描述初始时的数列。以下M行&#xff0c;每行一条命令&#xff0c;格式参见…

bzoj2588: Spoj 10628. Count on a tree(树上第k大)(主席树)

每个节点继承父节点的树&#xff0c;则答案为query(root[x]root[y]-root[lca(x,y)]-root[fa[lca(x,y)]]) #include<iostream> #include<cstring> #include<cstdlib> #include<cstdio> #include<algorithm> using namespace std; const int maxn1…

图文详解YUV420数据格式

YUV格式有两大类&#xff1a;planar和packed。 对于planar的YUV格式&#xff0c;先连续存储所有像素点的Y&#xff0c;紧接着存储所有像素点的U&#xff0c;随后是所有像素点的V。 对于packed的YUV格式&#xff0c;每个像素点的Y,U,V是连续交*存储的。 YUV&#xff0c;分为三个…