原创:转载需附链接: 音频客观感知MOS对比,对ViSQOL、PESQ、MosNet(神经网络MOS分)和polqa一致性对比和可信度雁阵_machine-lv的博客-CSDN博客谢谢!
本文章以标准polqa的mos分为可信前提,验证visqol、peqq、mosnet与polqa的一致性,以及visqol的可信度验证;主要用于 编解码、 降噪、回声消除等算法的感知效果进行打分,从而促进算法的迭代和可信度;
一、评价方式
- 主观评价:
- 优点:主观测试是音频评价的黄金准则,最符合人的实际听感。
- 缺点:主观评测费时费力,测试者太少、测试者不规范等都会带来测试误差;
- 常用方法:AB-TEST, MUSHAR
- 客观打分:
- 优点:方便测试和开发人员,快速验证语音的相对质量,方便日常工作,提升开发和测试效率;
- 缺点:不能够完全符合人的听觉感知,存在听感好打分低的情况;
- 常用方案:有参考(POLQA, PESQ, VISQOL)和无参考(ITU-TP.1201传统方法和MOSNET的AI打分)
二、PESQ 和 VISQOL测试对比
- 对比维度:
- 基础对比:Visqol和polqa支持16khz和48khz打分, visqol支持频带和时间帧打分,pesq支持8khz和16khz打分;mosnet支持16khz的帧输出打分;
- 两者与POLQA的一致性对比 : visqol和polqa的一致性更高, pesq颗粒度不够, mosnet(AI无参考模型)表现最差;
注:SMD48和SMD49,SMD50和SMD51,SMD271和SMD272这三对音频各对的音源相同,并且每对的后者都针对前者做了过认证优化。
- 音量的影响:音量差异影响不大,但是当降低-18db开始分数降低;
- 混响的影响: 混响音响较大,加入混响分数就开始降低,但是混响大小影响有规律
- 噪音的影响:噪音影响很大,加入噪音分数就明显降低,但是不同信噪比变化有规律
- 频带缺失的影响:频带缺失影响打分较大,但是不同的频带模型还是能够匹配降低不同的分值;
2. 总结
visqol和polqa有较高的一致性(可能有幸存者偏差,但是拿到的数据是我们过认证的随机音频),visqol也存在和听感不符合的打分,例如加入轻微混响和噪音都会对打分有影响;但是混响和噪音的影响随着RT60和SNR的变化是有规律的,如果在降噪和混响模型的测试,也具相对意义,可以进行研发的自测;