1 测试数据集介绍
(1)Audioset数据集: 从该数据集中筛选出鼾声数据500条;
(2)人工采集的数据集:我们收集了鼾声及咳嗽数据50条,其中鼾声数据40条,咳嗽数据10条,利用shuteye录制。
2 评价指标
原始标签:1个或者多个;
预测标签:top-n
个标签;
评价方法:如果原始标签在预测标签中出现,则认为预测正确,此处不考虑原始标签在预测标签中排名。例如Snoring
在top-n
之中,则认为该测试数据为Snoring
数据,否则认为没有打鼾。最后的预测公式为:准确率 = 预测正确的个数 / 总的预测个数
3 测试结果
3.1 鼾声测试
3.1.1 AudioSet数据集
-
当
n
取1
的时候,测试用例在100
条时只有10%
的正确率,测试用例在300
条时达到16.2%
的正确率,测试用例在500
条时达到16.2%
的正确率。
-
当
n
取2
的时候,测试用例在100
条时只有57%
的正确率,测试用例在300
条时达到64.7%
的正确率,测试用例在500
条时达到70.2%
的正确率。
-
当
n
取3
的时候,测试用例在100
条时只有80%
的正确率,测试用例在300
条时达到80.7%
的正确率,测试用例在500
条时达到84.8%
的正确率。
-
当
n
取4
的时候,测试用例在100
条时只有83%
的正确率,测试用例在300
条时达到84.3%
的正确率,测试用例在500
条时达到87.6%
的正确率。
-
当
n
取5
的时候,测试用例在100
条时达到84%
的正确率,测试用例在300
条时达到85%
的正确率,测试用例在500
条时达到88.4%
的正确率。
-
当
n
取6
的时候,测试用例在100
条时达到84%
的正确率,测试用例在300
条时达到86%
的正确率,测试用例在500
条时达到89.2%
的正确率。
-
当
n
取7
的时候,测试用例在100
条时达到87%
的正确率,测试用例在300
条时达到88%
的正确率,测试用例在500
条时达到90.4%
的正确率。
-
当
n
取8
的时候,测试用例在100
条时达到87%
的正确率,测试用例在300
条时达到88.67%
的正确率,测试用例在500
条时达到90.8%
的正确率。
-
当
n
取9
的时候,测试用例在100
条时达到88%
的正确率,测试用例在300
条时达到89.67%
的正确率,测试用例在500
条时达到91.6%
的正确率。
-
当
n
取10
的时候,测试用例在100
条时达到87%
的正确率,测试用例在300
条时达到90.6%
的正确率,测试用例在500
条时达到92.4%
的正确率。
3.1.2 人工数据集
人工采集数据来源于自己录制,相比audioset
中的音频,,n
取1
的准确率为0
,n
取2
的准确率最后只有30%
,n
取3
的准确率最后只有58.7%
,n
取4
的准确率最后只有60.9%
,n
取5~9
的效果都准确率最后只有75%+
。
n
取10
的时候最后准确率在78%
左右。
原因分析:采集的数据中背景噪声较大,且有些音频存在大段静默(占80%左右),打鼾声音很微弱,因此预测效果没有Audioset的准确率高。
3.2 Cough测试:人工数据集
由于Cough数据较少,因此在网上也收集了一些相关音频,测试结果如下。n
取5
的时候,准确率为80%;n
取10
的时候,准确率依旧为80%左右。
4 讨论
在测试的时候,很重要在于测试数据采集是否准确。
目前在人工收集数据的时候,主要用到蜗牛睡眠和shuteye,两个软件对比如下:
- 蜗牛睡眠只能录鼾声和梦话,并且不够准确,好处就是免费;
- shuteye可以录鼾声、梦话、咳嗽、磨牙、噪音等,种类比蜗牛睡眠多,录得也要准确些,需要付费。