睡眠声音识别中的准确率问题(一)--问题描述及评价指标

1 问题描述

如何定义一个评价指标来评估睡眠声音识别中的准确率?

1.1 按照评分如何设计评价指标

睡眠声音识别预测的结果是一个概率分布,如下表所示:

c1c_1c1c2c_2c2c3c_3c3snortspeechcough
0.50.20.70.550.450.77

在这种场景下,如何设计合适的评价指标。

1.2 按照多标签如何设计评价指标

令阈值δ=0.5\delta = 0.5δ=0.5,将上表的概率分布学习退化为多标签学习,如下表所示:

c1c_1c1c2c_2c2c3c_3c3snortspeechcough
0.50.20.7101

在这种场景下,如何设计合适的评价指标。

1.3 按照top-n标签如何设计评价指标

睡眠声音识别预测的结果是一个top-n的标签,如何设计合适的评价指标?
(1)场景1:
假设样本x1x_1x1的top-5原始标签为:d1,d2,d3,d4,d5d_1, d_2, d_3, d_4, d_5d1,d2,d3,d4,d5
假设样本x1x_1x1的top-5预测标签为:d2,d3,d4,d5,d6d_2, d_3, d_4, d_5, d_6d2,d3,d4,d5,d6
(2)场景2:
假设样本x1x_1x1的原始标签为:d1d_1d1(单标签)
假设样本x1x_1x1的top-5预测标签为:d2,d1,d3,d4,d5d_2, d_1, d_3, d_4, d_5d2,d1,d3,d4,d5

2 解决思路

2.1 按照评分设计评价指标

是否可以借鉴标签分布学习来设计评价指标?

2.2 按照多标签设计评价指标

是否借鉴多标签学习来设计评价指标?在AudioSet数据集中,用到AUC和mAP两种评价指标,如何改进AUC和mAP来适应当前的应用场景?

2.3 按照top-n设计评价指标

(1) 对于场景1,设计思路为:
对于预测返回top-n个标签,我们计算多个标签的平均精度。以top-5为例说明,对于样本x1x_1x1,我们计算标签d1d_1d1的精度p1p_1p1,再计算d2d_2d2的精度p2p_2p2,依次类推,最后计算
mP=∑i=15pi5(1)mP = \frac{\sum_{i = 1}^5{p_i}}{5} \tag1mP=5i=15pi(1)
这里需要考虑的问题是: 标签是否考虑所处的位置?如在原始标签中d2d_2d2排第二名,而预测标签中d2d_2d2排第一名。
(2) 对于场景2,设计思路为:
如果样本的原始标签只有一个d1d_1d1,我们可以做一个非常粗暴的方案,只要预测的top-n标签中出现了d1d_1d1,则认为是准确的。

3 讨论

1、YAMNet的学习样本是怎么来的?
(1)它是有监督的学习,还是无监督的学习,还是半监督学习?
(2)它的音频特征、标签、标签的概率值是怎么得来的?
2、斌元提到在测试的时候,鼾声音频的评分不稳定?
(1)对同一个样本评分是一致的;
(2)不同的鼾声音频,YAMNet的评分不太一样,有些的分数是0.8,有些分数是0.2;
(3)在做评价的时候要不要去考虑强度问题?
3、在预测的时候,翻身和磨牙都不怎么准确,怎么处理?
(1)磨牙的预测结果:
在这里插入图片描述
在这里插入图片描述

4 下一步工作:

4.1 调研YAMNet是怎么进行评价的?

For our metrics, we calculated the balanced average across all classes of AUC (also reported as the equivalent d-prime class separation), and mean Average Precision (mAP).
对于我们的指标,我们计算了所有 AUC 类的平衡平均值(也报告为等效的 d-prime 类分离)和平均精度 (mAP)。
AUC is the area under the Receiver Operating Characteristic (ROC) curve, that is, the probability of correctly classifying a positive example (correct accept rate) as a function of the probability of incorrectly classifying a negative example as positive (false accept rate); perfect classification achieves AUC of 1.0 (corresponding to an infinite d-prime), and random guessing gives an AUC of 0.5 (d-prime of zero).
AUC是Receiver Operating Characteristic (ROC)曲线下的面积,即正确分类正例的概率(正确接受率)作为将负例错误分类为正例的概率(错误接受率)的函数; 完美分类的 AUC 为 1.0(对应于无限的 d-prime),随机猜测的 AUC 为 0.5(d-prime 为零)。
mAP is the mean across classes of the Average Precision (AP), which is the proportion of positive items in a ranked list of trials (i.e., Precision) averaged across lists just long enough to include each individual positive trial.
mAP 是平均精度 (AP) 的跨类别的平均值,它是经过排序的试验列表(即精度)中正项的比例,该列表的平均长度刚好足以包括每个单独的正试验。
AP is widely used as an indicator of precision that does not require a particular retrieval list length, but, unlike AUC, it is directly correlated with the prior probability of the class. Because most of our classes have very low priors (<10−4< 10^{−4}<104), the mAPs we report are typically small, even though the false alarm rates are good.
AP 被广泛用作不需要特定检索列表长度的精度指标,但与 AUC 不同,它与类的先验概率直接相关。 因为我们的大多数类都有非常低的先验(<10−4< 10^{−4}<104),我们报告的 mAP 通常很小,即使误报率很高。
On the 20,366-segment AudioSet eval set, over the 521 included classes, the balanced average d-prime is 2.318, balanced mAP is 0.306, and the balanced average lwlrap is 0.393.
在 20,366 段 AudioSet 评估集上,在 521 个包含的类中,平衡平均 d-prime 为 2.318,平衡 mAP 为 0.306,平衡平均 lwlrap 为 0.393。

4.2 调研AudioSet是如何标注的分数?

Segments are proposed for labeling using searches based on metadata, context (e.g., links), and content analysis.
建议使用基于元数据、上下文(例如,链接)和内容分析的搜索来标记音频段.
一个提供语音片段的网站:freesound.org.
This set of classes will allow us to collect labeled data for training and evaluation.
这组类将允许我们收集标记数据以进行训练和评估。
For each segment, raters were asked to independently rate the presence of one or more labels. The possible ratings were “present”, “not present” and “unsure”. Each segment was rated by three raters and a majority vote was required to record an overall rating. For speed, a segment’s third rating was not collected if the first two ratings agreed for all labels.
对于每个语音段,评估者被要求独立评估一个或多个标签的存在。 可能的评级为“存在”、“不存在”和“不确定”。 每个部分由三名评分者评分,需要多数票才能记录总体评分。 出于速度的考虑,如果所有标签的前两个评分都一致,则不会收集细分的第三个评分。
The raters were unanimous in 76.2% of votes. The “unsure” rating was rare, representing only 0.5% of responses, so 2:1 majority votes account for 23.6% of the decisions. Categories that achieved the highest rater agreement include “Christmas music”, “Accordion” and “Babbling” (>0.92> 0.92>0.92); while some categories with low agreement include “Basketball bounce”, “Boiling” and “Bicycle” (<0.17< 0.17<0.17).
评分者以 76.2% 的票数一致通过。 “不确定”评级很少见,仅占回应的 0.5%,因此 2:1 多数票占决定的 23.6%。 获得评分者一致同意的最高类别包括“圣诞音乐”、“手风琴”和“Babbling”(>0.92> 0.92>0.92); 而一些一致性较低的类别包括“篮球反弹”、“沸腾”和“自行车”(<0.17<0.17<0.17)。

4.3 调研多标签学习的评价指标?

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/507678.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

c51 嵌入汇编语言,在C51中嵌入汇编

在C51编程中&#xff0c;有时控制一些器件时&#xff0c;需要较强实时性&#xff0c;这时有必要在其中嵌入ASM语句&#xff0c;关于嵌入的方法众多&#xff0c;网上也可以找到相关说明&#xff0c;不过说得并不详细&#xff0c;这里结合本人调试18B20测温程序来说说如何在C中嵌…

睡眠声音识别中的准确率问题(二)--测试结果及分析

1 测试数据集介绍 &#xff08;1&#xff09;Audioset数据集&#xff1a; 从该数据集中筛选出鼾声数据500条&#xff1b; &#xff08;2&#xff09;人工采集的数据集&#xff1a;我们收集了鼾声及咳嗽数据50条&#xff0c;其中鼾声数据40条&#xff0c;咳嗽数据10条&#xff…

睡眠声音识别中的准确率问题(三)--采集的音频测试结果及分析

简介 本次我们对自己采集的93条Snoring音频进行测试并分析。 不区分音频质量的测试。 分别测试了NNN取1-5、8以及10时候的准确率&#xff0c;测试结果如下所示&#xff1a; N2345810Accuracy0.27960.47310.49460.49460.54840.5699 分析&#xff1a;从上表中可以得出…

中文 转gbk编码_go查找中文首字母

前言常见的通讯录都是按首字母来排序的&#xff0c;想象一下你要实现一个首字母排序的功能&#xff0c;若是全英文&#xff0c;那将会是一件很轻松的事情&#xff0c;一般语言层面就会提供排序方法&#xff0c;亦或自己实现也不是难事&#xff0c;那如果存在中文呢&#xff1f;…

语音增强相关技术综述

1 非监督语音增强技术 2 监督语音增强技术 3 github上提供的源代码及分析 3.1 Dual-signal Transformation LSTM Network 简介 https://github.com/breizhn/DTLN 用于实时噪声抑制的堆叠双信号变换 LSTM 网络 (DTLN) 的 Tensorflow 2.x 实现。这个存储库提供了在 python …

睡眠音频分割及识别问题(十二)--基于IOS的YAMNet音频识别(总结)

1 结构体 此部分定义了两个结构体用于存储音频信息&#xff1a; AudioFragment&#xff1a;用于存储单个音频片段&#xff08;0.975s, 16000Hz&#xff09;的标签评分信息&#xff1b;AudioInfo&#xff1a;用于存储整个音频信息&#xff0c;包含音频文件名、时间等基础信息&…

js 字符串替换_正则精要:玩转JS正则表达式,也许只需这一篇(建议收藏)

0.导引在正文开始前&#xff0c;先说说正则表达式是什么&#xff0c;为什么要用正则表达式&#xff1f;正则表达式在我个人看来就是一个程序可以识别的规则&#xff0c;有了这个规则&#xff0c;程序就可以帮我们判断某些字符是否符合我们的要求。但是&#xff0c;我们为什么要…

小米平板android最新版本,想要翻身还需努力 小米平板2安卓版评测

1依旧发烧&#xff1f;小米平板2评测如今的平板市场虽不能用日薄西山来形容&#xff0c;但各大厂商费尽心机惨淡经营也无力阻止平板电脑市场的衰落&#xff0c;iPad Air和Mini系列的销量下滑迫使苹果不得不用寄希望于iPad Pro打开一片新天地&#xff0c;而在手机行业风生水起了…

国内计算机类APP相关竞赛总结

中国高校计算机大赛–移动应用创新赛 http://www.appcontest.net/ 中国高校计算机大赛—移动应用创新赛”旨在促进高校计算机课程教学内容和教学方法改革&#xff0c;激发学生创新意识&#xff0c;提升学生利用计算机分析问题、解决问题的能力&#xff0c;特别是移动应用的设计…

flink 写kafka_flink消费kafka的offset与checkpoint

生产环境有个作业&#xff0c;逻辑很简单&#xff0c;读取kafka的数据&#xff0c;然后使用hive catalog&#xff0c;实时写入hbase&#xff0c;hive&#xff0c;redis。使用的flink版本为1.11.1。为了防止写入hive的文件数量过多&#xff0c;我设置了checkpoint为30分钟。env.…

论文阅读:超高分辨率图像中快速、准确的条码检测

摘要 由于目标对象的尺度不同&#xff0c;超高分辨率 (UHR) 图像中的对象检测长期以来一直是计算机视觉中的一个具有挑战性的问题。在条码检测方面&#xff0c;将 UHR 输入图像调整为更小的尺寸通常会导致相关信息的丢失&#xff0c;而直接处理它们的效率很高且计算成本很高。…

android 多线程 场景,精选Android初中级面试题 (三): 深探Handler,多线程,Bitmap

码个蛋(codeegg) 第 930 次推文作者&#xff1a;Focusing链接&#xff1a;https://juejin.im/post/5c85cead5188257c6703af47Handler1、谈谈消息机制Handler作用 &#xff1f;有哪些要素 &#xff1f;流程是怎样的 &#xff1f;参考回答&#xff1a;负责跨线程通信&#xff0c;…

通过超分辨率重构来提高二维码的对比度

1 问题描述 &#xff08;1&#xff09;图像分辨率小。例如一些嵌入在海报&#xff08;如图1&#xff09;或远距离拍摄的码&#xff0c;其分辨率远小于通常情况下的码图像。 图1.海报中的二维码占比很小 &#xff08;2&#xff09;图像质量较低。有很多是经过了多次的压缩和转…

android web 访问数据库,Web下的JDBC访问数据库的基本步骤

Web下的JDBC访问数据库的基本步骤(2012-06-02 12:09:33)在Java程序中连接数据库的一般步骤分为一下几部分&#xff0c;我摘录出来&#xff0c;跟大家分享。(1)将数据库的JABC驱动加载到classpath中&#xff0c;在基于JavaEE的Web应用开发过程中&#xff0c;通常把JDBC驱动放在W…

linux 磁盘扩容_记录一次ESXi Linux在线扩容,不重启系统

因为工作需要&#xff0c;需要将运行在ESXi主机上面的一台Centos 里面的一个LV卷进行扩容&#xff0c;下面记录了此次扩展的详细过程&#xff0c;整个过程&#xff0c;不需要重启服务器。1. 首先通过df-h 查看当前磁盘结构如下&#xff1a;我们此次的最终目标&#xff0c;就是将…

android item三种,Android RecyclerView中的ItemDecoration的几种绘制方法

如题&#xff0c;我们使用recyclerview的时候&#xff0c;如果没有设置显示条目的margin&#xff0c;或者padding的话&#xff0c;是没有分割线效果的。那么除去使用margin或padding,其余的方法是用itemdecoration绘制分割线我们绘制分割线的时候通常会使用drawable去绘制&…

上传文件和提交textfield_0基础掌握Django框架(37)文件上传

为了更好的学习效果&#xff0c;请搭配视频教程一起学习&#xff1a;Django零基础到项目实战 - 网易云课堂​study.163.com文件上传&#xff1a;文件上传是网站开发中非常常见的功能。这里详细讲述如何在Django中实现文件的上传功能。前端HTML代码实现&#xff1a;在前端中&…

华为p10刷原生android,华为p10怎么刷机 华为p10刷机方法【详细介绍】

喜欢折腾手机的用户一定对于手机root权限获取不陌生&#xff0c;root后虽然不能享受官方联保服务但同时带来的好处不用小编多说。前面给大家介绍了 华为p10 刷入第三方recovery教程&#xff0c;现在华为p10刷机包已经放出来&#xff0c;小编给大家带来华为p10刷机权限获取教程。…

使用container的嵌套_ElementUI 技术揭秘(4)— Container 布局容器组件的设计与实现。...

前言上一篇文章我们分析了 Layout 布局组件的设计和实现&#xff0c;它的应用场景通常是局部布局。对于整个页面的布局&#xff0c;element-ui 提供了 Container 布局容器组件&#xff0c;专门用于 PC 管理后台页面的整体布局。需求分析我们先通过几幅图看一下页面的常见布局。…

宝马屏幕共享android,宝马屏幕共享功能怎么用

【太平洋汽车网】使用宝马屏幕共享要先打开车载电脑多媒体功能&#xff0c;再选择屏幕共享手机投屏&#xff0c;勾掉宝马互联选项&#xff0c;然后再打开手机wifi&#xff0c;选择BMW输入密码即可使用屏幕共享。车手机互联映射即车机互联&#xff0c;就是将手机投屏到车载显示器…