睡眠音频分割及识别问题(五)--YAMNet进一步分析

news/2025/7/13 11:38:18/文章来源:https://blog.csdn.net/search_129_hr/article/details/118678179

简介

YAMNet 是一个经过预训练的深度网络，可基于 AudioSet-YouTube 语料库预测 521 种音频事件类别，并采用Mobilenet_v1深度可分离卷积架构。

输入

模型训练所使用的音频特征计算方式如下：

所有音频均重采样为 16 kHz 单声道。
通过长度 25 毫秒，步长为 10 毫秒，且具有周期性 Hann 时间窗的短时距傅里叶变换计算出声谱图。
通过将声谱图映射到覆盖 125 至 7500 Hz 范围的 64 个梅尔仓计算出梅尔声谱图。
然后将这些特征分帧成具有 50% 重叠且长度为 0.96 秒的示例，每个示例覆盖 64 个梅尔频段，总共 96 帧，每帧 10 毫秒。

声谱图(spectrogram)

声音信号是一维信号，直观上只能看到时域信息，不能看到频域信息。通过傅里叶变换(FT)可以变换到频域，但是丢失了时域信息，无法看到时频关系。为了解决这个问题，产生了很多方法，短时傅里叶变换，小波等都是很常用的时频分析方法。

短时傅里叶变换(STFT)，就是对短时的信号做傅里叶变换。原理如下：对一段长语音信号，分帧、加窗，再对每一帧做傅里叶变换，之后把每一帧的结果沿另一维度堆叠，得到一张图（类似于二维信号），这张图就是声谱图。

梅尔频谱

由于得到的声谱图较大，为了得到合适大小的声音特征，通常将它通过梅尔尺度滤波器组(Mel-scale filter banks)，变为梅尔频谱。

频率的单位是HZ，人耳能听到的频率范围是20-20000HZ，但是人耳对HZ单位不是线性敏感，而是对低HZ敏感，对高HZ不敏感，将HZ频率转化为梅尔频率，则人耳对频率的感知度就变为线性。变换公式如下：

$mel(l) = 2595 * log_{10}^{(1+f/700)}$

输出

将这些 96x64 的片段馈送到 Mobilenet_v1 模型，以在卷积之上针对 1024 个内核生成一个 3x2 的激活函数数组。平均之后将得到 1024 维的嵌入向量，然后通过单个逻辑层得到对应于 960 毫秒输入波形段的 521 个按类别的输出得分（由于采用窗口分帧，您至少需要 975 毫秒的输入波形才能获得第一帧输出得分）。

模型

模型采用了大量的卷积和深度可分离卷积层。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/507735.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

vb.net调用oracle存储过程,vbnet2008连接oracle增删改查学习笔记(经典crud_含存储过程).doc...

vb.net调用oracle存储过程,vbnet2008连接oracle增删改查学习笔记(经典crud_含存储过程).doc...

vbnet2008连接oracle增删改查学习笔记(经典crud_含存储过程).doc 我的VBNETORACLE增删改查学习笔记(本源码在VBNET2008下测试通过)学习VBNET有一段时间了，之前一直学习VB60。过度到NET后发现与之前所学习的有了相当大的变化。于是将编程经常用到的增删改查代码提炼出…

阅读更多...

睡眠音频分割及识别问题(六)--输入输出及方案讨论

睡眠音频分割及识别问题(六)--输入输出及方案讨论

简介 2021年7月13日，我和我的三个研究生一起拜访了玉米树，和王总等一起针对睡眠音频分割及识别问题进行了深入的讨论，达成了如下共识。输入由于保存整个晚上的睡眠音频所需要的存储空间过大，目前拟采用每隔30分钟&#xff08…

阅读更多...

python文件独特行数_python——文件和数据格式化练习题：文件独特行数

python文件独特行数_python——文件和数据格式化练习题：文件独特行数

描述统计附件文件中与其他任何其他行都不同的行的数量，即独特行的数量。问题分析这道题是python123课程里面的一道题，我先说一下我的分析过程： 要实现问题找到不同行数，那就要用每一行分别和出它以外剩余所有行比较&#xff0c…

阅读更多...

睡眠音频分割及识别问题(七)--接口输入输出讨论

睡眠音频分割及识别问题(七)--接口输入输出讨论

简介关于接口输入输出的讨论。输入 1、音频文件路径，类型为：字符串； 2、预测多标签类型的排名，前n名，类型为：整型。处理 1、将输入的音频分割为多个以1s为时间单位的音频片段； 2、利用P…

阅读更多...

dhcp工具_网络分析之DHCP服务闯入QinQ二层隧道引发故障

dhcp工具_网络分析之DHCP服务闯入QinQ二层隧道引发故障

一、Wireshark显示过滤器和QinQ二层隧道简述1．本段主要简述什么是Wireshark显示过滤器。显示过滤器是在现有的数据包中通过过滤条件，筛选想要查看的对象，不会丢失数据包，只是为了增强用户阅读而将一部分数据包隐藏起来。在“应用显…

阅读更多...

php redis存储位置,redis数据保存在哪里

php redis存储位置,redis数据保存在哪里

redis的数据是存在内存里吗？首先要明白redis是一个数据库，redis是一个内存数据库，所有数据基本上都存在于内存当中，会定时以追加或者快照的方式刷新到硬盘中。 (推荐学习：Redis视频教程)由于redis是一个内存数据库&…

阅读更多...

python 多条件选择算法_浅析Python中的多条件排序实现

python 多条件选择算法_浅析Python中的多条件排序实现

多条件排序及itemgetter的应用曾经客户端的同事用as写一大堆代码来排序，在得知Python排序往往只需要一行，惊讶无比，遂对python产生浓厚的兴趣。之前在做足球的积分榜的时候需要用到多条件排序，如果积分相同，则按净胜球…

阅读更多...

推荐系统: 数据、问题与算法

推荐系统: 数据、问题与算法

网络的迅速发展带来了信息量的大幅增长，使得用户在面对大量信息时无法从中获得对自己真正有用的那部分信息，对信息的使用效率反而降低了，导致信息超载（information overload）问题。解决信息超载问题一个非常有潜力的办…

阅读更多...

python字典遍历没有顺序_Python中字典的顺序问题（为什么实践发现字典的遍历和方法popitem并不是随机的？）...

python字典遍历没有顺序_Python中字典的顺序问题（为什么实践发现字典的遍历和方法popitem并不是随机的？）...

据称，字典的遍历是没有一定顺序的，但是我在实践中发现，它总是从第一组元素开始依次遍历到最后一个元素。 my_dict dict.fromkeys(range(10**5)) i 0 for k, v in my_dict.items(): ... if k ! i: ... print(k, i) ... print("字典的遍…

阅读更多...

linux内核优化策略,linux系统调优小结

linux内核优化策略,linux系统调优小结

关于安全系统的调优：1、关闭selinux安全策略sed -i s#SELINUXenforcing#SELINUXdisabled#g /etc/sysconfig/selinuxfor oldboy in chkconfig --list|grep "3:on"|awk {print $1}|grep -vE "crond|network|sshd|rsyslog";do chkconfig $oldboy o…

阅读更多...

睡眠音频分割及识别问题(八)--数据采集

睡眠音频分割及识别问题(八)--数据采集

问题在采用PANN或者YAMNet框架进行学习的时候，没有梦话、磨牙等睡眠音频数据，在一些公开数据集上也没有找到（如果有哪位读者知道，麻烦给我在评论区留言，万分感谢）。公开数据集包括： &#xf…

阅读更多...

旋转矩阵公式生成器_坐标变换(8)—复特征值与旋转

旋转矩阵公式生成器_坐标变换(8)—复特征值与旋转

1.共轭复特征值设是的实矩阵，假设是的特征值，为对应的特征向量，则同样是的特征值，而是对应的特征向量，所以，当是的实矩阵，它的复特征值以共轭复数对出现。2. rotation-scaling matrix假如,为实数…

阅读更多...

睡眠音频分割及识别问题(九)--Android下的YAMNet

睡眠音频分割及识别问题(九)--Android下的YAMNet

部署PANNs模型面临的问题加载模型出错在使用PANNs模型时，在PC端可以较好的运行，可是在Android端运行的时候，编译过程提示缺少libpytorch_jni.so文件，导致无法加载模型，无法预测。（如果有读者可以解决这个…

阅读更多...

linux终端如何打开文件夹,如何从终端打开文件夹(带GUI)？

linux终端如何打开文件夹,如何从终端打开文件夹(带GUI)？

问题描述我想在我的统一面板(ubuntu 12.10)中放置一个链接/快捷方式/启动器。我在handytutorial.com上按照this tutorial创建了一个自定义启动器并将其拖到面板上。我只需要知道我必须输入哪个命令。这可能吗？最佳解决方案gnome-open在12.04对我不起作用&#xff0c…

阅读更多...

linux 打开上一级目录,linux开机启动过程、PATH、过滤一级目录、cd的参数、ls -lrt、命令切割日志...

linux 打开上一级目录,linux开机启动过程、PATH、过滤一级目录、cd的参数、ls -lrt、命令切割日志...

第二波命令正向我方来袭 ：开机启动过程、PATH、过滤一级目录、cd的参数、ls -lrt、命令切割日志1.1 linux开机启动过程1.1.1 开机自检(BIOS)-- MBR引导-- GRUB菜单--加载内核(kernel)--运行INIT进程--读取/etc/inittab配置文件--执行/etc/rc.sysinit脚本(初始化脚本…

阅读更多...

睡眠音频分割及识别问题(十)--Java读取wav文件

睡眠音频分割及识别问题(十)--Java读取wav文件

简介 Waveform Audio File Format（WAVE，又或者是因为扩展名而被大众所知的 wav），是微软与 IBM公司所开发在个人电脑存储音频流的编码格式。由于项目需要从 wav 文件中读取音频数据，现有许多框架的 API 文档参差不齐&…

阅读更多...

python 开发板 i2s_[Craftor原创] I2S总线接口设计（Verilog）

python 开发板 i2s_[Craftor原创] I2S总线接口设计（Verilog）

本文有Craftor原创，转载请保留出处。 I2S是数字音频的接口，这里不用多说，请读者自己查阅相关资料。本文中要设计的是FPGA与数字音频芯片的I2S接口时序。简单点说，就是通过FPGA向音频芯片写数据，通过的是I2S总线&#…

阅读更多...

linux内核态获取ip地址,Linux内核支持动态获取IP地址

linux内核态获取ip地址,Linux内核支持动态获取IP地址

配置选项：NFS: Network File SystemPNP: Plug-and-PlayCONFIG_ROOT_NFS若想要Linux box通过NFS依赖网络上的其他计算机来mount其整个根文件系统(假定该机器没有硬盘)，则配置为Y。此时，可能还需要将"内核IP自动配置"设置为Y, 以便本…

阅读更多...

深度学习(1)--引言

深度学习(1)--引言

表示学习(representation learning) 使用机器学习来发掘表示本身，而不仅仅把表示映射到输出。表示学习算法的典型例子为自编码器(autoencoder)。自编码器由一个编码器(encoder)函数和一个解码器(decoder) 函数组合而成。编码器：将输入数据转换为一种…

阅读更多...

pycharm配置python环境变量_求教大家 pycharm 中，环境变量 path 的问题！

pycharm配置python环境变量_求教大家 pycharm 中，环境变量 path 的问题！

问题的发现在 pycharm 里把一个编译好的二进制文件放到/usr/local/bin/，然后在程序里调用。 cmmd "xxx ..." os.system(cmmd) 报这样的错，但是/usr/local/bin/已经在环境变量 path 里。 sh: xxx: command not found 最简单的解决办法就是把上…

阅读更多...

最新文章