低信噪比环境下的语音端点检测

低信噪比环境下的语音端点检测

news/2024/12/24 11:36:12/文章来源:https://blog.csdn.net/qq_73928885/article/details/135280186

端点检测技术 是 语音信号处理 的关键技术之一
为提高低信噪比环境下端点检测的准确率和稳健性，提出了一种非平稳噪声抑制和调制域谱减结合功率 归一化 倒谱距离的端点检测算法

1 端点检测

1-1 定义

定义：在 存在背景噪声 的情况下检测出 语音的起始点和结束点（这里的重点是 噪声环境下 语音信号的处理）

1-2 应用需求

应用于语音信号处理：语音增强、语音识别、编码和传输
需求是：人们希望在远场或者 嘈杂的环境中 也能用语音控制智能设备，因此研究低信噪比环境下高效的语音控制技术具有一定的实际应用价值

1-3 获取信号端点对噪声处理的帮助

语音端点的 准确定位 有助于排除噪声段的干扰、增强系统处理的实时响应性、降低功耗从而提升系统性能
传统的处理噪声的办法（算法）：主要采用 语音特征参数 进行检测，通常可划分为 时域和频域 两大类

时域： 短时能量、短时过零率、短时相关性特征被广泛应用
频域： 谱熵、方差、倒谱距离、小波变换等特征也被认为是端点检测的有效参数

1-4 低信噪比环境下的端点检测

端点检测的性能和 信噪比 密切相关——引出——>话题：低信噪比环境下的端点检测

2 瞬态噪声抑制

背景：越来越多的研究在端点检测前 增强了语音，这对端点检测的准确性有重要影响。
传统上的语音增强技术利用 时间平滑 来估计噪声的 功率谱密度PSD 是不够的。
因此提高算法在复杂环境中的稳健性具有广泛的研究意义。

实际生活中出现的大多都是非平稳噪声
如典型的瞬态干扰：键盘敲击、敲门声等
具有 时间短、频域广 等特点，会对语音造成极大的干扰

2-1 瞬态 PSD 估计

2-1-1 算法实现简介

利用语音、瞬态噪声、背景噪声的不同变化率，引入一个 可跟踪 瞬态信号快速变化的 最优改进对数谱幅度估计 (Optimally-Modified Log-Spectral Amplitude Estimator, OM-LSA)算法
（具体做法是：通过分配一个较小的 平滑参数 来调整 OM-LSA 的噪声 PSD 估计分量，以跟踪输入信号频谱的瞬态变化）

2-1-2 具体实现步骤

1、表示被测信号 $y (n)$
$y (n) = x (n) + d (n) + t (n)$
【 $x (n)$ 为语音信号、 $d (n)$ 为加性平稳噪声、 $t (n)$ 为瞬态噪声】
（感觉和eemd处理很相似：eemd加了一段白噪声）
2、 $y (n)$ 信号经过加窗、快速傅里叶变换FFT 后可实现 短时傅里叶变换SFFT
3、对 最小控制递归平均MCRA 的 平滑参数 进行调整再加入反因果窗区分瞬态
可为修正的 OM-LSA 算法提供准确的噪声 PSD估计（这一步感觉这种新处理方法的关键）

2-1-3 改进的噪声 PSD 估计算法流程图

虚线框图为调整部分
注：IFFT为逆傅里叶变换

FFT：快速傅里叶变换
信号从时域转换到频域，FFT变换的结果是复数（即得到的频域是复数）
IFFT：逆快速傅里叶变换
信号从频域转换到时域，将频域数据（复数）进行虚部取反得到共轭复数然后在进行FFT变换得到时域数据

%% 使用 快速傅里叶变换算法 计算 Y的逆离散傅里叶变换（X 与 Y 的大小相同）
X = ifft(Y)
% 如果 Y 是向量，则 ifft(Y) 返回该向量的逆变换。   
% 如果 Y 是矩阵，则 ifft(Y) 返回该矩阵每一列的逆变换。
% 如果 Y 是多维数组，则 ifft(Y) 将大小不等于 1 的第一个维度上的值视为向量，并返回每个向量的逆变换。

即 $X == i ff t (ff t (X))$ 等式是成立的

参考文献：一种低信噪比环境下的语音端点检测算法-卜玉婷，曾庆宁，郑展恒.pdf

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/582460.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

2022年全球软件质量效能大会（QECon北京站2022）-核心PPT资料下载

2022年全球软件质量效能大会（QECon北京站2022）-核心PPT资料下载

一、峰会简介当前，新一轮科技革命和产业变革正在重塑全球经济格局，以云计算为代表的新一代信息技术创新活跃，与实体经济深度融合，推动泛在连接、数据驱动、智能引领的数字经济新形式孕育而生。新兴技术的出现给测试乃至整个软…

阅读更多...

Vue（一）：Vue 入门与 Vue 指令

Vue（一）：Vue 入门与 Vue 指令

Vue 01. Vue 快速上手 1.1 Vue 的基本概念用于构建用户界面的渐进性框架构建用户界面：基于数据去渲染用户看到的界面渐进式：不需要学习全部的语法就能完成一些功能，学习是循序渐进的框架：一套完整的项目解决方案&#x…

阅读更多...

ftp服务器（hcia）

ftp服务器（hcia）

原理客户端对服务器的访问传输和下载数据 FTP (File Transfer Protocol)–21端口 FTP传输文件有两种方法: 浏览器软件 SFTP(Secure File Transfer Protocol)–22端口 SFTP增加了一个安全层，SFTP会把数据加密后进行传输，但更安全带来副…

阅读更多...

VSCode 如何安装插件的历史版本

VSCode 如何安装插件的历史版本

背景在日常开发过程中，我们可能会遇到新版VSCode插件存在问题，无法正常工作的情况。这种情况下，一种可行的解决方案就是安装插件的历史版本。VSCode 插件默认安装的都是插件最新的版本，例如下面 vscode-styled-compoents 插件本…

阅读更多...

Kubeadmin实现k8s集群：

Kubeadmin实现k8s集群：

Kubeadmin来快速搭建一个k8s集群： 二进制搭建适合大集群，50台以上的主机， 但是kubeadm更适合中小企业的业务集群环境： Master：20.0.0.71 2核4G 或者4核8G docker kubelet kubectl flannel Node1：20.…

阅读更多...

ROS MoveIt!

ROS MoveIt!

MoveIt!是一个用于ROS的开源运动规划库，提供多种功能，包括用于运动规划的快速逆运动学分析、用于操纵的高级算法、机械手控制、动力学、控制器和运动规划。（通过提供一个GUI来协助MoveIt!所需的各种设置，它允许使用RViz进行视觉反…

阅读更多...

TCP 滑动窗口

TCP 滑动窗口

滑动窗口（Sliding window）是一种流量控制技术。早期的网络通信中，通信双方不会考虑网络的拥挤情况直接发送数据。由于大家不知道网络拥塞状况，同时发送数据，导致中间节点阻塞掉包，谁也发不了数据&#xff0…

阅读更多...

RustDesk连接客户端提示key不匹配 Key Mismatch无法连接（已解决）

RustDesk连接客户端提示key不匹配 Key Mismatch无法连接（已解决）

环境： RustDesk1.1.9 服务端docker部署问题描述： RustDesk连接客户端提示key不匹配 Key Mismatch无法连接解决方案： 1.docker部署RustDesk服务检查配置 networks:rustdesk-net:external: falsevolumes:hbbr:hbbs:services:hbbs:container_name: rustdesk-hbbsport…

阅读更多...

Python入门-字符串Str

Python入门-字符串Str

字符串字符串是Python中的不可变数据类型 1.字符串相关处理方法大小写转换 # 大小写转换 s1HelloWorld new_s2s1.lower() print(s1,new_s2)new_s3s1.upper() print(new_s3)结果： D:\Python_Home\venv\Scripts\python.exe D:\Python_Home\chap6\示例6-1字符…

阅读更多...

C#高级 01.Net多线程

C#高级 01.Net多线程

一.基本概念 1.什么是线程？ 线程是操作系统中能独立运行的最小单位，也是程序中能并发执行的一段指令序列线程是进程的一部分，一个进程可以包含多个线程，这些线程共享进程资源进程有线程入口，也可以创建更多的线程 2.…

阅读更多...

关于Zoom ZTP和AudioCodes Ltd桌面电话缺陷暴露，导致用户遭受窃听的动态情报

关于Zoom ZTP和AudioCodes Ltd桌面电话缺陷暴露，导致用户遭受窃听的动态情报

一、基本内容近期SySS安全研究员发布分析报告显示，Zoom的零接触（ZTP）和AudioCodes Ltd桌面电话配置功能中发现高危漏洞，可以获得对设备的完全远程控制并不受限制的访问可以被武器化，以窃听房间或电话、通过设备并攻击…

阅读更多...

华为鸿蒙（HarmonyOS）介绍

华为鸿蒙（HarmonyOS）介绍

华为鸿蒙（HarmonyOS）介绍华为鸿蒙（HarmonyOS）是一款由华为自主研发的操作系统，旨在为各种智能设备提供一种统一、高效、安全的解决方案。鸿蒙系统基于微内核架构，可以应用于多种类型的设备，鸿…

阅读更多...

快速上手makefile自动化构建工具

快速上手makefile自动化构建工具

makefile自动化构建工具文章目录 makefile自动化构建工具 makefile背景简单认识makefile 依赖关系与依赖方法生成项目清理项目 ACM时间语法补充 .PHONY修饰特殊符号替换 Makefile的推导过程总结前言： 在windows下，很多东西都是编译器直接帮你做…

阅读更多...

docker学习笔记01-安装docker

docker学习笔记01-安装docker

1.Docker的概述用Go语言实现的开源应用项目（container）；克服操作系统的笨重；快速部署；只隔离应用程序的运行时环境但容器之间可以共享同一个操作系统；Docker通过隔离机制，每个容器间是互相隔离…

阅读更多...

Kafka学习笔记1（千峰教育）

Kafka学习笔记1（千峰教育）

Kafka学习笔记1（千峰教育） 一、为什么使用消息队列1.使用同步的通信方式来解决多个服务之间的通信2.使用异步的通信方式二、消息队列的流派1.有broker2.无broker 三、Kafka的基本知识1.Kafk2a的安装2.Kafka中的一些基本概念3.创建topic4.发送消息5.消费…

阅读更多...

通过讯飞 API 接口用 Vue 实现实时语音转写

通过讯飞 API 接口用 Vue 实现实时语音转写

通过讯飞 API 接口用 Vue 实现实时语音转写项目地址前言本项目中实时语音能够转写的最大时间为 60 s， 这个数据也是由 API 提供方给限制掉的为什么我会需要这个点击按钮以后能够实现实时语音的转写呢，因为被课程所迫，选了这个方向就必…

阅读更多...

百度每天20%新增代码由AI生成，Comate SaaS服务8000家客户采纳率超40%

百度每天20%新增代码由AI生成，Comate SaaS服务8000家客户采纳率超40%

12月28日，由深度学习技术及应用国家工程研究中心主办的WAVE SUMMIT深度学习开发者大会2023在北京召开。百度首席技术官、深度学习技术及应用国家工程研究中心主任王海峰现场公布了飞桨文心五载十届最新生态成果，文心一言最新用户规模破1亿，截…

阅读更多...

Leetcode 763 划分字母区间

Leetcode 763 划分字母区间

题意理解： 要把这个字符串划分为尽可能多的片段，同一字母最多出现在一个片段中。注意，划分结果需要满足：将所有划分结果按顺序连接，得到的字符串仍然是 s 。返回一个表示每个字符串片段的长度的列表。输入&#xff…

阅读更多...

【头歌实训】kafka-入门篇

【头歌实训】kafka-入门篇

文章目录第1关：kafka - 初体验任务描述相关知识Kafka 简述Kafka 应用场景Kafka 架构组件kafka 常用命令编程要求测试说明答案代码第2关：生产者 （Producer ） - 简单模式任务描述相关知识Producer 简单模式Producer 的开发步骤Ka…

阅读更多...

VS Code 运行 Python

VS Code 运行 Python

介绍 Python： 是一种强大的编程语言，具有广泛的应用领域，可以用于开发 Web 应用、数据分析、人工智能、科学计算等多种领域。 VS Code： 是由微软开发的免费开源代码编辑器，可以在多个平台上运行。具有丰富的扩展功能…

阅读更多...

推荐文章

最新文章