基于频谱处理的音频分离方法

基于频谱处理的音频分离方法

在音频处理领域,音频分离是一个重要的任务,尤其是在语音识别、音乐制作和通信等应用中。音频分离的目标是从混合信号中提取出单独的音频源。通过频谱处理进行音频分离是一种有效的方法,本文将介绍其基本原理、公式以及如何通过降噪作为一个具体的例子来实现音频分离。

1. 频谱处理音频分离的原理

频谱处理音频分离的基本思想是将音频信号从时间域转换到频率域,通过分析频谱中的成分,去除或抑制不需要的成分,从而恢复目标音频信号。常用的频谱分析方法是短时傅里叶变换(STFT)。

1.1 短时傅里叶变换(STFT)

短时傅里叶变换将时间域信号分成多个短时间段,并对每个段进行傅里叶变换。对于离散时间信号 (x[n]),STFT 的离散形式可以表示为:

X [ m , k ] = ∑ n = − ∞ ∞ x [ n ] w [ n − m ] e − j 2 π N k n X[m, k] = \sum_{n=-\infty}^{\infty} x[n] w[n - m] e^{-j \frac{2\pi}{N}kn} X[m,k]=n=x[n]w[nm]ejN2πkn

其中:

  • X [ m , k ] X[m, k] X[m,k] 是在时间帧 (m) 和频率 (k) 的复数频谱。
  • x [ n ] x[n] x[n] 是输入信号。
  • w [ n ] w[n] w[n] 是窗函数,用于限制信号的时间范围。
  • N N N是窗的长度。

1.2 逆短时傅里叶变换(ISTFT)

逆短时傅里叶变换用于将频谱信息转换回时间域信号。对于离散时间信号,ISTFT 的离散形式可以表示为:

x [ n ] = ∑ m = − ∞ ∞ X [ m , k ] w [ n − m ] e j 2 π N k n x[n] = \sum_{m=-\infty}^{\infty} X[m, k] w[n - m] e^{j \frac{2\pi}{N}kn} x[n]=m=X[m,k]w[nm]ejN2πkn

其中:

  • x [ n ] x[n] x[n] 是恢复后的离散时间信号。
  • X [ m , k ] X[m, k] X[m,k]是去噪后的频谱。

1.3 音频分离算法

在频谱域中,音频分离的基本步骤如下:

  1. 计算 STFT:对混合信号(包含多个音源)进行 STFT,得到频谱表示。
  2. 源信号估计:通过分析混合信号的频谱,估计各个源信号的频谱成分。
  3. 频谱相减或掩码:从混合信号的频谱中减去或应用掩码来提取目标音源的频谱。
  4. 逆 STFT:对提取后的频谱进行逆 STFT,恢复到时间域信号。

2. 降噪作为音频分离的例子

降噪是音频分离中的一个具体应用场景。在降噪过程中,我们的目标是从包含噪声的混合信号中提取出干净的音频信号。降噪的基本步骤如下:

2.1 完全降噪

在完全降噪的情况下,我们假设噪声的频谱可以被准确估计并完全从混合信号中去除。此时,频谱相减的公式为:

Y ( f ) = X ( f ) − N ( f ) Y(f) = X(f) - N(f) Y(f)=X(f)N(f)

在这种情况下,重建的音频信号将尽可能接近原始的干净信号。

2.2 不完全降噪

在不完全降噪的情况下,噪声的频谱可能无法完全准确地估计,或者在去噪过程中可能会对语音信号造成一定的抑制。此时,我们可以引入一个随机因子来模拟这种情况:

Y ( f ) = X ( f ) − N ( f ) ⋅ factor Y(f) = X(f) - N(f) \cdot \text{factor} Y(f)=X(f)N(f)factor

其中,factor 是一个在 0.8 到 1.2 之间的随机值。这个因子可以模拟噪声没有完全消除的情况,或者在去噪过程中对语音信号的抑制。
在这里插入图片描述
在这里插入图片描述

3. 代码实现

import numpy as np
import librosa
import matplotlib.pyplot as plt
import soundfile as sf
import librosa.display# 1. 读取两个文件并进行时域混合
def load_and_mix(audio_file, noise_file, duration):audio, sr_audio = librosa.load(audio_file, sr=None)noise, sr_noise = librosa.load(noise_file, sr=None)if sr_audio != sr_noise:raise ValueError("Sampling rates of the audio and noise files must be the same.")min_length = min(len(audio), len(noise), duration * sr_audio)audio = audio[:min_length]noise = noise[:min_length]mixed_signal = audio + noisereturn audio, noise, mixed_signal, sr_audio# 2. 计算 STFT
def compute_stft(signal):return librosa.stft(signal)# 3. 计算噪声的 STFT
def compute_noise_stft(noise):return librosa.stft(noise)# 4. 频谱相减
def subtract_stft(mixed_stft, noise_stft, factor):return mixed_stft - (noise_stft * factor)# 5. ISTFT 重新生成语音
def reconstruct_audio(subtracted_stft):return librosa.istft(subtracted_stft)# 6. 可视化过程
def visualize_process(original, noise, mixed, reconstructed_best, reconstructed_partial, sr):plt.figure(figsize=(12, 10))plt.subplot(5, 1, 1)plt.title('Original Audio Signal')librosa.display.waveshow(original, sr=sr, alpha=1)plt.xlabel('Time (s)')plt.ylabel('Amplitude')plt.subplot(5, 1, 2)plt.title('Noise Signal')librosa.display.waveshow(noise, sr=sr, alpha=1)plt.xlabel('Time (s)')plt.ylabel('Amplitude')plt.subplot(5, 1, 3)plt.title('Mixed Audio Signal')librosa.display.waveshow(mixed, sr=sr, alpha=1)plt.xlabel('Time (s)')plt.ylabel('Amplitude')plt.subplot(5, 1, 4)plt.title('Reconstructed Audio Signal (Best Case)')librosa.display.waveshow(reconstructed_best, sr=sr, alpha=1)plt.xlabel('Time (s)')plt.ylabel('Amplitude')plt.subplot(5, 1, 5)plt.title('Reconstructed Audio Signal (Partial Case)')librosa.display.waveshow(reconstructed_partial, sr=sr, alpha=1)plt.xlabel('Time (s)')plt.ylabel('Amplitude')plt.tight_layout()plt.show()# 绘制语谱图plt.figure(figsize=(12, 10))original_stft = compute_stft(original)noise_stft = compute_noise_stft(noise)mixed_stft = compute_stft(mixed)reconstructed_best_stft = compute_stft(reconstructed_best)reconstructed_partial_stft = compute_stft(reconstructed_partial)plt.subplot(5, 1, 1)plt.title('Original Audio Spectrogram')librosa.display.specshow(librosa.amplitude_to_db(np.abs(original_stft), ref=np.max), sr=sr, y_axis='log', x_axis='time')plt.colorbar(format='%+2.0f dB')plt.subplot(5, 1, 2)plt.title('Noise Spectrogram')librosa.display.specshow(librosa.amplitude_to_db(np.abs(noise_stft), ref=np.max), sr=sr, y_axis='log', x_axis='time')plt.colorbar(format='%+2.0f dB')plt.subplot(5, 1, 3)plt.title('Mixed Audio Spectrogram')librosa.display.specshow(librosa.amplitude_to_db(np.abs(mixed_stft), ref=np.max), sr=sr, y_axis='log', x_axis='time')plt.colorbar(format='%+2.0f dB')plt.subplot(5, 1, 4)plt.title('Reconstructed Audio Spectrogram (Best Case)')librosa.display.specshow(librosa.amplitude_to_db(np.abs(reconstructed_best_stft), ref=np.max), sr=sr, y_axis='log', x_axis='time')plt.colorbar(format='%+2.0f dB')plt.subplot(5, 1, 5)plt.title('Reconstructed Audio Spectrogram (Partial Case)')librosa.display.specshow(librosa.amplitude_to_db(np.abs(reconstructed_partial_stft), ref=np.max), sr=sr, y_axis='log', x_axis='time')plt.colorbar(format='%+2.0f dB')plt.tight_layout()plt.show()# 主程序
def main():audio_file = '1.wav'  # 语音文件noise_file = '3.wav'  # 噪声文件duration = 20  # 取样长度(秒)original_audio, noise, mixed_signal, sr = load_and_mix(audio_file, noise_file, duration)mixed_stft = compute_stft(mixed_signal)noise_stft = compute_noise_stft(noise)# 完全降噪subtracted_stft_best = subtract_stft(mixed_stft, noise_stft, factor=np.ones_like(noise_stft))reconstructed_best_audio = reconstruct_audio(subtracted_stft_best)# 不完全降噪random_factor = np.random.uniform(0.8, 1.2, noise_stft.shape)subtracted_stft_partial = subtract_stft(mixed_stft, noise_stft, factor=random_factor)reconstructed_partial_audio = reconstruct_audio(subtracted_stft_partial)sf.write('mixed_signal.wav', mixed_signal, sr)sf.write('reconstructed_audio_best.wav', reconstructed_best_audio, sr)sf.write('reconstructed_audio_partial.wav', reconstructed_partial_audio, sr)visualize_process(original_audio, noise, mixed_signal, reconstructed_best_audio, reconstructed_partial_audio, sr)if __name__ == "__main__":main()

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/62984.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Java项目实战II基于微信小程序的电子竞技信息交流平台的设计与实现(开发文档+数据库+源码)

目录 一、前言 二、技术介绍 三、系统实现 四、核心代码 五、源码获取 全栈码农以及毕业设计实战开发,CSDN平台Java领域新星创作者,专注于大学生项目实战开发、讲解和毕业答疑辅导。获取源码联系方式请查看文末 一、前言 随着互联网技术的飞速发展…

【机器学习】—Transformers的扩展应用:从NLP到多领域突破

好久不见!喜欢就关注吧~ 云边有个稻草人-CSDN博客 目录 引言 一、Transformer架构解析 (一)、核心组件 (二)、架构图 二、领域扩展:从NLP到更多场景 1. 自然语言处理(NLP) 2…

Linux 文本处理三剑客基本用法

Linux文本处理三剑客 - grep sed awk 1. 基本用法 grep 是一种强大的文本搜索工具,用于在文件中搜索指定的模式(通常是字符串或正则表达式),并输出匹配的行。以下是 grep 的一些基本用法: 基本语法 grep [选项] 模式…

解决 Maven 部署中的 Artifact 覆盖问题:实战经验分享20241204

🛠️ 解决 Maven 部署中的 Artifact 覆盖问题:实战经验分享 📌 引言 在软件开发过程中,持续集成和持续部署(CI/CD)是提高开发效率和代码质量的关键手段。Hudson 和 Maven 是两种广泛使用的工具&#xff0…

3DMAX星空图像生成器插件使用方法详解

3DMAX星空图像生成器插件,一键生成星空或夜空的二维图像。它可用于创建天空盒子或空间场景,或作为2D艺术的天空背景。 【主要特点】 -单击即可创建星空图像或夜空。 -星数、亮度、大小、形状等参数。 -支持任何图像大小(方形)。…

Linux权限机制深度解读:系统安全的第一道防线

文章目录 前言‼️一、Linux权限的概念‼️二、Linux权限管理❕2.1 文件访问者的分类(人)❕2.2 文件类型和访问权限(事物属性)✔️1. 文件类型✔️2. 基本权限✔️3. 权限值的表示方法 ❕2.3 文件访问权限的相关设置方法✔️1. ch…

C# 动态类型 Dynamic

文章目录 前言1. 什么是 Dynamic?2. 声明 Dynamic 变量3. Dynamic 的运行时类型检查4. 动态类型与反射的对比5. 使用 Dynamic 进行动态方法调用6. Dynamic 与 原生类型的兼容性7. 动态与 LINQ 的结合8. 结合 DLR 特性9. 动态类型的性能考虑10. 何时使用 Dynamic&…

Python毕业设计选题:基于大数据的淘宝电子产品数据分析的设计与实现-django+spark+spider

开发语言:Python框架:djangoPython版本:python3.7.7数据库:mysql 5.7数据库工具:Navicat11开发软件:PyCharm 系统展示 管理员登录 管理员功能界面 电子产品管理 系统管理 数据可视化分析看板展示 摘要 本…

用 NotePad++ 运行 Java 程序

安装包 网盘链接 下载得到的安装包: 安装步骤 双击安装包开始安装. 安装完成: 配置编码 用 NotePad 写 Java 程序时, 需要设置编码. 在 设置, 首选项, 新建 中进行设置, 可以对每一个新建的文件起作用. 之前写的文件不起作用. 在文件名处右键, 可以快速打开 CMD 窗口, 且路…

vxe-table 树形表格序号的使用

vxe-table 树形结构支持多种方式的序号&#xff0c;可以及时带层级的序号&#xff0c;也可以是自增的序号。 官网&#xff1a;https://vxetable.cn 带层级序号 <template><div><vxe-grid v-bind"gridOptions"></vxe-grid></div> <…

SQL SERVER 2016 AlwaysOn 无域集群+负载均衡搭建与简测

之前和很多群友聊天发现对2016的无域和负载均衡满心期待&#xff0c;毕竟可以简单搭建而且可以不适用第三方负载均衡器&#xff0c;SQL自己可以负载了。windows2016已经可以下载使用了&#xff0c;那么这回终于可以揭开令人憧憬向往的AlwaysOn2016 负载均衡集群的神秘面纱了。 …

Groom Blender to UE5

Groom Blender to UE5 - Character & Animation - Epic Developer Community Forums Hello, 你好&#xff0c; While exporting my “groom” from blender to UE5, I notice that the curves have a minimal resolution in Unreal. However I would like to get the same …

TCP/IP协议图--TCP/IP基础

1. TCP/IP 的具体含义 从字面意义上讲&#xff0c;有人可能会认为 TCP/IP 是指 TCP 和 IP 两种协议。实际生活当中有时也确实就是指这两种协议。然而在很多情况下&#xff0c;它只是利用 IP 进行通信时所必须用到的协议群的统称。具体来说&#xff0c;IP 或 ICMP、TCP 或 UDP、…

R语言机器学习论文(二):数据准备

禁止商业或二改转载,仅供自学使用,侵权必究,如需截取部分内容请后台联系作者! 文章目录 介绍加载R包数据下载导入数据一、数据描述二、数据预处理(一)修改元素名称(二)剔除无关变量(三)缺失值检查(四)重复值检查(五)异常值检查三、描述性统计(一)连续变量数据情…

【算法】【优选算法】位运算(下)

目录 一、&#xff1a;⾯试题 01.01.判定字符是否唯⼀1.1 位图1.2 hash思路1.3 暴力枚举 二、268.丢失的数字2.1 位运算&#xff0c;异或2.2 数学求和 三、371.两整数之和四、137.只出现⼀次的数字 II五、⾯试题 17.19.消失的两个数字 一、&#xff1a;⾯试题 01.01.判定字符是…

【Docker】针对开发环境、测试环境、生产环境如何编排?

目录 一、引言 二、Docker Compose 文件基础 三、针对不同环境的 Docker 编排 开发环境 测试环境 生产环境 四、配置文件全局变量的编写 五、总结 一、引言 在软件开发和部署的过程中&#xff0c;不同的环境有着不同的需求和配置。Docker 作为一种强大的容器化技术&…

Flink:入门介绍

目录 一、Flink简介 2.1 Flink 架构 2.2 Flink 应用程序 运行模式 二、Flink 集群 部署 2.1 本地集群模式 2.1.1 安装JDK​编辑 2.1.2 下载、解压 Flink 2.1.3 启动集群 2.1.4 停止集群 2.2 Standalone 模式 2.2.0 集群规划 2.2.1 安装JDK 2.2.2 设置免密登录 2…

【RDMA】RDMA read和write编程实例(verbs API)

WRITE|READ编程&#xff08;RDMA read and write with IB verbs&#xff09; &#xff08;本文讲解的示例代码在&#xff1a;RDMA read and write with IB verbs | The Geek in the Corner&#xff09; 将 RDMA 与verbs一起使用非常简单&#xff1a;首先注册内存块&#xff0c…

洛谷P2670扫雷游戏(Java)

三.P2670 [NOIP2015 普及组] 扫雷游戏 题目背景 NOIP2015 普及组 T2 题目描述 扫雷游戏是一款十分经典的单机小游戏。在 n 行 m列的雷区中有一些格子含有地雷&#xff08;称之为地雷格&#xff09;&#xff0c;其他格子不含地雷&#xff08;称之为非地雷格&#xff09;。玩…

泷羽sec专题课笔记-- Linux作业--开机自启动方法以及破解

本笔记为 泷羽sec 《红队全栈课程》学习笔记&#xff0c;课程请可自行前往B站学习&#xff0c;课程/笔记主要涉及网络安全相关知识、系统以及工具的介绍等&#xff0c;请使用该课程、本笔记以及课程和笔记中提及工具的读者&#xff0c;遵守网络安全相关法律法规&#xff0c;切勿…