《现代语音信号处理》(胡航著)第1-6章简介

根据《现代语音信号处理》(胡航版)总大概列出前六章的内容,有些会有一些自己的理解和总结。

第一章 绪论

  • 发展史和主要研究内容及发展。

第二章 语音信号处理的基础知识:

  • 语音信号处理的基础知识

  • 语音的产生过程

    • 语音信号的特性:音质、音调、音强、音长

    • 汉语的特点(21个声母、39个韵母)

    • 语音信号的统计特性

  • 语音产生的线性模型

  • 语音产生的非线性模型

    • FM-AM模型

    • Teager能量算子

    • 能量分离算法

    • FM-AM模型应用

  • 语音感知

    • 听觉系统(内耳、中耳、外耳;人可感知的频率范围:20-20KHZ,强度范围:-5-130dB)

    • 神经系统

    • 语音感知(人类能够感知语音的四要素:响度、音调、音色、听觉掩蔽效应)

第三章 时域分析

  • 简介

    • 语音信号非平稳、事变、离散性大,且其中蕴含着说话内容以及说话人特征等,处理难度大。

    • 时域分析具有简单、运算量小、物理意义明确等优点。

  • 数字化和预处理

    • 取样率和量化字长选择

    • 预处理(数字化、放大及增益控制、反混叠滤波、预加重)

  • 短时能量分析(En表示为语音信号一个短时间段内的能量,短时平均能量能反映语音能量随时间变化的特性,用于区分清/浊音等)

  • 短时过零分析(短时平均过零数能用于度量信号的频率,粗略地描述了信号频谱特性,可用于区别清/浊音 ;高频率意味高平均过零数,低频率意味着低平均过零数)

  • 短时相关分析

    • 分为互相关函数、自相关函数;主要是自相关,用于研究信号本省,如波形同步性和周期性

    • 短时自相关函数

    • 修正短时自相关函数(解决基音周期宽,是窗和预期的基音周期相适应)

    • 短时平均复查函数(避免乘法,简化运算,与自相关函数有类似的作用)

  • 语音端点检测(用于有/无声或是浊/清/无声判定)

    • 双门限前端检测(存在较大时延)

    • 多门限过零率前端检测(解决方法1的缺陷)

    • 基于FM-AM模型的端点检测(利用算子输出能量进行端点检测,相比常规的基于短时能量的端点检测方法有较好的效果)

  • 基于高阶累积量的语音端点检测

    • 噪声环境下的端点检测(目前提出的方法只适用于不同适用环境)

    • 高阶累积量和高阶谱

    • 基于高阶累积量的端点检测(广泛应用于非高斯及非循环平稳信号中 ;核心:任何类型的高斯信号,其三阶以上的高阶累积量均为0 )

第四章 短时傅里叶变换

  • 短时傅里叶变换(短时傅里叶变换是窗选语音信号的傅里叶变换,Xn(ejw) )

  • 短时傅里叶变换的取样率(针对避免混叠;三种取样率:时间取样率、频域取样率、综合取样率)

  • 语音信号的短时综合(用于由Xn(ejw)恢复x(n)的问题;两种方法,滤波器组求和法与FFT求和法 存在对偶性)

    • 滤波器组求和法(与频率取样有关;性能较好,因为其对噪声敏感性较小)
    • FFT求和法(与时间取样有关)
  • 语谱图(显示大量与语句特性相关的信息,综合了频谱图与时域波形的优点,直观显示语音频谱随时间变化的情况,是一种动态的频谱)

第五章 倒谱分析和同态滤波

  • 同态信号处理(可实现将卷积关系变成求和关系的分离处理,以达到解卷的效果;用于非加性组合信号,其中有包括乘性和卷积性组合信号)

  • 同态信号处理的基本原理,分三步

    • 特征系统(将卷积信号转化为加性信号;一分三步:Z变换,对数运算,逆Z变换)

    • 线型系统

    • 逆特征系统(将加性信号转化为卷积信号;一分三步:Z变换,指数运算,逆Z变换 )

  • 复倒谱和倒谱

    • 复倒谱(输入信号进行特征系统后得到的时域信号,成为输入信号的复倒谱,对应倒谱域)

    • 倒谱(相对于复倒谱来说,取对数阶段,只取幅度的对数,除去相位的信息;倒谱运算相对简单,由于不含相位信息,不能恢复原始性)

  • 语音信号两个卷积分量复倒谱的性质

    • 声门激励信号(较重要的性质:可用高复倒谱窗在复倒谱域中提取浊音激励信号的特性)

    • 声道冲激响应序列(较重要的性质:可用低复倒谱窗在复倒谱域中提取声道冲激响应)

  • 避免相位卷绕的算法

    • 相位卷绕:复倒谱取对数是进行的是复对数运算,此时存在相位多只问题,称其为相位卷绕。

    • 避免的方法(微分法(不适用,会产生频谱混叠),最小相位信号法,递推法(x(0)不能过小))

  • 语音信号复倒谱分析实例

  • Mel频率倒谱系数(MFCC;应用于语音识别和说话人识别 )

    • Mel频率滤波器组(基于人耳在1KHZ以下为频率的线性尺度,1KHZ以上为对数尺度,是人二对低频信号比高频信号更敏感的特点)

    • MFCC(重要特点:对频率轴不均匀的划分;该参数常用于语音识别中,可进行端点检测)

    • 计算过程:

      • 对信号分帧,预加重,hamming窗处理,STFT 得到频谱

      • 使信号的线性幅度谱通过L个通道的Mel滤波器组并对输出累加

      • 对滤波器输出取对数,在进行DCT(离散余弦变换),得到MFCC

第六章 线性预测分析

  • LPC的基本思想:一个语音的取样可用过去若干语音取样的线性组合来逼近。通过使实际语音取样与LPC取样间差值的平方和,即进行LMS(最小均方误差)逼近,可决定唯一的一组预测系数,而它们就是线性组合中的加权系数。

  • 线性预测的基本原理(基于AR模型,用一个模型表示被分析信号)

  • 线性预测方程的建立(因为信号模型的建立是有信号估计模型参数的过程,信号是客观存在由一个有限数目参数的模型进行表示的,不可能完全准确,总会存在误差,因而求解LPC系数是一个逼近的过程,采用逆滤波器法来逼近)

  • 线性预测分析的解法(1)——经典解法

    • 自相关法(这种解法在整个时间范围内使误差最小;加窗处理;高效求解、精度低、会引入误差,能保证解的稳定性,适合硬件实现)

    • 协方差法(这种解法可使信号N个样本上的误差最小;不加窗处理;精度高、不能保证解的稳定性 ,适用于平稳信号,存在对中间量比例运算的困难)

  • 线性预测分析的解法(2)——格型法(解决自相关与协方差法的精度与稳定性存在矛盾的问题),求解方法:

    • 正向格型法(逼近原则:正向均方差;不能保证解的稳定性)

    • 反向格型法(逼近原则:正向均方差;不能保证解的稳定性 )

    • 几何平均法(非逼近法;通过正向格型法Ki与反向格型法Ki 的几何平均求解;能保证解的稳定性 )

    • Burg法(非逼近法;通过正向和反向均方误差纸盒的最小求解;能保证解的稳定性 )

    • 协方差格型法(非逼近法; 针对原格型法减小其运算量,改写B\C\E的表达式改进格型法求解;保持格型法的灵活性、解的稳定性和精度,运算量与自相关法相近)

  • 线性预测应用——LPC谱估计和LPC倒谱

    • 谱估计

    • LPC复倒谱

    • LPC估计与其他谱分析方法的比较

  • 线谱对(LSP)分析(频域参数;既有良好的量化和插值特性;以AR模型为基础)

  • 极零点模型(为了获取更精确的解且节省运算量;存在解法困难,难以保证收敛于最佳值,且难以确定模型阶数)

第七章 语音信号的非线性分析

  • 小波变换

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/242793.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

时域、空域对偶性

厚着脸皮要在同事公众号上写篇文章,尽量浅显、与专业相关,选了这个主题。 一、时域与空域特性 以远场模型(平面波)为例,假设均匀线阵接收的为窄带信号,假设相邻振元间隔为d,入射角为&#xff1a…

开机重启,用户登录注销

开机重启,用户登录注销 用户管理 查询用户信息 用户组 在Linux下没有消息就是成功了(没有消息就是好消息)! 用户和组相关文件

Power of Two

https://leetcode.com/problems/power-of-two/ Given an integer, write a function to determine if it is a power of two. 数字 2^n 是大于0的&#xff0c;而且等于1左移n位得到的数字&#xff0c;所以2^n与2^n-1 相与运算得到0. bool isPowerOfTwo(int n) {if(n < 0)…

DCASE2013挑战赛介绍

简介2013 年起&#xff0c;为了评测现有的环境声音检测方法&#xff0c;电子与电气工程师学会音频和声学信号处理协会(Institute of Electrical and Electronics Engineers Audio and Acoustic Signal Process, IEEE AASP )开始举办声学场景和事件的检测与分类挑战赛(Detection…

DCASE挑战赛原始提案文件(详细信息)

本文是根据DCASE2013挑战赛的提案文件&#xff0c;加上个人的理解做了相应的翻译&#xff0c;可能有不对的地方&#xff0c;在之后的会慢慢改善。 背景在过去的十年里&#xff0c;人们对在代码公布和公共评估中提出方法的语音和音频处理社区的兴趣越来越浓厚。公共评估可以作为…

Number of 1 Bits

https://leetcode.com/problems/number-of-1-bits/ Write a function that takes an unsigned integer and returns the number of ’1’ bits it has (also known as the Hamming weight). For example, the 32-bit integer ’11’ has binary representation 0000000000000…

信号分析方法介绍

从开始的ICA&#xff0c;到稀疏表示&#xff0c;然后2001年发明NMF。 利用矩阵分解来解决实际问题的分析方法很多&#xff0c;如PCA(主成分分析)、ICA(独立成分分析)、SVD(奇异值分解)、VQ(矢量量化)等。在所有这些方法中&#xff0c;原始的大矩阵V被近似分解为低秩的VWH形式。…

文件目录类

文件目录类 enter表示查看下一行&#xff1b;空格键表示查看下一页

Counting Bits

https://leetcode.com/problems/counting-bits/ Given a non negative integer number num. For every numbers i in the range 0 ≤ i ≤ num calculate the number of 1’s in their binary representation and return them as an array. Example: For num 5 you should …

Detection and Classification of Acoustic Scenes and Events(DCASE2013详细介绍)

在DCASE 2013官网上&#xff0c;了解到在本篇文章中&#xff0c;详细描述了DCASE2013挑战赛的结果。下面加上个人的理解做了相应的翻译&#xff0c;可能有不对的地方&#xff0c;在之后的会慢慢改善。 摘要对于智能系统来说&#xff0c;使用音频形态是最好的&#xff0c;重点在…

MarkDown编辑器常用语法

分割线三个或更多-_*&#xff0c;必须单独一行&#xff0c;可含空格&#xff0c;如---、 ***、 ___。 效果如下&#xff1a; 如果上面的符号是紧挨着上文的文字&#xff0c;就是细线&#xff0c;否则就是上面显示的粗线。 图片链接![图片的名称](图片的本地连接或网络连接)&…

时间日期类和搜索查找类

时间日期类 搜索查找类

基于智能计算的降维技术研究与应用

《基于智能计算的降维技术研究与应用》皋军著&#xff08;2013&#xff09; 前言特征降维的需求随着社会信息化的发展&#xff0c;在具体的只能识别过程中需要处理的数据越来越多地呈现出高位特征&#xff0c;比如图像处理、文本分类、视频检索、计算机视觉、微阵列数据基因选择…

Add Binary

https://leetcode.com/problems/add-binary/ Given two binary strings, return their sum (also a binary string). For example, a “11” b “1” Return “100”. 计算过程类似Verilog的全加器。 char* addBinary(char* a, char* b) {int i;int l1, l2, l3, temp;…

SG仿真常用模块

workspace交互配合gateway in/out&#xff0c;实现信号仿真与workspace的互联。 滤波器可与FDATool同时使用&#xff0c;直接关联FDATool的参数&#xff0c;而不必输入FDATool的滤波器系数。 也可调用Workspace中的变量&#xff0c;假设滤波器系数设计并量化后&#xff0c;为My…

DCASE三次挑战赛概览

资料来源&#xff1a;http://www.cs.tut.fi/sgn/arg/dcase2017/dcase 所有对环境声音分类和检测方面感兴趣或研究工作的研究人员都应邀通过DCASE社区与同行分享想法、问题和意见。 这个研究领域正在迅速发展&#xff0c;在国际信号处理会议&#xff08;如ICASSP或EUSIPCO&#…

常用矩阵运算

作者&#xff1a;桂。 时间&#xff1a;2017-09-09 12:48:45 链接&#xff1a;http://www.cnblogs.com/xingshansi/p/7498175.html 一、复数相乘 可以表示为分块的形式&#xff1a; 二、范数 A-范数基本定义 p 0&#xff0c;0范数&#xff0c;对应非零元素个数&#xff1b; …

文件及目录实际案例

文件及目录实际案例 可以通过命名从jack用户切换到root用户。从低权限用户到高权限用户需要输入用户密码。 su - rootr(读权限)&#xff1a;代表是否能使用ls w(写权限)&#xff1a;代表在目录下创建和删除文件 x(执行权限)&#xff1a;代表可以进入到目录&#xff0c;例如cd