语音情感识别调研

1、情绪识别综述
2、语音情感识别算法
3、语音特征提取
4、相关项目
- 1、用 LSTM、CNN、SVM、MLP 进行语音情感识别
- 2、DST：基于Transformer的可变形语音情感识别模型
- 3、语音情感基座模型emotion2vec
- 4、IEEE ICME 2023论文｜基于交互式注意力的语音情感识别联合网络
- 5、CA-MSER: 多模态语音情感识别
5、应用
6、竞赛

1、情绪识别综述

概述
语音情绪识别(Speech Emotion Recognition，SER)是指通过一段语音的声学特征（该特征与语音的内容信息和语种信息无关）来识别说话人的情绪状态的技术。说话人可通过调整发音器官的动作来改变语音信号的声学特征来表达不同的情绪。目前基于语音信号的情绪识别模型主要分为两类：离散形式情绪描述模型和连续形式情绪描述模型。离散形式情绪描述模型通过将情绪描述为离散的、形容词标签的形式，如生气(anger)、开心(happiness)、惊讶(surprise)、恶心(disgust)、害怕(fear)和难过(sad)等。连续形式情感描述模型将情绪描述为多维情感空间中的点，空间中的每一维对应情感的一个心理学属性。例如在一个二维的空间中，激活度(arousal)表示情感激烈程度，效价(valence)表示情感正负面程度。开心(happiness)可以用高激活度和高效价来表示，难过(sad)可以用低激活度和低效价来表示。
原文链接：https://blog.csdn.net/weixin_44200133/article/details/134999341

2、语音情感识别算法

当今语音情感识别系统所采用的识别算法可以分为如下两类：离散语音情感分类器，维度语音情感分类器。

1.离散语音情感分类器
它们一般被建模为标准的模式分类问题,即使用标准的模式分类器进行情感的识别。比如GMM（高斯混合模型），SVM，KNN，HMM（隐马尔可夫模型）。

2.维度语音情感分类器
该研究一般被建模为标准的回归预测问题,即使用回归预测算法对情感属性值进行估计,在当前的维度语音情感识别领域使用较多的预测算法有:Linear Regression,k-NN,ANN,SVR(support vector regression)等.其中,SVR 因为性能稳定、训练时间短等优点应用得最为广泛。

(一)、传统方法
传统语音情绪识别方法一般分为两个步骤：情绪特征提取和统计建模。语音情绪识别常用的特征包括：
(1)韵律和能量特征，情绪的变化直接反映在整体韵律和能力的变化上。
(2)语音质量特征,发音人的情绪质量会影响语音质量。
(3)谱特征，虽然情绪变化直接反映在韵律和能量等长时连续信息中，这种变化也会间接的反映在谱特征本身的分布形态中。
(4)Teager能量特征，研究表明语音信号的Teager能量特征可以表征不同频带之间的相互作用。
上述四种特征是帧级别的，缺少上下文信息，因此称为局部特征。另一种特征是在这些局部特征的特征基础上，提取特征的长时统计量，包括最大值、最小值、均值、方差等，这些统计量称为全局特征。
统计建模方法包括离散情绪模型和连续情绪模型，离散语音情绪建模基于各种通用分类模型，包括高斯混合模型(GMM)、隐马尔可夫模型（HMM）、支持向量机(SVM)等。连续情绪模型通过建立合理的回归模型，对所定义的连续情绪属性进行拟合和预测。Tian等人基于AVEC2012数据集和IEMOCAP数据集在四个维度(激发值、期待值、强势度、愉悦度)上进行情绪预测。

（二）基于深度学习的方法
早期基于DNN的情绪识别将DNN作为替代SVM的分类工具。后续出现了使用DNN预测帧级别的情绪后验概率，并基于HMM对句子进行建模的方法。声谱图+CRNN：最近很多人用声谱图加上CNN，LSTM这些深度学习模型来做。Attention-CNN、SOTA、wav2vec2等。
原文链接：https://blog.csdn.net/weixin_44200133/article/details/134999341

3、语音特征提取

韵律学特征：
韵律是指语音中凌驾于语义符号之上的音高、音长、快慢和轻重等方面的变化,是对语音流表达方式的一种结构性安排。

声音质量特征:
音质特征是语音的一种主观评价指标，描述了声门激励信号的性质，包括发声者语态、喘息、颤音及哽咽，用来衡量语音纯净度、清晰度和辨识度。

基于谱的相关特征
基于谱的相关特征被认为是声道(vocal tract)形状变化和发声运动(articulator movement)之间相关性的体现。

音频检测的关键技术-MFCC特征提取,为了从音频信号中提取语音信息，目前使用的是普遍用于分析音频信号的mfcc值。MFCC（梅尔频率倒谱系数），梅尔频率是基于人耳听觉特性提取出来的，和赫兹频率呈现一个非线性对应关系。梅尔频率倒谱系数是利用好梅尔频率和赫兹频谱关系计算得出的赫兹频谱特征，其主要应用于语音数据的特征提取。
链接：https://zhuanlan.zhihu.com/p/496818604

4、相关项目

评估指标：
指标：weighted accuracy（WA）、unweighted accuracy（UA）、weighted average F1（WF1）；其中WA表示加权准确率，UA表示普通准确率，WF1表示加权F1 score。
GitHub topic一些相关项目：https://github.com/topics/speech-emotion-recognition

1、用 LSTM、CNN、SVM、MLP 进行语音情感识别

用 LSTM、CNN、SVM、MLP 进行语音情感识别，Keras 实现。
改进了特征提取方式，识别准确率提高到了 80% 左右。原来的版本的存档在 First-Version 分支。（传统机器学习，没具体评估指标）
代码：https://github.com/Renovamen/Speech-Emotion-Recognition

2、DST：基于Transformer的可变形语音情感识别模型

本次分享华南理工大学、优必选研究院等合作在ICASSP2023会议发表的论文《DST: Deformable Speech Transformer for Emotion Recognition》。该论文提出一个可变形的Transformer结构来对语音情感信号进行建模，能够自适应地发现并关注到语音信号中有价值的细粒度情感信息。
论文地址：https://arxiv.org/abs/2302.13729
代码仓库：https://github.com/HappyColor/DST

在这里插入图片描述

3、语音情感基座模型emotion2vec

在此背景下，上海交通大学、阿里巴巴、复旦大学和香港中文大学的研究者们联手开发了一个通用的语音情感表征模型emotion2vec 。
本文提出的emtion2vec为一种自监督预训练方法，其核心为句子级别损失与帧级别损失，以及在线蒸馏范式。采用data2vec自监督框架，emotion2vec模型在预训练阶段包含两个网络：教师网络T和学生网络S。这两个网络拥有相同的架构，包括由多层卷积神经网络组成的特征提取器F，以及由多层Transformer组成的主干网络B。

论文链接👇：https://arxiv.org/abs/2312.15185
开源代码仓库👇：https://github.com/ddlBoJack/emotion2vec

在这里插入图片描述

4、IEEE ICME 2023论文｜基于交互式注意力的语音情感识别联合网络

在本文中提出了一个单独频谱模型和一个结合了预训练模型和频谱模型语音情感识别联合网络。首先设计一个频谱模型提取到语音情感的特性表征，再通过Wav2Vec2.0[2]预训练模型学习到语音的共有表征。通过设计不同的交互注意力模块将两个中间特征进行融合，更好地利用音频信息。并设计多分支训练策略对联合网络进行优化。在说话人无关设置下取得良好的实验结果。

实验使用了IEMOCAP数据集对上述提出的联合网络进行训练和测试。
在这里插入图片描述

5、CA-MSER: 多模态语音情感识别

是南洋理工&&天大发表在ICASSP 2022的关于语音情感识别(Speech Emotion Recognition, SER)的工作，SER 指的是从音频数据中分析说话人的情感，是一个典型的情感分类任务。本文作者从音频数据中提取了多个不同级别的声学特征(原始音频信号、MFCC 和梅尔谱)，将他们看作多模态信息进行处理，并且设计了 co-attention 模块进行多模态信息融合，在 IEMOCAP 数据集上取得了不错的效果。
在这里插入图片描述
开源代码地址：https://github.com/Vincent-ZHQ/CA-MSER

5、应用

宠物情绪识别：
智能狗项圈，界定狗子的喜怒哀乐
韩国的初创公司 Petpuls Lab，从 2017 年起便开始研发一种智能狗项圈，以帮助铲屎官更准确、更有效地理解自家狗子。智能项圈 Petpuls 的第一代，于 2018 年 2 月在韩国市场推出，之后受到广泛好评。去年该产品的第二代问世，售价 99 美金（约 640 元人民币）。

猫言猫语也能被翻译？喵喵？
前段时间，一位前 Amazon 工程师开发了一项应用程序 MeowTalk，能够把猫咪的「喵喵喵」翻译成短语，从而让人们知道它在表达什么。

教育领域：可以通过语音情感识别系统实时掌握学生的情感状态，利用其对情感特有的分析辨别能力，实时分析系统接收到的学生回复，及时地了解和把握学生的真实情感状态，从而迅速做出反馈并进行调整，大大增强了课堂效果和提高了学生的学习效率。

医学领域：面对诸多医患之间无法沟通交流的现象，语音情感识别系统发挥了极其重要的作用。当遇到情绪波动、抗拒交谈或是精神受创、难以沟通的患者，语音情感识别系统将会迅速做出反应并分析患者此刻的心理状态。

服务领域：普通的人工客服只会机械性、重复性地回答客户的问题和需求，不能做到灵活变通，从而致使部分客户产生抵触的情绪，导致客源的损失。而语音情感识别将会对此采取针对性的分析，当监测出客户情绪有负面波动时，则及时切换人工客服进行协调，有效地减少了客源损失量。
除上述领域外，语音情感识别在智能娱乐、电子商务、汽车驾驶、辅助测谎和人机交互[等应用程序非常重要。

6、竞赛

（1）多模态情感识别挑战赛
该竞赛开始于2016年，该竞赛英文名称为The multimodal emotion recognition challenge,统称为MEC或MER，由清华大学陶建华教授联合中国科学院自动化研究所连政助理研究员，南洋理工大学Erik Cambria教授，帝国理工学院Björn W. Schuller教授、奥卢大学赵国英教授在国际顶级人工智能学术会议ACM MM上举办。
（2）多模态情感分析挑战赛
英文全称 The Multimodal Sentiment Analysis Challenge（MUSE）。开始于2020年，由多媒体国际顶级会议ACM Multimedia举办，英国帝国理工学院、德国奥斯堡大学、芬兰奥卢大学等高校共同发起。
链接：https://blog.csdn.net/weixin_44200133/article/details/134999341

参考：https://blog.csdn.net/weixin_44200133/article/details/134999341