语音情感识别调研

语音情感识别调研

  • 1、情绪识别综述
  • 2、语音情感识别算法
  • 3、语音特征提取
  • 4、相关项目
    • 1、用 LSTM、CNN、SVM、MLP 进行语音情感识别
    • 2、DST:基于Transformer的可变形语音情感识别模型
    • 3、语音情感基座模型emotion2vec
    • 4、IEEE ICME 2023论文|基于交互式注意力的语音情感识别联合网络
    • 5、CA-MSER: 多模态语音情感识别
  • 5、应用
  • 6、竞赛

1、情绪识别综述

概述
语音情绪识别(Speech Emotion Recognition,SER)是指通过一段语音的声学特征(该特征与语音的内容信息和语种信息无关)来识别说话人的情绪状态的技术。说话人可通过调整发音器官的动作来改变语音信号的声学特征来表达不同的情绪。目前基于语音信号的情绪识别模型主要分为两类:离散形式情绪描述模型和连续形式情绪描述模型。离散形式情绪描述模型通过将情绪描述为离散的、形容词标签的形式,如生气(anger)、开心(happiness)、惊讶(surprise)、恶心(disgust)、害怕(fear)和难过(sad)等。连续形式情感描述模型将情绪描述为多维情感空间中的点,空间中的每一维对应情感的一个心理学属性。例如在一个二维的空间中,激活度(arousal)表示情感激烈程度,效价(valence)表示情感正负面程度。开心(happiness)可以用高激活度和高效价来表示,难过(sad)可以用低激活度和低效价来表示。
原文链接:https://blog.csdn.net/weixin_44200133/article/details/134999341

2、语音情感识别算法

当今语音情感识别系统所采用的识别算法可以分为如下两类:离散语音情感分类器,维度语音情感分类器。

1.离散语音情感分类器
它们一般被建模为标准的模式分类问题,即使用标准的模式分类器进行情感的识别。比如GMM(高斯混合模型),SVM,KNN,HMM(隐马尔可夫模型)。

2.维度语音情感分类器
该研究一般被建模为标准的回归预测问题,即使用回归预测算法对情感属性值进行估计,在当前的维度语音情感识别领域使用较多的预测算法有:Linear Regression,k-NN,ANN,SVR(support vector regression)等.其中,SVR 因为性能稳定、训练时间短等优点应用得最为广泛。

(一)、传统方法
传统语音情绪识别方法一般分为两个步骤:情绪特征提取和统计建模。语音情绪识别常用的特征包括:
(1)韵律和能量特征,情绪的变化直接反映在整体韵律和能力的变化上。
(2)语音质量特征,发音人的情绪质量会影响语音质量。
(3)谱特征,虽然情绪变化直接反映在韵律和能量等长时连续信息中,这种变化也会间接的反映在谱特征本身的分布形态中。
(4)Teager能量特征,研究表明语音信号的Teager能量特征可以表征不同频带之间的相互作用。
上述四种特征是帧级别的,缺少上下文信息,因此称为局部特征。另一种特征是在这些局部特征的特征基础上,提取特征的长时统计量,包括最大值、最小值、均值、方差等,这些统计量称为全局特征。
统计建模方法包括离散情绪模型和连续情绪模型,离散语音情绪建模基于各种通用分类模型,包括高斯混合模型(GMM)、隐马尔可夫模型(HMM)、支持向量机(SVM)等。连续情绪模型通过建立合理的回归模型,对所定义的连续情绪属性进行拟合和预测。Tian等人基于AVEC2012数据集和IEMOCAP数据集在四个维度(激发值、期待值、强势度、愉悦度)上进行情绪预测。

(二)基于深度学习的方法
早期基于DNN的情绪识别将DNN作为替代SVM的分类工具。后续出现了使用DNN预测帧级别的情绪后验概率,并基于HMM对句子进行建模的方法。声谱图+CRNN:最近很多人用声谱图加上CNN,LSTM这些深度学习模型来做。Attention-CNN、SOTA、wav2vec2等。
原文链接:https://blog.csdn.net/weixin_44200133/article/details/134999341

3、语音特征提取

韵律学特征:
韵律是指语音中凌驾于语义符号之上的音高、音长、快慢和轻重等方面的变化,是对语音流表达方式的一种结构性安排。

声音质量特征:
音质特征是语音的一种主观评价指标,描述了声门激励信号的性质,包括发声者语态、喘息、颤音及哽咽,用来衡量语音纯净度、清晰度和辨识度。

基于谱的相关特征
基于谱的相关特征被认为是声道(vocal tract)形状变化和发声运动(articulator movement)之间相关性的体现。

音频检测的关键技术-MFCC特征提取,为了从音频信号中提取语音信息,目前使用的是普遍用于分析音频信号的mfcc值。MFCC(梅尔频率倒谱系数),梅尔频率是基于人耳听觉特性提取出来的,和赫兹频率呈现一个非线性对应关系。梅尔频率倒谱系数是利用好梅尔频率和赫兹频谱关系计算得出的赫兹频谱特征,其主要应用于语音数据的特征提取。
链接:https://zhuanlan.zhihu.com/p/496818604

4、相关项目

评估指标:
指标:weighted accuracy(WA)、unweighted accuracy(UA)、weighted average F1(WF1);其中WA表示加权准确率,UA表示普通准确率,WF1表示加权F1 score。
GitHub topic一些相关项目:https://github.com/topics/speech-emotion-recognition

1、用 LSTM、CNN、SVM、MLP 进行语音情感识别

用 LSTM、CNN、SVM、MLP 进行语音情感识别,Keras 实现。
改进了特征提取方式,识别准确率提高到了 80% 左右。原来的版本的存档在 First-Version 分支。(传统机器学习,没具体评估指标)
代码:https://github.com/Renovamen/Speech-Emotion-Recognition

2、DST:基于Transformer的可变形语音情感识别模型

本次分享华南理工大学、优必选研究院等合作在ICASSP2023会议发表的论文《DST: Deformable Speech Transformer for Emotion Recognition》。该论文提出一个可变形的Transformer结构来对语音情感信号进行建模,能够自适应地发现并关注到语音信号中有价值的细粒度情感信息。
论文地址:https://arxiv.org/abs/2302.13729
代码仓库:https://github.com/HappyColor/DST

在这里插入图片描述

3、语音情感基座模型emotion2vec

在此背景下,上海交通大学、阿里巴巴、复旦大学和香港中文大学的研究者们联手开发了一个通用的语音情感表征模型emotion2vec 。
本文提出的emtion2vec为一种自监督预训练方法,其核心为句子级别损失与帧级别损失,以及在线蒸馏范式。采用data2vec自监督框架,emotion2vec模型在预训练阶段包含两个网络:教师网络T和学生网络S。这两个网络拥有相同的架构,包括由多层卷积神经网络组成的特征提取器F,以及由多层Transformer组成的主干网络B。

论文链接👇:https://arxiv.org/abs/2312.15185
开源代码仓库👇:https://github.com/ddlBoJack/emotion2vec

在这里插入图片描述

4、IEEE ICME 2023论文|基于交互式注意力的语音情感识别联合网络

在本文中提出了一个单独频谱模型和一个结合了预训练模型和频谱模型语音情感识别联合网络。首先设计一个频谱模型提取到语音情感的特性表征,再通过Wav2Vec2.0[2]预训练模型学习到语音的共有表征。通过设计不同的交互注意力模块将两个中间特征进行融合,更好地利用音频信息。并设计多分支训练策略对联合网络进行优化。在说话人无关设置下取得良好的实验结果。

实验使用了IEMOCAP数据集对上述提出的联合网络进行训练和测试。
在这里插入图片描述

5、CA-MSER: 多模态语音情感识别

是南洋理工&&天大 发表在ICASSP 2022的关于语音情感识别(Speech Emotion Recognition, SER)的工作,SER 指的是从音频数据中分析说话人的情感,是一个典型的情感分类任务。本文作者从音频数据中提取了多个不同级别的声学特征(原始音频信号、MFCC 和梅尔谱),将他们看作多模态信息进行处理,并且设计了 co-attention 模块进行多模态信息融合,在 IEMOCAP 数据集上取得了不错的效果。
在这里插入图片描述
开源代码地址:https://github.com/Vincent-ZHQ/CA-MSER

5、应用

宠物情绪识别:
智能狗项圈,界定狗子的喜怒哀乐
韩国的初创公司 Petpuls Lab,从 2017 年起便开始研发一种智能狗项圈,以帮助铲屎官更准确、更有效地理解自家狗子。智能项圈 Petpuls 的第一代,于 2018 年 2 月在韩国市场推出,之后受到广泛好评。去年该产品的第二代问世,售价 99 美金(约 640 元人民币)。

猫言猫语也能被翻译?喵喵?
前段时间,一位前 Amazon 工程师开发了一项应用程序 MeowTalk,能够把猫咪的「喵喵喵」翻译成短语,从而让人们知道它在表达什么。

教育领域:可以通过语音情感识别系统实时掌握学生的情感状态,利用其对情感特有的分析辨别能力,实时分析系统接收到的学生回复,及时地了解和把握学生的真实情感状态,从而迅速做出反馈并进行调整,大大增强了课堂效果和提高了学生的学习效率。

医学领域:面对诸多医患之间无法沟通交流的现象,语音情感识别系统发挥了极其重要的作用。当遇到情绪波动、抗拒交谈或是精神受创、难以沟通的患者,语音情感识别系统将会迅速做出反应并分析患者此刻的心理状态。

服务领域:普通的人工客服只会机械性、重复性地回答客户的问题和需求,不能做到灵活变通,从而致使部分客户产生抵触的情绪,导致客源的损失。而语音情感识别将会对此采取针对性的分析,当监测出客户情绪有负面波动时,则及时切换人工客服进行协调,有效地减少了客源损失量。
除上述领域外,语音情感识别在智能娱乐、电子商务、汽车驾驶、辅助测谎和人机交互[等应用程序非常重要。

6、竞赛

(1)多模态情感识别挑战赛
该竞赛开始于2016年,该竞赛英文名称为The multimodal emotion recognition challenge,统称为MEC或MER,由清华大学陶建华教授联合中国科学院自动化研究所连政助理研究员,南洋理工大学Erik Cambria教授,帝国理工学院Björn W. Schuller教授、奥卢大学赵国英教授在国际顶级人工智能学术会议ACM MM上举办。
(2)多模态情感分析挑战赛
英文全称 The Multimodal Sentiment Analysis Challenge(MUSE)。开始于2020年,由多媒体国际顶级会议ACM Multimedia举办,英国帝国理工学院、德国奥斯堡大学、芬兰奥卢大学等高校共同发起。
链接:https://blog.csdn.net/weixin_44200133/article/details/134999341

参考:https://blog.csdn.net/weixin_44200133/article/details/134999341

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/805905.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

一体式I/O模块与RS485串口联动,实现工业网络无缝对接

在现代工业自动化领域中,一体化I/O模块和RS485串口的联动应用已经成为实现工业设备高效、稳定通信的关键技术手段之一。这种联动机制能够有效地将各种现场设备的数据实时、准确地传输到上位机系统,从而实现工业网络的无缝对接。 一体化I/O模块&#xff…

Linkedin领英封号原因是什么?如何养号?

领英作为全球最大的职场社交平台,用户总数已超过8亿,覆盖200多个国家和地区,中国会员总数也已经累计超过5700万,庞大的基数使得他迅速成为跨境业务员建立形象,拓展人脉,开发客户的重要渠道。“领英职场”的…

2024年,国产大模型的变革与突破

在今年两会上,“人工智能(AI)”成为热议焦点。政府工作报告不仅多次提及,还首次提出“人工智能”创新行动,彰显了对科技发展的深刻洞察和前瞻性布局。 回顾历年报告,从“互联网”到“智能”,每…

Pinctrl子系统、GPIO子系统概念

Pinctrl概念: 无论是哪种芯片,都有类似图 16.1 的结构: 要想让 pinA 、 B 用于 GPIO ,需要设置 IOMUX 让它们连接到 GPIO 模块; 要想让 pinA 、 B 用于 I2C ,需要设置 IOMUX 让它们连接到 …

go语言学习--4.方法和接口

目录 1.方法 2.接口 2.1结构体类型 2.2具体类型向接口类型赋值 2.3获取接口类型数据的具体类型信息 3.channel 3.1阻塞式读写channel操作 2.3非阻塞式读写channel操作 4.map 4.1插入数据 4.2删除数据 4.3查找数据 4.4扩容 1.方法 方法一般是面向对象编程(OOP)的一…

《由浅入深学习SAP财务》:第2章 总账模块 - 2.6 定期处理 - 2.6.2 月末操作:GR/IR重组

2.6.2 月末操作:GR/IR重组 SAP在采购订单收货和发票校验时分别产生凭证,中间采用GR/IR过渡。GR即为收货,IR即为收票。月末,GR/IR的余额根据收货和收票的情况进行判断,转入“应付暂估”或“在途物资”,次月自…

C++ 数据类型

数据类型介绍 数据类型的作用:编译器预算数据分配的内存空间大小。 ps:可以通俗理解为:数据类型是用来规范内存的开销,约定数据在内存中的格式,便于存储。 变量 变量的语法 在计算机程序中,变量是用来存…

安装苹果ipa的方法

1、如何生成udid udid获取工具 https://www.betaqr.com/tools 提示下载后 2、爱思助手安装苹果app mac下载爱思助手,数据线连接手机,把ipa包拖到爱思助手app应用选项里 3、新手机调试需要先选中设备,再注册

VMwear桥接网络正确配置+静态IP设置

1.桥接网络配置 很多时候在VMware安装完虚拟机之后,会发现配置的桥接网络没有起作用,如果是Linux下输入ifconfig发现只有ipv6的地址而没有ipv4,说明没有桥接没有启用成功,需要按照以下方式来设置 在VMware的左上角打开编辑&#…

Redis(持久化 -- RDB AOF)

持久化 通常我们认为持久化为: 重启进程/重启主机之后, 数据仍然存在不丢失 把数据存储在硬盘上 – 持久 把数据存储在内存中 – 不持久 Redis 持久化 redis 是一个内存数据库, 也就是说本身是不持久的(但是快[效率高]), 于是 Redis 提供了持久化机制 — RDB 和 AOF 二者都是对…

H.265网页无插件播放EasyPlayer.js流媒体播放器常见问题及解答

EasyPlayer属于一款高效、精炼、稳定且免费的流媒体播放器,可支持多种流媒体协议播放,无须安装任何插件,起播快、延迟低、兼容性强,使用非常便捷。 今天我们来汇总下用户常见的几个问题及解答。 1、EasyPlayer.js播放多路H.265视…

Android 输入法框架

输入法属于输入系统的一部分,区别于输入系统只能向系统产生时间,输入法能向系统输入具体的内容,下面来认识输入法的大体框架,以下内容参考清华大学出版社出版的《Android图形显示系统》。 输入法框架包含3个组件,各组件…

python画图Matplotlib和Seaborn

python画图Matplotlib和Season 一、Matplotlib1、介绍2、安装3、内容二、Seaborn1、介绍2、安装3、内容一、Matplotlib Matplotlib官网 1、介绍 Matplotlib 是一个 Python 的绘图库,用于创建高质量的二维图表和一些基本的三维图表。它广泛应用于科学计算、数据分析、工程学和…

基于springboot+vue实现的的成人教育教务系统

作者主页:Java码库 主营内容:SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app等设计与开发。 收藏点赞不迷路 关注作者有好处 文末获取源码 技术选型 【后端】:Java 【框架】:spring…

AI时代,搜索引擎的巨头地位恐怕不保了

兄弟们,你们使用搜索网站的频率有降低吗? ChatGPT 已经流行了一年多了,这期间数个大模型都发展了起来。 搜索引擎本质上也属于问答系统,所以,在大模型成熟之后,我使用搜索的频率越来越低了。 主要是因为…

水牛社:互联网赚钱秘籍,免费项目,你真敢要吗?

免费是最贵的。真正理解并使用这句话的只有少数人,今天在网上分享一下免费项目背后的逻辑,抛开现象, 本质是最重要的。 我从事互联网工作15年。不管是过去还是现在,总有人喜欢问有没有免费项目? 其实我平时懒得回答…

java基础语法(13)

1. final关键字 final概述 学习了继承后,我们知道,子类可以在父类的基础上改写父类内容,比如,方法重写。那么我们能不能随意的继承API中提供的类,改写其内容呢?显然这是不合适的。为了避免这种随意改写的情…

C++初阶---vector(STL)

1、vector的介绍和使用 1.1、vector的介绍 1. vector是表示可变大小数组的序列容器。 2. 就像数组一样,vector也采用的连续存储空间来存储元素。也就是意味着可以采用下标对vector的元素 进行访问,和数组一样高效。但是又不像数组,它的大小是…

MATLAB 普通场景的道路点云分割 (方法一)(56)

MATLAB 普通场景的道路点云分割(方法一) (56) 一、分割原理二、算法实现1.代码一、分割原理 基于这样一个认识:大部分情况下,点云都是分块去处理的,在某块点云场景中,点云区域不大,地面基本是水平分布的,不会有较大的坡度,因此将其认为是一个法向与Z轴大致平行的平…

Python空间分析简明教程

数据世界是一个活生生的、会呼吸的事物。 当一个城市的犯罪率上升时,这是因为现实世界中有人在某个地方犯罪。 有警察局、住宅区和商业区、人口密度以及可以与位置相关联的人的地方。 所有这些东西都存在于数据框和表格之外的世界中。 空间分析使数据科学家能够回答…