奇富科技跻身国际AI学术顶级会议ICASSP 2024,AI智能感知能力迈入新纪元

近日,2024年IEEE声学、语音与信号处理国际会议ICASSP 2024(2024 IEEE International Conference on Acoustics, Speech, and Signal Processing)宣布录用奇富科技关于语音情感计算的最新研究成果论文“MS-SENet: Enhancing Speech Emotion Recognition Through Multi-scale Feature Fusion With Squeeze-and-excitation Blocks”。ICASSP上的成功发表是奇富科技在全球科技舞台上又一次的闪耀,也是对团队科研能力和创新实力的最佳证明。

15d3a4cbb9c7452c9cd5ba29a681cd6c.png 

ICASSP是由IEEE电气电子工程师学会主办的信号处理领域的顶级国际会议,在国际上享有广泛的学术影响力。本年度将于2024年4月14日至19日在韩国首尔举行会议,主题为“信号处理技术:迈向真正智能的基石”,奇富科技此次被录用的论文研究方向聚焦在语音情感计算,团队提出了一种名为MS-SENet的新型网络结构,通过高效提取、选择和加权空间和时间多尺度特征,并将这些特征与原始信息相融合,获得更强的语音情绪表征向量。

情感计算领域是一个涉及计算机科学、心理学和语言学等多学科的交叉研究领域,它的主要目的是通过分析和处理语音信号中的情感信息,使计算机能够识别和理解人类的情感状态。业界主流做法是通过音频、文本等多模态信息来进行情感分类,但奇富科技团队认为人类底层情感特征是相通的,是完全可以跨越具体语种和文本内容。奇富科技团队认为可以从减少提取大量无关紧要的声学特征和针对局部频率和长期时间特征进行融合两方面去提升语音信号的情感表征学习,并基于此提出了MS-SENet框架(图1)。MS-SENet通过使用不同尺寸的卷积核提取多尺度时空特征,并引入压励模块来有效捕捉这些多尺度特征。同时通过跳跃连接和空间丢失层防止过拟合并增加模型深度,进一步提高了情感计算模型的表达能力。

8774aedf82994d7f8785b22ae103eb37.png 

图1 奇富科技自研MS-SENet音频情感计算网络框架

奇富科技团队在论文中评估了包括中科院自动化所语音情感数据集、柏林情感数据库、意大利语数据集、互动情感二元运动捕捉数据库、Surrey音频视觉表达情感数据集以及Ryerson音频视觉情感演讲与歌曲数据集在内的六个不同场景的多语种的数据集。和SOTA(state of the art,是指在特定任务中目前表现最优的方法或模型)相比,MS-SENet将UA和WA提高了1.31%和1.61%,同时MS-SENet在具有更多情感类别和较低数据量的情况下,仍然保持着出色的情感识别能力。

5d076c09ed6a47fcaa316d709de1958b.png 

表1 奇富科技自研MS-SENet与学术界2019~2023年度SOTA在六大评测集上的表现

奇富科技团队还利用t-SNE技术对MS-SENet和SOTA模型(TIM-Net)的表征进行了可视化,从下图可以观察到MS-SENet形成了具有清晰分类边界的独特表征聚类。

b754320c6b0e492994f20dbc7a9f55c6.png 

图2 奇富科技自研MS-SENet与2023年度SOTA(TIM-Net)在SAVEE语料库上的可视化表征图,图(b)各个情绪分类边界明显更清晰

奇富科技的语音情感计算研究不止于理论突破,更是实际应用的成功典范。
在贷后降投诉项目中,异常情绪监测首次被应用在实景业务当中。通过对高风险客群的录音通话进行逐通分析,及时遴选出异常情绪的客户,以便相关人员可以及时介入,实验结果表明模型组投诉率低于对照组4个绝对值百分点。

此外,奇富科技大模型部自研的Orpheus-声学感知系统(Orpheus Acoustics Perceptual System,以下简称Orpheus-APS)中已成功地整合情感计算模块,该系统着重聚焦声学环境、音频内容和说话人三大感知维度,提供了崭新的智能外呼平台交互质量评估视角。例如,在质检场景中,Orpheus-APS不仅具备传统声学检测功能,更以其情感感知能力为亮点。与市面上已有简单的单句维度情感分类不同,Orpheus-APS可以在时间维度绘制连续的完整情绪光谱,更直观呈现说话者在通话过程中情绪状态的连续变化。情绪光谱的绘制精准反馈了坐席在通话过程中的情绪波动和趋势,为质检人员提供了全新的观察角度,也为企业利用好海量通话交互数据提供了全新的工具,是实现业务管理决策、战略规划数智化过程中重要的一步。

10cb11031dfb4c268957781cdb292b98.png 

图3 某贷后坐席的录音情绪光谱图,直观反映坐席在通话过程中的情绪波动过程

此次论文的成功录用,不仅是奇富科技团队的成果,更是中国科技创新的典范。奇富科技在国际顶会上的亮眼表现,将进一步提升中国科技企业的国际声望,为产业升级和技术进步贡献更多力量。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/580681.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

vue中的路由

目录 一、路由基础 路由机制 1.声明路由对象数组 2.创建路由器实例对象 3.将路由器实例注册vue根实例 4.通过router-link标签访问组件 5.路由导航守卫 二、动态路由匹配 响应路由参数的变化/监听路由url地址栏参数变化? 一、路由基础 路由机制 通过路由加载组件…

11.map 容器

11、map 容器 简介: map 中所有元素都是 pairpair 中第一个元素为 key(键值),起到索引作用,第二个元素为 value(实值)所有元素都会根据元素的键值自动排序 本质: map/multimap 属…

如何发送大型文件 ---- 分卷压缩

不知道各位小伙伴有没有这样的烦恼,发送很大很大的压缩包会受到限制,比如QQ邮箱需要付费来进行中转的扩容,下面我将会介绍一种分卷压缩的方法来传送较大的压缩包给对方 使用7-zip软件进行分卷压缩 如果有7-zip压缩软件直接跳过这一步 7-zi…

利用Milvus Cloud和LangChain构建机器人:一种引人入胜且通俗易懂的方法

一、引言 机器人已经深入我们的日常生活,从家庭服务到工业生产,再到医疗和运输等领域。然而,这些机器人往往需要复杂的算法和数据处理技术才能有效地执行任务。在这个过程中,人工智能(AI)和机器学习&#…

Spring Boot快速搭建一个简易商城项目【一展示商城首页篇】

前言:今天我来使用Spring Boot快速搭建一个简易商城项目以下是相关的思路流程,如果有更好的思路,欢迎大佬评论留言!!! 一,实现思路: 创建 Spring Boot 项目: 使用 Spring…

一种用于解决子图同构问题的子图特定因子

判断两个图是否同构可以从两个方面考虑 当两个图的节点的个数不等时:显然,这两个图是不可能同构。当两个图的节点的个数相等时:此时,需根据邻接矩阵的特征值来进行区分。例:两个图的邻接矩阵分别为 A , A ′ ∈ R n …

Hikvision SPON IP网络对讲广播系统存在命令执行漏洞CVE-2023-6895 附POC软件

免责声明:请勿利用文章内的相关技术从事非法测试,由于传播、利用此文所提供的信息或者工具而造成的任何直接或者间接的后果及损失,均由使用者本人负责,所产生的一切不良后果与文章作者无关。该文章仅供学习用途使用。 1. Hikvision SPON IP网络对讲广播系统简介 微信公众…

理解文件系统

一 什么是文件系统 文件系统是计算机操作系统中的一个核心组件,用于管理计算机中的文件和文件夹。它提供了一种组织和访问计算机存储设备上数据的方式。文件系统使用户能够创建、修改、删除和查找文件,以及组织文件和文件夹的层次结构。 ps: linux一共有…

全局代理的詳細使用指南(Windows、Mac、Android、iOS)

全局代理IP又稱全局IP代理,允許用戶通過一個代理伺服器來發送和接收互聯網上的資訊。這個代理伺服器會隱藏用戶的真實IP地址,並將其替換為代理伺服器的IP地址。 除了常見的提高網路安全保護和突破地理限制的功能外,全局代理IP還可以做到以下…

C语言例题6

1.以下程序运行后的输出结果是&#xff1a;17。 main() {int x15; while(x>10&&x<50) {x; if (x/3) {x ; break;} else continue;} printf("%d\n",x); } 首先&#xff0c;我们分析程序中的逻辑和操作。 初始化 x 为 15。进入 while 循环&…

【FPGA】高云FPGA之科学的FPGA开发流程

FPGA开发流程 开发流程1、设计定义2、设计输入3、分析和综合4、功能仿真5、布局布线6、时序仿真7、IO分配以及配置文件&#xff08;bit流文件&#xff09;的生成8、配置&#xff08;烧录&#xff09;FPGA9、在线调试 例子1、设计定义1.1 需求1.2 原理图1.3 真值表 2、设计输入2…

HTML 实操试题(一)

创建一个包含标题、段落和链接的基本HTML文档&#xff1a; <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><ti…

Docker - 镜像 | 容器 | 数据卷 日常开发常用指令 + 演示(一文通关)

目录 Docker 开发常用指令汇总 辅助命令 docker version docker info docker --help 镜像命令 查看镜像信息 下载镜像 搜索镜像 删除镜像 容器命令 查看运行中的容器 运行容器 停止、启动、重启、暂停、恢复容器 杀死容器 删除容器 查看容器日志 进入容器内部…

软件测试/测试开发丨Pytest学习笔记

Pytest 格式要求 文件: 以 test_ 开头或以 _test 结尾类: 以 Test 开头方法/函数: 以 _test 开头测试类中不可以添加构造函数, 若添加构造函数将导致Pytest无法识别类下的测试方法 断言 与Unittest不同, 在Pytest中我们需要使用python自带的 assert 关键字进行断言 assert…

SpringBoot实用开发(五)-- RedisTemplate处理String类型的数据

目录 1. 新增操作 2. 查看操作 3. 批量获取value值 4. 返回value的长度 5.

中介者模式-Mediator Pattern-1

如果在一个系统中对象之间的联系呈现为网状结构&#xff0c; 对象之间存在大量的多对多联系&#xff0c;将导致系统非常复杂。 这些对象既会影响别的对象&#xff0c;也会被别的对象所影响。 这些对象称为同事对象&#xff0c;它们之间通过彼此的相互作用实现系统的行为。 在网…

找不到msvcp140.dll怎么办-msvcp140.dll丢失的解决方法分享

在计算机使用过程中&#xff0c;我们经常会遇到一些错误提示&#xff0c;其中之一就是“msvcp140.dll丢失”。那么&#xff0c;msvcp140.dll究竟是什么文件&#xff1f;为什么会出现丢失的情况&#xff1f;本文将详细介绍msvcp140.dll的属性、作用以及丢失的原因&#xff0c;并…

Java学习笔记(八)——面向对象编程(高级)

目录 一、类变量和类方法 &#xff08;一&#xff09;类变量/静态变量 类变量内存布局 类变量使用注意事项和细节 &#xff08;二&#xff09;类方法 类方法经典的使用场景 类方法使用注意事项和细节 二、理解main方法语法 三、代码块 代码块使用注意事项和细节 四、…

Graylog日志搜索技巧

graylog搜索日志用的语法是Syntax接近Lucene&#xff0c;搜起来比较方便 Search query languagehttps://go2docs.graylog.org/4-0/making_sense_of_your_log_data/writing_search_queries.html?tocpathSearching%20Your%20Log%20Data|_____1 1.Syntax 语法 1.1 基本匹配 搜…