奇富科技跻身国际AI学术顶级会议ICASSP 2024,AI智能感知能力迈入新纪元

近日,2024年IEEE声学、语音与信号处理国际会议ICASSP 2024(2024 IEEE International Conference on Acoustics, Speech, and Signal Processing)宣布录用奇富科技关于语音情感计算的最新研究成果论文“MS-SENet: Enhancing Speech Emotion Recognition Through Multi-scale Feature Fusion With Squeeze-and-excitation Blocks”。ICASSP上的成功发表是奇富科技在全球科技舞台上又一次的闪耀,也是对团队科研能力和创新实力的最佳证明。

15d3a4cbb9c7452c9cd5ba29a681cd6c.png 

ICASSP是由IEEE电气电子工程师学会主办的信号处理领域的顶级国际会议,在国际上享有广泛的学术影响力。本年度将于2024年4月14日至19日在韩国首尔举行会议,主题为“信号处理技术:迈向真正智能的基石”,奇富科技此次被录用的论文研究方向聚焦在语音情感计算,团队提出了一种名为MS-SENet的新型网络结构,通过高效提取、选择和加权空间和时间多尺度特征,并将这些特征与原始信息相融合,获得更强的语音情绪表征向量。

情感计算领域是一个涉及计算机科学、心理学和语言学等多学科的交叉研究领域,它的主要目的是通过分析和处理语音信号中的情感信息,使计算机能够识别和理解人类的情感状态。业界主流做法是通过音频、文本等多模态信息来进行情感分类,但奇富科技团队认为人类底层情感特征是相通的,是完全可以跨越具体语种和文本内容。奇富科技团队认为可以从减少提取大量无关紧要的声学特征和针对局部频率和长期时间特征进行融合两方面去提升语音信号的情感表征学习,并基于此提出了MS-SENet框架(图1)。MS-SENet通过使用不同尺寸的卷积核提取多尺度时空特征,并引入压励模块来有效捕捉这些多尺度特征。同时通过跳跃连接和空间丢失层防止过拟合并增加模型深度,进一步提高了情感计算模型的表达能力。

8774aedf82994d7f8785b22ae103eb37.png 

图1 奇富科技自研MS-SENet音频情感计算网络框架

奇富科技团队在论文中评估了包括中科院自动化所语音情感数据集、柏林情感数据库、意大利语数据集、互动情感二元运动捕捉数据库、Surrey音频视觉表达情感数据集以及Ryerson音频视觉情感演讲与歌曲数据集在内的六个不同场景的多语种的数据集。和SOTA(state of the art,是指在特定任务中目前表现最优的方法或模型)相比,MS-SENet将UA和WA提高了1.31%和1.61%,同时MS-SENet在具有更多情感类别和较低数据量的情况下,仍然保持着出色的情感识别能力。

5d076c09ed6a47fcaa316d709de1958b.png 

表1 奇富科技自研MS-SENet与学术界2019~2023年度SOTA在六大评测集上的表现

奇富科技团队还利用t-SNE技术对MS-SENet和SOTA模型(TIM-Net)的表征进行了可视化,从下图可以观察到MS-SENet形成了具有清晰分类边界的独特表征聚类。

b754320c6b0e492994f20dbc7a9f55c6.png 

图2 奇富科技自研MS-SENet与2023年度SOTA(TIM-Net)在SAVEE语料库上的可视化表征图,图(b)各个情绪分类边界明显更清晰

奇富科技的语音情感计算研究不止于理论突破,更是实际应用的成功典范。
在贷后降投诉项目中,异常情绪监测首次被应用在实景业务当中。通过对高风险客群的录音通话进行逐通分析,及时遴选出异常情绪的客户,以便相关人员可以及时介入,实验结果表明模型组投诉率低于对照组4个绝对值百分点。

此外,奇富科技大模型部自研的Orpheus-声学感知系统(Orpheus Acoustics Perceptual System,以下简称Orpheus-APS)中已成功地整合情感计算模块,该系统着重聚焦声学环境、音频内容和说话人三大感知维度,提供了崭新的智能外呼平台交互质量评估视角。例如,在质检场景中,Orpheus-APS不仅具备传统声学检测功能,更以其情感感知能力为亮点。与市面上已有简单的单句维度情感分类不同,Orpheus-APS可以在时间维度绘制连续的完整情绪光谱,更直观呈现说话者在通话过程中情绪状态的连续变化。情绪光谱的绘制精准反馈了坐席在通话过程中的情绪波动和趋势,为质检人员提供了全新的观察角度,也为企业利用好海量通话交互数据提供了全新的工具,是实现业务管理决策、战略规划数智化过程中重要的一步。

10cb11031dfb4c268957781cdb292b98.png 

图3 某贷后坐席的录音情绪光谱图,直观反映坐席在通话过程中的情绪波动过程

此次论文的成功录用,不仅是奇富科技团队的成果,更是中国科技创新的典范。奇富科技在国际顶会上的亮眼表现,将进一步提升中国科技企业的国际声望,为产业升级和技术进步贡献更多力量。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/580681.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

如何发送大型文件 ---- 分卷压缩

不知道各位小伙伴有没有这样的烦恼,发送很大很大的压缩包会受到限制,比如QQ邮箱需要付费来进行中转的扩容,下面我将会介绍一种分卷压缩的方法来传送较大的压缩包给对方 使用7-zip软件进行分卷压缩 如果有7-zip压缩软件直接跳过这一步 7-zi…

利用Milvus Cloud和LangChain构建机器人:一种引人入胜且通俗易懂的方法

一、引言 机器人已经深入我们的日常生活,从家庭服务到工业生产,再到医疗和运输等领域。然而,这些机器人往往需要复杂的算法和数据处理技术才能有效地执行任务。在这个过程中,人工智能(AI)和机器学习&#…

Spring Boot快速搭建一个简易商城项目【一展示商城首页篇】

前言:今天我来使用Spring Boot快速搭建一个简易商城项目以下是相关的思路流程,如果有更好的思路,欢迎大佬评论留言!!! 一,实现思路: 创建 Spring Boot 项目: 使用 Spring…

Hikvision SPON IP网络对讲广播系统存在命令执行漏洞CVE-2023-6895 附POC软件

免责声明:请勿利用文章内的相关技术从事非法测试,由于传播、利用此文所提供的信息或者工具而造成的任何直接或者间接的后果及损失,均由使用者本人负责,所产生的一切不良后果与文章作者无关。该文章仅供学习用途使用。 1. Hikvision SPON IP网络对讲广播系统简介 微信公众…

理解文件系统

一 什么是文件系统 文件系统是计算机操作系统中的一个核心组件,用于管理计算机中的文件和文件夹。它提供了一种组织和访问计算机存储设备上数据的方式。文件系统使用户能够创建、修改、删除和查找文件,以及组织文件和文件夹的层次结构。 ps: linux一共有…

【FPGA】高云FPGA之科学的FPGA开发流程

FPGA开发流程 开发流程1、设计定义2、设计输入3、分析和综合4、功能仿真5、布局布线6、时序仿真7、IO分配以及配置文件(bit流文件)的生成8、配置(烧录)FPGA9、在线调试 例子1、设计定义1.1 需求1.2 原理图1.3 真值表 2、设计输入2…

Docker - 镜像 | 容器 | 数据卷 日常开发常用指令 + 演示(一文通关)

目录 Docker 开发常用指令汇总 辅助命令 docker version docker info docker --help 镜像命令 查看镜像信息 下载镜像 搜索镜像 删除镜像 容器命令 查看运行中的容器 运行容器 停止、启动、重启、暂停、恢复容器 杀死容器 删除容器 查看容器日志 进入容器内部…

软件测试/测试开发丨Pytest学习笔记

Pytest 格式要求 文件: 以 test_ 开头或以 _test 结尾类: 以 Test 开头方法/函数: 以 _test 开头测试类中不可以添加构造函数, 若添加构造函数将导致Pytest无法识别类下的测试方法 断言 与Unittest不同, 在Pytest中我们需要使用python自带的 assert 关键字进行断言 assert…

中介者模式-Mediator Pattern-1

如果在一个系统中对象之间的联系呈现为网状结构, 对象之间存在大量的多对多联系,将导致系统非常复杂。 这些对象既会影响别的对象,也会被别的对象所影响。 这些对象称为同事对象,它们之间通过彼此的相互作用实现系统的行为。 在网…

找不到msvcp140.dll怎么办-msvcp140.dll丢失的解决方法分享

在计算机使用过程中,我们经常会遇到一些错误提示,其中之一就是“msvcp140.dll丢失”。那么,msvcp140.dll究竟是什么文件?为什么会出现丢失的情况?本文将详细介绍msvcp140.dll的属性、作用以及丢失的原因,并…

Java学习笔记(八)——面向对象编程(高级)

目录 一、类变量和类方法 (一)类变量/静态变量 类变量内存布局 类变量使用注意事项和细节 (二)类方法 类方法经典的使用场景 类方法使用注意事项和细节 二、理解main方法语法 三、代码块 代码块使用注意事项和细节 四、…

Graylog日志搜索技巧

graylog搜索日志用的语法是Syntax接近Lucene,搜起来比较方便 Search query languagehttps://go2docs.graylog.org/4-0/making_sense_of_your_log_data/writing_search_queries.html?tocpathSearching%20Your%20Log%20Data|_____1 1.Syntax 语法 1.1 基本匹配 搜…

java keytool.exe ssl

JDK如果没有先安装 JDK8 install_jdk aleady install-CSDN博客 java keytool.exe ssl keytool -genkey -alias tomcat -storetype PKCS12 -keyalg RSA -keysize 2048 -keystore D:\server.keystore -validity 3650 server.ssl.key-storeD:\server.keystore server.ssl.key-…

怎么使用jupter notebook并配置环境变量

有的时候需要使用Jupyter Notebook运行代码,Jupyter Notebook的主要特点: ① 编程时具有语法高亮、缩进、tab补全的功能。 ② 可直接通过浏览器运行代码,同时在代码块下方展示运行结果。 ③ 以富媒体格式展示计算结果。富媒体格式包括&…

linux ubuntu常用命令大总结(1)

假设:在/home/test文件夹下有一个a.py文件 清屏 clear 文件和目录操作: clear: 清屏 clearls: 列出 /home/test 目录中的文件和子目录。 ls ls /home/testcd: 切换到 /home/test 目录。 cd cd /home/testpwd: 显示当前工作目录的路径。 pwdtouch:…

IPv4 VS IPv6代理全解,跨境电商代理IP选哪种?

IP(互联网协议)被网站用来收集用户位置信息。当今最流行的两种互联网协议是 IPv4 和 IPv6。 在我们选择IP代理的过程中可以看到IPv4、IPv6两种类型,他们有何区别?如何选择?下面为大家讲解! 在这篇文章中&a…

数据库开发之子查询的详细解析

1.4 子查询 1.4.1 介绍 SQL语句中嵌套select语句,称为嵌套查询,又称子查询。 SELECT * FROM t1 WHERE column1 ( SELECT column1 FROM t2 ... ); 子查询外部的语句可以是insert / update / delete / select 的任何一个,最常见…

【JavaScript】Set、Map、WeakSet、WeakMap

✨ 专栏介绍 在现代Web开发中,JavaScript已经成为了不可或缺的一部分。它不仅可以为网页增加交互性和动态性,还可以在后端开发中使用Node.js构建高效的服务器端应用程序。作为一种灵活且易学的脚本语言,JavaScript具有广泛的应用场景&#x…

数据治理认证大揭秘:CDMP、CDGA与CDGP,你了解多少?

IT码农们,你们是否经常被问到关于数据治理认证CDMP、CDGA和CDGP的问题?今天就来给大家好好科普一下! 🔮 CDMP:数据治理的基石 CDMP,即数据管理专业人士认证,是迈向数据治理旅程的起点。它为你打…

分享七种msvcp140.dll丢失的解决方法,帮助大家解决msvcp140.dll丢失

msvcp140.dll是一个重要的系统文件,它是微软视觉C可再发行包的一部分。这个动态链接库(DLL)文件对于运行那些用Visual Studio 2015及其更新版本开发的应用程序至关重要。在Windows操作系统中,DLL文件提供执行许多常见任务的必要指…