人工智能增强的音频和聊天协作服务

论文标题:AI-enabled Audio and Chat Collaboration Services

中文标题:人工智能增强的音频和聊天协作服务

作者信息:

  • Emil P. Andersen, Norwegian Defence Research Establishment (FFI), Kjeller, Norway
  • Jesper R. Goksør, Sindre E. Halleraker, Ole P. Myhre, Tobias S. Omdal, Herman H. Seternes, Leander S. Thorstad, Norwegian University of Science and Technology (NTNU), Trondheim, Norway
  • Frank T. Johnsen, Simen Kvalø, Norwegian Defence Research Establishment (FFI), Kjeller, Norway

论文出处:MILCOM 2024 - 2024 IEEE Military Communications Conference (MILCOM)


摘要
本文研究了一种改善战术边缘使用的音频服务的方法,这些服务适用于网络环境被描述为断开、间歇和有限(DIL)的情况。研究者们考虑使用较新的人工智能语音识别系统,即Vosk和OpenAI的Whisper,为服务带来转录功能。将语音音频转换为文本将减轻网络的负担,这在DIL环境中是一个重要的考虑因素。为了展示改善音频服务的方法,研究者们引入了一个语音转文本(STT)应用程序,该程序实现了Vosk和Whisper作为转录模块。应用程序构建在包含转录、消息传递和VoIP的技术栈上。除了具有STT功能外,还实现了反向功能:文本转语音模块,将文本消息转换回音频供接收者收听。论文讨论了应用程序的设计和架构,详细说明了如何使用一套技术构建技术栈,这些技术有利于在DIL网络中使用的音频服务。应用程序需要在资源稀缺的战术边缘工作,因此评估了实现的转录器的资源使用情况。最后,研究了两种转录器的准确性,以评估它们提供的服务质量。

引言
北约IST-201研究任务组专注于在DIL环境中支持服务的互操作性及其对将来联合任务网络(FMN)的潜在影响。IST-201特别关注通信和协作服务,旨在改善北约任务中多国合作的战术层面。本文讨论了人工智能(AI)如何用于改善音频服务,改善包括三个方面:首先,使用AI进行音频处理可以获得STT功能,便于与基于文本的即时消息服务集成;其次,结合基于文本的聊天和生成性AI,可以获得文本到语音(TTS)功能,允许文本消息被朗读给接收者;第三,传输文本而非音频需要更少的数据,显著减轻网络负载。本文讨论了一个实际的设计和实现,该实现已作为开源发布,以惠及研究社区。

相关工作
IST-201的目标是研究改善和支持DIL环境中协作服务的方法。该组的第一篇论文[4]专注于实验基于AI的音频编解码器,以改善战术边缘的音频服务质量(QoS)。实验表明,谷歌开发的基于AI的音频编解码器Lyra[5]与目前北约低数据速率通信中使用的标准化编解码器表现相似。这些实验在理想条件下进行,并进行了客观测试。为了更好地理解基于AI的音频编解码器(如谷歌Lyra)的好处,可能需要在更现实的网络环境中进行实验,并进行主观测试。IST-176组专注于将物联网(IoT)应用于使用标准化技术连接武装力量[6]。IST-150组则致力于提供战术级别服务的建议,他们确定发布/订阅协议MQTT是战术联合系统中交换信息的合适选择[7]。本文扩展了如何使用MQTT作为音频服务间数据交换的方法。

技术
应用程序的技术栈由三个部分组成:转录、消息传递和VoIP,大部分使用Python构建,部分使用C++。设计围绕几个基础组件:首先是Linphone音频软件用于VoIP,因为它已经在IST201的第一轮实验中使用过,其中评估了编解码器[4]。其次是MQTT作为发布/订阅组件,实现消息传递并将软件跨网络集成。剩余的软件实现列表见表I。大多数代码用Python编写,Linphone Python库用C++编写。

系统架构
为了提供应用程序架构的概览,使用了4+1架构视图模型。这个模型包括逻辑视图、过程视图、开发视图和物理视图。

 

 

测试
测试部分包括STT性能测试、功能测试、资源测试和准确性测试。STT性能测试比较了Vosk和Whisper两个STT组件的准确性、错误率和速度。功能测试验证了应用程序的各项功能和非功能需求。资源测试旨在找到应用程序在有限环境下运行所需的最小资源量。准确性测试评估了Linphone集成与转录器的协同工作情况。网络影响测试展示了通过STT技术,可以将原始音频的数据负载从每秒千比特减少到每秒比特的范围,显著释放网络带宽。

结论和未来工作
本文研究了在DIL环境中使用生成性AI支持协作音频服务的方法。研究了三种改善音频服务的方式:使用Vosk和Whisper自动语音识别系统实现音频服务的STT功能;提供TTS功能,允许转发的文本被朗读给接收者;发送文本消息减少了网络负载。Vosk和Whisper在测试中均显示出有希望的结果。在资源使用方面,Vosk比Whisper表现更好,但应考虑对不同语言的支持。两种自动语音识别系统均显示出良好的准确性,表明它们与Linphone音频软件集成良好。通过IST-201,目标是继续实验,以改善战术边缘的协作服务,包括音频服务。本文开发的应用程序满足了许多推进这项工作所需的功能和非功能需求。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/64270.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【原创】- 澳门预约医疗系统 - 一个基于Vue3编写的程序

在空余时间写了一个前端预约医疗系统,用Vue3写的一套前端模块,里面数据都是本地模拟,一个练手的简单项目。 此项目主要功能有: 1.预约挂号、挂号记录 2.疫苗接种 3.就医记录 4.科室导航 5.AI问诊 6.个人病例 7.支付可配置化 8.健康…

Cadence学习笔记 3 MCU主控原理图绘制

基于Cadence 17.4,四层板4路HDMI电路 更多Cadence学习笔记:Cadence学习笔记 1 原理图库绘制Cadence学习笔记 2 PCB封装绘制 目录 3、MCU主控原理图绘制 快捷键总结: 3、MCU主控原理图绘制 新建原理图Design,选择好SCH文件夹&…

vue2实现答题组件

需求 实现一个答题组件,点击正确的选项,该选项背景变绿色;点击错误的选项,该选项背景变红色。不管点击了什么选项,延迟一秒后切换下一题。 每次出题,从题库中选随机选择一道用户此次进入这个页面后还没有…

3D相框案例讲解(详细)

前言 通过现阶段的学习,我们已经掌握了HTML,CSS和JS部分的相关知识点,现在让我们通过一篇案例,来巩固我们近期所学的知识点。 详细视频讲解戳这里 任务一 了解目标案例样式 1.1了解案例 3D相框 1.2 分析案例 首先我们看到一个…

SuperMap GIS基础产品FAQ集锦(20241216)

一、SuperMap iDesktopX 问题1:想问一下 SuperMap iDesktopX可以修改倾斜入库后数据的位置吗 11.2.1 【解决办法】在配置文件(*.scp)中找打position属性,修改其中的xyz值,用于改变位置;修改后如果想要相机…

2.11.静态链表

一.静态链表的基本概念: 1.上图说明:索引为0处是头结点,头结点不存储数据,但存储下一个结点的数组下标,本例中头结点里存储的下一个结点的数组下标为2,即索引为2的结点为头结点后的第一个结点,以…

【Childishness and Playfulness】

奥迪双钻,旋风冲锋龙卷风,巨无霸 智能芯片 东西南北中,好像已经忘了怎么折叠了,折千纸鹤,折小船,折舞狮,折飞机 红外线小灯,纽扣电池,各种形状投影 爷爷的手电筒&am…

【C++初阶】第9课—标准模板库STL(string_3)

文章目录 1. string类对象的查找操作1.1 c_str返回c格式字符串1.2 substr获取string类对象子串1.3 find和rfind查找字符串内容1.4 find_first_of与find_first_not_of1.5 find_last_of与find_last_not_of1.6 copy复制string类对象内的字符串内容1.7 compare对比string类字符串1.…

【教程】如何下载WandB平台的运行数据?

【教程】如何下载WandB平台的运行数据? 前言 CSDN主页:https://blog.csdn.net/rvdgdsva 博客园主页:https://www.cnblogs.com/hassle Weights & Biases (WandB)是一个用于机器学习的平台,它提供了一套工具来帮助你跟踪、比…

vscode设置终端代理

转载请标明出处:小帆的帆的博客 设置终端代理 修改项目的.vscode/settings.json {"terminal.integrated.env.windows": {"http_proxy": "http://127.0.0.1:7890","https_proxy": "http://127.0.0.1:7890"}, }…

【Linux】自定义项目-进度条

更多精彩内容..... 🎉❤️播主の主页✨😘 Stark、-CSDN博客 准备工作:"\r"与"\n"字符 ①:基本含义 在C语言和Linux环境中,\r是回车符,\n是换行符,用于控制文本格式和输出…

Linux从0到1——初识线程【什么是线程/线程控制/详解tid】

Linux从0到1——初识线程 1. 什么是线程?1.1 线程的概念1.2 结合代码理解线程1.3 重谈地址空间1.4 线程的优缺点 2. 线程异常和线程用途3. Linux进程VS线程4. 详解pthread_create的arg参数4.1 给线程传参4.2 一次创建多个线程 5. 线程控制5.1 线程退出5.2 线程分离5…

[免费]SpringBoot+Vue校园社团管理系统(优质版)【论文+源码+SQL脚本】

大家好,我是java1234_小锋老师,看到一个不错的SpringBootVue校园社团管理系统(优质版),分享下哈。 项目视频演示 【免费】SpringBootVue校园社团管理系统(优质版) Java毕业设计_哔哩哔哩_bilibili 项目介绍 随着信息技术的迅速发展&#x…

114 二叉树展开为链表

解题思路: \qquad 题目中已经明确,要用先序遍历的顺序展开,那么就需要按照“中-左-右”的顺序遍历二叉树,剩下的问题在于如何在遍历过程中完成链表指针的更新。 \qquad 由于“右子节点”需要链接到左子树最后一个节点之后&#…

Kylin麒麟操作系统 | Nginx服务部署

目录 一、理论储备1. Nginx概述2. Nginx与Apache的区别3. Nginx的服务配置 二、任务实施任务1 Nginx的编译安装1. Server配置2. 客户端测试 任务2 Nginx反向代理1. Server1配置2. Server2配置3. 客户端测试 一、理论储备 1. Nginx概述 Nginx是一个轻量级的web服务器&#xff…

类OCSP靶场-Kioptrix系列-Kioptrix Level 1

一、前情提要 二、实战打靶 1. 信息收集 1.1. 主机发现 1.2. 端口扫描 1.3 目录爆破 1.4. 敏感信息 2.根据服务搜索漏洞 2.1. 搜索exp 2.2. 编译exp 2.3. 查看exp使用方法,并利用 3. 提权 二、第二种方法 一、前情提要 Kioptrix Level是免费靶场&#x…

Golang囊地鼠gopher

开发知识点-golang 介绍红队专题-Golang工具Fscan简介主要功能ubuntu 安装windows 安装常用命令:项目框架源文件common目录Plugins目录Webscan目录入口点插件扫描类型爆破插件common.ScantypeWebtitle函数webpoc扫描POC 执行CEL-GO 实践CEL指纹识别免杀源码特征参考链接红队专…

快速上手Spring注解、SpringAop

1 Spring 注解的使用 1 IOC 的概念 IOC(Inversion of Control):控制反转。 使用对象时,由主动new产生对象转换为由外部提供对象,此过程中对象创建控制权由程序转移到外部,此思想称为控制反转。通俗的讲就…

数据地图怎么做?推荐这款数据可视化地图生成器

在数字化与信息化高速发展的今天,企业迎来了前所未有的发展机遇,规模迅速扩张,市场版图不断延伸。然而,伴随着这种快速的发展,一个不容忽视的问题逐渐浮出水面——如何精准高效地掌握分布在各地的分公司、业务点乃至整…

鸿蒙项目云捐助第九讲鸿蒙App应用的捐助详情页功能实现

鸿蒙项目云捐助第九讲鸿蒙App应用的捐助详情页功能实现 这里接下来继续实现捐助详情页的布局页面,也就是当用户进入到分类页面后,点击分类的每一个商品就进入到捐助商品的详情页,这里的布局可以从下面的模板演化而来。 下面根据这个模板来进…