可理解性评估:使用Google Gemini优化语音识别的意义保留

  每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

语音识别中的可理解性评估:超越词错误率的意义保留

在自动语音识别(ASR)模型的评估中,词错误率(WER)及其逆值词准确率(WACC)是衡量句法准确性的常用指标。然而,这些指标未能反映ASR性能的一个关键方面:可理解性。这种局限性在针对具有非典型言语模式的用户时尤为明显,他们的WER往往超过20%,在某些情况下甚至超过60%。尽管如此,如果ASR模型能较好地保留其言语的意义,这些用户仍能从中受益。这在实时对话、语音输入文本信息、家庭自动化等对语法错误容忍度较高的应用中尤为重要。实际上,这些用户和应用场景最能从保留意义的ASR模型中获益,因为它们能显著改善交流。

WER的局限性与意义保留的重要性

尽管WER和WACC可以衡量语音识别的句法准确性,但它们并不总能准确反映转录错误的严重性。以下是一些示例,展示了WACC如何未能准确反映转录错误的严重性。在两个例子中,尽管WACC相似,第一个例子的错误相对无害,而第二个例子的错误则更为严重。

创建意义保留评估系统

为了解决这一问题,开发了一种新系统,以自动评估ASR模型有效传达用户意图的能力。在论文《利用大型语言模型评估语音转录的可理解性》(ICASSP 2024)中,介绍了一种新方法,使用大型语言模型(LLM)来确定转录是否准确捕捉了与参考文本相比的预期意义。基于这一方法,还报告了使用Gemini模型如何在不显著损失性能的情况下使用更小的模型,并在无需额外训练的情况下实现多语言意义评估。

意义保留作为替代指标

研究利用了Project Euphonia语料库,这是一个包含约2000名具有各种言语障碍的个体超过120万条语句的语料库。为了扩展对西班牙语使用者的数据收集,Project Euphonia与ALS/MND国际联盟合作,收集了来自墨西哥、哥伦比亚和秘鲁ALS患者的语音样本。同样,通过与巴黎脑科学研究所的Romain Gombert合作,Project Euphonia扩展到法国,收集了法国非典型言语者的数据。

在实验中,生成了4731个包含真实值和转录错误对的示例数据集,并附有人类标注,指示这些对是否保留了意义。将数据集分为训练集、测试集和验证集(分别为80% / 10% / 10%),确保三个数据集在真实语句级别上没有重叠。

训练与评估

在基础LLM上训练了意义保留分类器。通过提示微调(一种参数高效的LLM适应方法),将基础LLM调整为能够预测“是”或“否”的标签,以指示是否保留了意义。

在推理过程中,没有生成响应,而是获取LLM的logits作为两个类别标签(“是”和“否”)的分数。可以选择得分较高的标签,或在评估意义保留分类器时,使用“是”类别的得分。

使用Gemini进行意义保留评估

尽管在PaLM模型上取得的结果令人鼓舞,但最近AI模型的巨大进步激励评估其在此任务中的适用性。重新训练了意义保留分类器,现在使用Google的Gemini作为基础LLM。对于许多相关的用例,这一评估任务最好使用小模型(例如用于设备上的应用)。因此,选择了Google的Gemini小版本(Gemini Nano-1,具有1.8B参数,详见Gemini 1.0技术报告)进行更高效的推理,其参数量不到最初使用的PaLM 62B模型的3%。在意义保留测试集上评估时,微调后的Gemini Nano-1表现非常竞争,AUC ROC得分为0.88,尽管其规模较小。

多语言意义保留评估

还创建了法语和西班牙语的意义保留测试集,作为Project Euphonia扩展数据收集工作的一部分。这些测试集基于收集的语句、说话者言语障碍的严重程度和病因学的元数据,以及从Google的高度多语言通用语音模型(USM)获得的真实转录和ASR转录。

西班牙语测试集由来自六名说话者的518个示例组成,而法语测试集由来自十名说话者的199个示例组成。对于两种语言,不同说话者具有不同的病因学和言语障碍程度,包括轻度、中度和重度。

基于Gemini Nano-1模型的意义保留分类器在法语和西班牙语测试集上获得了约0.89的ROC AUC性能。鉴于该分类器仅用英文示例进行训练,这一结果相当显著。由于基础Gemini模型的多语言能力,这些能力在无需重新训练模型或创建新语言的训练数据集的情况下得以显现。

结论

提出使用意义保留作为比WER更有效的ASR系统评估指标,特别是在高错误率的情况下,如非典型言语和其他低资源领域或语言。通过关注意义保留,可以更好地评估模型对个体用户的有用性,尤其是在Project Relate等助听技术中,这些技术旨在通过训练完全个性化的语音识别模型使非典型言语者得到更好的理解。

为了进一步推进意义保留工作,并将其惠及更多用户和语言,还探索了Google Gemini模型的能力。Gemini Nano-1使能够在使用显著较小模型的情况下实现类似的分类器性能。尽管仅在英文示例上训练,分类器显示出在其他语言中准确评估意义保留的能力,如法语和西班牙语的测试所示。这一激动人心的发展为构建更高效、更通用的模型开辟了新的可能性,使更多用户受益。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/43584.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

nftables(5)表达式(3)PAYLOAD EXPRESSIONS

PAYLOAD EXPRESSIONS Payload expressions在nftables中扮演着重要的角色,因为它们允许用户定义复杂的规则,这些规则可以基于数据包的内容(即有效载荷)来过滤、修改或允许数据包通过。这些表达式可以执行诸如数据拷贝、比较、位操…

实验1 —— 安全策略的练习

实验拓扑图 实验要求 1.DMZ区内的服务器,办公区仅能在办公时间内(9:00-18:00)可以访问,生产区的设备全天可以访问; 2.生产区不允许访问互联网,办公区和游客区允许访问互联网 3.办公区…

RabbitMQ保证消息被成功发送和消费

一 : 在使用 RabbitMQ 作为消息队列时,保证消息被成功发送和消费是一个非常重要的问题。以下是一些关键点和最佳实践,以确保消息的可靠传输和处理。* 配置方式: 保证消息被成功发送 确认模式(Confirm Mode):生产者可以…

在SpringBoot使用AOP防止接口重复提交

前言 防止接口重复提交有跟多种方法,可以在前端做处理。同样在后端也能处理,而且后端的处理也有很多中方法。最先能想到的就是加锁,也可以直接在该接口的实现过程中进行处理(可以参考防止数据重复提交的6种方法(超简单)&#xff…

动手学Avalonia:基于硅基流动构建一个文生图应用(一)

文生图 文生图,全称“文字生成图像”(Text-to-Image),是一种AI技术,能够根据给定的文本描述生成相应的图像。这种技术利用深度学习模型,如生成对抗网络(GANs)或变换器(T…

【Mac】Charles for Mac(HTTP协议抓包工具)及同类型软件介绍

软件介绍 Charles for Mac 是一款功能强大的网络调试工具,主要用于HTTP代理/HTTP监视器。以下是它的一些主要特点和功能: 1.HTTP代理:Charles 可以作为HTTP代理服务器,允许你查看客户端和服务器之间的所有HTTP和SSL/TLS通信。 …

金航标kinghelm宋仕强在介绍自己公司时说

金航标kinghelm宋仕强在介绍自己公司时说,金航标成立于2007年,成立地点在华强北雷圳大厦803室,后搬到华强北广业大厦24楼CD室,后搬迁到龙华展滔科技大厦C座C809和C817室,现在的办公地址为龙岗区坂田街道百瑞达大厦&…

WSL安装USB驱动

wsl用不了USB盘,需要安装驱动 1、安装windows驱动 https://github.com/dorssel/usbipd-win/releases 下载msi,并且安装 2、linux里面安装 sudo apt install linux-tools-5.4.0-77-generic hwdata sudo update-alternatives --install /usr/local/bin/usb…

PageDTO<T>,PageQuery,BeanUtils,CollUtils的封装

一、PageDTO<T> import com.baomidou.mybatisplus.extension.plugins.pagination.Page; import com.fasterxml.jackson.annotation.JsonIgnore; import com.tianji.common.utils.BeanUtils; import com.tianji.common.utils.CollUtils; import com.tianji.common.utils.…

C#中的MD5摘要算法与哈希算法

文章目录 一、哈希算法基础二、MD5 算法原理三、MD5摘要算法四、哈希算法五、C#实现示例MD5算法示例哈希算法示例字符串MD5值对比 六、总结 一、哈希算法基础 哈希算法是一种单向密码体制&#xff0c;它将任意长度的数据转换成固定长度的字符串。这种转换是不可逆的&#xff0…

IDEA中配置代理,解决Codearts Snap登陆不了的问题

问题描述&#xff1a;在mac电脑中的idea中安装了华为的codearts snap插件&#xff0c;一直登录不了&#xff0c;账号是没问题的&#xff0c;后来我怀疑是我的代理有问题&#xff0c;找到IDEA中的代理设置先是有这个问题“You have JVM property "https.proxyHost" se…

千呼新零售2.0分销商城视频介绍

千呼新零售2.0系统是零售行业连锁店一体化收银系统&#xff0c;包括线下收银线上商城连锁店管理ERP管理商品管理供应商管理会员营销等功能为一体&#xff0c;线上线下数据全部打通。 适用于商超、便利店、水果、生鲜、母婴、服装、零食、百货、宠物等连锁店使用。 详细介绍请…

C语言 将两个字符串连接起来,不用strcat函数

编一个程序,将两个字符串连接起来,不要用strcat函数。 #include <stdio.h>void my_strcat(char *s1, const char *s2) {while (*s1) {s1;}while (*s2) {*s1 *s2;s1;s2;}*s1 \0; }int main() {char s1[100] "Hello, ";char s2[] "World!";my_str…

Android初学者书籍推荐

书单 1.《Android应用开发项目式教程》&#xff0c;机械工业出版社&#xff0c;2024年出版2.《第一行代码Android》第二版3.《第一行代码Android》第三版4.《疯狂Android讲义》第四版5.《Android移动应用基础教程&#xff08;Android Studio 第2版&#xff09;》 从学安卓到用安…

uniapp 打包成安卓APP预览base64pdf实现方法

下载PDF.js 问题描述 在uniapp中预览base64的PDF&#xff0c;可以使用web-view组件嵌入一个PDF.js的实例。以下是一个简单的示例&#xff1a; 解决方案&#xff1a; 1.在页面的.vue文件中添加web-view组件&#xff1a; <template><view style"width: 50%;&qu…

【机器学习】支持向量机与主成分分析在机器学习中的应用

文章目录 一、支持向量机概述什么是支持向量机&#xff1f;超平面和支持向量大边距直觉 二、数据预处理与可视化数据集的基本信息导入必要的库加载数据集数据概况数据可视化特征对的散点图矩阵类别分布条形图平均面积与平均光滑度的散点图变量之间的相关性热图 三、模型训练&am…

JS【详解】类 class ( ES6 新增语法 )

本质上&#xff0c;类只是一种特殊的函数。 console.log(typeof 某类); //"function"声明类 class 方式 1 – 类声明 class Car {constructor(model, year) {this.model model;this.year year;} }方式 2 – 类表达式 匿名式 const Car class {constructor(mod…

在conda的环境中安装Jupyter及其他软件包

Pytorch版本、安装和检验 大多数软件包都是随Anaconda安装的&#xff0c;也可以根据需要手动安装一些其他软件包。 目录 创建虚拟环境 进入虚拟环境 安装Jupyter notebook 安装matplotlib 安装 pandas 创建虚拟环境 基于conda包的环境创建、激活、管理与删除http://t.cs…

podman 替代 docker ? centos Stream 10 已经弃用docker,开始用podman了!

&#x1f468;‍&#x1f393;博主简介 &#x1f3c5;CSDN博客专家   &#x1f3c5;云计算领域优质创作者   &#x1f3c5;华为云开发者社区专家博主   &#x1f3c5;阿里云开发者社区专家博主 &#x1f48a;交流社区&#xff1a;运维交流社区 欢迎大家的加入&#xff01…

浅谈React

forwardRef和useImperativeHandle的联动使用 import React, { useImperativeHandle, useRef } from "react" import { forwardRef } from "react"const CustomInput forwardRef((props, ref) > {const inputRef useRef<HTMLInputElement>(null…