ASR 概述

前言

随着企业加强了与客户的线上沟通,企业越发依赖于虚拟助手、聊天机器人以及其他的语音技术,以实现与客户的高效互动。这几类人工智能,都是依赖于自动语音识别技术,简称为 ASR。ASR 涉及到将语音转换为文本,促使计算机理解人类语言并与人类对话。

语音识别技术,也被称为自动语音识别 Automatic Speech Recognition(ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同,后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。

ASR 的使用量正在与日俱增。在 Deepgram 与 Opus Research 合作进行的一项最新调查中,向来自北美洲多个行业的400名决策者调查了其公司的 ASR 使用情况。99% 的调查对象表示,他们都有在使用 ASR,主要以手机应用中的语音助手为主,这说明了这项技术的重要性。随着 ASR 技术的不断发展,ASR 逐渐受到企业的青睐,它可以提高企业在虚拟环境中的客户服务质量。


自动语音识别

机器要与人实现对话,那就需要实现三步:听懂(耳)> 理解(脑)> 回答(口),机器要听懂人类说话,就离不开语音识别技术(ASR)。

自动语音识别的工作原理

过去几十年里,由于强大的人工智能和机器学习算法,ASR 的发展速度迅猛。如今,大多 ASR 程序仍使用定向对话,但一些优化版本已开始利用自然语言处理技术,这是人工智能的子领域。

  • 定向对话 ASR

    当您打电话给银行时,您可能体验过定向对话。如果是一些大型银行,您通常需要先与计算机互动,然后才联系到相应的人员。计算机可能会要求您简单地回答“是”或“否”来确认身份,或直接读出您的卡号。无论是哪一种情况,您都是通过直接对话式 ASR 来互动。这些 ASR 程序只限于简短的口头回答,因此词汇量有限。这些 ASR 程序适用于简单的客户互动,无法胜任复杂的沟通。

  • 基于自然语言处理的 ASR

    NLP 是人工智能的一个子领域。NLP 是指一种教会计算机理解人类语音或自然语言的方法。

    基于NLP语音识别程序的工作原理的简要介绍:

    1. 向 ASR 程序说出一个指令,或提出一个问题。
    2. 该程序将语音转换为频谱图,这是机器可读的音频文件。
    3. 一个声学模型通过消除任何背景噪声(例如,狗叫声或静电)来清理音频文件。
    4. 算法将清理后的音频文件分解成音素。音素是声音的基本组成部分。例如,在英语中,“ch” 和 “t” 是音素。
    5. 算法分析音素的序列,并使用统计概率来确定序列中的单词和句子。
    6. NLP 模型可以将语境应用到句子中,例如,确定说的是 “write” 还是 “right”。
    7. 一旦 ASR 程序理解了说的内容,ASR 程序就可以给予合理的答复,并通过“文本-语音”转换技术来回复。

虽然根据所使用的算法类型,上述流程会发生变化,但这并不妨碍理解 ASR 程序的工作原理。基于 NLP 的 ASR 没有限制,并且能够模拟真实对话,是迄今为止最先进的版本。例如,一个基于 NLP 的 ASR 系统的典型词库可以涵盖 6 万多个单词。评估 ASR 有两个维度,即单词错误率和响应速度;在理想条件下,ASR 系统在理解人类语音方面可以达到接近 99% 的准确率。但是,大多数情况都不满足理想条件。

数据科学家针对关于如何教会 ASR 程序理解人类语音这个主题,持续开展实验。数据科学家正在探索其他可以与完全监督学习互补的方法,这需要收集每个可能会出现的语言例子来训练人工智能,并应用主动学习等技术。与程序互动的人越多,程序自主学习能力就越强。可以想象到,这无疑节省了研究人员的大量时间。


智能ASR语音识别产品优势

  • 高准确的识别率:基于先进的深度学习算法,安静环境下近场语音识别,中文普通话字准确率超过96%。
  • 灵活的接入方式:支持不同设备端的 SDK 接入,同时也支持 HTTP 协议的 API 接入。
  • 低延时识别速度:快速的系统响应,提升用户交互体验。
  • 专业的业务领域:针对呼叫、客服场景,进行大量的业务场景优化。
  • 智能文本纠错能力:基于行业文本数据,针对用户输入上下文进行智能纠错,根据用户输入停顿,智能化插入标点符号。

自动语音识别的应用

基本上,ASR 应用适用于各行各业。到目前为止,已有很多客户采用了 ASR 技术,以优化客户体验。以下是几个突出的应用:

  • **语音虚拟助手:**受欢迎的虚拟助手有很多:谷歌助理、苹果的 Siri、亚马逊 Alexa 和微软的 Cortana。这些应用提高了获取信息的速度和效率,在日常生活中随处可见。未来,虚拟助手市场仍会蓬勃发展。
  • 智能客服:提供全渠道接入端口,主要应用在销售服务(售前、售中、 售后),营销推荐以及数据分析场景中。
  • **转录和听写:**许多行业都需要语音转录服务。借助这类应用,可以转录公司会议、销售部门的客户电话、政府调查采访,甚至是记录病人的治疗过程。
  • **教育:**ASR 提供了非常有用的教育工具。智能语音在产品营销、课堂管理、教学测评等场景获得了大量应用,不同类型的教育企业适用于不同的解决方案。
  • **车载信息娱乐系统:**在汽车行业中,ASR 被广泛应用,以优化车内体验。最新的汽车型号具有识别语音命令功能,例如驾驶员可以发出指令“将温度调高两度”。这些系统旨在将车内环境的管理工作自动化,无需驾驶员腾出方向盘上的手来完成,从而提高安全性。
  • **安全:**ASR 可以识别关于“进入某些区域”的语音,提高安全性。
  • **无障碍:**ASR 还是一个可以推进无障碍性的工具,未来发展前景广阔。例如,不懂或无法使用技术的人可以在智能手机上发出语音指令;例如,”打电话给Jane”。

上述多个应用适用于各个行业,并且操作过程简单。由此可知,近年来 ASR 技术市场的呈指数级增长,实属正常现象。


ASR 的挑战

导致 ASR 领域出现挑战的几个常见因素:

  • 噪声数据

    通常,噪声数据是无意义的数据。但在ASR背景下,噪声数据也有字面意义。在理想环境中,音频文件里语音清晰且没有背景噪声,但现实往往并非如此。音频数据中可能会包含一些无关的噪声,例如有人在背景中咳嗽,有其他人在主扬声器上说话,有建筑噪声,甚至是静电。一个高质量的 ASR 系统能够提取出有用的音频数据,并消除无意义的数据。

  • 发言者差异性

    ASR 系统经常需要理解性别、地区、背景各不相同的人的语音。人类语音出现多个方面的差异,比如语言、方言、口音、音高、音量、语速等

    若想让 ASR 系统为所有终端用户提供一致卓越的体验,ASR 系统需要能够理解和解释多种不同的语音。

  • 硬件设施质量低

    大多公司都缺乏高质量的录音设备,从而导致音频文件中出现上文提到的噪声数据。

  • 同音字和语境障碍

    仅仅是英语一门语言,就存在多个同音词,即发音相同但含义不同的词。ASR系统需要依靠一个高度准确的NLP算法来运行,以根据语境来解释每位发言者的说话内容。

  • 单词之间缺少界限

    我们在写字或打字时,会使用空格、标点符号等来分开每个单词和句子。但如果是在说话,单词和句子就会连成一串。在这样的情况下,ASR程序无法将一连串语音分成独立片段。


如何克服自动语音识别中的挑战

ASR 工作的现场环境大多不符合理想条件,会对技术的精确度产生负面影响。破坏理想条件的常见因素有很多,为实施 ASR 的团队带来了挑战。幸运的是,可以采取一些方法来克服这些挑战。

通过个性化的数据采集和标注项目,可以解决部分挑战。可以采集,甚至有机会创建语音数据集,这个数据集更能代表客户的语音差异情况,提高客户服务质量。可以选择自己解决问题,也可以选择和拥有 ASR 经验的第三方数据供应商合作,充分利用其专业知识和工具。合适的数据合作伙伴可以提供特定用例所需的数据,以及与 ASR 应用兼容的数据平台,助力快速启动项目。

目前,很多数据供应商都能提供用于语音识别的成品数据集,但这还不够,他们应该还能根据多元化的发言者群体,以满足独特的数据需求。此外,数据供应商还可以提供工具,可以帮助克服上文中提到的挑战。


参考

  • 什么是自动语音识别(ASR)?
  • 什么是ASR技术,它改变了呼叫中心什么?

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/668419.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

docker proxy 【docker 代理】

第一种 创建代理配置文件 mkdir -p /etc/systemd/system/docker.service.d/ cat <<EOF > /etc/systemd/system/docker.service.d/http-proxy.conf Environment"HTTP_PROXYhttp://192.168.21.101:7890" Environment"HTTPS_PROXYhttp://192.168.21.1…

同城外卖跑腿app开发:重新定义城市生活

随着科技的发展和人们生活节奏的加快&#xff0c;同城外卖跑腿app应运而生&#xff0c;成为现代城市生活中的重要组成部分。本文将探讨同城外卖跑腿app开发的意义、市场需求、功能特点以及未来的发展趋势。 一、同城外卖跑腿app开发的意义 同城外卖跑腿app作为一种便捷的生活…

【java批量导出pdf】优化方案

问题情境&#xff1a; 项目中存在web页面点击一键导出&#xff0c;导出所有数据对应的pdf文件&#xff0c;由于有些pdf文件是实时生成的&#xff0c;之前最简答的写法for循环处理速度太慢&#xff0c;超过了nginx配置的最大响应时间了&#xff0c;且对用户交互体验上很不友好&…

sqli.labs靶场(41-53关)

41、第四十一关 -1 union select 1,2,3-- -1 union select 1,database(),(select group_concat(table_name) from information_schema.tables where table_schemadatabase()) -- -1 union select 1,2,(select group_concat(column_name) from information_schema.columns wher…

通用函数

目录 处理null 多数值判断 Oracle从入门到总裁:https://blog.csdn.net/weixin_67859959/article/details/135209645 Oracle 提供了两个简单的数据处理函数&#xff1a; nvl()、decode()。在版本升级的过程中&#xff0c;这两个函数又衍生出了许多子函数 处理null 下面首先…

0基础学习VR全景平台篇第141篇:如何制作卫星航拍全景

大家好&#xff0c;欢迎观看蛙色官方系列全景摄影课程&#xff01; 很多人都看过或者拍摄过航拍全景&#xff0c;其效果相比于普通的地拍的确有着更加震撼的拍摄效果&#xff0c;但是受限于无人机高度&#xff0c;以及禁飞区等等限制&#xff0c;导致很多大场景无法展示完全&a…

npm eslint 禁用

配置文件 ESLint 最主要的配置方式。ESLint 配置文件支持多种格式&#xff0c;同一目录下&#xff0c;ESLint 按 .eslintrc.js, .eslintrc.cjs, .eslintrc.yaml, .eslintrc.yml, .eslintrc.json, package.json 下的 eslintConfig 字段 的顺序查找配置&#xff0c;相同目录下只…

Linux防火墙与iptables五表五链规则介绍

目录 一、防火墙基本认识 1. 安全技术 2. 防火墙分类 3. 防火墙工具介绍 二、iptables 1. 概述 2. 五表五链 3. 语法 3.1 基本语法 3.2 语法总结 4. 管理选项 5. 通用匹配 6. 控制类型 7. iptables应用 7.1 新增防火墙规则 7.2 查看规则表 7.3 黑白名单 7.4 …

【应用容器-Docker】

Docker 是一个开源的容器化平台&#xff0c;可以帮助开发者将应用程序和所有依赖项打包到一个称为容器的可移植单元中。容器化技术可以提供一种轻量级、快速、可靠和可重复部署应用程序的方法。 Docker 的基本概念包括以下几个方面&#xff1a; 1. 镜像&#xff08;Image&…

C++ 调用lua 脚本

需求&#xff1a; 使用Qt/C 调用 lua 脚本 扩展原有功能。 步骤&#xff1a; 1&#xff0c;工程中引入 头文件&#xff0c;库文件。lua二进制下载地址&#xff08;Lua Binaries&#xff09; 2&#xff0c; 调用脚本内函数。 这里调用lua 脚本中的process函数&#xff0c;并…

canvas图片上设置镂空文字效果

查看专栏目录 canvas实例应用100专栏&#xff0c;提供canvas的基础知识&#xff0c;高级动画&#xff0c;相关应用扩展等信息。canvas作为html的一部分&#xff0c;是图像图标地图可视化的一个重要的基础&#xff0c;学好了canvas&#xff0c;在其他的一些应用上将会起到非常重…

C语言-3

定义指针 /*指针的概念:1.为了方便访问内存中的内容&#xff0c;给每一个内存单元&#xff0c;进行编号&#xff0c;那么我们称这个编号为地址&#xff0c;也就是指针。2.指针也是一种数据类型&#xff0c;指针变量有自己的内存&#xff0c;里面存储的是地址&#xff0c;也就是…

Ansible概述、Ansible环境准备、Ansibleadhoc临时命令语法、命令模块、文件模块、用户模块、综合练习

ansible 批量管理服务器的工具2015年被红帽公司收购使用Python语言编写的基于ssh进行管理&#xff0c;所以不需要在被管端安装任何软件ansible在管理远程主机的时候&#xff0c;主要是通过各种模块进行操作的 环境准备 主机名IP地址角色web1192.168.88.11被控制节点&#xf…

【HarmonyOS应用开发】APP应用的通知(十五)

相关介绍 通知旨在让用户以合适的方式及时获得有用的新消息&#xff0c;帮助用户高效地处理任务。应用可以通过通知接口发送通知消息&#xff0c;用户可以通过通知栏查看通知内容&#xff0c;也可以点击通知来打开应用&#xff0c;通知主要有以下使用场景&#xff1a; 显示接收…

BUGKU-WEB Simple_SSTI_1

02 Simple_SSTI_1 题目描述 没啥好说的~ 解题思路 进入场景后&#xff0c;显示&#xff1a; You need pass in a parameter named flag。ctrlu 查看源码 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><titl…

【MySQL】-10 MySQL 存储过程

MySQL 存储过程 优点缺点一、存储过程的创建和调用创建存储过程实例1、in 输入参数2、out输出参数3、inout输入参数 三、变量1. 变量定义2. 变量赋值3. 用户变量 四、注释MySQL存储过程的调用MySQL存储过程的查询MySQL存储过程的修改MySQL存储过程的删除MySQL存储过程的控制语句…

使用freemarker和itextpdf结合,将html转化为pdf

工作中遇到模板中的html&#xff0c;需要转化成pdf作为附件上传到系统 于是经过研究分析&#xff0c;得出用freemarker和itextpdf结合 maven需要导入包&#xff1a; <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boo…

【力扣每日一题】力扣1696跳跃游戏VI

题目来源 力扣1696跳跃游戏VI 题目概述 给你一个下标从 0 开始的整数数组 nums 和一个整数 k 。 一开始你在下标 0 处。每一步&#xff0c;你最多可以往前跳 k 步&#xff0c;但你不能跳出数组的边界。也就是说&#xff0c;你可以从下标 i 跳到** [i 1&#xff0c; min(n …

代码随想录 Leetcode491. 非递减子序列

题目&#xff1a; 代码(首刷看解析 2024年2月3日&#xff09;&#xff1a; class Solution { private:vector<vector<int>> res;vector<int> path; public:void backtracking(vector<int>& nums, int startIndex) {if (path.size() > 1) {res.…

iframe通信,window.postMessage父子项目数据通信

父 > 子 父项目 <iframe:src"cockpitUrl"id"cockpitIframe"load"handleLoad" ></iframe>// 向子系统传递数据&#xff08;注意要再iframe的load中注册&#xff0c;保证iframe已经加载完成&#xff0c;这样子项目才能监听到&…