智能语音简史:这场技术革命从哪开始?

640?wx_fmt=jpeg

来源:与非网


1952年,贝尔实验室(Bell Labs)制造一台6英尺高自动数字识别机“Audrey”,它可以识别数字0~9的发音,且准确度高达90%以上。并且它对熟人的精准度高,而对陌生人则偏低。


1956年,普林斯顿大学RCA实验室开发了单音节词识别系统,能够识别特定人的十个单音节词中所包含的不同音节。


1959年,MIT的林肯实验室开发了针对十个元音的非特定人语音识别系统。


640?wx_fmt=jpeg


二十世纪六十年代初,东京无线电实验室、京都大学和NEC实验室在语音识别领域取得了开拓性的进展,各自先后制作了能够进行语音识别的专用硬件。


1964年的世界博览会上,IBM向世人展示了数字语音识别的“shoe box recognizer”。


二十世纪七十年代,语音识别的研究取得了突破性的进展,研究重心仍然是孤立词语语音识别。


1971年,美国国防部研究所(Darpa)赞助了五年期限的语音理解研究项目,希望将识别的单词量提升到1000以上。参与该项目的公司和学术机构包括IBM、卡内基梅隆大学(CMU)、斯坦福研究院。就这样,Harpy在CMU诞生了。不像之前的识别器,Harpy可以识别整句话。


二十世纪八十年代,NEC提出了二阶动态规划算法,Bell实验室提出了分层构造算法,以及帧同步分层构造算法等。同时,连接词和大词汇量连续语音的识别得到了较大发展,统计模型逐步取代模板匹配的方法,隐马尔科夫模型(HMM)成为语音识别系统的基础模型。


八十年代中期,IBM创造了一个语音控制的打字机—Tangora,能够处理大约20000单词。IBM的研究就是基于隐形马尔科夫链模型(hidden Markov model),在信号处理技术中加入统计信息。这种方法使得在给定音素情况下,很有可能预测下一个因素。

1984年,IBM发布的语音识别系统在5000个词汇量级上达到了95%的识别率。


1985年AT&T贝尔实验室建造了第一个智能麦克风系统,用来研究大室内空间的声源位置追踪问题。


1987年开始,国家开始执行963计划后,国家863智能计算机主题专家组为语音识别研究立项,每两年一次。


1987年12月,李开复开发出世界上第一个“非特定人连续语音识别系统”。


640?wx_fmt=jpeg


1988年,卡耐基梅隆大学结合矢量量化技术(VQ),用VQ/HMM方法开发了世界上第一个非特定人大词汇量连续语音识别系统SPHINX,能够识别包括997个词汇的4200个连续语句。


640?wx_fmt=jpeg


同年,清华大学和中科院声学所在大词库汉语听写机的研制上取得了突破性进展。

1990年,声龙发布了第一款消费级语音识别产品Dragon Dictate,价格高达9000美元。


1992年,IBM引入了它的第一个听写系统,称为“IBM Speech Server Series (ISSS)”。


1992年研发的Sphinx-II在同年美国国防部先进技术研究计划署(DARPA)资助的语音基准评测中获得了最高的识别准确度,这主要得益于其在高斯混合和马尔可夫状态层次上用栓连参数平衡了可训练性和高效性。


1995年,Windows 95上首次搭载微软SAPI,它使应用程序开发者能够在Windows上创建语音程序。


1995年,AT&T研究院的 Dave Ladd, Chris Ramming, Ken Rehor 以及 Curt Tuckey 在头脑风暴关于互联网会如何改变电话应用的时候,产生了一些新的想法:为什么不设计这样一个系统来运行一种可以解析某种语音标记语言的语音浏览器,用来把互联网的内容和服务提供到千家万户的电话上。于是,AT&T就开始“电话网络项目”(Phone Web Project)。之后,Chris继续留在AT&T,Ken去了朗讯,Dave和Curt去了摩托罗拉。(1999年初的时候,他们分别在各自的公司迈出了语音标记语言规范实质性的第一步。因为他们的密友关系,这几家公司合作成立了一个VoiceXML论坛组织,IBM也作为一个创始公司加入了进来。)


1997年IBM ViaVoice首个语音听写产品问世,你只要对着话筒喊出要输入的字符,它就会自动判断并且帮你输入文字。次年又开发出可以识别上海话、广东话和四川话等地方口音的语音识别系统ViaVoice’ 98。


1998年,微软在北京成立亚洲研究院,将汉语语音识别纳入重点研究方向之一。


2001年,比尔盖茨在美国消费电子展上展示了一台代号为MiPad的原型机。Mipad展现了语音多模态移动设备的愿景。


2002年,中科院自动化所及其所属模式科技公司推出了“天语”中文语音系列产品——Pattek ASR,结束了该领域一直被国外公司垄断的局面。


2002年,美国国防部先进技术研究计划署(DARPA)首先启动了EARS项目和TIDES 项目; 由于EARS项目过于敏感,EARS和TIDES两个项目合并为“全球自主语言开发”(Global Autonomous Language Exploitation,GALE)。GALE目标是应用计算机软件技术对海量规模的多语言语音和文本进行获取、转化、分析和翻译。


2006年,辛顿(Hinton)提出深度置信网络(DBN),促使了深度神经网络(Deep Neural Network,DNN)研究的复苏,掀起了深度学习的热潮。


2009年,辛顿以及他的学生默罕默德(D. Mohamed)将深度神经网络应用于语音的声学建模,在小词汇量连续语音识别数据库TIMIT上获得成功。


2009年微软Win7集成语音功能。


2010年Google Vioce Action支持语音操作与搜索。


2011年初,微软的DNN模型在语音搜索任务上获得成功。


同年科大讯飞将DNN 首次成功应用到中文语音识别领域,并通过语音云平台提供给广大开发者使用。


640?wx_fmt=jpeg


2011年10月,苹果iPhone 4S发布,个人手机助理Siri诞生,人机交互翻开新篇章。


2012年,科大讯飞在语音合成领域首创RBM技术。


2012年,谷歌的智能语音助手Google Now 的形式出现在众人面前,用在安卓 4.1 和 Nexus 手机上。


2013年,Google发布Google Glass,苹果也加大了对iWatch的研发投入,穿戴式语音交互设备成为新热点。


同年,科大讯飞在语种识别领域首创BN-ivec技术。


2014 年,思必驰推出首个可实时转录的语音输入板。


2014年11月,亚马逊智能音箱Echo发布。


2015 年,思必驰推出首个可智能打断纠正的语音技术。


640?wx_fmt=jpeg


2016年,Google Assistant伴随Google Home 正式亮相,抢夺亚马逊智能音箱市场。(亚马逊Echo在2016年的智能音箱市场占有率达到了巅峰的88%)


同年,科大讯飞上线DFCNN(深度全序列卷积神经网络,Deep Fully Convolutional Neural Network)语音识别系统。


同年11月,科大讯飞、搜狗、百度先后召开发布会,对外公布语音识别准确率均达到“97%”。


2017年3月,IBM结合了 LSTM 模型和带有 3 个强声学模型的 WaveNet 语言模型。“集中扩展深度学习应用技术终于取得了 5.5% 词错率的突破”。相对应的是去年5月的6.9%。


2017年8月,微软发布新的里程碑,通过改进微软语音识别系统中基于神经网络的听觉和语言模型,在去年基础上降低了大约12%的出错率,词错率为5.1%,声称超过专业速记员。相对应的是去年10月的5.9%,声称超过人类。


2017年12月,谷歌发布全新端到端语音识别系统(State-of-the-art Speech Recognition With Sequence-to-Sequence Models),词错率降低至5.6%。相对于强大的传统系统有 16% 的性能提升。


市场分析公司Canalys在2018年1月分布一份报告,其预测2018年将是普及智能音箱的“决定性一年”,相比全年出货量刚过3000万台的2017年,2018年智能音箱全球出货量预计将达到5630万台。


640?wx_fmt=jpeg


中投顾问发布的《2018-2022年中国智能语音行业深度调研及投资前景预测报告》显示我国智能语音市场整体处于启动期,智能车载,智能家居,智能可穿戴等垂直领域处于爆发前夜。


640?wx_fmt=jpeg


文章引用


[1] 李晓雪. 基于麦克风阵列的语音增强与识别研究[D]. 浙江大学, 2010.


[2] 倪崇嘉, 刘文举, 徐波. 汉语大词汇量连续语音识别系统研究进展[J]. 中文信息学报, 2009, 23(1):112-123.


[3] 高朝煌. 非特定人汉语连续数字语音识别系统的研究与实现[D]. 西安电子科技大学, 2011.


[4] 《2017年的语音识别,路只走了一半》


[5] 《2018-2022年国内外智能语音发展的分析》


[6] 《四十年的难题与荣耀—从历史视角看语音识别发展》


[7] 《几个常见的语音交互平台的简介和比较》


[8] 《VoiceXML简介》


[9] 《思必驰官方介绍资料》


未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。


未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

640?wx_fmt=jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/495886.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

四角号码检字法及查字方法的简介

四角号码检字法 由王云五(1888—1979)发明,汉语词典常用检字方法之一,用最多5个阿拉伯数字来对汉字进行归类。四角号码检字法用数字0到 9表示一个汉 字 四角的十种笔形,有时在最后增加一位补码。   四角号码检字法歌…

精益创业~如何驾驭愿景

开发-测量-认知 反馈循环 循环中把总时间缩至最短 要把科学的方法运用到新创企业中,我们必须找到哪些假设是需要测试的。这是新创企业计划中风险最大的部分,这部分内容依赖 信念飞跃 Leap-of-Faith 式的大胆假设。其中最重要的两个假设是 价值假设 和 增…

如何在CLI命令行下运行PHP脚本,同时向PHP脚本传递参数?

如何在命令行下运行PHP脚本[带参数] 创建一个简单的文本文件&#xff0c;其中包含有以下PHP代码&#xff0c;并把它保存为hello.php&#xff1a;<?phpecho "Hello from the CLI";?>现在&#xff0c;试着在命令行提示符下运行这个程序&#xff0c;方法是调用C…

Python 中 异步协程 的 使用方法介绍

静觅 崔庆才的个人博客&#xff1a;Python中异步协程的使用方法介绍&#xff1a;https://cuiqingcai.com/6160.html Python 异步 IO 、协程、asyncio、async/await、aiohttp&#xff1a;https://blog.csdn.net/freeking101/article/details/85286199 1. 前言 在执行一些 IO 密…

半导体终极武器光刻机:为何中国难望ASML项背?!有了全套图纸也做不出来

来源&#xff1a; XuS风险创投行指甲盖大小的芯片&#xff0c;密布千万电线&#xff0c;纹丝不乱&#xff0c;需要极端精准的照相机——光刻机。光刻机精度&#xff0c;决定了芯片的上限。EUV半导体业的终极武器这全靠总部后头那栋最高机密的巨型厂房&#xff0c;里头身穿无尘衣…

CompletableFuture详解~getNow

最简单的例子就是使用一个预定义的结果创建一个完成的CompletableFuture,通常我们会在计算的开始阶段使用它。 static void completedFutureExample() {CompletableFuture cf CompletableFuture.completedFuture("message");assertTrue(cf.isDone());assertEquals(…

AI 与人类未来

来源&#xff1a;腾讯网摘要&#xff1a;今天的人类学&#xff0c;依托协同进化理论&#xff0c;对AI充满信心。 社会产生前后&#xff0c;人类遭遇的进化机制不同。产生之前&#xff0c;是纯粹生态的进化机制&#xff0c;由偶然性和适应性控制&#xff0c;由创造性进化的跃迁…

试玩C++ 操作页面控件

最近数字和金山吵的热火朝天的&#xff0c;群里有人说网友的投票可能有工具刷出来的&#xff0c;觉得应该很有意思&#xff0c;就想自己试一下&#xff0c;玩了半天终于可以操作页面进行投票了&#xff0c;但这个投票做了IP限制&#xff0c;所以工具也无用武之地啊&#xff01;…

浅谈 Windows API 编程

原文地址&#xff1a;http://blog.sina.com.cn/s/blog_46d85b2a01010qpt.html http://blog.sina.com.cn/s/articlelist_1188584234_0_1.html WinSDK 是编程中的传统难点&#xff0c;曾经听有一个技术不是很好的朋友乱说什么给你 API 谁都会用&#xff0c;其实并非那么简单&…

CompletableFuture详解~runAsync

运行一个简单的异步阶段 这个例子创建一个一个异步执行的阶段&#xff1a; static void runAsyncExample() {CompletableFuture cf CompletableFuture.runAsync(() -> {assertTrue(Thread.currentThread().isDaemon());randomSleep();});assertFalse(cf.isDone());sleepE…

Visual Studio “类视图”和“对象浏览器”图标

类视图”和“对象浏览器”显示一些图标&#xff0c;每个图标表示不同类型的符号&#xff0c;如命名空间、类、函数或变量。下表对显示的图标进行说明&#xff0c;并对每个图标进行描述。 图标说明图标说明 命名空间 方法或函数 类 运算符 接口 属性 结构 字段或变量 联…

【数据结构】数据结构知识思维导图

From&#xff1a;https://blog.csdn.net/flowing_wind/article/details/81431354 思维导图源文件&#xff1a; 链接&#xff1a;https://pan.baidu.com/s/1Z44pX_jn3P6L4BSS13WmUA 提取码&#xff1a;zmga 数据结构知识思维导图&#xff1a;

特斯拉VS Waymo:谁将赢得无人驾驶汽车竞赛?

来源&#xff1a;腾讯科技据外媒报道&#xff0c;现在正有一场从硅谷延伸到底特律的竞赛正在进行&#xff0c;即谁能最先制造出比人类司机驾车更安全的无人驾驶汽车&#xff1f;与几年前相比&#xff0c;这是一项更为艰巨的任务&#xff0c;因为人类司机了解更多东西&#xff0…

CompletableFuture详解~thenApply

在前一个阶段上应用函数 下面这个例子使用前面 #1 的完成的CompletableFuture&#xff0c; #1返回结果为字符串message,然后应用一个函数把它变成大写字母。 static void thenApplyExample() {CompletableFuture cf CompletableFuture.completedFuture("message")…

Silverlight Blend动画设计系列十二:三角函数(Trigonometry)动画之自由旋转(Free-form rotation)...

说到对象的旋转&#xff0c;或许就会联想到对象角度的概念。对象的旋转实现实际上就是利用对象的角度改变来实现的位置变换&#xff0c;在《Silverlight & Blend动画设计系列二&#xff1a;旋转动画&#xff08;RotateTransform&#xff09;》一文中有对对象的不同角度变换…

vscode 调试 C++/JavaScript

Microsoft Visual Studio Code&#xff1a;https://blog.csdn.net/freeking101/article/details/86715578 IntelliJ IDEA&#xff1a;https://www.jetbrains.com/products/ 在调试 JavaScript 代码时&#xff0c; 其中 三种 比较 简单&#xff1a; 1.使用 Chrome 等 浏览器 调…

CompletableFuture详解~thenApplyAsync

通过调用异步方法(方法后边加Async后缀)&#xff0c;串联起来的CompletableFuture可以异步地执行&#xff08;使用ForkJoinPool.commonPool()&#xff09;。 static void thenApplyAsyncExample() {CompletableFuture cf CompletableFuture.completedFuture("message&qu…

美国三院院士「迈克尔•乔丹」长文论述:为什么说「人工智能革命」尚未发生...

作者&#xff1a;Michael Jordan雷克世界」编译&#xff1a;嗯~是阿童木呀、KABUDA、EVA人工智能&#xff08;AI&#xff09;是当前时代的颂歌。这句话是由技术人员、学者、记者和风险投资家一致提出且真诚赞扬的。就像其他许多从技术学术领域跨越到通用领域的短语一样&#xf…

吹毛求疵C#(1)明确赋值检查缺陷

喜欢c#, 所以期望也比较高, 也就会留意一些不起眼的小缺陷, 也就会有很多改进的设想, 也就希望能和更多的朋友分享这些发现和畅想. (1)明确赋值检查缺陷 截止到目前的MS C#4.0版编译器为止, 关于明确赋值检查都存在一个令人不爽的诡异问题, 而且也与ECMA标准不一致. 如下例所示…

网络爬虫干货总结!

转载&#xff1a;https://cloud.tencent.com/developer/article/1366434 bilibili 视频 - 聊聊 Python 的应用 - 健壮高效的网络爬虫&#xff1a;https://www.bilibili.com/video/av34379204/ 昨天的时候我参加了掘金组织的一场 Python 网络爬虫主题的分享活动&#xff0c;主要…