离线语音识别软件_从音乐识别软件起家,这家公司如何备战车载AI语音市场GGAI对话...

6a12c94d3413c8b421b35f68ede97f53.png

b32b82d28daac6408bdb8983a386e070.gif

加入高工智能汽车专业行业群(自动驾驶5群,车联网智能座舱3群,智能网联商用车2群),加微信:17157613659,出示名片,仅限智能网联汽车软硬件供应商及OEM厂商。

2ee1ceca0cfe990d599e9d5164093554.png

早在2016年,亚马逊推出的语音助手Alexa在科技圈掀起了一片滔天巨浪。很多人都以为,真正的智能语音时代已经拉开了序幕。但现实却是,AI语音的落地场景很多,但用户的使用率较低、体验也不佳。

新的技术往往要经历两次出生,一次是新生,一次是重生。诚然,第二次更难!机器学习的演进,资金与人才的持续投入,使新晋的一些语音初创公司从技术上得以较快地赶上语音巨头的脚步,但也由此走到了发展瓶颈。

智能语音距离真正的人机自由交流还有很大的差距,而现阶段语音技术同质化的现状只能迫使中小型公司靠打价格战来维持市场份额。周而复始,恶性循环。

“语音在目前只是一个噱头,并不是大众生活的刚需,也没有真正走进用户的生活场景中。”Soundhound大中华首席代表刘硕对《高工智能汽车》表示,语音和其他公司的产品数据并没有打通,无法实现更深入的开发,也自然不能实现使语音像移动支付一样,为用户打造出连贯的使用场景,成为用户生活的必需品。

不过,场景的局限并没有限制消费者的使用意愿。

刘硕表示,根据一些主机厂提供的用户反馈来看,车载语音是反馈中占比最大,抱怨最多的部分。“这证明大家对于语音是有需求的。所以目前的状况就是大家都想用,但这个技术又不够好,这就给我们提供了很大的发展空间。有痛点才有机会!”

目前,车载语音技术存在的缺陷首先是识别系统对环境的依赖性强,特别在高噪音、有回声的环境下,语音识别率就会大打折扣。其次,是识别速度、方言等细节问题。

“许多人问我方言应该怎么处理。我认为,如果目前有一种语音技术,或者一种语音场景,能做到让说普通话的人可以高频使用了,才需要再去考虑其他方言的问题。现在考虑方言价值不大。”刘硕强调。

源自听音识曲的老品牌

Soundhound是一家专注于语音AI和智能对话的公司。其产品Houndify是一个独立的AI平台,提供人工智能驱动的语音技术服务,包括语音识别、自然语言理解、开发者工具、知识图谱等。

公司由斯坦福的几个学生于2005年成立,总部设在加州圣克拉拉,目前在中国设立了分公司,中文名字为“声航”。

过去几年,Soundhound从大众熟知的音乐识别软件跻身于全球前列的语音识别平台,已拿到了包括英伟达、三星、奔驰、腾讯等行业巨头的投资。目前公司将百分之九十的业务重点聚焦于汽车行业。

作为创业公司,Soundhound已经积累了较多的量产车经验,包括奔驰、现代、起亚、雪铁龙等。也许站到巨人的肩膀上看风景从来就不是容易的事情,但是明晰的发展思路也可以助力星星之火,以便成燎原之势。

“Soundhound最大的优势之一就是语音对车外场景的连通。”刘硕认为,智能语音经历了对车机的控制,到车身的控制,再到整个生活服务等边界的打开,意味着整个语音市场会发生比较大的变革。

比如,梅赛德斯·奔驰最新搭载的信息娱乐系统MBUX,就是由Soundhound研发的Houndify提供支持,可以让用户“足不出车”,便可以知道车外的信息。

驾驶者说出“嗨,梅赛德斯,我饿了,提供一些适合吃午饭的餐厅,要有免费Wi-Fi和停车场”,随后MBUX就会列出了一些可供选择的餐厅。

刘硕表示,“Soundhound是业界唯一一家研发出支持复杂多轮以及跨域对话的语音公司。”

多轮即多次的、有逻辑的、更多互动的对话。如果系统提供的餐厅不是用户想要的,用户便可以接着对系统提出更多的要求。比如,“这家餐厅有点远,帮我找一家更近的”,“我不吃西餐,帮我找家中餐馆”,“我想吃川菜”……直到系统提供出最完美的选项为止。

跨域即会话内容里包含两个及两个以上的域。比如用户对车载语音说,“我要去广州看恒大的球赛,什么时候出发?”这个问题需要体育和导航两个域的数据。第一个域回答今天广州恒大的比赛在什么时候,哪个体育场,第二个域告诉用户前往目的地的路程需要多久。

“多轮与跨域是我们独有的技术优势,目前其他公司的产品只能识别简单的语音,即便是推出了多轮对话的方案,也无法实现跨域。”刘硕表示。

对于产品未来的发展,他也有自己清晰的定位:“现在要考虑的不是去抢项目,或者低价拿项目。而是在三五年以后,能不能达到用户的某一两个使用场景是和我们密切相关的,是独家的。”

语音到底能不能做成特别智能,对大众特别有价值?我认为会有的,但一开始不是很通用型的,比如什么都可以问,什么都可以回答,这个短期肯定做不到。但我们可能会在某几个点上做到突破,做出对用户很有用的东西,这个就够了。

Soundhound的一个独特价值便是其独立的AI平台Houndify,它可实现开发人员和企业所有者能够在任何地方部署,并保持对品牌和用户的控制,同时实现差异化和创新。目前该平台已吸引了6万名开发者。

刘硕强调,Soundhound也有多语言的支持能力。“语音从架构上讲,包括识别和理解两大部分,他们有通用的核心引擎。但识别每种语言的模型是不一样的,所以不同语言都要分别开发。而且不同国家对于内容的需求是不一样的,比如印度热衷于板球的内容。”

在刘硕看来,针对这些地域差异的细节需求,也要形成个性化的内容研发。对于国内的企业来说能做到这一点的非常的少,特别是在汽车行业。

建立差异化的技术优势

识别是一门涉及面很广的交叉学科,它与声学、语音学、语言学、信息理论、模式识别理论以及神经生物学等学科都有非常密切的关系。而智能语音除了识别与理解这两个核心模块,还有前端的麦克风阵列、降噪、TTS、内容等模块,不同的语音厂商也都有各自擅长的地方。

在被问及是否会与竞品公司合作时,刘硕表明了开放的心态:“我们可以作为某几个模块的提供商,让其他竞品公司来做另外模块的提供商,大家形成优势互补。目前在国内我们已经有了几家签约的合作伙伴。”

刘硕表示,公司目前进展比较顺利,设于中国的分公司去年四月份开始招人,目前已有八个人的团队,也拿下了国内一个主机厂的业务,同时在其他的非汽车的行业也有自己的业务版图。

但是近两三年并不急于拿下项目,而是规划建立一个三十人的市场及研发团队,吸纳更多科技人才,深耕技术研发,争取实现更多语音模块的技术领先,造福更多车企。

SoundHound于2017和2018年融资将近2亿美元 ,投资方包括三星、KPCB, 美的、腾讯、现代等,估值超过10亿美元。刘硕认为,充足的资金给了Soundhound更多时间与精力去做更长远的事情,为语音界贡献更多的力量。

除了得到了资金支持,也接触到了更优质的客户资源。他表示,在未来几年中,Soundhound也有可能会从战略合作的角度,通过融资的方式使投融资双方达成更加密切的业务合作关系。

b69d9c75bab085fc40a81968229b4c18.gif

f2e2d1c5d3415d603216321a990ca67e.png

3b5877e645f799ceffd3c59bd14f917c.png

14ae0b967377a1c0fc21041a2cf9289d.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/306915.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

int函数在Oracle,vb中int是什么意思 ?

VB语言中int函数的意思是取整数。即:int(x)函数是取不大于x的最大整数。例如:1、int(4.88)4int(4.88)即是取一个不大于4.88且最接近4.88的整数,所以int(4.88)4。2、int(8.1)8int(8.1)即是取一个不大于8.1且最接近8的整数,所以int(…

.NET 5 中的隐藏特性

转自:hez2010cnblogs.com/hez2010/p/13963803.html前言双十一当天,个人觉得非常香,并且花了 10 分钟时间就把自己的 4 个 .NET Core 3.1 的项目升级到了 .NET 5,堪称无痛。但是,.NET 5 中还有一些没有正式公开的隐藏特…

windows如何添加本机dns记录_运维必看!超清晰的 DNS 原理入门指南

来源:阮一峰的网络日志作者:阮一峰链接:http://www.ruanyifeng.com/blog/2016/06/dns.htmlDNS 是互联网核心协议之一。不管是上网浏览,还是编程开发,都需要了解一点它的知识。本文详细介绍DNS的原理,以及如…

linux oracle流复制,oracle 流复制

测试环境:oracle linux 虚拟机192.168.1.4,192.168.1.5oracle 10.2.0.3alter system set global_namestrue scopeboth;show parameter COMPATIBLEshow parameter jobalter system set streams_pool_size15 scopememory;[more]归档日志模式GRANT DBA TO strmadmin IDENTIFIED BY…

天际数见数据质量巡检架构优化

源宝导读:天际数见平台是一个数据可视化的BI平台,定位于为高层决策提供数据可视化赋能。数据准确性是生命线,如何提前发现数据问题,快速定位和修复问题,成为我们必须攻克的难点。本文将介绍数见平台通过架构优化&#…

db2 删除存储过程_蚂蚁金服OceanBase挑战TPCC | TPCC基准测试之存储优化

蚂蚁金服自研数据库 OceanBase 登顶 TPC-C 引起业内广泛关注,为了更清楚的展示其中的技术细节,我们特意邀请 OceanBase 核心研发人员对本次测试进行技术解读,共包括五篇:1)TPC-C基准测试介绍2)OceanBase如何做TPC-C测试3)TPC-C基准…

Github Actions 中 Service Container 的使用

Github Actions 中 Service Container 的使用Intro之前写过一个 StackExchange.Redis 的一个扩展,测试项目依赖 redis,所以之前测试一直只是在本地跑一下,最近通过 Github Action 中的 Service Container 来通过 CI 来跑测试,分享…

php的web能力,web 性能的几个概念。

每秒查询率QPS:对一个特定的查询服务器在规定时间内所处理流量多少的衡量标准,即每秒请求数,即最大谈吐能力。并发数:并发数和QPS是不同的概念,一般说QPS会说多少并发用户下QPS,当QPS相同时,并发…

深度探秘.NET 5.0

2020 中国.NET 开发者峰会正式启动 ,欢迎大家提交演讲主题或者购买超级早鸟票。今年11月10号 .NET 5.0 如约而至。这是.NET All in one后的第一个版本,虽然不是LTS(Long term support)版本,但是是生产环境可用的。微软从.NET 5 Preview 1就开…

vuex保存用户信息_Vuex状态管理

一个组件可以分为数据和视图,数据更新时,视图也会自动更新。在视图中又可以绑定一些事件,它们触发methods里面指定的方法,从而又可以改变数据、更新视图,这就是一个组件基本的运行模式。但实际的业务中,经常…

Linux 子进程限制,linux进程控制-waitpid()

waitpid系统调用在Linux函数库中的原型是:#include #include pid_t waitpid(pid_t pid,int *status,int options)从本质上讲,系统调用waitpid和wait的作用是完全相同的,但waitpid多出了两个可由用户控制的参数pid和options,从而为…

使用 docker 构建分布式调用链跟踪框架skywalking

一旦你的程序docker化之后,你会遇到各种问题,比如原来采用的本地记日志的方式就不再方便了,虽然你可以挂载到宿主机,但你使用 --scale 的话,会导致记录日志异常,所以最好的方式还是要做日志中心化,另一个问…

excel同一单元格怎么换行_excel表格内怎么换行 方法有两种 一看就会 新手教程...

很多人在用excel表格的时候都需要用到换行,但是有一些小伙伴还不知道如何去换行。今天就介绍两种单元格内换行的方法,这两种换行方式的效果不一样,大家可以根据自己的需求来选择使用哪种换行方式。方法一:单元格内自动换行操作&am…

Linux系统语言教程,Linux操作系统基础及语言基础教程-麦可网张凌华

本教程共43讲,主要讲解了计算机组成原理概述、Linux基础及操作系统框架、Shell命令机制、Linux命令类库机制及常用命令、Linux应用程序安装及卸载、Linux服务程序的安装及配置、Vi的设计思想及使用、shell脚本等内容,由于章节较多,本教程仅提…

持续交付一:从开发到上线的环境

团队开发中,开发,测试,预发布,生产,不同的角色工作在不同的环境中,不同的环境有不同的作用(有些公司的环境更多,按照自己的交付流程设计),当然不同的环境,配置也不能相同…

linux远程登录命令rlogin,Linux rlogin命令

Linux rlogin命令Linux rlogin命令用于远端登入。执行rlogin指令开启终端机阶段操作,并登入远端主机。语法rlogin [-8EL][-e ][-l ][主机名称或IP地址]必要参数:-E 忽略escape字符-8 只识别8位字的字符-L 允许rlogin会话运行在litout模式-ec 设置escape字…

win10控制面板快捷键_你没玩过的全新版本 Win10这些操作你知多少

不知不觉,Win10与我们相伴已经整整四个年头了,从最开始的组团抗拒到现在的默默接受,个中滋味相信谁心里都有个数。近日微软开始推送“Win10更新五月版”,那么Win10中到底都有哪些“骚”操作?一起来看看吧。1、夜间模式…

C# 中的数字分隔符 _

编写 C# 代码时,我们时常会用到很大的数字,例如下面定义的变量:const long loops 50000000000;您能快速读出这是多少吗?是不是还是会有很多人把光标定位到最后一位,然后按键盘上的向左键一个一个往上数:个…

linux退出lftp命令,lftp命令使用

刚进入linux殿堂的人似乎总会尝试寻找一个类似FlashFXP或Leapftp的图形界面的ftp客户端,可是尝试过的朋友应该都清楚:不管是自由的,还是商业的ftp客户端,用来用去总还是不如lftp来得方便。没有图形界面,对于初学者来说…

数字调制系统工作原理_空间光调制器工作原理是什么 空间光调制器工作原理...

空间光调制器(SLM), 空间光调制器(SLM)工作原理是什么?实时空间光调制器使得相干处理系统能输入非相干光图像和随时间变化的图像的器件。相干光处理系统的最大优点是二维平行处理、信息容量大,运算速度快。但是目前的输入图像和空间滤波都用银盐胶片作记录媒质&…