加入高工智能汽车专业行业群(自动驾驶5群,车联网智能座舱3群,智能网联商用车2群),加微信:17157613659,出示名片,仅限智能网联汽车软硬件供应商及OEM厂商。
早在2016年,亚马逊推出的语音助手Alexa在科技圈掀起了一片滔天巨浪。很多人都以为,真正的智能语音时代已经拉开了序幕。但现实却是,AI语音的落地场景很多,但用户的使用率较低、体验也不佳。
新的技术往往要经历两次出生,一次是新生,一次是重生。诚然,第二次更难!机器学习的演进,资金与人才的持续投入,使新晋的一些语音初创公司从技术上得以较快地赶上语音巨头的脚步,但也由此走到了发展瓶颈。
智能语音距离真正的人机自由交流还有很大的差距,而现阶段语音技术同质化的现状只能迫使中小型公司靠打价格战来维持市场份额。周而复始,恶性循环。
“语音在目前只是一个噱头,并不是大众生活的刚需,也没有真正走进用户的生活场景中。”Soundhound大中华首席代表刘硕对《高工智能汽车》表示,语音和其他公司的产品数据并没有打通,无法实现更深入的开发,也自然不能实现使语音像移动支付一样,为用户打造出连贯的使用场景,成为用户生活的必需品。
不过,场景的局限并没有限制消费者的使用意愿。
刘硕表示,根据一些主机厂提供的用户反馈来看,车载语音是反馈中占比最大,抱怨最多的部分。“这证明大家对于语音是有需求的。所以目前的状况就是大家都想用,但这个技术又不够好,这就给我们提供了很大的发展空间。有痛点才有机会!”
目前,车载语音技术存在的缺陷首先是识别系统对环境的依赖性强,特别在高噪音、有回声的环境下,语音识别率就会大打折扣。其次,是识别速度、方言等细节问题。
“许多人问我方言应该怎么处理。我认为,如果目前有一种语音技术,或者一种语音场景,能做到让说普通话的人可以高频使用了,才需要再去考虑其他方言的问题。现在考虑方言价值不大。”刘硕强调。
源自听音识曲的老品牌
Soundhound是一家专注于语音AI和智能对话的公司。其产品Houndify是一个独立的AI平台,提供人工智能驱动的语音技术服务,包括语音识别、自然语言理解、开发者工具、知识图谱等。
公司由斯坦福的几个学生于2005年成立,总部设在加州圣克拉拉,目前在中国设立了分公司,中文名字为“声航”。
过去几年,Soundhound从大众熟知的音乐识别软件跻身于全球前列的语音识别平台,已拿到了包括英伟达、三星、奔驰、腾讯等行业巨头的投资。目前公司将百分之九十的业务重点聚焦于汽车行业。
作为创业公司,Soundhound已经积累了较多的量产车经验,包括奔驰、现代、起亚、雪铁龙等。也许站到巨人的肩膀上看风景从来就不是容易的事情,但是明晰的发展思路也可以助力星星之火,以便成燎原之势。
“Soundhound最大的优势之一就是语音对车外场景的连通。”刘硕认为,智能语音经历了对车机的控制,到车身的控制,再到整个生活服务等边界的打开,意味着整个语音市场会发生比较大的变革。
比如,梅赛德斯·奔驰最新搭载的信息娱乐系统MBUX,就是由Soundhound研发的Houndify提供支持,可以让用户“足不出车”,便可以知道车外的信息。
驾驶者说出“嗨,梅赛德斯,我饿了,提供一些适合吃午饭的餐厅,要有免费Wi-Fi和停车场”,随后MBUX就会列出了一些可供选择的餐厅。
刘硕表示,“Soundhound是业界唯一一家研发出支持复杂多轮以及跨域对话的语音公司。”
多轮即多次的、有逻辑的、更多互动的对话。如果系统提供的餐厅不是用户想要的,用户便可以接着对系统提出更多的要求。比如,“这家餐厅有点远,帮我找一家更近的”,“我不吃西餐,帮我找家中餐馆”,“我想吃川菜”……直到系统提供出最完美的选项为止。
跨域即会话内容里包含两个及两个以上的域。比如用户对车载语音说,“我要去广州看恒大的球赛,什么时候出发?”这个问题需要体育和导航两个域的数据。第一个域回答今天广州恒大的比赛在什么时候,哪个体育场,第二个域告诉用户前往目的地的路程需要多久。
“多轮与跨域是我们独有的技术优势,目前其他公司的产品只能识别简单的语音,即便是推出了多轮对话的方案,也无法实现跨域。”刘硕表示。
对于产品未来的发展,他也有自己清晰的定位:“现在要考虑的不是去抢项目,或者低价拿项目。而是在三五年以后,能不能达到用户的某一两个使用场景是和我们密切相关的,是独家的。”
语音到底能不能做成特别智能,对大众特别有价值?我认为会有的,但一开始不是很通用型的,比如什么都可以问,什么都可以回答,这个短期肯定做不到。但我们可能会在某几个点上做到突破,做出对用户很有用的东西,这个就够了。
Soundhound的一个独特价值便是其独立的AI平台Houndify,它可实现开发人员和企业所有者能够在任何地方部署,并保持对品牌和用户的控制,同时实现差异化和创新。目前该平台已吸引了6万名开发者。
刘硕强调,Soundhound也有多语言的支持能力。“语音从架构上讲,包括识别和理解两大部分,他们有通用的核心引擎。但识别每种语言的模型是不一样的,所以不同语言都要分别开发。而且不同国家对于内容的需求是不一样的,比如印度热衷于板球的内容。”
在刘硕看来,针对这些地域差异的细节需求,也要形成个性化的内容研发。对于国内的企业来说能做到这一点的非常的少,特别是在汽车行业。
建立差异化的技术优势
识别是一门涉及面很广的交叉学科,它与声学、语音学、语言学、信息理论、模式识别理论以及神经生物学等学科都有非常密切的关系。而智能语音除了识别与理解这两个核心模块,还有前端的麦克风阵列、降噪、TTS、内容等模块,不同的语音厂商也都有各自擅长的地方。
在被问及是否会与竞品公司合作时,刘硕表明了开放的心态:“我们可以作为某几个模块的提供商,让其他竞品公司来做另外模块的提供商,大家形成优势互补。目前在国内我们已经有了几家签约的合作伙伴。”
刘硕表示,公司目前进展比较顺利,设于中国的分公司去年四月份开始招人,目前已有八个人的团队,也拿下了国内一个主机厂的业务,同时在其他的非汽车的行业也有自己的业务版图。
但是近两三年并不急于拿下项目,而是规划建立一个三十人的市场及研发团队,吸纳更多科技人才,深耕技术研发,争取实现更多语音模块的技术领先,造福更多车企。
SoundHound于2017和2018年融资将近2亿美元 ,投资方包括三星、KPCB, 美的、腾讯、现代等,估值超过10亿美元。刘硕认为,充足的资金给了Soundhound更多时间与精力去做更长远的事情,为语音界贡献更多的力量。
除了得到了资金支持,也接触到了更优质的客户资源。他表示,在未来几年中,Soundhound也有可能会从战略合作的角度,通过融资的方式使投融资双方达成更加密切的业务合作关系。
