中国智能语音行业研究

640?wx_fmt=jpeg

报告来源:中信证券

作者:刘雯蜀  杨泽原  张若海


智能语音作为人机交互的新型方式,有望大规模推广,中国市场是更适合语音交互的市场。


2017年中国人工智能市场规模达约220亿元,智能语音占中国人工智能市场份额的22%,价值约48亿元,仅次于计算机视觉。


IDC在2018年10月的报告中预测,中国对话式人工智能市场规模将在2022年达到约78亿人民币,2018-2022年年复合增速将为57%。


中国企业在智能语音领域已经非常领先,有望超越西方国家。主要原因是:1)各个应用场景的市场体量要远超西方,比如在教育领域,每个老师需要面对的学生数量,以及银行客服领域,每一个客户需要处理的请求数量都是远超西方市场。2)相比于西方语言,中文更难书写,但是句法和语法更易理解。因此对于中文,语音是相比于书写和输入来说,更自然的交互方式。


640?wx_fmt=png


早在1952年,贝尔实验室就创造了一台名为Audrey的机器,能够以90%的准确度理解数字0-9。耐人寻味的是,这个准确度仅在机器发明者发言时可以达到。


仅仅是在近几年,语音识别技术才为公众所知。技术巨头纷纷举办声势浩大的发布活动,Siri、Cortana、Alexa的出现让社会的关注度和预期提升,但也因为其功能有限而无法达到用户的预期。


随着深度学习,机器学习芯片和算法取得突破,ASR、NLP和TTS在过去5年中迅速进步。语音识别的单词错误率大幅降低,这主要是由于使用了更高效的声学模型,运用深度神经网络(DNN)取代高斯混合模型(GMM,之前多年以来的首选方法)等统计技术。


Nuance的研究主管NilsLenke展示数据显示,在将深度神经网络算法成功纳入语音识别系统后,单词错误率从2010年左右开始急剧下降,每年降低约18%。


语音识别和自然语言处理这两个相邻领域很难相互跨越。不同的公司可能专注于其中一个领域。比如,科大讯飞更专注于语音领域,而小i机器人更专注于自然语言理解。语音识别的公司在自然语言领域看起来并不成功,而专注自然语言的公司在语音识别领域也难有斩获。


相比西方国家,语音识别技术和自然语言处理技术在中国发展迅速主要是自身的独特因素导致,分别是用户规模和中文特点。


640?wx_fmt=png


▌中国智能语音市场规模不断扩大

市场规模:根据中国信息通信研究院的数据,2017年人工智能市场规模达约220亿元,预计到2020年将达到710亿元,年均复合增速为48%。2017年,智能语音占中国人工智能市场份额的22%,约合48亿元。


640?wx_fmt=png

640?wx_fmt=png


主要参与厂商:在国内智能语音市场,科大讯飞以44%的市占率高居榜首。


2015年,国内智能语音市场排名前五的厂商是科大讯飞、百度、苹果,Nuance和小i机器人,合计占据85%的市场份额。科大讯飞在国内市场的市场份额达到44%。


在全球市场,2015年的全球智能语音行业市值达到61亿美元,Nuance、谷歌、苹果、微软和科大讯飞前五大厂商市场份额合计占比80%。


640?wx_fmt=png


随着语义理解技术运用频率增加,对话式人工智能技术应用领域和场景将望快速扩展。

IDC在2018年10月的报告中预测,中国对话式人工智能市场规模将在2022年将达到78亿人民币,2018-2022年年复合增速为57%。


从IDC的能力象限来看,科大讯飞、百度、阿里巴巴、小i机器人和思必驰为领先企业。我们认为,在收入方面,科大讯飞和小i机器人应最为领先。


虽然IDC将科大讯飞和小i机器人都列为对话式人工智能平台厂商,但两者之间存在重大差异:科大讯飞主要是一家语音识别和语音自动化公司,而小i机器人主要是一家自然语言处理公司。


640?wx_fmt=png


▌国内语音AI市场参与者不断加入


国内语音AI市场上参与者不断涌入,中国市场主要参与者可分为以下四类:


第一类是在深度学习算法大规模应用之前,就已经从事这个领域的专业语音公司,比如科大讯飞或者小i机器人,专注于需要丰富行业知识的垂直领域。


第二类是AI初创公司,如思必驰、云知声、出门问问。这些公司主要关注多用途的云平台和一些特定的垂直领域,如智能汽车或智能家居。


第三类是百度、阿里、腾讯等互联网公司,主要推出移动端消费者语音产品。BAT的多用途云平台源自他们自己的核心产品,如腾讯的微信。


第四类是亚马逊、苹果、Nuance等海外互联网公司。我们认为这些公司有三个重要看点:


技术的准确性和可靠性。


科大讯飞或小i机器人等垂直领域提供商的准确性和可靠性远远高于BAT的通用消费者平台。这是因为BAT平台大多是免费的,而科大讯飞或小i机器人主要面向企业客户提供服务,相比普通网民,企业客户对价格敏感程度低,但对功能的准确性和可靠性要求高。


640?wx_fmt=png


是否拥有针对场景开发的方案和产品。


科大讯飞或小i机器人拥有专门针对特定行业和场景进行技术和内容研发的团队;我们认为BAT在这方面不会直接投入,一方面因为B端市场尚未成为他们最核心的盈利来源,另一方面因为单个细分领域或者场景的盈利规模太小,不足以吸引他们投入。


针对的是企业级还是消费技术市场?


我们认为消费者市场的直接变现机会很少,因为1)消费者注重的是便利性(比如询问Alexa收音机:“今天天气怎么样?”),而企业则注重节约成本、减少员工人数等因素,2)在消费市场中,一些硬件+语音提供商以成本价或接近成本价的价格销售设备/服务(亚马逊和小米就是最好的例子),然后在其他业务中盈利。


640?wx_fmt=png


▌一级市场公司:各有所长,各有所专


小i机器人:AI领域早期领导者,掌握NLP领域核心竞争力聊天机器人早期参与者


对于外国读者来说,小i读作Xiao-I或“smalli”,也就是小i机器人的意思。公司于2001年在上海成立,是中国首批研发自然语言处理(NLP)和对话式人工智能应用程序的公司之一。


联合创始人兼董事长袁辉先生曾在惠普和微软工作。联合创始人兼首席执行官朱频频是中国科学院博士,昵称PP。朱博士持有多项专利,包括聊天机器人系统和SMS机器人系统。他在微信上开发了中国第一款智能机器人。


2017年,GartnerSymposium将小i机器人、Siri、微软的Cortana、亚马逊的Echo一起被推荐为“会话+”领导者。“会话+”是指将会话功能集成到所有类型的服务和应用中,这意味着聊天机器人将取代搜索成为互联网的唯一入口。


此外,小i机器人还被Gartner列为2017年虚拟客户助理(VCA)代表供应商,与IBM和Nuance在同一阵营推动全球AI发展。由Gartner定义的VCA是一个通过模拟会话来传递信息和代替客户采取行动的应用程序。


640?wx_fmt=png


从语音交互到认知产品的巨大转变


与其他人工智能公司相比,小i机器人的独特优势在于其丰富的数据量以及在NLP领域的核心竞争力。依托行业特定的知识库,小i得以为企业客户推出新的解决方案,提高他们的工作效率,从而将技术转化为实际应用。Gartner定义了两种语音交互系统:

1.基本上只进行简单的问答聊天的虚拟个人系统,例如Siri、Alexa、Cortana。在我们看来,这种模式很难找到一个变现的商业模式,因为:1)消费者注重的是便利性(Alexa,今天天气怎么样?),而企业注重节约成本、减少员工人数等因素,2)在消费市场中,一些硬件+语音提供商以成本价或接近成本价的价格销售设备/服务(亚马逊和小米就是最好的例子),然后在其他业务中盈利。


2.虚拟客户系统或虚拟客户助理(VCA)。


思必驰:专注人性化的智能语音交互技术


思必驰2007年创立,是一家专注于语音识别、语音合成、语义理解和智能对话的语音技术提供商。


公司核心产品包括语音识别算法和麦克风阵列算法、对话用户界面(DUI)和会话精灵。该公司目前与超过8,000家客户合作,为汽车、智能扬声器和机器人提供终端应用。


公司拥有500多名员工,其中70%是研发人员,有70多人持有博士学位。公司总部位于苏州,在苏州和北京设有独立的研发中心。另外与上海交通大学在上海共同组建了联合研究实验室。


创始人高始兴先生毕业于剑桥大学,持有计算机科学与管理双硕士学位。他于2007年与剑桥大学校友俞凯一起创立了思必驰。思必驰的首席科学家俞凯是剑桥大学工程博士,上海交通大学计算机科学系智能语音实验室主任。


在上海交大担任研究教授之前,他是剑桥大学的高级研究员,还曾联合创始VocalIQ,该公司后被苹果收购。思必驰已经获得了D轮投资,募资金额7600万美金。


出门问问:软硬结合的智能语音厂商


出门问问由前谷歌科学家李志飞先生于2012年创立,专注于语音识别、自然语言处理、搜索和推荐以及数字信号处理。出门问问不仅提供软件应用程序,还提供硬件产品。


该公司拥有700名员工,其中60%专注于研发。出门问问已完成了6轮融资,募集资金超过2.55亿美元。在公司官网中显示,谷歌在2015年的C轮中投资,而大众汽车在2017年的D轮中投资。


公司的创始人李志飞是约翰霍普金斯大学的博士,对自然语言处理、机器翻译和机器学习有着浓厚的兴趣。


在2012年创立出门问问之前,李博士曾在谷歌担任研究科学家,并且是谷歌移动离线翻译系统的主要开发人员。


CTO雷欣先生是华盛顿大学电子工程专业博士,研究重点是普通话语音识别的声学建模。


在加入出门问问之前,李博士曾是谷歌语音搜索团队短期聘请的研究科学家。


工程副总裁黄美玉女士于1993年获得卡内基梅隆大学计算机科学专业博士学位,专攻语音识别。她是微软Bing翻译和中文版小娜背后的主要科学家。她现在是华盛顿羽扇智AI实验室主任,还在华盛顿大学电气工程系担任副教授。


出门问问开发了可穿戴设备、汽车、家庭产品类别的消费产品,这些产品嵌入了该公司的语音识别、自然语言处理和垂直搜索技术。


以上一级市场的公司,多专注于几个细分场景,有自己的技术独特优势。


其中,我们最看好小i机器人。一方面公司将企业级市场作为目标,在付费能力强的金融机构客户中,小i机器人的智能客服系统找到了突破点,已经有较大优势。另一方面,在技术上,小i机器人专注于自然语言处理,更多在认知端进行投入。


640?wx_fmt=png


▌二级市场公司:中国智能语音领导者科大讯飞

科大讯飞注重技术创新,智能语音技术在国际上处于领先水平。公司在核心技术领域保持高强度的研发投入,2/3的员工为技术人员,研发支出占收入的20%。公司主要研究语音合成、语音识别、语音评估和翻译。


公司连续13年在卡内基梅隆大学组织的BlizzardChallenge语音合成比赛中夺冠。在《麻省理工科技评论》(MITTechnologyReview)“2017年度全球最聪明公司”榜单上排名第六,一同上榜的科技巨擘谷歌位列第五。


科大讯飞主要收入来自软件开发与服务,语音智能化应用为公司带来稳定收入增长。

公司主要提供特定的应用软件开发和服务,主要客户来自政府部门和教育行业:其中教育、司法和智慧城市等业务占收入的66%,其它大型开放式技能和工具平台占收入的26%。


公司在中国院校部分实现语言考试智能化,在人民法院部分实现取证和听证的智能化,不再需要书记员现场速记,另外,该公司还基于长期积累的数据和领域知识,为学生提供定制课程,为法官提供先例和判词的交叉参考。在教育、政法等领域都有望实现较快收入增长。


640?wx_fmt=png


人工智能专业公司和互联网公司各有所长,不会发生激烈竞争。BAT、科大讯飞、华宇软件、小i机器人在人工智能的特定垂直领域各有所长。预计人工智能专业公司和互联网公司之间不会发生激烈竞争。

2017年11月,中国政府宣布与四家公司合作构建国家AI开放平台的计划:百度将致力于开发自动驾驶;阿里巴巴的云计算部门将研究智慧城市中的“城市大脑”;腾讯将为医疗设备开发计算机视觉;科大讯飞将专注于其主要的专业领域—语音智能。


未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。


未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。


  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”


640?wx_fmt=jpeg


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/493254.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

SQL2012 附加数据库提示5120错误解决方法

在win8.1 x64系统上使用sql2012进行附加数据库(包括在x86系统正在使用的数据库文件,直接拷贝附加在X64系统中)时,提示无法打开文件,5120错误。 这个错误是因为没有操作权限,所以附加的时候出错,…

pytorch利用rnn通过sin预测cos 利用lstm预测手写数字

一.利用rnn通过sin预测cos 1.首先可视化一下数据 import numpy as np from matplotlib import pyplot as plt def show(sin_np,cos_np):plt.figure()plt.title(Sin and Cos, fontsize18)plt.plot(steps, sin_np, r-, labelsin)plt.plot(steps, cos_np, b-, labelcos)plt.lege…

高德纳咨询公司(Gartner)预测:2019年七大人工智能科技趋势

来源:创新研究摘要:人工智能技术对我们的工作环境、工作种类等等正在产生日益深刻的影响,其结果或好或坏都有可能。为应对这种改变,特别是负面的变化,高德纳咨询公司(Gartner)于2018年12月13日发…

美爆!《自然》公布2018年19张最震撼的科学图片

来源:前瞻网 摘要:2018年注定将载入科学史册:气候上,从加利福尼亚烧到开普敦的致命野火和极端干旱、历史罕见;医学上,克隆和成像技术的进步既带来希望,也产生了争议;生物上,一系列事件让人们意识…

python实现Trie 树+朴素匹配字符串+RK算法匹配字符串+kmp算法匹配字符串

一.trie树应用: 相应leetcode 常用于搜索提示,如当输入一个网址,可以自动搜索出可能的选择。当没有完全匹配的搜索结果,可以返回前缀最相似的可能。 例如三个单词app, apple, add,我们按照以下规则创建了一颗Trie树.对于从树的根…

天才也勤奋!DeepMind哈萨比斯自述:领导400名博士向前,每天工作至凌晨4点

来源:量子位你见过凌晨4点的伦敦吗?哈萨比斯天天见。这位DeepMind创始人、AlphaGo之父,一直是全球赞颂的当世天才,但每天要到凌晨4点,才能睡下。这是哈萨比斯最新采访中透露的作息时间,他告诉《星期日泰晤士…

RNN知识+LSTM知识+encoder-decoder+ctc+基于pytorch的crnn网络结构

一.基础知识: 下图是一个循环神经网络实现语言模型的示例,可以看出其是基于当前的输入与过去的输入序列,预测序列的下一个字符. 序列特点就是某一步的输出不仅依赖于这一步的输入,还依赖于其他步的输入或输…

利用flask写的接口(base64, 二进制, 上传视频流)+异步+gunicorn部署Flask服务+多gpu卡部署

一.flask写的接口 1.1 manage.py启动服务(发送图片base64版) 这里要注意的是用docker的话,记得端口映射 #coding:utf-8 import base64 import io import logging import picklefrom flask import Flask, jsonify, request from PIL import Image from sklearn import metric…

2018中国自动驾驶市场专题分析

来源:智车科技未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网&#…

python写日志

需要再加入按照日期生成日志 #coding:utf-8 import logging import logging.handlers class Logger:logFile def __init__(self, logFile):self.logFile logFileself.logger logging.getLogger(mylogger)self.logger.setLevel(logging.INFO)rf_handler logging.handlers.…

MIT科学家Dimitri P. Bertsekas最新2019出版《强化学习与最优控制》(附书稿PDF讲义)...

来源:专知摘要:MIT科学家Dimitri P. Bertsekas今日发布了一份2019即将出版的《强化学习与最优控制》书稿及讲义,该专著目的在于探索这人工智能与最优控制的共同边界,形成一个可以在任一领域具有背景的人员都可以访问的桥梁。REINF…

yolov3 anchors用kmeans聚类出先验框+anchor宽高比分析

一.yolov v3聚类出框 # -*- coding: utf-8 -*- import numpy as np import random import argparse import os# # 参数名称 # parser argparse.ArgumentParser(description使用该脚本生成YOLO-V3的anchor boxes\n) # parser.add_argument(--input_annotation_txt…

Geoff Hinton:全新的想法将比微小的改进更有影响力

来源:AI科技评论摘要:日前,WIRED 对 Hinton 进行了一次专访,在访谈中,WIRED 针对人工智能带来的道德挑战和面临的挑战等问题进行了提问,以下为谈话内容。“作为一名谷歌高管,我认为在公开场合抱…

修改TOMCAT服务器图标为应用LOGO

在tomcat下部署应用程序,运行后,发现在地址栏中会显示tomcat的小猫咪图标。有时候,我们自己不想显示这个图标,想换成自己定义的的图标,那么按如下方法操作即可: 参考网上的解决方案:1、将$TOMCA…

python连接mysql的一些基础知识+安装Navicat可视化数据库+flask_sqlalchemy写数据库

一.mysql基础知识 1.connect连接数据库 import pymysqldef get_conn():conn pymysql.connect(hostxxx.xxx.xxx.xxx, port3306, userroot, passwd, dbnewspaper_rest) # db:表示数据库名称return conn 2.创建表 im…

工业互联网平台创新发展白皮书(2018)

来源:走向智能论坛摘要:近日,在“2018年产业互联网与数据经济大会——首届工业互联网平台创新发展暨两化融合推进会”上,国家工业信息安全发展研究中心尹丽波主任发布并解读了《工业互联网平台创新发展白皮书(2018&…

迭代器模式和组合模式混用

迭代器模式和组合模式混用 前言 园子里说设计模式的文章算得上是海量了,所以本篇文章所用到的迭代器设计模式和组合模式不提供原理解析,有兴趣的朋友可以到一些前辈的设计模式文章上学学,很多很有意思的。在Head First 设计模式这本书中&…

python实现可扩容队列

#coding:utf-8 """ fzh created on 2019/10/15 构建一个队列 """ import datetimeclass LoopQueue(object):def __init__(self, n10):self.arr [None] * (n1) # 由于特意浪费了一个空间,所以arr的实际大小应该是用户传入的容量1sel…

5G 产业链重要投资节点

来源:兴业证券 ▌5G:大通信容量及超低延时,未来多项应用的基础5G:高工作频率以及频谱带宽带来高通信容量5G(5thgeneration)是指第五代移动电话通信标准。3GPP(第三代合作伙伴计划,电信标准化机构)将5G标准分为了NSA(非独立组网)和SA(独立组网…

Kneser猜想与相关推广

本文本来是想放在Borsuk-Ulam定理的应用这篇文章当中。但是这个文章实在是太长,导致有喧宾夺主之嫌,从而独立出为一篇文章,仅供参考。$\newcommand{\di}{\mathrm{dist}}$ (图1:Kneser叙述他的猜想原文手稿)…