报告来源:中信证券
作者:刘雯蜀 杨泽原 张若海
智能语音作为人机交互的新型方式,有望大规模推广,中国市场是更适合语音交互的市场。
2017年中国人工智能市场规模达约220亿元,智能语音占中国人工智能市场份额的22%,价值约48亿元,仅次于计算机视觉。
IDC在2018年10月的报告中预测,中国对话式人工智能市场规模将在2022年达到约78亿人民币,2018-2022年年复合增速将为57%。
中国企业在智能语音领域已经非常领先,有望超越西方国家。主要原因是:1)各个应用场景的市场体量要远超西方,比如在教育领域,每个老师需要面对的学生数量,以及银行客服领域,每一个客户需要处理的请求数量都是远超西方市场。2)相比于西方语言,中文更难书写,但是句法和语法更易理解。因此对于中文,语音是相比于书写和输入来说,更自然的交互方式。
早在1952年,贝尔实验室就创造了一台名为Audrey的机器,能够以90%的准确度理解数字0-9。耐人寻味的是,这个准确度仅在机器发明者发言时可以达到。
仅仅是在近几年,语音识别技术才为公众所知。技术巨头纷纷举办声势浩大的发布活动,Siri、Cortana、Alexa的出现让社会的关注度和预期提升,但也因为其功能有限而无法达到用户的预期。
随着深度学习,机器学习芯片和算法取得突破,ASR、NLP和TTS在过去5年中迅速进步。语音识别的单词错误率大幅降低,这主要是由于使用了更高效的声学模型,运用深度神经网络(DNN)取代高斯混合模型(GMM,之前多年以来的首选方法)等统计技术。
Nuance的研究主管NilsLenke展示数据显示,在将深度神经网络算法成功纳入语音识别系统后,单词错误率从2010年左右开始急剧下降,每年降低约18%。
语音识别和自然语言处理这两个相邻领域很难相互跨越。不同的公司可能专注于其中一个领域。比如,科大讯飞更专注于语音领域,而小i机器人更专注于自然语言理解。语音识别的公司在自然语言领域看起来并不成功,而专注自然语言的公司在语音识别领域也难有斩获。
相比西方国家,语音识别技术和自然语言处理技术在中国发展迅速主要是自身的独特因素导致,分别是用户规模和中文特点。
▌中国智能语音市场规模不断扩大
市场规模:根据中国信息通信研究院的数据,2017年人工智能市场规模达约220亿元,预计到2020年将达到710亿元,年均复合增速为48%。2017年,智能语音占中国人工智能市场份额的22%,约合48亿元。
主要参与厂商:在国内智能语音市场,科大讯飞以44%的市占率高居榜首。
2015年,国内智能语音市场排名前五的厂商是科大讯飞、百度、苹果,Nuance和小i机器人,合计占据85%的市场份额。科大讯飞在国内市场的市场份额达到44%。
在全球市场,2015年的全球智能语音行业市值达到61亿美元,Nuance、谷歌、苹果、微软和科大讯飞前五大厂商市场份额合计占比80%。
随着语义理解技术运用频率增加,对话式人工智能技术应用领域和场景将望快速扩展。
IDC在2018年10月的报告中预测,中国对话式人工智能市场规模将在2022年将达到78亿人民币,2018-2022年年复合增速为57%。
从IDC的能力象限来看,科大讯飞、百度、阿里巴巴、小i机器人和思必驰为领先企业。我们认为,在收入方面,科大讯飞和小i机器人应最为领先。
虽然IDC将科大讯飞和小i机器人都列为对话式人工智能平台厂商,但两者之间存在重大差异:科大讯飞主要是一家语音识别和语音自动化公司,而小i机器人主要是一家自然语言处理公司。
▌国内语音AI市场参与者不断加入
国内语音AI市场上参与者不断涌入,中国市场主要参与者可分为以下四类:
第一类是在深度学习算法大规模应用之前,就已经从事这个领域的专业语音公司,比如科大讯飞或者小i机器人,专注于需要丰富行业知识的垂直领域。
第二类是AI初创公司,如思必驰、云知声、出门问问。这些公司主要关注多用途的云平台和一些特定的垂直领域,如智能汽车或智能家居。
第三类是百度、阿里、腾讯等互联网公司,主要推出移动端消费者语音产品。BAT的多用途云平台源自他们自己的核心产品,如腾讯的微信。
第四类是亚马逊、苹果、Nuance等海外互联网公司。我们认为这些公司有三个重要看点:
技术的准确性和可靠性。
科大讯飞或小i机器人等垂直领域提供商的准确性和可靠性远远高于BAT的通用消费者平台。这是因为BAT平台大多是免费的,而科大讯飞或小i机器人主要面向企业客户提供服务,相比普通网民,企业客户对价格敏感程度低,但对功能的准确性和可靠性要求高。
是否拥有针对场景开发的方案和产品。
科大讯飞或小i机器人拥有专门针对特定行业和场景进行技术和内容研发的团队;我们认为BAT在这方面不会直接投入,一方面因为B端市场尚未成为他们最核心的盈利来源,另一方面因为单个细分领域或者场景的盈利规模太小,不足以吸引他们投入。
针对的是企业级还是消费技术市场?
我们认为消费者市场的直接变现机会很少,因为1)消费者注重的是便利性(比如询问Alexa收音机:“今天天气怎么样?”),而企业则注重节约成本、减少员工人数等因素,2)在消费市场中,一些硬件+语音提供商以成本价或接近成本价的价格销售设备/服务(亚马逊和小米就是最好的例子),然后在其他业务中盈利。
▌一级市场公司:各有所长,各有所专
小i机器人:AI领域早期领导者,掌握NLP领域核心竞争力聊天机器人早期参与者
对于外国读者来说,小i读作Xiao-I或“smalli”,也就是小i机器人的意思。公司于2001年在上海成立,是中国首批研发自然语言处理(NLP)和对话式人工智能应用程序的公司之一。
联合创始人兼董事长袁辉先生曾在惠普和微软工作。联合创始人兼首席执行官朱频频是中国科学院博士,昵称PP。朱博士持有多项专利,包括聊天机器人系统和SMS机器人系统。他在微信上开发了中国第一款智能机器人。
2017年,GartnerSymposium将小i机器人、Siri、微软的Cortana、亚马逊的Echo一起被推荐为“会话+”领导者。“会话+”是指将会话功能集成到所有类型的服务和应用中,这意味着聊天机器人将取代搜索成为互联网的唯一入口。
此外,小i机器人还被Gartner列为2017年虚拟客户助理(VCA)代表供应商,与IBM和Nuance在同一阵营推动全球AI发展。由Gartner定义的VCA是一个通过模拟会话来传递信息和代替客户采取行动的应用程序。
从语音交互到认知产品的巨大转变
与其他人工智能公司相比,小i机器人的独特优势在于其丰富的数据量以及在NLP领域的核心竞争力。依托行业特定的知识库,小i得以为企业客户推出新的解决方案,提高他们的工作效率,从而将技术转化为实际应用。Gartner定义了两种语音交互系统:
1.基本上只进行简单的问答聊天的虚拟个人系统,例如Siri、Alexa、Cortana。在我们看来,这种模式很难找到一个变现的商业模式,因为:1)消费者注重的是便利性(Alexa,今天天气怎么样?),而企业注重节约成本、减少员工人数等因素,2)在消费市场中,一些硬件+语音提供商以成本价或接近成本价的价格销售设备/服务(亚马逊和小米就是最好的例子),然后在其他业务中盈利。
2.虚拟客户系统或虚拟客户助理(VCA)。
思必驰:专注人性化的智能语音交互技术
思必驰2007年创立,是一家专注于语音识别、语音合成、语义理解和智能对话的语音技术提供商。
公司核心产品包括语音识别算法和麦克风阵列算法、对话用户界面(DUI)和会话精灵。该公司目前与超过8,000家客户合作,为汽车、智能扬声器和机器人提供终端应用。
公司拥有500多名员工,其中70%是研发人员,有70多人持有博士学位。公司总部位于苏州,在苏州和北京设有独立的研发中心。另外与上海交通大学在上海共同组建了联合研究实验室。
创始人高始兴先生毕业于剑桥大学,持有计算机科学与管理双硕士学位。他于2007年与剑桥大学校友俞凯一起创立了思必驰。思必驰的首席科学家俞凯是剑桥大学工程博士,上海交通大学计算机科学系智能语音实验室主任。
在上海交大担任研究教授之前,他是剑桥大学的高级研究员,还曾联合创始VocalIQ,该公司后被苹果收购。思必驰已经获得了D轮投资,募资金额7600万美金。
出门问问:软硬结合的智能语音厂商
出门问问由前谷歌科学家李志飞先生于2012年创立,专注于语音识别、自然语言处理、搜索和推荐以及数字信号处理。出门问问不仅提供软件应用程序,还提供硬件产品。
该公司拥有700名员工,其中60%专注于研发。出门问问已完成了6轮融资,募集资金超过2.55亿美元。在公司官网中显示,谷歌在2015年的C轮中投资,而大众汽车在2017年的D轮中投资。
公司的创始人李志飞是约翰霍普金斯大学的博士,对自然语言处理、机器翻译和机器学习有着浓厚的兴趣。
在2012年创立出门问问之前,李博士曾在谷歌担任研究科学家,并且是谷歌移动离线翻译系统的主要开发人员。
CTO雷欣先生是华盛顿大学电子工程专业博士,研究重点是普通话语音识别的声学建模。
在加入出门问问之前,李博士曾是谷歌语音搜索团队短期聘请的研究科学家。
工程副总裁黄美玉女士于1993年获得卡内基梅隆大学计算机科学专业博士学位,专攻语音识别。她是微软Bing翻译和中文版小娜背后的主要科学家。她现在是华盛顿羽扇智AI实验室主任,还在华盛顿大学电气工程系担任副教授。
出门问问开发了可穿戴设备、汽车、家庭产品类别的消费产品,这些产品嵌入了该公司的语音识别、自然语言处理和垂直搜索技术。
以上一级市场的公司,多专注于几个细分场景,有自己的技术独特优势。
其中,我们最看好小i机器人。一方面公司将企业级市场作为目标,在付费能力强的金融机构客户中,小i机器人的智能客服系统找到了突破点,已经有较大优势。另一方面,在技术上,小i机器人专注于自然语言处理,更多在认知端进行投入。
▌二级市场公司:中国智能语音领导者科大讯飞
科大讯飞注重技术创新,智能语音技术在国际上处于领先水平。公司在核心技术领域保持高强度的研发投入,2/3的员工为技术人员,研发支出占收入的20%。公司主要研究语音合成、语音识别、语音评估和翻译。
公司连续13年在卡内基梅隆大学组织的BlizzardChallenge语音合成比赛中夺冠。在《麻省理工科技评论》(MITTechnologyReview)“2017年度全球最聪明公司”榜单上排名第六,一同上榜的科技巨擘谷歌位列第五。
科大讯飞主要收入来自软件开发与服务,语音智能化应用为公司带来稳定收入增长。
公司主要提供特定的应用软件开发和服务,主要客户来自政府部门和教育行业:其中教育、司法和智慧城市等业务占收入的66%,其它大型开放式技能和工具平台占收入的26%。
公司在中国院校部分实现语言考试智能化,在人民法院部分实现取证和听证的智能化,不再需要书记员现场速记,另外,该公司还基于长期积累的数据和领域知识,为学生提供定制课程,为法官提供先例和判词的交叉参考。在教育、政法等领域都有望实现较快收入增长。
人工智能专业公司和互联网公司各有所长,不会发生激烈竞争。BAT、科大讯飞、华宇软件、小i机器人在人工智能的特定垂直领域各有所长。预计人工智能专业公司和互联网公司之间不会发生激烈竞争。
2017年11月,中国政府宣布与四家公司合作构建国家AI开放平台的计划:百度将致力于开发自动驾驶;阿里巴巴的云计算部门将研究智慧城市中的“城市大脑”;腾讯将为医疗设备开发计算机视觉;科大讯飞将专注于其主要的专业领域—语音智能。
未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。
未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。
如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”