【周末阅读】人工智能时代基础数据服务大有可为

640?wx_fmt=jpeg

来源:青岛智能产业技术研究院

智能产业 前沿高地

【导读】为机器学习算法训练、优化提供数据采集、标注等服务的人工智能基础数据服务成为这一人工智能热潮中必不可少的一环。如果说计算机工程师是AI的老师,那基础数据服务就是老师手中的教材。

人工智能基础数据服务指为AI算法训练及优化提供的数据采集、清洗、信息抽取、标注等服务,以采集和标注为主。人工智能概念爆发伊始,算法、算力、数据就是重要的三要素;进入落地阶段,智能交互、人脸识别、无人驾驶等应用成为最大的热门,AI公司开始比拼技术与产业的结合能力,而数据作为AI算法的“燃料”,是实现这一能力的必要条件,因此,为机器学习算法训练、优化提供数据采集、标注等服务的人工智能基础数据服务成为这一人工智能热潮中必不可少的一环。如果说计算机工程师是AI的老师,那基础数据服务就是老师手中的教材。

640?wx_fmt=jpeg

近日,艾瑞咨询发布了《2019年中国人工智能基础数据服务行业白皮书》(以下简称《白皮书》),对中国人工智能基础数据服务行业进行了深度分析。《白皮书》指出, 2018年中国人工智能基础数据服务市场规模为25.86亿元,预计2025年市场规模将突破110亿元,人工智能基础数据服务将持续释放其对于人工智能的基础支撑价值。

行业进入成长期

格局逐渐清晰

伴随国内人工智能热潮爆发,大量的AI公司融了资,为了不断提高算法精度,数据采标需求也空前爆发,一度催生了行业的繁荣。但早期的AI基础数据服务门槛较低,玩家鱼龙混杂,使行业标准模糊、服务质量参差不齐。随着竞争加剧,AI公司对训练数据的质量要求也不断提高,并且当产业落地成为主旋律,需求方对垂直场景的定制化数据采标需求成为主流时,众多小型AI基础数据服务公司从数据质量和采标能力上达不到要求而被淘汰,或依附大平台,行业格局逐渐清晰,头部公司实力逐渐凸显。随着算法需求越来越旺盛,目前机器辅助标注、人工主要标注的手段需要改进提升,增强数据处理平台持续学习和自学习能力,增加机器能够标注维度、提升机器处理数据的精度,由机器承担主要标注工作将成为下一阶段的行业重心。未来,越来越多的长尾、小概率事件所产生的数据需求增加,人机协作标注的模式性价比不高,机器模拟或机器生成数据是解决这一问题的良好途径,及早研发相应技术也将成为AI基础数据服务商未来的“护城河”。

从产品形式来看,目前,国内AI基础数据服务主要为数据集产品和数据资源定制服务,数据集产品往往是AI基础数据服务商根据自身积累产出的标准数据集,以语音数据集为主,主体偏普通话语音、英文语音、方言语音等;为保证算法优势,客户更多采用定制化服务,由客户提出具体需求,数据服务商直接对客户提供的数据进行标注,或对数据进行采集并标注。大型的需求方为保障数据的安全,往往提供Web形式的自有标注平台给执行方,以此对整体项目进行把控,也有一些AI基础数据服务商向客户提供私有化平台建设服务,或将自身平台与甲方系统兼容;除以上两种形式外,部分AI基础数据服务商还向算法服务进行拓展,提供算法训练、模型搭建等服务。

从商业模式来看,生产、获客、部署合力驱动发展。人工智能基础数据服务行业是典型的To B型业务,商业模式较为稳定。在生产方面,主要通过自建标注基地或标注团队、搭建众包平台、采购供应商外包服务(BPO)等模式实现生产运营,大多企业主要采取众包与外包模式,百度数据众包、倍赛等企业自建标注基地或全职标注团队,对于培训较高素质工作人员、完善团队管理有积极意义;在获客方面,主要通过口碑传播、学术会议与展会及代理渠道等模式进入市场,对销售人员熟悉市场趋势、客户需求的要求较高;在实施交付方面,有私有化部署和公有部署两类,能够较为灵活地应对客户对数据安全、交付周期与成本的个性化需求。

市场规模不断扩大

行业稳健发展

2018年中国人工智能基础数据服务市场规模为25.86亿元,其中数据资源定制服务占比为86.2%,数据集产品占比为12.9%,其他数据资源应用服务占比为0.9%;行业年复合增长率为23.5%,预计2025年市场规模将突破110亿元。从整体增速来看,行业发展较为稳健,下游人工智能行业持续发力将形成长期利好。

从细分结构来看,2018年中国人工智能基础数据服务市场以语音、视觉、NLP领域的标注服务为主,同时提供采集与标注服务占比较少,这是由于生数据由需求方提供的情况较多,但这并不意味着市场中数据采集需求弱,相反,人工智能技术落地后产生了大量新兴垂直领域的数据需求,然而这些数据采集难度大,能够提供相关采集工具和服务的供应商将获取竞争优势。市场供给方主要由企业自建或直接获取外包团队的形式以及供应商组成,又以供应商为行业主要支撑力量,占比为79%。

从市场格局来看,目前人工智能基础数据服务行业CR5占26%的市场份额,行业集中度较为适中,既非寡占型市场也非充分竞争市场,这一方面是由于百度数据众包、海天瑞声、数据堂等企业进入市场较早,积累了较多客户资源;另一方面则是由于下游企业之前多采用公开数据集训练模型,对数据的高精度要求时间尚短,受生态传导效应滞后影响,市场门槛还不显著,资金与研发实力较为薄弱的中小企业还有较肥沃的发展土壤。然而未来,随着下游企业发展壮大,直接使用外包团队成本低廉、数据安全可控性强,一些基础性需求将由下游企业自给自足,外部的数据服务商现有的存量市场面临下降,因此必须承担高难度、前沿独特性任务,这就要求其自身投入高精度、专业化数据处理工具的研发和人工智能算法基础研究,以把握客户需求,开拓增量市场,因此资金与研发实力成为较高行业门槛,同时受近年资本市场冷却影响,一批中小型厂商面临业务收缩,再者部分厂商如倍赛开始在业内并购,参考海外数据服务市场发展情况(海外行业巨头Appen多次并购其他企业),并购也将成为市场趋势,在多种因素叠加的影响下,行业集中度将提升。

五大需求痛点

决定服务标准

目前需求方在选择数据服务时往往会遇到数据安全、采标能力、数据质量、管理能力、服务能力等痛点。对于数据安全,需求方希望基础数据服务商有明确具体的安全管理流程,对数据传输、存储,以及结项后的数据销毁等环节比较重视。在采标能力方面,需求方算法越来越贴近业务,希望数据服务商对于自动驾驶、工业等有一定门槛的领域有采集能力,并且能理解客户意图,配合标注,甚至可以提出标注建议;根据市场反应,大多数数据服务公司首次交付项目时,数据的准确率普遍偏低,都需要一到两次的返工,故需求方对无效数据少、准确率高的公司更加青睐。对于执行效率,一般AI基础数据服务商都能在项目周期内完成,但管理能力较弱的公司很难在兼顾多个项目时做到精力集中、高质量地服务客户,同时执行团队的素养与信誉也是重要影响因素。服务意识是一项软实力,需要AI基础数据服务商能够积极配合、快速响应需求方要求。

单纯依据客户各个项目的诉求进行数据采集和标注属于被动执行,主观能动性低、行业边界有限,各家公司的产品和服务趋于同质化、竞争呈胶着状态,制约着AI基础数据服务的发展。《白皮书》指出,通过对需求方的研究,发现除安全性、质量、效率等核心关注点之外,越来越多的需求方对数据服务公司产生了主动服务的需求。希望数据公司能够更懂算法技术、更懂需求场景,甚至能参与算法的研发,给出数据采标方面的优化建议,这也为数据服务商形成差异化竞争带来了契机,尤其是在AI落地阶段,在垂直场景中能够形成一套集调研、咨询、设计、采集、标注于一体的AI基础数据整体解决办法,将在收入和业务边界上实现突破。

640?wx_fmt=jpeg

未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

640?wx_fmt=jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/489723.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

物理史2000年来最精彩的对决!

来源:工程客背景:在20世纪初,物理学界诞生了影响至今的两大理论,这两个门派,一个是爱因斯坦以一人之力提出的相对论,另一个则是由玻尔领导的哥本哈根学派合力塑成的量子力学。而因为观念的差异,…

sql多行合成一行的解决方法

转载于:https://www.cnblogs.com/shanhuashuiqing11/p/6000627.html

动态改变eachers图表高_让你的Excel图表动起来

有读者提了这样一个问题,想要制作如下的动态图表,要怎么实现?动态图表展示.gif可以看到,这个动态效果里有4种选择器,左上方的组合框呈现出选择不同的方案展示相应柱形图的效果;中间的复选框勾上显示差额的图…

2018-2020年Gartner战略科技发展趋势一览!

来源:边缘计算社区近日,Gartner公布了2020年十大战略科技趋势的预测,值此之际,边缘计算社区总结回顾并简要分析了2018-2020三年的战略科技发展趋势变化。Gartner将战略科技发展趋势定义为具有巨大颠覆性潜力、脱离初期阶段且影响范…

【HDU 2255】奔小康赚大钱 (最佳二分匹配KM算法)

奔小康赚大钱 Time Limit: 1000/1000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Others)Total Submission(s): 1836 Accepted Submission(s): 798 Problem Description传说在遥远的地方有一个非常富裕的村落,有一天,村长决定进行制度改革:重新分配…

正面交锋!另类“竞赛”探索大脑的意识起源

图片来源:ZEPHYR/SCIENCE PHOTO LIBRARY/GETTY IMAGES来源:中国生物技术网在脑科学研究领域,科学家们可以观察到神经元的放电及其之间的通信,从而描绘出在产生感觉、进行决策和说话过程中大脑各区域是如何被“点亮”的。但他们无法…

(第七周)内容汇总

项目名:食物链教学工具 组名:奋斗吧兄弟 组长:黄兴 组员:谢孝淼、李俞寰、杜桥 1、团队贡献分 黄兴 5.1 谢孝淼 4.8 李俞寰 5.2 杜桥 4.9 2、alpha视频发布 平台:优酷 链接:http://v.youku.com/v_show/i…

深入探索边缘计算:物联网与5G时代的技术趋势

来源:世界物联网博览会边缘计算的诞生随着物联网规模的快速增长,集中式的数据存储、处理模式将面临难解的瓶颈和压力,此时在靠近数据产生的网络边缘提供数据处理的能力和服务,将是推动ICT产业发展的下一个重要驱动力。边缘计算&am…

无法消除恐惧?Nature发现肠道菌与大脑间更多的神秘联系...

来源:中国生物技术网肠道,也被称为“第二大脑”。研究人员对它研究得越多,就发现肠道微生物与大脑之间的联系越多。肠道细菌似乎会影响从抑郁症到自闭症的所有疾病。近日发表在《Nature》上一项有关小鼠如何克服恐惧的研究开始揭示出更多关于…

Fly.Box天禾云盘2016双11超级钜惠,超低折扣!!!

Fly.Box企业网盘2016双十一超级钜惠,超低折扣,超多优惠 凡在2016年11月1日至2016年11月11日期间下单的客户,均可享受5折优惠,终身免费升级,免费服务。推荐即可获2折返现,老用户推荐更可享受8折的折上折优惠…

挑战61年未被质疑的经典心理学理论—— 大脑识别图像并非“趣味导向”

来源:科技日报科技日报讯 (实习生张临谦 记者房琳琳)据物理学家组织网最新报道,加拿大约克大学的视觉研究者近日对多种视觉图像处理算法进行了测试,并经特定实验发现,人脑并不会优先处理图像中的有趣区域&a…

销售管理系统 java_用Java从零写一个B2C商城,看完不要再说自己没有实战经验了!...

一、B2C商城实战需要哪些技术点要想立足于互联网公司,且能在互联网浪潮中不被淹没,对于项目的开发实战演练是不必可少的技能,也是对自身能力的一个衡量,有多少的量对等于获得多少的回报。看似简单的一个项目需求图谱,其…

行业|又一家明星机器人公司倒掉:曾是全球机器人技术50强,主打性价比AI机械臂...

来源:机器人大讲堂 又一家曾经光芒四射的机器人公司,倒闭了。成立于2014年,仅2年就入选《机器人商业评论》年度权威榜单RBR50 2016,成为机器人技术的全球50强。当时一同上榜的多是巨头,有ABB、发那科、大疆&#xff0c…

java生成flash_针对 Flash 开发者的最新 Capuchin 计划资源

开发者世界 Capuchin 计划站点在经过改版后,拥有任何Flash™ 开发者所需要的一切,现在无需了解Java™ ME,就能构建引人入胜的 Capuchin 计划应用程序。在你能找到由 Capuchin 计划工具包支持的最新索尼爱立信 Service MXPs,以及针对 Flash 开发者的两份最…

视图插入数据_用EXCEL作数据分析--招聘信息

前提数据分析职位在哪些城市最多?数据分析师的工资水平怎么样?做数据分析师对学历专业要求怎么样?一、字段信息城市职位名称职位类型公司名称公司规模学历要求所属领域薪资工作年限要求数据预览二、数据清洗首先插入表格,这样后续…

从全球最赚钱的20家公司,我们可以发现什么?

来源:资本实验室在商业的版图中,更少的公司贡献着更多的利润,这已经是一个不争的事实。而在目前,这种现象正在加剧:更多的利润越来越向更少的公司集中。例如,在1975年,美国上市公司共4819家&…

NASA:首批“太空蜜蜂”将赴空间站上班,助宇航员推进研究!

来源:机器人大讲堂2006年,美国宇航局(NASA)将三个可自由飞行的小型机器人送上国际空间站。这些名为SPHERES (同步位置的保持、连通与再定向试验卫星)的机器人在太空进行了长达600个小时的实验,开…

k米案例分析

K米产品分析 第一部分 调研、评测 评测 上手体验 大一暑假的时候,在ktv和同学唱k的时候就接触过了。 - -、所以对于k米的第一次上手体验已经不记得了(ps:尴尬)!~其实以前用它的时候想法很简单,不用到点歌台…

传感器发展历史,你知道吗?(图文并茂)

来源:北京物联网智能技术应用协会传感器与通信、计算机被称为现代信息技术的三大支柱和物联网基础,其应用涉及国民经济及国防科研的各个领域,是国民经济基础性、战略性产业之一。当前倍受国际关注的物联网、大数据、云计算技术,乃…

我们为什么不能只相信建立在深度学习基础上的人工智能系统

来源:简书本文摘自:https://www.jianshu.com/p/55e1abcd896dGary Marcus介绍了如何实现通用智能以及为什么通用智能可能会让机器更安全。加里•马库斯(Gary Marcus)对深度学习的大肆宣传并不感冒。尽管这位纽约大学教授认为,这项技术在推进人…