【周末阅读】人工智能时代基础数据服务大有可为

640?wx_fmt=jpeg

来源:青岛智能产业技术研究院

智能产业 前沿高地

【导读】为机器学习算法训练、优化提供数据采集、标注等服务的人工智能基础数据服务成为这一人工智能热潮中必不可少的一环。如果说计算机工程师是AI的老师,那基础数据服务就是老师手中的教材。

人工智能基础数据服务指为AI算法训练及优化提供的数据采集、清洗、信息抽取、标注等服务,以采集和标注为主。人工智能概念爆发伊始,算法、算力、数据就是重要的三要素;进入落地阶段,智能交互、人脸识别、无人驾驶等应用成为最大的热门,AI公司开始比拼技术与产业的结合能力,而数据作为AI算法的“燃料”,是实现这一能力的必要条件,因此,为机器学习算法训练、优化提供数据采集、标注等服务的人工智能基础数据服务成为这一人工智能热潮中必不可少的一环。如果说计算机工程师是AI的老师,那基础数据服务就是老师手中的教材。

640?wx_fmt=jpeg

近日,艾瑞咨询发布了《2019年中国人工智能基础数据服务行业白皮书》(以下简称《白皮书》),对中国人工智能基础数据服务行业进行了深度分析。《白皮书》指出, 2018年中国人工智能基础数据服务市场规模为25.86亿元,预计2025年市场规模将突破110亿元,人工智能基础数据服务将持续释放其对于人工智能的基础支撑价值。

行业进入成长期

格局逐渐清晰

伴随国内人工智能热潮爆发,大量的AI公司融了资,为了不断提高算法精度,数据采标需求也空前爆发,一度催生了行业的繁荣。但早期的AI基础数据服务门槛较低,玩家鱼龙混杂,使行业标准模糊、服务质量参差不齐。随着竞争加剧,AI公司对训练数据的质量要求也不断提高,并且当产业落地成为主旋律,需求方对垂直场景的定制化数据采标需求成为主流时,众多小型AI基础数据服务公司从数据质量和采标能力上达不到要求而被淘汰,或依附大平台,行业格局逐渐清晰,头部公司实力逐渐凸显。随着算法需求越来越旺盛,目前机器辅助标注、人工主要标注的手段需要改进提升,增强数据处理平台持续学习和自学习能力,增加机器能够标注维度、提升机器处理数据的精度,由机器承担主要标注工作将成为下一阶段的行业重心。未来,越来越多的长尾、小概率事件所产生的数据需求增加,人机协作标注的模式性价比不高,机器模拟或机器生成数据是解决这一问题的良好途径,及早研发相应技术也将成为AI基础数据服务商未来的“护城河”。

从产品形式来看,目前,国内AI基础数据服务主要为数据集产品和数据资源定制服务,数据集产品往往是AI基础数据服务商根据自身积累产出的标准数据集,以语音数据集为主,主体偏普通话语音、英文语音、方言语音等;为保证算法优势,客户更多采用定制化服务,由客户提出具体需求,数据服务商直接对客户提供的数据进行标注,或对数据进行采集并标注。大型的需求方为保障数据的安全,往往提供Web形式的自有标注平台给执行方,以此对整体项目进行把控,也有一些AI基础数据服务商向客户提供私有化平台建设服务,或将自身平台与甲方系统兼容;除以上两种形式外,部分AI基础数据服务商还向算法服务进行拓展,提供算法训练、模型搭建等服务。

从商业模式来看,生产、获客、部署合力驱动发展。人工智能基础数据服务行业是典型的To B型业务,商业模式较为稳定。在生产方面,主要通过自建标注基地或标注团队、搭建众包平台、采购供应商外包服务(BPO)等模式实现生产运营,大多企业主要采取众包与外包模式,百度数据众包、倍赛等企业自建标注基地或全职标注团队,对于培训较高素质工作人员、完善团队管理有积极意义;在获客方面,主要通过口碑传播、学术会议与展会及代理渠道等模式进入市场,对销售人员熟悉市场趋势、客户需求的要求较高;在实施交付方面,有私有化部署和公有部署两类,能够较为灵活地应对客户对数据安全、交付周期与成本的个性化需求。

市场规模不断扩大

行业稳健发展

2018年中国人工智能基础数据服务市场规模为25.86亿元,其中数据资源定制服务占比为86.2%,数据集产品占比为12.9%,其他数据资源应用服务占比为0.9%;行业年复合增长率为23.5%,预计2025年市场规模将突破110亿元。从整体增速来看,行业发展较为稳健,下游人工智能行业持续发力将形成长期利好。

从细分结构来看,2018年中国人工智能基础数据服务市场以语音、视觉、NLP领域的标注服务为主,同时提供采集与标注服务占比较少,这是由于生数据由需求方提供的情况较多,但这并不意味着市场中数据采集需求弱,相反,人工智能技术落地后产生了大量新兴垂直领域的数据需求,然而这些数据采集难度大,能够提供相关采集工具和服务的供应商将获取竞争优势。市场供给方主要由企业自建或直接获取外包团队的形式以及供应商组成,又以供应商为行业主要支撑力量,占比为79%。

从市场格局来看,目前人工智能基础数据服务行业CR5占26%的市场份额,行业集中度较为适中,既非寡占型市场也非充分竞争市场,这一方面是由于百度数据众包、海天瑞声、数据堂等企业进入市场较早,积累了较多客户资源;另一方面则是由于下游企业之前多采用公开数据集训练模型,对数据的高精度要求时间尚短,受生态传导效应滞后影响,市场门槛还不显著,资金与研发实力较为薄弱的中小企业还有较肥沃的发展土壤。然而未来,随着下游企业发展壮大,直接使用外包团队成本低廉、数据安全可控性强,一些基础性需求将由下游企业自给自足,外部的数据服务商现有的存量市场面临下降,因此必须承担高难度、前沿独特性任务,这就要求其自身投入高精度、专业化数据处理工具的研发和人工智能算法基础研究,以把握客户需求,开拓增量市场,因此资金与研发实力成为较高行业门槛,同时受近年资本市场冷却影响,一批中小型厂商面临业务收缩,再者部分厂商如倍赛开始在业内并购,参考海外数据服务市场发展情况(海外行业巨头Appen多次并购其他企业),并购也将成为市场趋势,在多种因素叠加的影响下,行业集中度将提升。

五大需求痛点

决定服务标准

目前需求方在选择数据服务时往往会遇到数据安全、采标能力、数据质量、管理能力、服务能力等痛点。对于数据安全,需求方希望基础数据服务商有明确具体的安全管理流程,对数据传输、存储,以及结项后的数据销毁等环节比较重视。在采标能力方面,需求方算法越来越贴近业务,希望数据服务商对于自动驾驶、工业等有一定门槛的领域有采集能力,并且能理解客户意图,配合标注,甚至可以提出标注建议;根据市场反应,大多数数据服务公司首次交付项目时,数据的准确率普遍偏低,都需要一到两次的返工,故需求方对无效数据少、准确率高的公司更加青睐。对于执行效率,一般AI基础数据服务商都能在项目周期内完成,但管理能力较弱的公司很难在兼顾多个项目时做到精力集中、高质量地服务客户,同时执行团队的素养与信誉也是重要影响因素。服务意识是一项软实力,需要AI基础数据服务商能够积极配合、快速响应需求方要求。

单纯依据客户各个项目的诉求进行数据采集和标注属于被动执行,主观能动性低、行业边界有限,各家公司的产品和服务趋于同质化、竞争呈胶着状态,制约着AI基础数据服务的发展。《白皮书》指出,通过对需求方的研究,发现除安全性、质量、效率等核心关注点之外,越来越多的需求方对数据服务公司产生了主动服务的需求。希望数据公司能够更懂算法技术、更懂需求场景,甚至能参与算法的研发,给出数据采标方面的优化建议,这也为数据服务商形成差异化竞争带来了契机,尤其是在AI落地阶段,在垂直场景中能够形成一套集调研、咨询、设计、采集、标注于一体的AI基础数据整体解决办法,将在收入和业务边界上实现突破。

640?wx_fmt=jpeg

未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

640?wx_fmt=jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/489723.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

c#FileStream文件读写(转)

FileStream对象表示在磁盘或网络路径上指向文件的流。这个类提供了在文件中读写字节的方法,但经常使用StreamReader或StreamWriter执行这些功能。这是因为FileStream类操作的是字节和字节数组,而Stream类操作的是字符数据。字符数据易于使用,…

python能处理图片吗_python 能处理图像?

答案是:完全ojbkpython具有强大的图像处理功能,这归功于他 的PIL模块与我们平时所见的使用PS等软件P图有所不同,python实现的图像处理是以代码的形式完成工作,也是千峰这篇文章要说的。需要相关学习资料请关注我操作环境&#xff…

python3多线程编程_Python 3-多线程编程

Python 3-多线程编程运行多个线程类似于同时运行多个不同的程序,但具有以下优点-进程中的多个线程与主线程共享相同的数据空间,因此与单独的进程相比,可以更轻松地共享信息或彼此通信。线程有时被称为轻量级进程,它们不需要太多的…

物理史2000年来最精彩的对决!

来源:工程客背景:在20世纪初,物理学界诞生了影响至今的两大理论,这两个门派,一个是爱因斯坦以一人之力提出的相对论,另一个则是由玻尔领导的哥本哈根学派合力塑成的量子力学。而因为观念的差异,…

sql多行合成一行的解决方法

转载于:https://www.cnblogs.com/shanhuashuiqing11/p/6000627.html

动态改变eachers图表高_让你的Excel图表动起来

有读者提了这样一个问题,想要制作如下的动态图表,要怎么实现?动态图表展示.gif可以看到,这个动态效果里有4种选择器,左上方的组合框呈现出选择不同的方案展示相应柱形图的效果;中间的复选框勾上显示差额的图…

pythonxlwt行居中_python3-xlwt-Excel设置(字体大小、颜色、对齐方式、换行、合并单元格、边框、背景、下划线、斜体、加粗)...

# coding:utf-8import patterns as patternsimport xlwtimport timei 0book xlwt.Workbook(encodingutf-8)sheet book.add_sheet(sheet1, cell_overwrite_okTrue)# 如果出现报错:Exception: Attempt to overwrite cell: sheetnamesheet1 rowx0 colx0# 需要加上&a…

2018-2020年Gartner战略科技发展趋势一览!

来源:边缘计算社区近日,Gartner公布了2020年十大战略科技趋势的预测,值此之际,边缘计算社区总结回顾并简要分析了2018-2020三年的战略科技发展趋势变化。Gartner将战略科技发展趋势定义为具有巨大颠覆性潜力、脱离初期阶段且影响范…

【HDU 2255】奔小康赚大钱 (最佳二分匹配KM算法)

奔小康赚大钱 Time Limit: 1000/1000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Others)Total Submission(s): 1836 Accepted Submission(s): 798 Problem Description传说在遥远的地方有一个非常富裕的村落,有一天,村长决定进行制度改革:重新分配…

java的比较运算符是_Java 基础(比较运算符,逻辑运算符,三元运算符)

运算符&#xff1a;比较运算符运算符运算范例结果相等于43false!不等于4!3true<小于4<3false>大于4>3true<小于等于4<3false>大于等于4>3trueinstanceof检查是否是类的对象"Hello" instanceof Stringtrue比较运算符的结果都是 boolean 类型&…

python爬去朋友圈_利用Python爬取朋友圈数据,爬到你开始怀疑人生

人生最难的事是自我认知&#xff0c;用Python爬取朋友圈数据&#xff0c;让我们重新审视自己&#xff0c;审视我们周围的圈子。文&#xff1a;朱元禄(数据分析&#xff0d;jacky)哲学的两大问题&#xff1a;1、我是谁&#xff1f;2、我们从哪里来&#xff1f;本文 jacky试图用P…

正面交锋!另类“竞赛”探索大脑的意识起源

图片来源&#xff1a;ZEPHYR/SCIENCE PHOTO LIBRARY/GETTY IMAGES来源&#xff1a;中国生物技术网在脑科学研究领域&#xff0c;科学家们可以观察到神经元的放电及其之间的通信&#xff0c;从而描绘出在产生感觉、进行决策和说话过程中大脑各区域是如何被“点亮”的。但他们无法…

(第七周)内容汇总

项目名&#xff1a;食物链教学工具 组名&#xff1a;奋斗吧兄弟 组长&#xff1a;黄兴 组员&#xff1a;谢孝淼、李俞寰、杜桥 1、团队贡献分 黄兴 5.1 谢孝淼 4.8 李俞寰 5.2 杜桥 4.9 2、alpha视频发布 平台&#xff1a;优酷 链接&#xff1a;http://v.youku.com/v_show/i…

tomcat java内存_[Tomcat]Java内存溢出详解Tomcat内存设置

Java内存溢出详解一、常见的Java内存溢出有以下三种&#xff1a;1.java.lang.OutOfMemoryError: Java heap space ----JVM Heap(堆)溢出JVM在启动的时候会自动设置JVM Heap的值&#xff0c;其初始空间(即-Xms)是物理内存的1/64&#xff0c;最大空间(-Xmx)不可超过物理内存。可以…

python与办公自动化专业就业方向_Python最好的几大就业方向与岗位技能要求【行业风向】...

关于Python的就业方向&#xff0c;如果你还在学习还没开始找工作&#xff0c;这篇文章绝对会对你有所帮助。目前信息化产业发展势头很好&#xff0c;互联网就成为了很多普通人想要涉及的行业&#xff0c;因为相比于传统行业&#xff0c;互联网行业涨薪幅度大&#xff0c;机会也…

深入探索边缘计算:物联网与5G时代的技术趋势

来源&#xff1a;世界物联网博览会边缘计算的诞生随着物联网规模的快速增长&#xff0c;集中式的数据存储、处理模式将面临难解的瓶颈和压力&#xff0c;此时在靠近数据产生的网络边缘提供数据处理的能力和服务&#xff0c;将是推动ICT产业发展的下一个重要驱动力。边缘计算&am…

BAPI_GOODSMVT_CREATE 移动类型311 CODE = '04' 代码

DATA: MAT_DOC LIKE BAPI2017_GM_HEAD_RET-MAT_DOC. "物料凭证编号 DATA: GMHEAD LIKE BAPI2017_GM_HEAD_01. DATA: BEGIN OF GMCODE. INCLUDE STRUCTURE BAPI2017_GM_CODE. DATA: END OF GMCODE. GMCODE-GM_CODE 04. ***********gmcode-gm_…

python交叉验证函数_python – 在sklearn中使用交叉验证和AUC-ROC作为逻辑回归模型...

我正在使用sklearn包来构建逻辑回归模型,然后对其进行评估.具体来说,我想使用交叉验证,但无法通过cross_val_score函数找出正确的方法.根据我看到的documentation和examples,我需要传递模型,特征,结果和评分方法的功能.然而,AUC不需要预测,它需要概率,因此它可以尝试不同的阈值…

无法消除恐惧?Nature发现肠道菌与大脑间更多的神秘联系...

来源&#xff1a;中国生物技术网肠道&#xff0c;也被称为“第二大脑”。研究人员对它研究得越多&#xff0c;就发现肠道微生物与大脑之间的联系越多。肠道细菌似乎会影响从抑郁症到自闭症的所有疾病。近日发表在《Nature》上一项有关小鼠如何克服恐惧的研究开始揭示出更多关于…

java poi excel 导入数据库_java POI 处理excel表格数据并导入数据库示例

java操作Excel最常用的开源组件有poi与jxl。jxl是韩国人开发的&#xff0c;发行较早&#xff0c;但是更新的很慢&#xff0c;目前似乎还不支持excel2007。 poi是apache下的一个子项目&#xff0c;poi应该是处理ms的office系列文档最好的组件了。poi3.7版本已经开始支持excel200…