大数据行业洞察:未来2-3年或迎数据时代的真正高潮

源: DT数据侠  作者:中关村老李


从2012年的“用户标签”到2014年的“用户画像”,从2015年的“大数据”到2017年的“人工智能”,大数据正在从神坛走向现实。


“标签”到“画像”,代表着数据在数量和维度上,逐渐在丰富; “大数据”到“人工智能”,表明从原始数据到本体认知的过渡。


无论是数据积累的量变到质变,还是数据到认知层面的过渡,大数据已经开始在一些特定领域和场景下为客户解决实际问题,创造价值。


本文将从产业链、市场、误区、挑战四个部分对大数据市场现状以及下一步的发展提出自己的观点与洞察。


产业链


在2017年初的时候,根据产业的发展我将2016年认为的产业链中四个环节压缩至了两个,即数据服务平台提供商和数据解决方案提供商。


(图片说明:实际的产业链以及2018年可能的演进)


通过过去一年的观察发现,虽然市场上确实以这两种角色为主体,但在具体项目中,这二者并没有形成上下游产业链的局面。在一些行业市场中,数据服务平台提供商向前跨越,直接面对行业客户,向他们提供其所拥有的外部数据(往往本身就拥有海量的2C数据入口,可以源源不断地生产2C数据)的粗加工产品(如用户的标签数据等);而在另一部分行业市场中,数据解决方案提供商,基本使用用户自身的数据,通过数据处理服务,为行业客户提供某个方向的解决方案。


上面两个角色之间基本没有合作、没有交集,很少在市场上直接竞争。


究其原因,个人认为有两个方面。一个是市场的成熟度决定的,还有一个就是由法律或者说政策环境决定的。


首先,这是由市场的成熟度决定的。目前行业应用市场还处于早期,部分行业用户的需求集中在外部数据的简单加工层面,还没有渗透到行业纵深,与行业的核心业务没有形成深度耦合,对数据服务提供商还没有很深的行业经验要求;另一方面,现阶段大多数“解决方案”提供商,基本采用客户自身的数据,依靠数据处理能力为客户提供数据集成服务。现在的“解决方案”提供商,大多还停留在数据服务的层面,并没有大量应用外部数据的经验,与行业的深度需求耦合还远远不够,自然也没有形成“杀手”级的产品,行业的可替代性很强,与数据服务平台提供商的能力差异并没有充分表现出来。这些,都从不同程度,反映了市场发展成熟度不足的问题。


其次,数据的交易目前在我国还是一个敏感的话题。虽然数据服务平台提供商拥有海量的2C数据,可如何与第三方合作,为行业客户提供他们所需要的解决方案,还是个无法触碰的禁区。6月1日生效的个人隐私安全法(下面简称隐私法),只说明了“干什么”不行,但并没有规定“如何做”才是可以的。而这个“如何做”才行的体系,需要经过几年时间的建立才可能完成。法律环境的滞后,也限制了行业的进一步发展,资源将进一步向掌握数据的巨头集中。虽然这样做便于管理,数据集中在几个巨头手里好监管,不会产生隐私数据满天飞的乱象,但缺点也是显而易见的。数据无法打通,就会形成一个个信息孤岛;数据无法流动,就使数据应用受到很大局限。这一点,恐怕是监管部门最应该尽快解决的问题。


百行征信的出现从某一个角度说明了解决这个问题的必要。


(图片说明:实际的产业链以及2018年可能的演进)


上图的上半段就是现在实际的产业链情况,而下半段是根据现在市场发展的态势。我认为2018年可能会出现的演进。随着大数据被应用到各行各业,大多数行业的数据准备并不充分,数据基础薄弱。要想使数据产生价值,发挥更大的作用,势必需要大量的数据归集与治理,这就是数据优化商的角色。由于增量市场的出现,仅靠现有的解决方案提供商和数据服务平台提供商自身的力量是不够的,这就为独立的第三方数据优化商出现,并存在创造了客观上的空间。所以说,对于大多数行业而言,要想充分发挥数据的价值,首先要从数据的归集与治理开始,磨刀不误砍柴工!


另一个会发生的变化,是解决方案提供商将逐渐拉开与数据服务平台提供商在行业的差距,向行业纵深走,形成差异化的产品和解决方案,成为真正的某一行业的解决方案提供商。而数据服务平台提供商反而会回缩,专注自己的服务平台,支撑众多方向的解决方案提供商以及客户的需要,逐渐完成与解决方案提供商的上下游产业链。

这都是市场在逐渐成熟的标志,分工进一步细化。


市场


经过了过去4-5年的积累,无论在数据上,还是在数据处理技术上,大数据正在某些局部由量变转为质变。在很多领域和场景下已经可以做出很明显的效果。或者帮助客户解决他们的原来解决不了的问题;或者改善原有的方法,提高效率、降低成本;也或者开辟了新的渠道,形成创新的业务模式。


  • 总之一句话,大数据就是生产力!


大数据正在被应用到各个领域。这其中当然有很多乱象,存在着很多“误解”,但数据思维驱动的数据应用是大趋势,不可逆转。


从市场对象来划分,可以分为大B(商业体,Business)和高成长性行业的中小B。无论是解决方案提供商还是数据服务平台提供商大多集中在大B领域,如银行、保险、医疗、教育等。这是由他们的公司体量决定的,必须要做对等体量,且确定性较高的市场,才可能保证固定的产出,这是正确的。


除此之外,另一个群体,高成长性中小B也非常值得关注。高成长性行业虽然有很多不确定性,尤其是在现在的经济环境下,中小企业甚至很难生存,但也不是完全没有机会。就在人们普遍认为BATJ垄断下的互联网很难有新贵出现,但这几年依然出现了今日头条、滴滴。所幸,我就在2016年抓住了出行行业(Uber、易到等)的机会,依靠大数据的反刷单解决方案在这一领域迅速地打开局面,并发展壮大,形成了每年数千万的业务。


这就是高成长性中小B的魅力。首先它增长迅速,也会带动生态链上的其他企业快速增长,想象空间很大;其次,中小B本身没有很复杂的决策链,决策周期很短,一般2-4个月,比较容易试错,这对于初创团队是非常关键的;再者,高成长性中小B在高速发展中,不可能完全依靠自己的力量解决所有的问题,这就为建立生态链创造了客观的土壤。这一点,在去年9月参加的一次大数据峰会上,听到了兴业金服的一位负责人也表达了类似的观点。


大数据不同于以往的IT项目,不能单纯地以甲乙方的形式存在,已经超出了传统的建设和被建设的关系。取而代之的,是一个合作共赢,长期共存的生态链。


由于资源(外部数据)的局限,客户不可能通过服务提供商的一次建设,就能够完全掌握并独立运营。时代的发展也不允许客户有时间去慢慢消化、学习、独立运营所有的系统,他们必须要引入数据服务合作伙伴,整合双方的资源,而迅速地形成生产力。社会的成熟,分工进一步细化,“TIME to Market”决定了你没必要也不可能每一件事儿都自己去做。行业客户将注意力更好地聚焦在自己的主业上,而数据部分,会依赖数据合作伙伴来一起参与,共同经营。


所以,客户对外部数据合作伙伴的诉求,是“外部数据”+数据处理”(包括数据处理系统以及数据处理能力)+“数据融合”(这并不等同于数据处理,主要侧重于数据应用;不但需要数据服务提供商具有丰富的数据应用经验,还需要数据服务提供商具有丰富的行业经验,即真正的数据解决方案提供商)。


误区


在几年的数据应用实践中,发现了很多误区。


一是很多客户认为大数据就等于买数据,在应用的过程中生搬硬套;


二是对大数据的不切实际的预期,要么是将其神话,要么就对应用的过程缺乏耐心;


三是认为有很多数据就应该能马上产生价值,但实际情况是数据准备不足,基础薄弱。


  • 误区一:大数据等于买数据


很多行业客户最初对外部数据的认知是从购买外部数据开始。无论是用户画像,还是做其他用途的数据。客户还延续了IT建设的思维,认为所缺的只是外部的数据。有了外部数据,依靠自身的力量也完全可以完成大数据在所在行业的应用。别人搞大数据做用户画像,就也来画像;别人提大数据能精准营销,那也来搞精准营销。并没有从认知层面建立数据思维,对大数据有一个全面的有高度的理解。这种生搬硬套的做法也从某种程度上导致了数据应用效果不好的局面,没有真正将数据发挥其应有的价值。


外部的数据应用是属于跨域的数据应用,需要很强的专业性。这一工作既需要了解市场上各类数据的属性,也需要了解如何将数据加工才能满足行业的需求。并不是每个数据都能为行业的某个需求做出明显效果的;也不是经过一次的采购就能完成的事情。也许,三五年后,当外部数据种类稳定且成熟,行业内部自身的数据专家也可以主动地去选择外部的数据,依靠自身的力量完成与内部数据的融合,去满足业务的需求;但在今天,可能更多地还要依赖外部专业数据团队的帮助。


  • 误区二:大数据是万能的


在外部数据应用的过程中,还有一个主要的误区就是对数据应用的不切实际的预期。要么是将大数据、人工智能神话,要么就对数据应用的过程缺乏耐心。


首先,大数据本身是一门技术,它与其他技术一样都有着它的局限;大数据不是万能的,但是数据思维是可以创造很大价值的。


其次,外部的数据产生的业务场景与行业不同,因而在使用的过程中,就要仔细甄别,不断调整。距离行业需求越近的数据质量越高,做出的产品就越好。但无论多近,外部数据始终是外部数据,其产生的环境与行业的需求大多不会100%契合,所以就需要专业数据团队的进行加工、处理,经过几个轮回的迭代才可能取得好的效果,要有足够的耐心。


  • 误区三:有大量的数据就马上能产生价值


有很多行业用户,依靠多年的积累形成了大量的数据。他们认为有大量数据就能马上产生价值。先不说这些数据的维度和质量能产生多大价值,首先面对的是大量的数据格式混乱,数据字段不一致,要想发现其价值就如从杂草堆里挑出一根针。

对于大多数行业客户而言,首先都面临数据的归集与治理的工作,磨刀不误砍柴工。

无论是“大数据等于买数据”,还是对“大数据是万能的”,还是“有大量数据就能产生巨大价值”都反映了数据应用在大数据在行业的应用尚属初级阶段。


挑战


  • 数据缺失


尽管大数据已经经历了五六年的发展,数据无论在维度上还是数量上都已经比几年前有了很大的改变。但是客观上讲,还没有达到质的飞跃。由于相关的法律建设没有完成,大量数据被滞留在少数流量入口处,形成了一个个数据的孤岛。还没有形成数据的有效打通、流转,更谈不上创造新的价值。


我依然坚持2017年初的判断,数据仅在局部市场,特定的场景已经成熟,可以为客户创造很大的价值。但还没有办法形成规模化市场,这是由于数据发展的成熟度决定的。


数据的缺失,并不能靠高明的算法弥补。这与统计模型,大数据还是人工智能都无关系。只能面对这一现实,去寻找先期成熟的市场,尽可能地立足现在的数据以及算法帮助客户解决他们的实际问题,创造价值,形成商业闭环;同时积极地关注其他市场的成熟。数据应用市场与其他早期市场并没有不同,都是由点及线,最后再到面的。这是个螺旋上升的过程,没有捷径可循。


  • 数据思维的建立


与数据的缺失相比,一个更大的挑战在于数据思维的建立。我们正在经历一个从IT到DT的跨越的时代。大数据、机器学习、人工智能都是这一跨越中的工具。但不幸的是,很多用户甚至从业者还是沉迷于技术本身,把大数据等同于一个普通的技术,没有上升到数据思维。


数据思维绝不只是技术部门的事情,而是整体战略的问题。数据思维要渗透到每一个部门,每一个环节,用数据去辅助决策,让数据去重构业务流程,数据应用才能发挥其最大的价值。只有将数据思维贯彻到企业的每一个环节中,数据才能真正转化成生产力,数据的价值才能真正得以体现。


  • 大数据技术是战术,而数据思维是战略。


2017年,产业格局越来越清晰。无论是数据服务平台提供商,还是数据解决方案提供商,都在正确的方向上走出了坚实的一步,其价值已经得到了各自市场的认可,进入了良性的循环。虽然,我认为大数据的真正高潮还未到来,短时间内还处于投入大于产出的局面,但曙光在前,已经在一个量变到质变的积累过程当中。随着技术和数据的进一步成熟,随着行业的深入,相信不远的未来(可能是2-3年)将会迎来数据时代的真正高潮!


原文链接:

http://www.dtcj.com/news/5a9d1a2c67157b2216571375


未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。


未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/496842.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

5G时代到来,人工智能设备如何重塑TMT行业

来源:亿欧在近期召开的2018世界移动通信大会上,5G作为热点话题被高频提及,当前,5G技术已经取得突破进展,全球范围内已有运营商宣布2018年将投入商用。在这一背景下,5G与人工智能技术的结合将重塑众多产业&a…

java调用GDAL实现栅格数据的重采样的一种方法

目录 1.关于重采样 1.1概念 1.2用途 1.3常见算法 2.关于GDAL 2.1GDAL中的重采样算法 3.实现重采样 3.1思路 3.2完整代码 3.3使用QGIS验证效果 1.关于重采样 1.1概念 重采样是以原始图像的像元值或者导出的值填充到新的图像的每个像元的的过程。 1.2用途 在地理信…

Semtech与Lacuna从太空接收信息

来源:Semtech概要:Lacuna Space使用了一组星座的极地近地轨道卫星,来接收地面传感器发出的基于LoRa的信息。加利福尼亚州,卡马里奥,2018年2月26日—高性能模拟和混合信号半导体及先进算法领先供应商Semtech Corporatio…

ABAP--使用SLIN事务码进行ABAP程序扩展语法检查,提高程序开发的质量

TCODE: SLIN 或者在SE38 界面的菜单: 程序-》语法-》扩展程序检查 就会弹出下面的界面,用户可以根据自己的需求设置检查点,并根据检查结果修改程序,使自己的代码更加可靠。另外在SE38 界面的菜单&#xff1…

谷歌大脑发布神经网络的「核磁共振」,并公开相关代码

作者:杨晓凡、camel、思颖、杨文神经网络的可解释性一直是所有研究人员心头的一团乌云。传统的尝试进行可解释性研究的方法是通过查看网络中哪个神经元被激发来来理解,但是即使我们知道「第 538 号神经元被激发了一点点」也毫无意义,并不能帮…

Java加密与解密的艺术~Provider

Provider类实现了Java安全性的一部分或全部,我们称它为提供者。 Provider类可能实现的服务包括: 算法(如DSA、RSA、MD5或SHA-1) 密钥的生成、转换和管理设施(如用于特定算法的密钥) 每个提供者…

Fiddler (一) 教程(Web调试工具)

From:http://kb.cnblogs.com/page/130367/ Fiddler的基本介绍 Fiddler 官方网站:http://www.fiddler2.com Fiddler 官方帮助:http://docs.telerik.com/fiddler/knowledgebase/quickexec Fiddler 官方网站提供了大量的帮助文档和视频教程&…

从通用分页存储过程[ROWCOUNT方式]抽出适合自己需求的分页过程

通用分页存储过程很实用,但毕竟不是全适用于一些环境,譬如我遇到过一种情况,需要先外链两个表,然后再关联几个表,总之参数传递很烦人,这里不细说了,现在只谈实现查询后,怎么分页的简单技巧1,建立用户函数CREATE function F_xxxx(ID nvarchar(36),Key nvarchar(36),......)…

量子计算机就要来了,它真的能改变世界吗?

来源:网易科技概要:量子计算机的理论运行速度远远超出任何传统的超级计算机。在位于纽约市以北约50英里处僻静乡村中的一个小型实验室内,天花板下缠绕着错综复杂的管线和电子设备。这一堆看似杂乱无章的设备是一台计算机。它与世界上的任何一…

Fiddler (二) : Script 的 用法

Fiddler (二) Script 用法(转):http://www.cnblogs.com/mrzhoushare/articles/4953592.html Fiddler 高级用法:Fiddler Script 与 HTTP 断点调试:http://www.cnblogs.com/hushaojun/p/5644645.html 通过前一篇博客 【Fiddler教程】&#xff0…

CSDN与易观联合发布《2017-2018中国人工智能产业路线图》

来源:机器人大讲堂下载链接:https://pan.baidu.com/s/1ViNbtAi-wGJbLURyYp30TA 密码:a3dz未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。未来智能实验室的主要工作包括:建立AI智能系统智商评…

网站时间显示

网站时间显示2<STYLE>A.menuitem {}{ COLOR: menutext; TEXT-DECORATION: none } A.menuitem:hover {}{ COLOR: highlighttext; BACKGROUND-COLOR: highlight } DIV.contextmenu {}{ BORDER-RIGHT: 2px outset; BORDER-TOP: 2px outset; Z-INDEX: 999; VISIBILITY: hidde…

直击2018AWE:智能语言交互大厮杀、老品牌争先搭建平台、第三方平台迅速崛起

来源&#xff1a;物联网智库一年一度家电盛宴&#xff0c;中国家电及消费电子博览会&#xff08;AWE&#xff09;在上海新国际博览中心拉开帷幕&#xff01;一大批智能家电产品不断发酵&#xff0c;白电、黑电、小家电等让人应接不暇。除了不断精进的颜值外&#xff0c;科技感更…

数据安全架构设计与实战~如何加密结构化数据

针对结构化数据&#xff08;数据库、key-value等&#xff09;&#xff0c;加密主要有两种方式&#xff1a; 1、应用层字段加密&#xff0c;数据在入库前加密&#xff0c;直接向数据库中写入字段密文&#xff1b; 2、存储系统透明加密&#xff08;静态加密&#xff09;&#x…

浙江大学吴朝晖:脑机融合系统综述

来源&#xff1a; 神经科技本文发表于《生命科学》&#xff08;Chinese Bulletin of Life Sciences&#xff09;第26卷 第6期 2014年6月DOI: 10.13376/j.cbls/2014090脑机融合系统综述吴朝晖*&#xff0c;俞一鹏&#xff0c;潘 纲&#xff0c;王跃明(浙江大学计算机科学与技术…

数据安全架构设计与实战~思维导图

#原图 System.out.println("https://www.processon.com/view/link/619cccede0b34d032a78237d");

apt-get、apt、yum、dpkg、rpm

apt-get 命令详解(中文)以及实例&#xff1a;http://blog.51yip.com/linux/1176.html linux yum命令详解&#xff1a;http://www.cnblogs.com/chuncn/archive/2010/10/17/1853915.html 配置 yum 源的两种方法&#xff1a;http://www.cnblogs.com/shuaixf/archive/2011/11/30/22…

下一版Win10,微软人工智能平台Windows ML要和你见面了

原作 Kam VedBratRoot 编译自 Windows blog量子位 出品 | 公众号 QbitAI今日&#xff0c;微软在开发者日上发布了AI开发者平台。微软还提到&#xff0c;旗下产品都可以本地直接处理AI任务。另外Win10系统将会Visual Studio 15.7 预览版上增加了ONNX文档到UWP应用里&#xff0c;…

为什么我们要使用HTTP Strict Transport Security?

HTTP Strict Transport Security (通常简称为HSTS) 是一个安全功能&#xff0c;它告诉浏览器只能通过HTTPS访问当前资源, 禁止HTTP方式。 001. Freebuf百科&#xff1a;什么是Strict-Transport-Security 我摘自owasp上的一段定义&#xff1a; HTTP Strict Transport Securit…

Python爬虫四(正则表达式)

菜鸟教程 之 python 正则表达式&#xff1a;http://www.runoob.com/python/python-reg-expressions.html python 官网正则文档&#xff1a;https://docs.python.org/2/library/re.html 1、正则表达式 简介 正则表达式 是对字符串操作的一种逻辑公式&#xff0c;就是用事先定义好…