数据智能是大数据的未来

640?wx_fmt=jpeg

来源:中国信息产业网  


近日,两家大数据领域的代表性企业Cloudera和Hortonworks宣布了它们相对平等的合并,宣称新公司将创建世界领先的下一代数据平台并提供业界首个企业数据云,这令很多人感到意外,大数据的未来何去何从,一时成为大数据产业从业人员关心的话题。


大数据蹒跚前行,迈进下半场


随着2012年维克托·迈尔-舍恩伯格《大数据时代》一书的出版,“大数据”这一概念乘着互联网的浪潮在各行各业中扮演了举足轻重的角色,得大数据者得天下,业界纷纷用大数据这个词来描述和定义信息爆炸时代产生的海量数据,并命名与之相关的技术发展与创新。


2013年被称为中国的“大数据元年”,大数据开始在我国流行,以势不可挡的姿态进入人们的思想意识,并在社会的各个领域探索与落地实践。涂子沛的《大数据》一时成为畅销读物,大数据的概念风行大江南北,阿里巴巴成为最早提出通过数据进行企业数据化运营的企业。2015年,我国政府通过了《关于促进大数据发展的行动纲要》,大数据更是上升为国家战略。


同美国市场一样,以Hadoop为代表的大数据技术,在中国的大数据产业中也经历了一段狂热期,在很长一段时期内,Hadoop几乎成了大数据的代名词。在这个数据大爆炸的时代,企业需要对海量数据存储、快速处理和分析,Hadoop正是为此而生。但目前看来,这股浪潮正渐渐退去,Hadoop正在逐渐变成一项传统技术。


从诞生到现在,Hadoop已经走过十多年的历史,但近年来,以Hadoop为代表的大数据产业生态,在实际落地中却面临着尴尬的局面。首先,大数据的价值被夸大,在投入产出比上差强人意。其次,中小企业对大数据的应用极为有限。目前看来,需求主要来源于一些大型企业,数据量过大,数据分析需求旺盛,但中小企业自身数据量并不大,需求度较低,同时也缺少相应的大数据技术人才。最后,大数据管理难度大,数据开放共享、数据质量、数据安全、个人隐私信息保护等已经成为管理大数据最头疼的问题。今年5月,欧盟数据保护法规《通用数据保护条例》发布,对大数据企业采集的个人隐私数据管理工作产生极大的挑战。


2018年10月底,IBM宣布以高达340亿美元的价格收购RedHat,IBM宣称其将成为全球的头号混合云提供商,而亚马逊、微软、阿里巴巴等云计算巨头早已将计算、存储、网络资源和应用软件(大多来自开源社区)作为在线云服务来提供,Anaconda产品和营销高级副总裁MathewLodge指出,大数据的中心已经从Hadoop转移到了云端,在云环境下的对象存储系统(如亚马逊 S3、微软Azure BlobStorage和Google Cloud Storage)中存储数据比在HDFS中便宜了5倍。


尽管现在就谈Hadoop已死为时尚早,但大数据产业面临的以上问题已经累积很久,也没有被很好地解决,能否解决以上问题将直接关乎大数据的未来发展。


人工智能方兴未艾,取得新突破


人工智能(AI)是研究用于模拟与延伸扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学,目前在商业和生活中已有大量应用场景,被产业界寄望为下一轮技术革命,对它的关注热度已经超过大数据。


AI的发展历程一波三折,呈螺旋式发展,在历史上共经历三个时期。首先是1956年达特茅斯会议提出了AI的概念,但当时的计算机处理性能和数据容量制约了AI技术的发展。然后在20世纪80年代,专家系统兴起,AI算法模型有了重大发明,包括多层神经网络和BP反向传播算法的提出,出现了能与人类下象棋的高度智能机器,但随着台式机的出现,使得AI专家系统走向没落。再往后就是2006年,Hinton论文开启了深度学习时代,特别是2016年,AIphaGo大败李世石,将AI从后台推到了科技界的聚光灯下,一时间万众瞩目。


AI已经替代了早些年的大数据,成为新的商业科技风口。2017年全球AI融资超150亿美元,谷歌、亚马逊、苹果、微软以及阿里、百度、腾讯等中美科技巨头纷纷布局。以深度学习为代表的AI算法,PC/移动互联网上海量、多维度、高价值大数据,以及以GPU、FPGA、ASIC为代表的AI计算芯片,成为本轮AI发展的核心驱动力。


AI技术体系一般分为基础层、技术层和应用层,在AI大发展的浪潮中,AI技术体系中的各模块发展特点各不相同。


基础层对应着算法(包括回归、分类、聚类、深度学习算法等)、算力(即AI芯片)和软件框架(实现对AI算法的封装)。


算法部分,深度学习带动了本轮AI的大跃进,深度学习已经在语音识别、图像识别等领域取得突破,而海量的数据和高效的算力支撑是深度学习算法实现的基础,同时还有很多新的算法理论成果正在被提出和应用,如强化学习、迁移学习、胶囊网络、生成对抗网络等。


算力部分,由各种AI芯片来提供基础计算能力。AI芯片除了传统的CPU及 GPU外,还包括为特定场景应用而定制的计算芯片。深度学习既要求计算芯片支持对存储介质中海量数据的高效存取,还要能支持一些特定AI计算需求,因此GPU成为目前深度学习算法应用中的首要选择。FPGA(现场可编程门阵列)可以实现应用场景的高度定制,属于一种半定制化芯片。ASIC(专用集成电路)是不可配置的高度定制专用计算芯片,其性能也是最优的。TPU(张量处理单元)是谷歌公司设计的处理器,非常适合运行TensorFlow软件,还有寒武纪的NPU,都是ASIC的典型代表。另外,还涌现出各类定制化的高性能AI计算服务器,或称之为GPU一体机,一站式提供AI所需的算力。


软件框架部分,目前AI软件框架百花齐放,软件框架是整个技术体系的核心,实现对AI算法的封装、数据的调用以及计算资源的调度使用。软件框架好比是AI应用开发的操作系统,为开发者提供编程环境和算法库,并按需分配AI芯片等硬件资源,目的是构建AI系统开发和运行的软件环境。目前主流的AI软件框架主要有TensorFlow、MXNet、Caffe、Torch、CNTK、Theano、SciKit-Learn等,软件框架的用户包括了AI服务的开发者和使用者。


技术层负责解决具体类别的AI技术问题。其中语音识别技术负责将语音转换为文本或命令,自然语言处理技术实现人和机器之间的自然语言通信,计算机视觉技术用于处理图形图像和视频内容的识别。


应用层立足于解决各行业领域实际场景问题,如安防场景下,用于警讯发现、人脸识别、道路监控等;金融场景下,可用于资产异动监测、征信风控和智能投顾等;医疗场景下,可应用于对医学影像、电子病例处理来辅助诊疗;还有目前最为火热的自动驾驶场景,谷歌、特斯拉和百度三巨头的无人驾驶汽车已经上路试运行。


以云服务方式提供AI服务已成为当前的趋势,AI云服务一般分为平台类服务和软件类服务。平台类服务包含GPU云服务,深度学习平台等,GPU云服务是以虚拟机的形式,为用户提供GPU计算资源。深度学习平台则是以TensorFlow、Caffe、MXNet等主流深度学习软件框架为基础,提供相应的常用深度学习算法和模型,组合各种数据源、组件模块,让用户可以基于该平台对语音、文本、图片、视频等海量数据进行离线模型训练、在线模型预测及可视化模型评估。软件类服务包括提供API程序接口、SDK包、消息服务接口的形式提供AI相关的在线网络服务,可包括语音识别、文字处理、图像检测、智能推荐等应用方式。


掘金数据资产,探索数据智能


大数据为人工智能发展提供了基础资源,人工智能技术的核心就在于通过计算找寻大数据中的规律,对具体场景问题进行预测和判断。想要训练出成功的人工智能算法,需要运算力和大量的数据,其中最重要的就是数据量要足够大。除了数据量足够大,大数据还需要通过采集、清洗、标注等处理工作后才能够作为人工智能算法模型训练的输入,但目前在实际应用中,数据流通不畅、数据质量不高和数据安全风险等问题仍然极大制约着人工智能的发展和应用。


大数据的未来何去何从,与人工智能技术如何完美结合,共同驱动数字经济发展,数据智能或将成为新的热点和大趋势。


“数据智能”是百度公司在2014年提出的概念,百度对数据智能的定义,指基于大数据引擎,通过大规模机器学习和深度学习等技术,对海量数据进行处理、分析和挖掘,提取数据中所包含的有价值的信息和知识,使数据具有“智能”,并通过建立模型寻求现有问题的解决方案以及实现预测等。


2018年10月,第五届中国国际大数据大会上发布的《2018年数据智能生态报告》中提出,在机器学习、分布式计算等技术发展的基础上,数据逐渐呈现出高维度、高阶态、异构性的形式,把能够对海量数据进行分析、处理和挖掘,并且通过建模、工程等方式来解决实际预测问题,最终实现决策的行动,称之为数据智能。


对数据智能的信息化落地,业界一般称之为数据智能平台或数据中台。


据阿里巴巴公共数据平台负责人介绍,阿里巴巴数据中台战略在2015年首次提出,旨在对内提供数据基础建设和统一的数据服务,对外提供服务商家的统一化数据产品。阿里数据中台基于OneData体系建立的集团数据公共层,从设计、开发、部署和使用上保障了数据口径的规范和统一,实现数据资产全链路管理,并提供标准数据输出。基于阿里数据中台输出的生意参谋产品,是阿里巴巴首个统一的商家数据产品平台,为中小企业商家提供数据披露、分析、诊断、建议、优化、预测等多项数据服务。


另外,据百度公司的百度数智平台官网介绍,该平台定位为提供大规模机器学习、深度学习、数据分析及展现、数据应用等产品与服务,包括了大数据基础产品和大数据应用产品两大类,大数据基础产品包括大数据传输Minos、数据工厂Pingo、数据治理Dayu、数据分析与开发Jarvis、大数据可视化Habo等产品,大数据应用产品包括百度智客、百度觅客、百度汇客、百度客情、百度商情等产品,百度公司将其数智平台定位为AI时代的企业数据管家,服务于公司内部和各行业合作伙伴。


在2018年10月由中国联通大数据公司主办的加速-U10大数据价值峰会上,中国联通大数据公司负责人以“数智”为主题发表演讲,她认为当前大数据产业已经进入“数智”时代,联通大数据的数智升级,在于更大规模的数据、更深度的智能,打造数智新架构体系,做值得信赖的数据智能服务运营商,同时介绍了中国联通UBD数智中台的建设思路。


可以看出,以上代表性企业建设数据智能平台或数据中台的意义主要在于,一是帮助企业管理好内部现有的数据资产,即数据资产管理;二是为企业提供基于大数据的预测分析产品,即人工智能服务。数据资产管理的目的是为了准备和提供高质量的数据给人工智能应用,对数据的规范化和标准化是企业实现基于大数据提供智能化服务的关键,也是决定大数据价值实现的基础。


大数据进入下半场,人工智能已然崛起,现有的大数据技术亟须和人工智能技术结合,孕育新的产业生态,从百度、阿里和中国联通的做法可以看出,向数据智能型企业转型正在成为大型科技企业新的行动方向,阿里巴巴提出的“大中台、小前台”的做法已经成为业界主流数字化转型思路,企业通过建设数据智能平台或数据中台,打破内部数据壁垒、盘活数据资产、提升数据价值,对外提供统一的智能化数据服务,有望再次重构大数据产业生态环境,进一步深挖和释放大数据的价值红利。


未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。


未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

640?wx_fmt=jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/493549.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

利用GAN原始框架生成手写数字

这一篇GAN文章只是让产生的结果尽量真实,还不能分类。 本次手写数字GAN的思想: 对于辨别器,利用真实的手写数字(真样本,对应的标签为真标签)和随机噪声经过生成器产生的样本(假样本&#xff0…

DL也懂纹理吗——图像的纹理特征

工作中遇到一个问题:对于同一场景,训练好的DL模型能把大部分样本分类准确,而对于少量负样本,DL会错分到另外一个对立的类中。错分的样本可以认为是难分的样本,但是我们还想知道这两种样本到底是哪里的差异导致DL做出了…

排序算法--(冒泡排序,插入排序,选择排序,归并排序,快速排序,桶排序,计数排序,基数排序)

一.时间复杂度分析 - **时间复杂度**:对排序数据的总的操作次数。反应当n变化时,操作次数呈现什么规律 - **空间复杂度**:算法在计算机内执行时所需要的存储空间的容量,它也是数据规模n的函数。 1.例题: 有一个字符串数组&…

肠里细菌“肚里蛔虫”:肠脑研究缘何越来越热

来源:科学网最懂你大脑的,可能不是“肚子里的蛔虫”,而是肠子里的细菌——肠道菌群对神经系统、心理和行为方面的影响正成为一个新兴热点领域。在日前举办的美国神经科学学会年会上,一张海报上的大脑切片显微镜图像显示&#xff0…

SVM原理与实战

先看线性可分问题。对于线性可分,其实感知机就可以解决。但是感知机只是找到一个超平面将数据分开,而这样的超平面可能是平行的无限多个,我们需要在这其中找到最优的一个。怎么衡量一个超平面是不是最优的呢,直观上讲,…

2014-01-01

一:HyperlinkButton点击后打开新窗口的方法 1,直接在界面中写这段代码就可以了: <HyperlinkButton NavigateUri"http://www.cnblogs.com/wsdj-ITtech/" Content"Click Me" TargetName"_blank" FontSize"28" Height"50"…

李飞飞高徒:斯坦福如何打造基于视觉的智能医院?

作者&#xff1a;Albert Haque、Michelle Guo来源&#xff1a;机器之心自 2009 年担任斯坦福人工智能实验室和视觉实验室的负责人&#xff0c;李飞飞在推动计算机视觉方面研究的同时&#xff0c;还密切关注 AI 医疗的发展。昨日&#xff0c;李飞飞离任斯坦福 AI 实验室负责人一…

tensorflow知识点

一.bazel编译tensorflow注意版本号: 在/tensorflow/tensorflow/configure.py 查看bazel版本号 https://github.com/tensorflow/tensorflow https://github.com/bazelbuild/bazel/releases?after0.26.1 https://tensorflow.google.cn/ 二&#xff0c;基础知识点 1.打印出…

eclipse中如何导入jar包

如图&#xff0c;首先右键点击项目&#xff0c;选择最下面的properties&#xff0c; 然后进去之后点击java build path&#xff0c;右边会出来4个选项卡&#xff0c;选择libraries&#xff0c; 这时候最右边会有多个选项&#xff0c;第一个add jars是添加项目文件中的jar包&…

线性-LR-softmax傻傻分不清楚

softmax 对于分类网络&#xff0c;最后一层往往是全连接层&#xff0c;如果是N分类&#xff0c;那么最终的全连接层有N个结点。很显然&#xff0c;每个节点对应一个类&#xff0c;该节点的权重越大&#xff0c;说明网络越倾向于认为输入样本属于该类。这其实就是Softmax的思想…

一图看懂国外智能网联汽车传感器产业发展!

来源&#xff1a;赛迪智库编辑&#xff1a;煜 佳未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能&#xff0c;互联网和脑科学交叉研究机构。未来智能实验室的主要工作包括&#xff1a;建立AI智能系统智商评测体系&#xff0c;开展世界人工智能智商评测&#…

深度学习中的信息论——交叉熵

信息量 可以说就信息量是在将信息量化。首先信息的相对多少是有切实体会的&#xff0c;有的人一句话能包含很多信息&#xff0c;有的人说了等于没说。我们还可以直观地感觉到信息的多少和概率是有关的&#xff0c;概率大的信息也相对低一些。为了量化信息&#xff0c;一个做法…

传统手工特征--opencv

一&#xff0c;颜色特征&#xff1a; 简单点来说就是将一幅图上的各个像素点颜色统计出来&#xff0c;适用颜色空间&#xff1a;RGB&#xff0c;HSV等颜色空间&#xff0c; 具体操作&#xff1a;量化颜色空间&#xff0c;每个单元&#xff08;bin&#xff09;由单元中心代表&…

特写李飞飞:她激励了人工智能的发展,更要给人工智能赋予人的价值

文 | MrBear 编辑 | 杨晓凡来源&#xff1a;雷锋网摘要&#xff1a;李飞飞无疑是人工智能界最响亮的名字之一。她既对机器学习领域的发展做出了杰出的贡献&#xff0c;也是普通大众眼中温和的人工智能技术宣扬者&#xff0c;还是谷歌这一科技巨头的人工智能技术领导人之一。WI…

Chap-4 Section 4.2.4 指令修正方式

对于X86平台下的ELF文件的重定位入口所修正的指令寻址方式只有两种&#xff1a;绝对近址32寻址和相对近址32寻址。 这两种指令修正方式每个被修正的位置的长度都为32位&#xff0c;即4个字节&#xff0c;而且都是近址寻址&#xff0c;不用考虑Intel的段间远址寻址。r_info成员的…

没见过女人的小和尚——SVDD

是的&#xff0c;即便是出生在山上的小和尚&#xff0c;从来没有下过山&#xff0c;没有见过女人&#xff0c;但是一旦有女施主上山&#xff0c;小和尚依然可以轻松地区分出眼前的人是如此不同。 传统的SVM是寻找一个超平面&#xff0c;而SVDD寻找的超平面更进一步&#xff0c…

解读GAN及其 2016 年度进展

作者&#xff1a;程程 链接&#xff1a;https://zhuanlan.zhihu.com/p/25000523 来源&#xff1a;知乎 著作权归作者所有。商业转载请联系作者获得授权&#xff0c;非商业转载请注明出处。 GAN&#xff0c;全称为Generative Adversarial Nets&#xff0c;直译为生成式对抗网络…

全国首套中小学生人工智能教材在沪亮相

来源&#xff1a;网络大数据中小学 AI 教材正式亮相11 月 18 日&#xff0c;优必选与华东师范大学出版社共同发布了《AI 上未来智造者——中小学人工智能精品课程系列丛书》&#xff08;以下简称“AI 上未来智造者”丛书&#xff09;。据了解&#xff0c;该丛书根据教育部“义务…

numpy基础知识点

1. np.squeeze 一,np.squeeze """ np.squeeze 删除单维度的条 对多维度无效 """ import numpy as np anp.array([[1,2],[3,4],[4,5]]) print(a) print(a.shape) bnp.squeeze(a) print(b) ca.reshape(1,6,1) print(c) print(np.squeeze(c)) pri…

从智能交通到智能能源:智慧城市在7个方面的应用实践

来源&#xff1a;资本实验室目前&#xff0c;智慧城市已经成为全球众多城市未来规划和设计的方向&#xff0c;并致力于通过各种新技术的应用来改善城市居民的工作与生活。但什么样的技术应用能够推动智慧城市的建设&#xff1f;如何让新技术在智慧城市中的应用效率最大化&#…