看懂“大数据”,这一篇就够了!

戳蓝字“CSDN云计算”关注我们哦!

640?wx_fmt=jpeg

来源 | 鲜枣课堂

作者 | 小枣君

近年来,大数据这个词的热度很高,受到公众的广泛关注。

对于很多人来说,当他第一次听到“大数据”这个词,会自然而然从字面上去理解——认为大数据就是大量的数据,大数据技术就是大量数据的存储技术。

但事实上,它并不只是一项存储技术,而是一系列和海量数据相关的抽取、集成、管理、分析、解释技术。大数据系统,是一个庞大的框架系统。

更进一步来说,大数据是一种全新的思维方式和商业模式。

640?wx_fmt=jpeg

图片来自网络

今天这篇文章,就让我们来深入了解一下,到底什么是大数据。

  大数据的定义  

首先,我们看看大数据的定义

行业里对大数据的定义有很多,有广义的定义,也有狭义的定义。

广义的定义,有点哲学味道——大数据,是指物理世界到数字世界的映射和提炼。通过发现其中的数据特征,从而做出提升效率的决策行为。

狭义的定义,是技术工程师给的——大数据,是通过获取存储分析,从大容量数据中挖掘价值的一种全新的技术架构。

相比较而言,狭义定义更好理解一些。

大家注意,关键词我都在上面原句加粗了:

要做什么?——获取数据、存储数据、分析数据

对谁做?——大容量数据

目的是什么?——挖掘价值

获取数据、存储数据、分析数据,这一系列的行为,都不算新奇。我们每天都在用电脑,每天都在干这个事。

例如,每月的月初,考勤管理员会获取每个员工的考勤信息,录入Excel表格,然后存在电脑里,统计分析有多少人迟到、缺勤,然后扣TA工资。

但是,同样的行为,放在大数据身上,就行不通了。换言之,传统个人电脑,传统常规软件,无力应对的数据级别,才叫“大数据”。

  大数据,到底有多大?  

 

我们传统的个人电脑,处理的数据,是GB/TB级别。例如,我们的硬盘,现在通常是1TB/2TB/4TB的容量。

TB、GB、MB、KB的关系,大家应该都很熟悉了:

1 KB = 1024 B  (KB - kilobyte) 

1 MB = 1024 KB (MB - megabyte) 

1 GB = 1024 MB (GB - gigabyte) 

1 TB = 1024 GB (TB - terabyte) 

而大数据是什么级别呢?PB/EB级别。

640?wx_fmt=jpeg

大部分人都没听过。其实也就是继续乘以1024:

1 PB = 1024 TB (PB - petabyte) 

1 EB = 1024 PB (EB - exabyte) 

只是看这几个字母的话,貌似不是很直观。我来举个例子吧。

1TB,只需要一块硬盘可以存储。容量大约是20万张照片或20万首MP3音乐,或者是20万部电子书。

640?wx_fmt=jpeg

普通硬盘

1PB,需要大约2个机柜的存储设备。容量大约是2亿张照片或2亿首MP3音乐。如果一个人不停地听这些音乐,可以听1900年。。。

640?wx_fmt=jpeg

2个机柜

1EB,需要大约2000个机柜的存储设备。如果并排放这些机柜,可以连绵1.2公里那么长。如果摆放在机房里,需要21个标准篮球场那么大的机房,才能放得下。

640?wx_fmt=jpeg

21个篮球场

阿里、百度、腾讯这样的互联网巨头,数据量据说已经接近EB级。

640?wx_fmt=jpeg

阿里数据中心内景

EB还不是最大的。目前全人类的数据量,是ZB级。

1 ZB = 1024 EB (ZB - zettabyte) 

2011年,全球被创建和复制的数据总量是1.8ZB。

而到2020年,全球电子设备存储的数据,将达到35ZB。如果建一个机房来存储这些数据,那么,这个机房的面积将比42个鸟巢体育场还大。

640?wx_fmt=jpeg

数据量不仅大,增长还很快——每年增长50%。也就是说,每两年就会增长一倍。

目前的大数据应用,还没有达到ZB级,主要集中在PB/EB级别。

大数据的级别定位

1 KB = 1024 B  (KB - kilobyte) 

1 MB = 1024 KB (MB - megabyte) 

1 GB = 1024 MB (GB - gigabyte) 

1 TB = 1024 GB (TB - terabyte) 

1 PB = 1024 TB (PB - petabyte) 

1 EB = 1024 PB (EB - exabyte) 

1 ZB = 1024 EB (ZB - zettabyte) 

  数据的来源  

 

数据的增长,为什么会如此之快?

说到这里,就要回顾一下人类社会数据产生的几个重要阶段。

大致来说,是三个重要的阶段。

第一个阶段,就是计算机被发明之后的阶段。尤其是数据库被发明之后,使得数据管理的复杂度大大降低。各行各业开始产生了数据,从而被记录在数据库中。这时的数据,以结构化数据为主(待会解释什么是“结构化数据”)。数据的产生方式,也是被动的。

640?wx_fmt=jpeg

世界上第一台通用计算机-ENIAC

第二个阶段,是伴随着互联网2.0时代出现的。互联网2.0的最重要标志,就是用户原创内容。随着互联网和移动通信设备的普及,人们开始使用博客、facebook、youtube这样的社交网络,从而主动产生了大量的数据。

640?wx_fmt=jpeg

第三个阶段,是感知式系统阶段。随着物联网的发展,各种各样的感知层节点开始自动产生大量的数据,例如遍布世界各个角落的传感器、摄像头。

640?wx_fmt=jpeg

经过了“被动-主动-自动”这三个阶段的发展,最终导致了人类数据总量的极速膨胀。

    大数据的4个V    

 

行业里对大数据的特点,概括为4个V。

前面所说的庞大数据体量,就是Volume(海量化)。除了Volume之外,剩下三个,分别是Variety、Velocity、Value。

我们一个一个来介绍。

  • Variety(多样化)

数据的形式是多种多样的,包括数字(价格、交易数据、体重、人数等)、文本(邮件、网页等)、图像、音频、视频、位置信息(经纬度、海拔等),等等,都是数据。

数据又分为结构化数据非结构化数据

从名字可以看出,结构化数据,是指可以用预先定义的数据模型表述,或者,可以存入关系型数据库的数据。

640.png?   

结构化数据

例如,一个班级所有人的年龄、一个超市所有商品的价格,这些都是结构化数据。

而网页文章、邮件内容、图像、音频、视频等,都属于非结构话数据。

在互联网领域里,非结构化数据的占比已经超过整个数据量的80%

大数据,就符合这样的特点:数据形式多样化,且非结构化数据占比高。

  • Velocity(时效性)

大数据还有一个特点,那就是时效性。从数据的生成到消耗,时间窗口非常小。数据的变化速率,还有处理过程,越来越快。例如变化速率,从以前的按天变化,变成现在的按秒甚至毫秒变化。

我们还是用数字来说话:

就在刚刚过去的这一分钟,数据世界里发生了什么?

Email:2.04亿封被发出

Google:200万次搜索请求被提交

Youtube:2880分钟的视频被上传

Facebook:69.5万条状态被更新

Twitter:98000条推送被发出

12306:1840张车票被卖出

……

怎么样?是不是瞬息万变?

  • Value(价值密度)

最后一个特点,就是价值密度。

大数据的数据量很大,但随之带来的,就是价值密度很低,数据中真正有价值的,只是其中的很少一部分。

例如通过监控视频寻找犯罪分子的相貌,也许几TB的视频文件,真正有价值的,只有几秒钟。

640?wx_fmt=jpeg

2014年美国波士顿爆炸案,现场调取了10TB的监控数据(包括移动基站的通讯记录,附近商店、加油站、报摊的监控录像以及志愿者提供的影像资料),最终找到了嫌疑犯的一张照片。

  大数据的价值  

刚才说到价值密度,也就说到了大数据的核心本质,那就是价值

 

人类提出大数据、研究大数据的主要目的,就是为了挖掘大数据里面的价值。

大数据,究竟有什么价值?

早在1980年,著名未来学家阿尔文·托夫勒在他的著作《第三次浪潮》中,就明确提出:“数据就是财富”,并且,将大数据称为“第三次浪潮的华彩乐章”。

640?wx_fmt=jpeg

  • 第一次浪潮:农业阶段,约1万年前开始

  • 第二次浪潮:工业阶段,17世纪末开始

  • 第三次浪潮:信息化阶段,20世纪50年代后期开始

进入21世纪之后,随着前面所说的第二第三阶段的发展,移动互联网崛起,存储能力和云计算能力飞跃,大数据开始落地,也引起了越来越多的重视。

2012年的世界经济论坛指出:“数据已经成为一种新的经济资产类别,就像货币和黄金一样”。这无疑将大数据的价值推到了前所未有的高度层面上。

如今,大数据应用开始走进我们的生活,影响我们的衣食住行。

640?wx_fmt=jpeg

滴滴的大数据杀熟,相信大家都有所耳闻

之所以大数据会有这么快的发展,就是因为越来越多的行业和企业,开始认识到大数据的价值,开始试图参与挖掘大数据的价值。

归纳来说,大数据的价值主要来自于两个方面:

1 帮助企业了解用户

大数据通过相关性分析,将客户和产品、服务进行关系串联,对用户的偏好进行定位,从而提供更精准、更有导向性的产品和服务,提升销售业绩。

典型的例子就是电商。

像阿里淘宝这样的电子商务平台,积累了大量的用户购买数据。在早期的时候,这些数据都是累赘和负担,存储它们需要大量的硬件成本。但是,现在这些数据都是阿里最宝贵的财富。

通过这些数据,可以分析用户行为,精准定位目标客群的消费特点、品牌偏好、地域分布,从而引导商家的运营管理、品牌定位、推广营销等。

640?wx_fmt=jpeg

大数据可以对业绩产生直接影响。它的效率和准确性,远远超过传统的用户调研。

除了电商,包括能源、影视、证券、金融、农业、工业、交通运输、公共事业等,都是大数据的用武之地。

640?wx_fmt=png

大数据甚至能够帮助竞选总统

2 帮助企业了解自己

除了帮助了解用户之外,大数据还能帮助了解自己。

企业生产经营需要大量的资源,大数据可以分析和锁定资源的具体情况,例如储量分布和需求趋势。这些资源的可视化,可以帮助企业管理者更直观地了解企业的运作状态,更快地发现问题,及时调整运营策略,降低经营风险。

总而言之,“知己知彼,百战百胜”。大数据,就是为决策服务的

  大数据和云计算  

说到这里,我们要回答一个很多人心里都存在的疑惑——大数据和云计算之间,到底有什么关系?

可以这么解释:数据本身是一种资产,而云计算,则是为挖掘资产价值提供合适的工具。

从技术上,大数据是依赖于云计算的。云计算里面的海量数据存储技术、海量数据管理技术、分布式计算模型等,都是大数据技术的基础。

云计算就像是挖掘机,大数据就是矿山。如果没有云计算,大数据的价值就发挥不出来。

相反的,大数据的处理需求,也刺激了云计算相关技术的发展和落地。

也就是说,如果没有大数据这座矿山,云计算这个挖掘机,很多强悍的功能都发展不起来。

套用一句老话——云计算和大数据,两者是相辅相成的。

  大数据和物联网(5G)  

第二个问题,大数据和物联网有什么关系?

这个问题我觉得大家应该能够很快想明白,前面其实也提到了。

物联网就是“物与物互相连接的互联网”。物联网的感知层,产生了海量的数据,将会极大地促进大数据的发展。

同样,大数据应用也发挥了物联网的价值,反向刺激了物联网的使用需求。越来越多的企业,发觉能够通过物联网大数据获得价值,就会愿意投资建设物联网。

其实这个问题也可以进一步延伸为“大数据和5G之间的关系”

即将到来的5G,通过提升连接速率,提升了“人联网”的感知,也促进了人类主动创造数据。

另一方面,它更多是为“物联网”服务的。包括低延时、海量终端连接等,都是物联网场景的需求。

5G刺激物联网的发展,而物联网刺激大数据的发展。所有通信基础设施的强大,都是为大数据崛起铺平道路。

  大数据的产业链  

接下来再说说大数据的产业链。

大数据的产业链,和大数据的处理流程是紧密相关的。简单来说,就是生产数据、聚合数据、分析数据、消费数据。

每个环节,都有相应的角色玩家。如下图:

640?wx_fmt=png

从目前的情况来看,国外厂商在大数据产业占据了较大的份额,尤其是上游领域,基本上都是国外企业。国内IT企业相比而言,存在较大的差距。

640?wx_fmt=png

大数据相关重点领域及企业(技术)

  大数据的挑战  

说了那么多大数据的好话,并不代表大数据是完美的。

大数据也面临着很多挑战。

除了数据管理技术难度之外,大数据的最大挑战,就是安全

数据是资产,也是隐私。没有人愿意自己的隐私被暴露,所以,人们对自己的隐私保护越来越重视。政府也在不断加强对公民隐私权的保护,出台了很多法律。

640?wx_fmt=jpeg

欧盟在2018年出台了有史以来最严厉的GDPR(《一般数据保护法案》),把网络数据保护上升到前所未有的高度

在这种情况下,企业获取用户数据,就需要慎重考虑,是否符合伦理和法律。一旦违法,将付出极为沉重的代价。

此外,即使企业合法获取数据,也要担心是否会被恶意攻击和窃取。这里面的风险也是不容忽视的。

除了安全之外,大数据还要面临能耗等方面的问题。

换言之,如果不能很好地保护和利用手里的大数据,那么它就是一个烫手的山芋,有还不如没有。

好啦,洋洋洒洒写了这么多,相信大家已经对大数据有了初步的了解。

后续,小枣君将重点介绍大数据的关键框架和技术栈,包括大家非常关心的Hadoop、Spark、HDFS、MapReduce等概念,都将一一进行解读。

敬请期待!

640?wx_fmt=png

福利

扫描添加小编微信,备注“姓名+公司职位”,加入【云计算学习交流群】,和志同道合的朋友们共同打卡学习!

640?wx_fmt=jpeg

推荐阅读:

  • mysql表设计要注意什么?

  • 漫话:如何给女朋友解释鸿蒙OS是怎样实现跨平台的?

  • 换脸软件 ZAO 刷屏:你在玩换脸,别人想要你的脸!

  • 只给测试集不给训练集,要怎么做自己的物体检测器?

  • 华为鸿蒙为什么非要碰物联网?

  • Dropout、梯度消失/爆炸、Adam优化算法,神经网络优化算法看这一篇就够了

真香,朕在看了!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/522110.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

服务器漏洞处理_wildfly禁用https和8443端口

文章目录一、https和84431. 问题分析1.1. https1.2. 8443端口2. 思路预测3. 解决方案一、https和8443 1. 问题分析 1.1. https 从以上2个漏洞分析,都和8443端口有关,而8443是https的端口,由此分析,和https有关。 1.2. 8443端口…

阿里云MaxCompute被Forrester评为全球云端数据仓库领导者

摘要: 参考消息网3月19日报道 日前,全球权威调研机构佛瑞斯特研究公司(Forrester)发布《2018年一季度云端数据仓库》报告。报告对大数据服务商的主要功能、区域表现、细分市场和典型客户等进行了全面评估,最终AWS、阿里…

npoi 所有列调整为一页_别再浪费纸了,一张纸就能打印Word、Excel、PPT所有内容,真厉害...

前几天公司的行政小姐姐在整理打印的废纸,不整理不知道,一整理,一个星期浪费的打印纸有几千张!!!现在可是提倡环保啊~这不,现在已经规定每人的打印纸张了,杜绝浪费,从节约…

【HBase从入门到精通系列】如何避免HBase写入过快引起的各种问题

摘要: 首先我们简单回顾下整个写入流程 client api > RPC > server IPC > RPC queue > RPC handler > write WAL > write memstore > flush to filesystem 整个写入流程从客户端调用API开始,数据会通过protobuf编码成一个请求&…

怎么加载csv_python爬虫入门实战(四)!爬取动态加载的页面

今天的主题是爬取动态网页的经验分享,以cocos论坛为例子进行分享。(官方不会打我吧 )配置环境为什么选择cocos论坛呢?因为自己在浏览论坛时,发现标题内容会随着滚动条的位置而动态添加。环境: python3 requests 。还要引入几个系统库。参考如…

再谈全局网HBase八大应用场景

摘要: HBase可以说是一个数据库,也可以说是一个存储。拥有双重属性的HBase天生就具备广阔的应用场景。在2.0中,引入了OffHeap降低了延迟,可以满足在线的需求。引入MOB,可以存储10M左右的对象,完全适应了对象…

文件标识符必须为双精度类型的整数值标量_数据类型

标识符在Java中,标识符多用于类名、方法、字段、变量和包名等,他的命名方式需遵循以下规则:1、标识符可以由字母、数字、__、$组成,但不能包含!、#、%、空格等其他特殊字符。2、标识符的命名最好做到见名知意。3、不能…

MSSQL · 最佳实践 · 利用文件组实现冷热数据隔离备份方案

摘要: 摘要 在SQL Server备份专题分享中,前四期我们分享了:三种常见的数据库备份、备份策略的制定、如何查找备份链以及数据库的三种恢复模式与备份之间的关系。本次月报我们分享SQL Server如何利用文件组技术来实现数据库冷热数据隔离备份的…

检测到会话cookie中缺少HttpOnly属性

解决方案01:在会话cookie中添加HttpOnly属性 具体操作步骤如下: HttpServletResponse response2 (HttpServletResponse)response; response2.setHeader( "Set-Cookie", "namevalue; HttpOnly");解决方案02(建议使用&am…

刷抖音看到 Python 工程师的工资条后,我沉默了...

戳蓝字“CSDN云计算”关注我们哦!最近无意中刷抖音刷到了一个Python工程师的工资条然后我默默的打开看了然后我默默的关闭了emmm.....后悔为什么我当时没有坚持做开发相信每一个人都想拿着高工资做着轻松的工作而如今Python技术盛行大家都纷纷学Python我不能跟你确保…

怎么将sql语句转化成语法树_数据库如何解析执行SQL

阅读文本大概需要3分钟。0x01:数据库客户端发送查询SQL客户端将查询的select sql,按照mysql通信协议传输到数据库服务。数据库服务接受查询sql,执行sql前判断要执行的sql是否是查询语句。0x02:查询缓存先行MySQL在开启查询缓存的情…

佛系程序员的月薪五万指南

摘要: 大师:很简单,我这里有一份佛系月薪 5 万指南,我看你骨骼清奇、脑门光亮,一看就是将要大富大贵之人,这份指南可以助你快速实现小目标!程序员问大师…… 青年:大师,你…

数据用压缩 bcd 码 java_IT职场新人选python,go还是java?用数据来说话

最近有读者在后台问,刚参加工作,想选一个职业方法,问我现在python很火,但是貌似就业机会不是很多,所以比较纠结现在到底是学python,go还是java. 所以我就想我们能不能用数据说话,看看python,go,java这三种热…

点击劫持:X-Frame-Options未配置

解决方案:设置X-Frame-Options参数即可 具体操作步骤如下: 在上面filter基础上添加即可解决 httpResp.addHeader("x-frame-options","DENY");附上源码: package com.sinosoft.fis.util;import java.io.IOException; im…

实战:阿里巴巴 DevOps 转型后的运维平台建设

摘要: 阿里巴巴DevOps转型之后,运维平台是如何建设的?阿里巴巴高级技术专家陈喻结合运维自身的理解,业务场景的分析和业界方法论的一些思考,得出来一些最佳实践分享给大家。 前言 “我是这个应用的 Owner”是阿里巴巴D…

华为方舟编译器开源官网正式上线:源代码已开放下载;中兴通讯与北京交通大学、中国移动北京公司签署 “5G战略合作框架协议”……...

关注并标星星CSDN云计算极客头条:速递、最新、绝对有料。这里有企业新动、这里有业界要闻,打起十二分精神,紧跟fashion你可以的!每周三次,打卡即read更快、更全了解泛云圈精彩newsgo go go 德创企“空中出租车”首次在…

使用云效在阿里云上进行一站式开发运维

摘要: 云效,一站式企业协同研发云,提供从“需求->开发->测试->发布->运维->运营”端到端的协同服务和研发工具支撑。云效将计划与其他云产品合作,进一步优化一站式体验。 导读 作为一站式企业协同研发云,云效提供…

list按照某个字段排序_恕我直言你可能真的不会java第7篇:像使用SQL一样排序集合

在开始之前,我先卖个关子提一个问题:我们现在有一个Employee员工类。 Data AllArgsConstructor public class Employee {private Integer id;private Integer age; //年龄private String gender; //性别private String firstName; private String la…

直播内容不合规怎么办?智能AI为您解决审核难题

摘要: 近些年来,视频直播快速发展,大量的直播平台如雨后春笋一般出现,但是这同样给直播内容的监管带来了巨大的挑战,一方面国家对于直播内容监管的要求日益严格,另一方面相对于文字内容的审核,多…

关闭word_Word文档如何快速查找?超实用的5个Word技巧教给你

Word,是我们每天用的最基础的一款办公软件了。大到方案的流程,小到名单输入,word都是我们最实用也最普遍的工具了。但是正是因为word这样的普遍性,所以我们有许多工作要在word上完成。......但是有时候工作量的问题却让我们加班到…