五分钟解读“大数据”

戳蓝字“CSDN云计算”关注我们哦!


文章来自:鲜枣课堂作者:小枣君


大家好,我是小枣君。


2019年的第一篇文章,我们来聊聊大数据


640?wx_fmt=jpeg


这些年,大数据作为一个时髦概念,出现频率很高,关注度也很高。


对于很多人来说,当他第一次听到“大数据”这个词,会自然而然从字面上去理解——认为大数据就是大量的数据,大数据技术就是大量数据的存储技术。


但是,事实并非如此。


大数据比想象中复杂。它不只是一项数据存储技术,而是一系列和海量数据相关的抽取、集成、管理、分析、解释技术,是一个庞大的框架系统。


更进一步来说,大数据是一种全新的思维方式和商业模式。


640?wx_fmt=jpeg

图片来自网络


今天这篇文章,就让我们花五分钟的时间,来深入了解一下,到底什么是大数据。




  大数据的定义  



首先,还是要重新审视大数据的定义


行业里对大数据的定义有很多,有广义的定义,也有狭义的定义。


广义的定义,有点哲学味道——大数据,是指物理世界到数字世界的映射和提炼。通过发现其中的数据特征,从而做出提升效率的决策行为。


狭义的定义,是技术工程师给的——大数据,是通过获取存储分析,从大容量数据中挖掘价值的一种全新的技术架构。


相比较而言,我还是喜欢技术定义,哈哈。


大家注意,关键词我都在上面原句加粗了哈!


要做什么?——获取数据、存储数据、分析数据

对谁做?——大容量数据

目的是什么?——挖掘价值


获取数据、存储数据、分析数据,这一系列的行为,都不算新奇。我们每天都在用电脑,每天都在干这个事。


例如,每月的月初,考勤管理员会获取每个员工的考勤信息,录入Excel表格,然后存在电脑里,统计分析有多少人迟到、缺勤,然后扣TA工资。


但是,同样的行为,放在大数据身上,就行不通了。换言之,传统个人电脑,传统常规软件,无力应对的数据级别,才叫“大数据”。




  大数据,到底有多大?  


 

我们传统的个人电脑,处理的数据,是GB/TB级别。例如,我们的硬盘,现在通常是1TB/2TB/4TB的容量。


TB、GB、MB、KB的关系,大家应该都很熟悉了:


1 KB = 1024 B  (KB - kilobyte) 

1 MB = 1024 KB (MB - megabyte) 

1 GB = 1024 MB (GB - gigabyte) 

1 TB = 1024 GB (TB - terabyte) 


而大数据是什么级别呢?PB/EB级别。


640?wx_fmt=jpeg


大部分人都没听过。其实也就是继续翻1024倍:


1 PB = 1024 TB (PB - petabyte) 

1 EB = 1024 PB (EB - exabyte) 


只是看这几个字母的话,貌似不是很直观。我来举个例子吧。


1TB,只需要一块硬盘可以存储。容量大约是20万张照片或20万首MP3音乐,或者是671部《红楼梦》小说。


640?wx_fmt=jpeg

普通硬盘


1PB,需要大约2个机柜的存储设备。容量大约是2亿张照片或2亿首MP3音乐。如果一个人不停地听这些音乐,可以听1900年。。。


640?wx_fmt=jpeg

2个机柜


1EB,需要大约2000个机柜的存储设备。如果并排放这些机柜,可以连绵1.2公里那么长。如果摆放在机房里,需要21个标准篮球场那么大的机房,才能放得下。


640?wx_fmt=jpeg

21个篮球场


阿里、百度、腾讯这样的互联网巨头,数据量据说已经接近EB级。


640?wx_fmt=jpeg

阿里数据中心内景


EB还不是最大的。目前全人类的数据量,是ZB级。


1 ZB = 1024 EB (ZB - zettabyte) 


2011年,全球被创建和复制的数据总量是1.8ZB。


而到2020年,全球电子设备存储的数据,将达到35ZB。如果建一个机房来存储这些数据,那么,这个机房的面积将比42个鸟巢体育场还大。


640?wx_fmt=jpeg


数据量不仅大,增长还很快——每年增长50%。也就是说,每两年就会增长一倍。


目前的大数据应用,还没有达到ZB级,主要集中在PB/EB级别。


大数据的级别定位

1 KB = 1024 B  (KB - kilobyte) 

1 MB = 1024 KB (MB - megabyte) 

1 GB = 1024 MB (GB - gigabyte) 

1 TB = 1024 GB (TB - terabyte) 

1 PB = 1024 TB (PB - petabyte) 

1 EB = 1024 PB (EB - exabyte) 

1 ZB = 1024 EB (ZB - zettabyte) 



  数据的来源  


 

数据的增长,为什么会如此之快?


说到这里,就要回顾一下人类社会数据产生的几个重要阶段。


大致来说,是三个重要的阶段。


第一个阶段,就是计算机被发明之后的阶段。尤其是数据库被发明之后,使得数据管理的复杂度大大降低。各行各业开始产生了数据,从而被记录在数据库中。这时的数据,以结构化数据为主(待会解释什么是“结构化数据”)。数据的产生方式,也是被动的。


640?wx_fmt=jpeg

世界上第一台通用计算机-ENIAC


第二个阶段,是伴随着互联网2.0时代出现的。互联网2.0的最重要标志,就是用户原创内容。随着互联网和移动通信设备的普及,人们开始使用博客、facebook、youtube这样的社交网络,从而主动产生了大量的数据。


640?wx_fmt=jpeg


第三个阶段,是感知式系统阶段。随着物联网的发展,各种各样的感知层节点开始自动产生大量的数据,例如遍布世界各个角落的传感器、摄像头。


640?wx_fmt=jpeg


经过了“被动-主动-自动”这三个阶段的发展,最终导致了人类数据总量的极速膨胀。




  大数据的4Vs  


 

行业里对大数据的特点,概括为4个V。前面所说的庞大数据体量,就是Volume(海量化)。除了Volume之外,剩下三个,分别是Variety、Velocity、Value。


我们一个一个来介绍。


  • Variety(多样化)


数据的形式是多种多样的,包括数字(价格、交易数据、体重、人数等)、文本(邮件、网页等)、图像、音频、视频、位置信息(经纬度、海拔等),等等,都是数据。


数据又分为结构化数据非结构化数据


从名字可以看出,结构化数据,是指可以用预先定义的数据模型表述,或者,可以存入关系型数据库的数据。


640.png?   

结构化数据


例如,一个班级所有人的年龄、一个超市所有商品的价格,这些都是结构化数据。


而网页文章、邮件内容、图像、音频、视频等,都属于非结构话数据。


在互联网领域里,非结构化数据的占比已经超过整个数据量的80%


大数据,就符合这样的特点:数据形式多样化,且非结构化数据占比高。


  • Velocity(时效性)


大数据还有一个特点,那就是时效性。从数据的生成到消耗,时间窗口非常小。数据的变化速率,还有处理过程,越来越快。例如变化速率,从以前的按天变化,变成现在的按秒甚至毫秒变化。


我们还是用数字来说话:


就在刚刚过去的这一分钟,数据世界里发生了什么?

Email:2.04亿封被发出

Google:200万次搜索请求被提交

Youtube:2880分钟的视频被上传

Facebook:69.5万条状态被更新

Twitter:98000条推送被发出

12306:1840张车票被卖出

……


怎么样?是不是瞬息万变?


  • Value(价值密度)


最后一个特点,就是价值密度。


大数据的数据量很大,但随之带来的,就是价值密度很低,数据中真正有价值的,只是其中的很少一部分。


例如通过监控视频寻找犯罪分子的相貌,也许几TB的视频文件,真正有价值的,只有几秒钟。


640?wx_fmt=jpeg

2014年美国波士顿爆炸案,现场调取了10TB的监控数据(包括移动基站的通讯记录,附近商店、加油站、报摊的监控录像以及志愿者提供的影像资料),最终找到了嫌疑犯的一张照片。




  大数据的价值  



刚才说到价值密度,也就说到了大数据的核心本质,那就是价值

 

人类提出大数据、研究大数据的主要目的,就是为了挖掘大数据里面的价值。


大数据,究竟有什么价值?


早在1980年,著名未来学家阿尔文·托夫勒在他的著作《第三次浪潮》中,就明确提出:“数据就是财富”,并且,将大数据称为“第三次浪潮的华彩乐章”。


640?wx_fmt=jpeg


  • 第一次浪潮:农业阶段,约1万年前开始

  • 第二次浪潮:工业阶段,17世纪末开始

  • 第三次浪潮:信息化阶段,20世纪50年代后期开始


进入21世纪之后,随着前面所说的第二第三阶段的发展,移动互联网崛起,存储能力和云计算能力飞跃,大数据开始落地,也引起了越来越多的重视。


2012年的世界经济论坛指出:“数据已经成为一种新的经济资产类别,就像货币和黄金一样”。这无疑将大数据的价值推到了前所未有的高度层面上。


如今,大数据应用开始走进我们的生活,影响我们的衣食住行。


640?wx_fmt=jpeg

滴滴的大数据杀熟,相信大家都有所耳闻


之所以大数据会有这么快的发展,就是因为越来越多的行业和企业,开始认识到大数据的价值,开始试图参与挖掘大数据的价值。


归纳来说,大数据的价值主要来自于两个方面:


1 帮助企业了解用户


大数据通过相关性分析,将客户和产品、服务进行关系串联,对用户的偏好进行定位,从而提供更精准、更有导向性的产品和服务,提升销售业绩。


典型的例子就是电商。


像阿里淘宝这样的电子商务平台,积累了大量的用户购买数据。在早期的时候,这些数据都是累赘和负担,存储它们需要大量的硬件成本。但是,现在这些数据都是阿里最宝贵的财富。


通过这些数据,可以分析用户行为,精准定位目标客群的消费特点、品牌偏好、地域分布,从而引导商家的运营管理、品牌定位、推广营销等。


640?wx_fmt=jpeg


大数据可以对业绩产生直接影响。它的效率和准确性,远远超过传统的用户调研。


除了电商,包括能源、影视、证券、金融、农业、工业、交通运输、公共事业等,都是大数据的用武之地。


640?wx_fmt=png

大数据甚至能够帮助竞选总统



2 帮助企业了解自己


除了帮助了解用户之外,大数据还能帮助了解自己。


企业生产经营需要大量的资源,大数据可以分析和锁定资源的具体情况,例如储量分布和需求趋势。这些资源的可视化,可以帮助企业管理者更直观地了解企业的运作状态,更快地发现问题,及时调整运营策略,降低经营风险。


总而言之,“知己知彼,百战百胜”。大数据,就是为决策服务的




  大数据和云计算  



说到这里,我们要回答一个很多人心里都存在的疑惑——大数据和云计算之间,到底有什么关系?


可以这么解释:数据本身是一种资产,而云计算,则是为挖掘资产价值提供合适的工具。


从技术上,大数据是依赖于云计算的。云计算里面的海量数据存储技术、海量数据管理技术、分布式计算模型等,都是大数据技术的基础。


云计算就像是挖掘机,大数据就是矿山。如果没有云计算,大数据的价值就发挥不出来。


相反的,大数据的处理需求,也刺激了云计算相关技术的发展和落地。


也就是说,如果没有大数据这座矿山,云计算这个挖掘机,很多强悍的功能都发展不起来。


套用一句老话——云计算和大数据,两者是相辅相成的。




  大数据和物联网(5G)  



第二个问题,大数据和物联网有什么关系?


这个问题我觉得大家应该能够很快想明白,前面其实也提到了。


物联网就是“物与物互相连接的互联网”。物联网的感知层,产生了海量的数据,将会极大地促进大数据的发展。


同样,大数据应用也发挥了物联网的价值,反向刺激了物联网的使用需求。越来越多的企业,发觉能够通过物联网大数据获得价值,就会愿意投资建设物联网。


其实这个问题也可以进一步延伸为“大数据和5G之间的关系”


即将到来的5G,通过提升连接速率,提升了“人联网”的感知,也促进了人类主动创造数据。


另一方面,它更多是为“物联网”服务的。包括低延时、海量终端连接等,都是物联网场景的需求。


5G刺激物联网的发展,而物联网刺激大数据的发展。所有通信基础设施的强大,都是为大数据崛起铺平道路。




  大数据的产业链  



接下来再说说大数据的产业链。


大数据的产业链,和大数据的处理流程是紧密相关的。简单来说,就是生产数据、聚合数据、分析数据、消费数据。


每个环节,都有相应的角色玩家。如下图:


640?wx_fmt=png


从目前的情况来看,国外厂商在大数据产业占据了较大的份额,尤其是上游领域,基本上都是国外企业。国内IT企业相比而言,存在较大的差距。


640?wx_fmt=png

大数据相关重点领域及企业(技术)




  大数据的挑战  



说了那么多大数据的好话,并不代表大数据是完美的。


大数据也面临着很多挑战。


除了数据管理技术难度之外,大数据的最大挑战,就是安全


数据是资产,也是隐私。没有人愿意自己的隐私被暴露,所以,人们对自己的隐私保护越来越重视。政府也在不断加强对公民隐私权的保护,出台了很多法律。


640?wx_fmt=jpeg

欧盟在2018年出台了有史以来最严厉的GDPR(《一般数据保护法案》),把网络数据保护上升到前所未有的高度


在这种情况下,企业获取用户数据,就需要慎重考虑,是否符合伦理和法律。一旦违法,将付出极为沉重的代价。


此外,即使企业合法获取数据,也要担心是否会被恶意攻击和窃取。这里面的风险也是不容忽视的。


除了安全之外,大数据还要面临能耗等方面的问题。


换言之,如果不能很好地保护和利用手里的大数据,那么它就是一个烫手的山芋,有还不如没有。



1.微信群:

添加小编微信:color_ld,备注“进群+姓名+公司职位”即可,加入【云计算学习交流群】,和志同道合的朋友们共同打卡学习!


2.征稿:

投稿邮箱:liudan@csdn.net;微信号:color_ld。请备注投稿+姓名+公司职位。



推荐阅读

  • 官宣!张小龙史上最长演讲 4小时3万字完整版回应微信的一切

  • Spark+Alluxio性能调优十大技巧

  • 有问有答 | 容器精华问答,如何玩转容器服务?

  • Java 12 要来了!

  • “微信之父”张小龙:我没去过龙泉寺!

  • 代码“大换血”,以太坊能耗将减少99%背后的故事

  • 从云计算到AI:NetApp的数据网络转型之道



640?wx_fmt=gif点击“阅读原文”,打开 CSDN App 阅读更贴心!

640?wx_fmt=png喜欢就点击“好看”吧!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/524906.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

数据版吐槽大会: 国产综艺节目年终盘点

戳蓝字“CSDN云计算”关注我们哦!作者介绍:徐麟,目前就职于互联网公司数据部,哥大统计数据狗,从事数据挖掘&分析工作,喜欢用R&Python玩一些不一样的数据个人公众号:数据森麟&#xff08…

2018全球50大最佳发明名单

戳蓝字“CSDN云计算”关注我们哦!来自:全国3D大赛提起发明创造,你会想到什么?每年《时代周刊》都会评选年度最佳发明,它们让世界变得更美好,更智能,或更有趣。Time 从世界各地征集了各类别的提名…

虚拟化精华问答 | 什么是虚拟化?

戳蓝字“CSDN云计算”关注我们哦!虚拟化是云计算的基础,基于虚拟化我们可以实现私有云、公有云、桌面云等。它的主要目的是对IT基础设施进行简化,简化对资源以及对资源管理的访问。那么今天就让我们一起就来探究云计算关键技术「虚拟化技术」…

要闻君说:难道金山云与京东云真的要合并了吗?中国联通获准发行不超过500亿元公司债券,都用于5G 商用?用AI技术精准来找室友?...

关注并标星星CSDN云计算每周三次,打卡即read更快、更全了解泛云圈精彩newsgo go go 嗨,大家好!偶是要闻君。愉快的周一从“听歌看新闻”开始啦!文/要闻君图片来源网络近日,阿里巴巴宣布推出“A100”战略合作伙伴计划&a…

对不起,我就是喜欢问你Spring构造器注入原理

戳蓝字“CSDN云计算”关注我们哦!文章来自:Java和Android架构作者:Static_lin原文:https://blog.csdn.net/qq_41737716/article/details/85596817前言Spring IOC是面试常问的知识点。本文讲述了从自定义注册Bean开始,到…

华为云发布新slogan,新年伊始加速奔跑

人工智能作为下一轮科技革命的关键元素,正在进入越来越多的行业,用AI的技术和理念去解决现在和未来的问题,将是企业构建竞争力的关键。 人工智能时代,最有技术和值得信赖的云 1月11日,“华为云普惠AI”年度峰会在北京…

云头条 |华为云发布全新Slogan;AWS推出DocumentDB;FRB信号刷屏

戳蓝字“CSDN云计算”关注我们哦!嗨,大家好,头条君带来的【云头条】特别栏目,如期而至,每周二第一时间为大家带来头条新闻。把握技术风向标,了解行业应用与实践,就交给我头条君吧!头…

一篇文章带你快速理解微服务架构,由浅入深带你走进微服务架构的核心

戳蓝字“CSDN云计算”关注我们哦!文章来自:Java和Android架构什么是微服务首先微服务并没有一个官方的定义,想要直接描述微服务比较困难,我们可以通过对比传统WEB应用,来理解什么是微服务。传统的WEB应用核心分为业务逻…

云存储精华问答 | 云计算和云存储是什么关系?

戳蓝字“CSDN云计算”关注我们哦!早在2006年谷歌推出的“Google101计划”时,“云”的概念及理论被正式提出,随后亚马逊、微软、IBM等公司宣布了各自的“云计划”,云存储、云安全等相关的云概念相继诞生。今天,我们就一…

边缘计算精华问答 | 为什么需要边缘计算?

戳蓝字“CSDN云计算”关注我们哦!云计算就像是天上的云,看得见摸不着,像章鱼的大脑,边缘计算就类似于八爪鱼的那些小爪子,一个爪子就是一个小型的机房,靠近具体的实物。那么,云计算的下一个爆点…

8 年后重登王座,Python 再度成为 TIOBE 年度编程语言

戳蓝字“CSDN云计算”关注我们哦!文章来自:开源中国社区全球知名的编程语言流行度排行榜网站 TIOBE 于近日宣布:Python 成为 2018 年度编程语言,理由如下:2018 年,Python 语言上升了 3.62% &…

要闻君说:Intel要“起底”新任CEO了?微软停止支持Win 7?OPPO加入WPC无线充电联盟,15W无线闪充技术呼之欲出!...

关注并标星星CSDN云计算每周三次,打卡即read更快、更全了解泛云圈精彩newsgo go go 嗨,大家好!偶是要闻君。咱们还是闲话少叙,边听边看近日有啥大新闻鸭!文/要闻君图片来源网络空缺半年多,Intel或在10天内任…

Ubuntu上安装Hadoop集群

戳蓝字“CSDN云计算”关注我们哦!前面我们介绍了在Ubuntu上安装Hadoop单机版。但是我们知道,Hadoop在实际工作中都是以集群的形式存在的,毕竟需要处理大量的数据,单机的处理速度显然不能满足。所以这篇文章我们就来介绍一下如何在…

Gartner的预言:通向混合IT之旅

戳蓝字“CSDN云计算”关注我们哦!“企业上云之旅是一个非常复杂的旅程,因为它不仅仅只是对基础设施的升级,还是对应用的整个生命周期管理的升级和业务交付模式的升级。”Gartner高级研究总监季新苏在近日举行的媒体见面会上表示。“这个旅程不…

OpenStack精华问答 | OpenStack是操作系统?

戳蓝字“CSDN云计算”关注我们哦!关于OpenStack的探讨几乎从未间断,从2010年10月份一个版本正式发布至今,OpenStack在8年发展历程中,成为了最有争议的那一个。今天,我们就来看看有关于OpenStack的精华问答吧1Q&#xf…

有问有答 | 精华问题汇总

出品 | CSDN云计算 有问有答,一问一答的形式,帮助大家快速解决更多专业难题。 边缘计算精华问答 | 边缘计算有哪些应用场景? 物联网对物联网技术的快速发展和云服务的推动使得云计算模型已经不能很好的解决现在的问题,于是&…

云重磅栏目专题汇总

嗨,大家好,头条君带来的【云重磅】特别栏目,会在每周二第一时间为大家带来头条新闻。把握技术风向标,了解行业应用与实践,就交给我头条君吧! 云重磅 | 阿里云开源Blink;华为发布5G Cloud VR&am…

云漫圈栏目精华汇总

云漫圈,用漫画的形式,帮你轻松掌握云中知识,从此周末不在寂寞。 云漫圈 | 学Python还是Java, 8张漫画带你全面分析 Java和Python两门语言都是目前非常热门的语言,可谓北乔峰南慕容,二者不分上下,棋逢对手…

Kafka精华问答 | kafka的使用场景是什么?

戳蓝字“CSDN云计算”关注我们哦!Kafka是由Apache软件基金会开发的一个开源流处理平台,由Scala和Java编写。作为一种高吞吐量的分布式发布订阅消息系统,有着诸多特性。今天,就让我们一起来看看关于它的精华问答吧!1Q&a…

要闻君说:微软拿下五角大楼超大云服务订单!恒大玩儿起了充电桩and新能源汽车?苹果公司要放弃自动驾驶业务?...

关注并标星星CSDN云计算每周三次,打卡即read更快、更全了解泛云圈精彩newsgo go go 嗨,大家好!偶是要闻君。新年说着说着就要到啦,在逐渐缩短的工作日中,我们还是继续哼着歌儿look look新闻吧!文/要闻君“过…