【大数据基础】大数据概述

在这里插入图片描述

【作者主页】Francek Chen
【专栏介绍】 ⌈ ⌈ 大数据技术原理与应用 ⌋ ⌋ 专栏系统介绍大数据的相关知识,分为大数据基础篇、大数据存储与管理篇、大数据处理与分析篇、大数据应用篇。内容包含大数据概述、大数据处理架构Hadoop、分布式文件系统HDFS、分布式数据库HBase、NoSQL数据库、云数据库、MapReduce、Hadoop再探讨、数据仓库Hive、Spark、流计算、Flink、图计算、数据可视化,以及大数据在互联网领域、生物医学领域的应用和大数据的其他应用。

文章目录

    • 一、大数据时代
      • (一)第三次信息化浪潮
      • (二)信息科技为大数据时代提供技术支撑
      • (三)数据产生方式的变革促成大数据时代的来临
      • (四)大数据的发展历程
    • 二、大数据概念
      • (一)数据量大
      • (二)数据类型繁多
      • (三)处理速度快
      • (四)价值密度低
    • 三、大数据的影响
    • 四、大数据的应用
    • 五、大数据关键技术
    • 六、大数据计算模式
      • (一)批处理计算
      • (二)流计算
      • (三)图计算
      • (四)查询分析计算
    • 七、大数据产业
    • 八、大数据与云计算、物联网
      • (一)云计算
      • (二)物联网
      • (三)大数据与云计算、物联网的关系
    • 小结


一、大数据时代

在这里插入图片描述

图1 大数据时代

(一)第三次信息化浪潮

根据IBM前首席执行官郭士纳的观点,IT领域每隔十五年就会迎来一次重大变革。

表1 三次信息化浪潮
信息化浪潮发生时间标志解决问题代表企业
第一次浪潮1980年前后个人计算机信息处理Intel、AMD、IBM、苹果、微软、联想、戴尔、惠普等
第二次浪潮1995年前后互联网信息传输雅虎、谷歌、阿里巴巴、百度、腾讯等
第三次浪潮2010年前后物联网、云计算和大数据信息爆炸亚马逊、谷歌、IBM、VMware、Palantir、Cloudera、字节跳动、阿里云等

(二)信息科技为大数据时代提供技术支撑

1. 存储设备容量不断增加

在这里插入图片描述

图2 存储价格随时间变化情况

2. CPU处理能力大幅提升

CPU处理能力的不断提升也是促使数据量不断增长的重要因素。

在这里插入图片描述

图3 CPU处理能力大幅提升

性能不断提升的CPU,大大提高了处理数据的能力,使得我们可以更快地处理不断累积的海量数据。用同等价格所能获得的CPU处理能力也呈几何级数上升在过去的40多年里,CPU的处理速度已经从10MHz提高到4.6GHz。在2013年之前的很长一段时间里,CPU处理速度的提高一直遵循“摩尔定律”,即芯片上集成的元件数量大约每18个月翻一番,性能大约每隔18个月提高一倍,价格下降一半。

在这里插入图片描述

图4 CPU晶体管数目随时间变化的情况

3. 网络带宽不断增加

1977年,世界上第一个光纤通信系统在美国芝加哥市投入商用,数据传输速率达到45Mbit/s,从此,人类社会的数据传输速率不断被刷新。进入21世纪,世界各国更是纷纷加大宽带网络建设力度,不断扩大网络覆盖范围,提高数据传输速率。以我国为例,截至2022年年底:

  • 我国互联网宽带接入端口数量达10.65亿个,其中,光纤接入端口占互联网接入端口的比重达95.7%,光缆线路总长度已达5791万千米。
  • 移动通信4G基站数量已达590万个,我国4G网络的规模全球第一,并且4G的覆盖广度和深度也在快速发展。
  • 我国正全面加速5G网络建设,截至2023年9月底,全国建设开通5G基站达318.9万个,5G移动电话用户达7.37亿户,5G网络建设基础不断夯实。

在这里插入图片描述

图5 网络带宽随时间变化的情况

(三)数据产生方式的变革促成大数据时代的来临

数据产生方式的变革,是促成大数据时代来临的重要因素。总体而言,人类社会的数据产生方式大致经历了3个阶段:运营式系统阶段、用户原创内容阶段和感知式系统阶段。

在这里插入图片描述

图6 数据产生方式的变革

1. 运营式系统阶段

人类社会最早大规模管理和使用数据,是从数据库的诞生开始的。大型零售超市销售系统、银行交易系统、股市交易系统、医院医疗系统、企业客户管理系统等大量运营式系统,都是建立在数据库基础之上的,数据库中保存了大量结构化的企业关键信息,用来满足企业各种业务需求。在这个阶段,数据的产生方式是被动的,只有当实际的企业业务发生时,才会产生新的记录并存入数据库。比如,对于股市交易系统而言,只有当发生一笔股票交易时,才会有相关记录生成。

2. 用户原创内容阶段

互联网的出现,使得数据传播更加快捷,数据传播不需要借助于磁盘、磁带等物理存储介质。网页的出现进一步加速了大量网络内容的产生,从而使得人类社会数据量开始呈现“井喷式”增长。但是,真正的互联网数据爆发产生于以“用户原创内容”为特征的“Web 2.0 时代”。Web 1.0时代,主要以门户网站为代表,强调内容的组织与提供,大量上网用户本身并不参与内容的产生。而Web 2.0技术以Wiki、微博、微信、抖音等应用所采用的自服务模式为主,强调自服务,大量上网用户本身就是内容的生成者,尤其是随着移动互联网和智能手机终端的普及,人们更是可以随时随地使用手机发微博、传照片等,数据量开始急剧增长。

3. 感知式系统阶段

物联网的发展最终导致了人类社会数据量的第三次跃升。物联网中包含大量传感器,如温度传感器、湿度传感器、压力传感器、位移传感器、光电传感器等,此外,视频监控摄像头也是物联网的重要组成部分。物联网中的这些设备,每时每刻都在自动产生大量数据,与Web 2.0时代的人工数据产生方式相比,物联网中的自动数据产生方式,将在短时间内生成更密集、更大量的数据,使得人类社会迅速步入“大数据时代”。

(四)大数据的发展历程

大数据的发展历程总体上可以划分为3个重要阶段:萌芽期、成熟期和大规模应用期。

表2 大数据发展的3个重要阶段
阶段时间内容
第一阶段:萌芽期上世纪90年代至本世纪初随着数据挖掘理论和数据库技术的逐步成熟,一批商业智能工具和知识管理技术开始被应用,如数据仓库、专家系统、知识管理系统等。
第二阶段:成熟期本世纪前十年Web2.0应用迅猛发展,非结构化数据大量产生,传统处理方法难以应对,带动了大数据技术的快速突破,大数据解决方案逐渐走向成熟,形成了并行计算与分布式系统两大核心技术,谷歌的GFS和MapReduce等大数据技术受到追捧,Hadoop平台开始大行其道。
第三阶段:大规模应用期2010年以后大数据应用渗透各行各业,数据驱动决策,信息社会智能化程度大幅提高。

二、大数据概念

随着大数据时代的到来,“大数据”已经成为互联网信息技术行业的流行词汇。关于“什么是大数据”这个问题,大家比较认可关于大数据的“4V”说法。大数据的4个“V”,或者说是大数据的4个特点,包含4个层面:数据量大(Volume)、数据类型繁多(Variety)、处理速度快(Velocity)和价值密度低(Value)。

在这里插入图片描述

图7 大数据4V特征

大数据不仅仅是数据的“大量化”,而是包含“快速化”、“多样化”和“价值化”等多重属性。

(一)数据量大

根据著名咨询机构互联网数据中心(Internet Data Center,IDC)做出的估测,人类社会产生的数据一直都在以每年50%的速度增长,也就是说,大约每两年就增加一倍,这被称为“大数据摩尔定律”。

这意味着,人类在最近两年产生的数据量相当于之前产生的全部数据量之和。

据IDC预测,2025年全球数据量将高达175ZB,2030年全球数据存储量将达到2500ZB。其中,中国数据量增速最为迅猛,预计2025年将增至48.6ZB,占全球数据圈的27.8%,平均每年的增长速度比全球快3%,中国将成为全球最大的数据圈。

(二)数据类型繁多

大数据的数据来源众多,科学研究、企业应用和Web应用等都在源源不断地生成新的类型繁多的数据。生物大数据、交通大数据、医疗大数据、电信大数据、电力大数据、金融大数据等,都呈现出“井喷式”增长,所涉及的数据量十分巨大,已经从TB级别跃升到PB级别。各行各业,每时每刻,都在生成各种不同类型的数据。

大数据是由结构化和非结构化数据组成的,10%的结构化数据,存储在数据库中,90%的非结构化数据,它们与人类信息密切相关。

如此类型繁多的异构数据,对数据处理和分析技术提出了新的挑战,也带来了新的机遇。传统数据主要存储在关系数据库中,但是,在类似Web 2.0等应用领域中,越来越多的数据开始被存储在NoSQL数据库中,这就必然要求在集成的过程中进行数据转换,而这种转换的过程是非常复杂和难以管理的。传统的联机分析处理(On Line Analytical Processing,OLAP)和商务智能工具大都面向结构化数据,而在大数据时代,用户友好的、支持非结构化数据分析的商业软件将迎来广阔的市场空间。

(三)处理速度快

大数据时代的数据产生速度非常快。在Web 2.0应用领域,在1分钟内,新浪微博可以产生2万条微博,Twitter可以产生10万条推文,苹果可以产生下载4.7万次应用的数据,淘宝可以卖出6万件商品,百度可以产生90万次搜索查询的数据。大名鼎鼎的大型强子对撞机(Large Hadron Collider,LHC),大约每秒产生6亿次的碰撞,每秒生成约700MB的数据,同时有成千上万台计算机在分析这些碰撞。

大数据时代的很多应用都需要基于快速生成的数据给出实时分析结果,用于指导生产和生活实践。因此,数据处理和分析的速度通常要达到秒级响应,这一点和传统的数据挖掘技术有着本质的区别,后者通常不要求给出实时分析结果。

(四)价值密度低

大数据虽然看起来很“美”,但是其数据价值密度远远低于传统关系数据库中的数据。在大数据时代,很多有价值的信息都是分散在海量数据中的。以小区监控视频为例,如果没有意外事件发生,连续不断产生的数据都是没有任何价值的,当发生偷盗等意外情况时,也只有记录了事件过程的那一小段视频有价值。但是,为了能够获得发生偷盗等意外情况时的那一段宝贵的视频,我们不得不投入大量资金购买监控设备、网络设备、存储设备,耗费大量的电能和存储空间,来保存摄像头连续不断传来的监控数据。

三、大数据的影响

大数据对科学研究、思维方式、社会发展、就业市场和人才培养都具有重要而深远的影响。在科学研究方面,大数据使人类科学研究在经历了实验科学、理论科学、计算科学3种范式之后,迎来了第4种范式——数据密集型科学;在思维方式方面,大数据具有“全样而非抽样、效率而非精确、相关而非因果”三大显著特征,完全颠覆了传统的思维方式;在社会发展方面,大数据决策逐渐成为一种新的决策方式,大数据应用有力促进了信息技术与各行业的深度融合,大数据开发大大推动了新技术和新应用不断涌现;在就业方面,大数据的兴起使得数据科学家成为热门人才;在人才培养方面,大数据的兴起将在很大程度上改变我国高校信息技术相关专业的现有教学和科研体制。

在这里插入图片描述

图8 科学研究的4种范式

四、大数据的应用

大数据无处不在,包括制造、金融、汽车、互联网、餐饮、电信、能源、物流、城市管理、生物医学、体育和娱乐等在内的社会各个行业/领域都已经融入了大数据,表3是大数据在各个行业/领域的应用情况。

表3 大数据在各个行业/领域的应用情况
行业/领域大数据的应用
制造利用工业大数据提升制造业水平,包括产品故障诊断与预测、分析工艺流程、改进生产工艺、优化生产过程能耗、工业供应链分析与优化、生产计划与排程
金融大数据在高频交易、社交情绪分析和信贷风险分析三大金融创新领域发挥重要作用
汽车利用大数据和物联网技术实现的无人驾驶汽车,在不远的未来将走人我们的日常生活
互联网借助大数据技术,可以分析客户行为,进行商品推荐和有针对性广告投放
餐饮利用大数据实现餐饮O2O模式,彻底改变传统餐饮经营方式
电信利用大数据技术实现客户离网分析,及时掌握客户离网倾向,出台客户挽留措施
能源随着智能电网的发展,电力公司可以掌握海量的用户用电信息,利用大数据技术分析用户用电模式,可以改进电网运行,合理地设计电力需求响应系统,确保电网运行安全
物流利用大数据优化物流网络,提高物流效率,降低物流成本
城市管理可以利用大数据实现智能交通、环保监测、城市规划和智能安防
生物医学大数据可以帮助我们实现流行病预测、智慧医疗、健康管理,还可以帮助我们解读DNA,了解更多的生命奥秘
体育和娱乐大数据可以帮助我们训练球队,预测比赛结果,以及决定投拍哪种题材的影视作品
安全领域政府可以利用大数据技术构建起强大的国家安全保障体系,企业可以利用大数据抵御网络攻击;警察可以借助大数据来预防犯罪
个人生活大数据还可以应用于个人生活,利用与每个人相关联的“个人大数据”,分析个人生活行为习惯,为其提供更加周到的个性化服务

按照数据开发应用深入程度的不同,可将众多的大数据应用分为三个层次。

  1. 第一层:描述性分析应用 是指从大数据中总结、抽取相关的信息和知识,帮助人们分析发生了什么,并呈现事物的发展历程。如美国的DOMO公司从其企业客户的各个信息系统中抽取、整合数据,再以统计图表等可视化形式,将数据蕴含的信息推送给不同岗位的业务人员和管理者,帮助其更好地了解企业现状,进而做出判断和决策。
  2. 第二层预:测性分析应用 是指从大数据中分析事物之间的关联关系、发展模式等,并据此对事物发展的趋势进行预测。如微软公司纽约研究院研究员David Rothschild通过收集和分析赌博市场、证券交易所、社交媒体用户发布的帖子等大量公开数据,建立预测模型,对多届奥斯卡奖项的归属进行预测。2014和2015年,均准确预测了奥斯卡共24个奖项中的21个。
  3. 第三层:指导性分析应用 是指在前两个层次的基础上,分析不同决策将导致的后果,并对决策进行指导和优化。如无人驾驶汽车分析高精度地图数据和海量的激光雷达、摄像头等传感器的实时感知数据,对车辆不同驾驶行为的后果进行预判,并据此指导车辆的自动驾驶。

五、大数据关键技术

从数据分析全流程的角度,大数据技术主要包括数据采集与预处理、数据存储和管理、数据处理与分析、数据安全和隐私保护等几个层面的内容,具体见表4。

表4 大数据技术的不同层面及其功能
大数据技术层面功能
数据采集与预处理利用ETL工具将分布在异构数据源中的数据,如关系数据、平面数据文件等,抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础;也可以利用日志采集工具(如Flume、Kafka等)把实时采集的数据作为流计算系统的输入,进行实时处理分析
数据存储和管理利用分布式文件系统、数据仓库、关系数据库、NoSQL数据库、云数据库等,实现对结构化、半结构化和非结构化海量数据的存储和管理
数据处理与分析利用分布式并行编程模型和计算框架,结合机器学习和数据挖掘算法,实现对海量数据的处理和分析;对分析结果进行可视化呈现,帮助人们更好地理解数据、分析数据
数据安全和隐私保护在从大数据中挖掘潜在的巨大商业价值和学术价值的同时,构建数据安全体系和隐私数据保护体系,有效保护数据安全和个人隐私

两大核心技术:

  • 分布式存储:GFS\HDFS、BigTable\HBase、NoSQL(键值、列族、图形、文档数据库)、NewSQL(如:SQL Azure)。
  • 分布式处理:MapReduce、Spark、Flink。

在这里插入图片描述

图9 分布式存储(左)和分布式处理(右)

六、大数据计算模式

MapReduce是大家熟悉的大数据处理技术,当人们提到大数据时就会很自然地想到MapReduce,可见其影响力之广。实际上,大数据处理的问题复杂多样,单一的计算模式是无法满足不同类型的计算需求的,MapReduce其实只是大数据计算模式中的一种,它代表了针对大规模数据的批量处理技术,除此以外,还有批处理计算、流计算、图计算、查询分析计算等多种大数据计算模式(见表5)。

表5 大数据计算模式及其代表产品
大数据计算模式解决问题代表产品
批处理计算针对大规模数据的批量处理MapReduce、Spark等
流计算针对流数据的实时计算Flink、Storm、S4、Flume、Streams、Puma、DStream、Super Mario、银河流数据处理平台等
图计算针对大规模图结构数据的处理Pregel、GraphX、Giraph、PowerGraph、Hama、GoldenOrb等
查询分析计算大规模数据的存储管理和查询分析Dremel、Hive、Cassandra、Impala等

(一)批处理计算

批处理计算主要解决针对大规模数据的批量处理,也是我们日常数据分析工作中非常常见的一类数据处理需求。MapReduce是最具有代表性和影响力的大数据批处理技术,可以并行执行大规模数据处理任务,用于大规模数据集(大于1TB)的并行运算。MapReduce极大地方便了分布式编程工作,它将复杂的、运行于大规模集群上的并行计算过程高度地抽象为两个函数——Map和Reduce,编程人员在不会分布式并行编程的情况下,也可以很容易地将自己的程序运行在分布式系统上,完成海量数据集的计算。

Spark是一个针对超大数据集合的低延迟的集群分布式计算系统,比MapReduce快许多。Spark启用了内存分布数据集,除了能够提供交互式查询外,还可以优化迭代工作负载。在MapReduce中,数据流从一个稳定的来源进行一系列加工处理后,流出到一个稳定的文件系统(如HDFS)。而Spark使用内存替代HDFS或本地磁盘来存储中间结果,因此Spark要比MapReduce的速度快许多。

(二)流计算

流数据也是大数据分析中的重要数据类型。流数据(或数据流)是指在时间分布和数量上无限的一系列动态数据集合体,数据的价值随着时间的流逝而降低,因此必须采用实时计算的方式给出秒级响应。流计算可以实时处理来自不同数据源的、连续到达的流数据,经过实时分析处理,给出有价值的分析结果。目前业内已涌现出许多的流计算框架与平台,第一类是商业级的流计算平台,包括IBM InfoSphere Streams和IBM StreamBase等;第二类是开源流计算框架,包括Twitter Storm、Yahoo! S4(Simple Scalable Streaming System)、Spark Streaming、Flink等;第三类是公司为支持自身业务开发的流计算框架,如百度开发了通用实时流数据计算系统DStream,淘宝开发了通用流数据实时计算系统—银河流数据处理平台。

(三)图计算

在大数据时代,许多大数据都是以大规模图或网络的形式呈现的,如社交网络、传染病传播途径、交通事故对路网的影响等。此外,许多非图结构的大数据也常常会被转换为图模型后再进行处理分析。MapReduce作为单输入、两阶段、粗粒度数据并行的分布式计算框架,在表达多迭代、稀疏结构和细粒度数据时,往往显得力不从心,不适合用来解决大规模图计算问题。因此,针对大型图的计算,需要采用图计算模式,目前已经出现了不少相关图计算产品。比如谷歌公司的Pregel就是一个用于分布式图计算的计算框架,主要用于PageRank计算、最短路径和图遍历等。其他代表性的图计算产品还包括Spark生态系统中的GraphX、Flink生态系统中的Gelly、图数据处理系统PowerGraph等。

(四)查询分析计算

针对超大规模数据的存储管理和查询分析,需要提供实时或准实时的响应,才能很好地满足企业经营管理需求。谷歌公司开发的Dremel是一种可扩展的、交互式的实时查询系统,用于只读嵌套数据的分析。通过结合多级树状执行过程和列式数据结构,它能做到几秒内完成对万亿张表的聚合查询。系统可以扩展到成千上万的CPU上,满足谷歌上万用户操作PB级的数据,并且可以在 2~3s 内完成PB级别数据的查询。此外,Cloudera公司参考Dremel系统开发了实时查询引擎Impala,它提供结构化查询语言(Structure Query Language,SQL)语义,能快速查询存储在Hadoop的HDFS和HBase中的PB级大数据。

七、大数据产业

大数据产业是指一切与支撑大数据组织管理和价值发现相关的企业经济活动的集合。大数据产业包括IT基础设施层、数据源层、数据管理层、数据分析层、数据平台层和数据应用层,具体见表6。

表5 大数据计算模式及其代表产品
产业链环节包含内容
IT基础设施层包括提供硬件、软件、网络等基础设施以及提供咨询、规划和系统集成服务的企业,比如,提供数据中心解决方案的IBM、惠普和戴尔等,提供存储解决方案的EMC,提供虚拟化管理软件的微软、思杰、SUN、Redhat等
数据源层大数据生态圈里的数据提供者,是生物大数据(生物信息学领域的各类研究机构)、交通大数据(交通主管部门)、医疗大数据(各大医院、体检机构)、政务大数据(政府部门)、电商大数据(淘宝、天猫、苏宁云商、京东等电商)、社交网络大数据(微博、微信、人人网等)、搜索引擎大数据(百度、谷歌等)等各种数据的来源
数据管理层包括数据抽取、转换、存储和管理等服务的各类企业或产品,比如分布式文件系统(如Hadoop的HDFS和谷歌的GFS)、ETL工具(Informatica、Datastage、Kettle等)、数据库和数据仓库(Oracle、MySQL、SQL Server、HBase、GreenPlum等)
数据分析层包括提供分布式计算、数据挖掘、统计分析等服务的各类企业或产品,比如,分布式计算框架MapReduce、统计分析软件SPSS和SAS、数据挖掘工具Weka、数据可视化工具Tableau、BI工具(MicroStrategy、Cognos、BO)等等
数据平台层包括提供数据分享平台、数据分析平台、数据租售平台等服务的企业或产品,比如阿里巴巴、谷歌、中国电信、百度等
数据应用层提供智能交通、智慧医疗、智能物流、智能电网等行业应用的企业、机构或政府部门,比如交通主管部门、各大医疗机构、菜鸟网络、国家电网等

八、大数据与云计算、物联网

云计算、大数据和物联网代表了IT领域最新的技术发展趋势,三者相辅相成,既有联系又有区别。

在这里插入图片描述

图10 大数据与云计算、物联网

(一)云计算

1. 云计算的概念

云计算实现了通过网络提供可伸缩的、廉价的分布式计算能力,用户只需要在具备网络接入条件的地方,就可以随时随地获得所需的各种IT资源。

在这里插入图片描述

图11 云计算的服务模式和类型(1)

在这里插入图片描述

图12 云计算的服务模式和类型(2)

2. 云计算的关键技术

云计算关键技术包括:虚拟化、分布式存储、分布式计算、多租户等。

在这里插入图片描述

图13 云计算关键技术

(1)虚拟化

虚拟化技术是云计算基础架构的基石,是指将一台计算机虚拟为多台逻辑计算机,在一台计算机上同时运行多台逻辑计算机,每台逻辑计算机可运行不同的操作系统,并且应用程序都可以在相互独立的空间内运行而互不影响,从而显著提高计算机的工作效率。

虚拟化的资源可以是硬件(如服务器、磁盘和网络),也可以是软件。以服务器虚拟化为例,它将服务器物理资源抽象成逻辑资源,让一台服务器变成几台甚至上百台相互隔离的虚拟服务器,不再受限于物理上的界限,而是让CPU、内存、磁盘、I/O等硬件变成可以动态管理的“资源池”,从而提高资源的利用率,简化系统管理,实现服务器整合,让IT对业务的变化更具适应力。

(2)分布式存储

面对“数据爆炸”的时代,集中式存储已经无法满足海量数据的存储需求,分布式存储应运而生。Google文件系统(Google File System,GFS)是谷歌公司推出的一款分布式文件系统,可以满足大型、分布式、对大量数据进行访问的应用的需求。GFS具有很好的硬件容错性,可以把数据存储到成百上千台服务器上面,并在硬件出错的情况下尽量保证数据的完整性。GFS还支持GB或者TB级别超大文件的存储,一个大文件会被分成许多块,分散存储在由数百台机器组成的集群里。Hadoop分布式文件系统(Hadoop Distributed File System,HDFS)是对GFS的开源实现,它采用了更加简单的“一次写入、多次读取”文件模型,文件一旦创建、写入并关闭了,之后就只能对它执行读取操作,而不能执行任何修改操作;同时,HDFS是基于Java实现的,具有强大的跨平台兼容性,只要是JDK支持的平台都可以兼容。

谷歌公司后来又以GFS为基础开发了分布式数据管理系统BigTable,它是一个稀疏、分布、持续多维度的排序映射数组,适合于非结构化数据存储的数据库,具有高可靠性、高性能、可伸缩等特点,可在廉价PC服务器上搭建起大规模存储集群。HBase是针对BigTable的开源实现。

(3)分布式计算

面对海量的数据,传统的单指令单数据流顺序执行的方式已经无法满足快速处理数据的要求;同时,我们也不能寄希望于通过硬件性能的不断提升来满足这种需求,因为晶体管电路已经逐渐接近其物理上的性能极限,摩尔定律已经开始慢慢失效,CPU性能很难每隔18个月翻一番。在这样的大背景下,谷歌公司提出了并行编程模型MapReduce,让任何人都可以在短时间内迅速获得海量计算能力,它允许开发者在不具备并行开发经验的前提下也能够开发出分布式的并行程序,并让其同时运行在数百台机器上,在短时间内完成海量数据的计算。MapReduce将复杂的、运行于大规模集群上的并行计算过程抽象为两个函数——Map和Reduce,并把一个大数据集切分成多个小的数据集,分布到不同的机器上进行并行处理,极大提高数据处理速度,可以有效满足许多应用对海量数据的批量处理需求。Hadoop开源实现了MapReduce编程框架,被广泛应用于分布式计算。

(4)多租户

多租户技术目的在于使大量用户能够共享同一堆栈的软硬件资源,每个用户按需使用资源,能够对软件服务进行客户化配置,而不影响其他用户的使用。多租户技术的核心包括数据隔离、客户化配置、架构扩展和性能定制。

3. 云计算数据中心

云计算数据中心是一整套复杂的设施,包括刀片服务器、宽带网络连接、环境控制设备、监控设备以及各种安全装置等。数据中心是云计算的重要载体,为云计算提供计算、存储、带宽等各种硬件资源,为各种平台和应用提供运行支撑环境。全国各地推进数据中心建设。

在这里插入图片描述

图14 云计算数据中心的机房

4. 云计算应用

云计算在电子政务、教育、企业、医疗等领域的应用不断深化,对提高政府服务水平、促进产业转型升级和培育发展新兴产业等都起到了关键的作用。政务云上可以部署公共安全管理、容灾备份、城市管理、应急管理、智能交通、社会保障等应用,通过集约化建设、管理和运行,可以实现信息资源整合和政务资源共享,推动政务管理创新,加快向服务型政府转型。教育云可以有效整合幼儿教育、中小学教育、高等教育,以及继续教育等优质教育资源,逐步实现教育信息共享、教育资源共享及教育资源深度挖掘等目标。中小企业云能够让企业以低廉的成本建立财务、供应链、客户关系等管理应用系统,大大降低企业信息化门槛,迅速提升企业信息化水平,增强企业市场竞争力。医疗云可以推动医院与医院、医院与社区、医院与急救中心、医院与家庭之间服务共享,并形成一套全新的医疗健康服务系统,从而有效地提高医疗保健的质量。

5. 云计算产业

云计算产业作为战略性新兴产业,近些年得到了迅速发展,形成了成熟的产业链结构,产业涵盖硬件与设备制造、基础设施运营、软件与解决方案供应商、基础设施即服务(IaaS)、平台即服务(PaaS)、软件即服务(SaaS)、终端设备、云安全、云计算交付/咨询/认证等环节。

在这里插入图片描述

图15 云计算产业链

(二)物联网

1. 物联网的概念

物联网是物物相连的互联网,是互联网的延伸,它利用局部网络或互联网等通信技术把传感器、控制器、机器、人员和物等通过新的方式联在一起,形成人与物、物与物相联,实现信息化和远程管理控制。

在这里插入图片描述

图16 物联网技术架构

2. 物联网关键技术

物联网中的关键技术包括识别和感知技术(二维码、RFID、传感器等)、网络与通信技术、数据挖掘与融合技术等。

在这里插入图片描述

图17 物联网关键技术

3. 物联网应用

物联网已经广泛应用于智能交通、智慧医疗、智能家居、环保监测、智能安防、智能物流、智能电网、智慧农业、智能工业等领域,对国民经济与社会发展起到了重要的推动作用。

在这里插入图片描述

图18 物联网应用

4. 物联网产业

完整的物联网产业链主要包括核心感应器件提供商、感知层末端设备提供商、网络提供商、软件与行业解决方案提供商、系统集成商、运营及服务提供商等六大环节。

在这里插入图片描述

图19 物联网产业链

(三)大数据与云计算、物联网的关系

云计算、大数据和物联网代表了IT领域最新的技术发展趋势,三者既有区别又有联系。

在这里插入图片描述

图20 大数据、云计算和物联网三者之间的联系系与区别

第一,大数据、云计算和物联网的区别。大数据侧重于对海量数据的存储、处理与分析,从海量数据中发现价值,服务于生产和生活;云计算旨在整合和优化各种IT资源,并通过网络以服务的方式廉价地提供给用户;物联网的发展目标是实现“物物相连”,应用创新是物联网发展的核心。

第二,大数据、云计算和物联网的联系。从整体上看,大数据、云计算和物联网这三者是相辅相成的。大数据根植于云计算,大数据分析的很多技术都来自云计算,云计算的分布式数据存储和管理系统(包括分布式文件系统和分布式数据库系统)提供了海量数据的存储和管理能力,分布式并行处理框架 MapReduce提供了海量数据分析能力。没有这些云计算技术作为支撑,大数据分析就无从谈起。反之,大数据为云计算提供了“用武之地”,没有大数据这个“练兵场”,云计算技术再先进,也不能发挥它的应用价值。物联网的传感器源源不断产生的大量数据,构成了大数据的重要数据来源,没有物联网的飞速发展,就不会带来数据产生方式的变革,即由人工产生阶段转向自动产生阶段,大数据时代也不会这么快就到来。同时,物联网需要借助云计算和大数据技术,实现物联网大数据的存储、分析和处理。

可以说,云计算、大数据和物联网三者已经彼此渗透、相互融合,在很多应用场合都可以同时看到三者的身影。在未来,三者会继续相互促进、相互影响,更好地服务于社会生产和生活的各个领域。

小结

  • 本文介绍了大数据技术的发展历程,并指出信息科技的不断进步为大数据时代提供了技术支撑,数据产生方式的变革促成了大数据时代的来临。
  • 大数据具有数据量大、数据类型繁多、处理速度快、价值密度低等特点,统称“4V”。
  • 大数据对科学研究、思维方式、社会发展、就业市场和人才培养等方面都产生了重要的影响,深刻理解大数据的这些影响,有助于我们更好地把握学习和应用大数据的方向。
  • 大数据在制造、金融、汽车、互联网、餐饮、电信、能源、物流、城市管理、生物医学、体育和娱乐等在内的社会各个行业/领域都得到了广泛的应用,深刻地改变着我们的社会生产和日常生活。
  • 大数据并非单一的数据或技术,而是数据和大数据技术的综合体。大数据技术主要包括数据采集、数据存储和管理、数据处理与分析、数据安全和隐私保护等几个层面的内容。
  • 大数据产业包括IT基础设施层、数据源层、数据管理层、数据分析层、数据平台层和数据应用层,在不同层面都已经形成了一批引领市场的技术和企业。
  • 本文最后介绍了云计算和物联网的概念和关键技术,并阐述了大数据、云计算和物联网三者之间的区别与联系。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/66592.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

解决Qt打印中文字符出现乱码

在 Windows 平台上,默认的控制台编码可能不是 UTF-8,这可能会导致中文字符的显示问题。 下面是在 Qt 应用程序中设置中文字体,并确保控制台输出为 UTF-8 编码: 1. Qt 应用程序代码 在 Qt 中,我们可以使用 QApplic…

测试用例颗粒度说明

当我们在编写测试用例时,总是会遇到一个问题:如何确定测试用例的颗粒度?测试用例过于粗糙,可能无法全面覆盖系统的细节;而颗粒度过细,又会导致测试重复、冗余。掌握合适的颗粒度,不仅可以提高测…

【大模型(LLM)面试全解】深度解析 Layer Normalization 的原理、变体及实际应用

系列文章目录 大模型(LLMs)基础面 01-大模型(LLM)面试全解:主流架构、训练目标、涌现能力全面解析 02-【大模型(LLM)面试全解】深度解析 Layer Normalization 的原理、变体及实际应用 大模型&…

VoiceBox:基于文本引导的多语种通用大规模语音生成

VoiceBox:基于文本引导的多语种通用大规模语音生成 Voicebox: Text-Guided Multilingual Universal Speech Generation at Scale Voicebox是由MetaAI发布的一个类似大语言模型的生成式语音模型。它是一种基础模型,可以完成类似大语言模型的功能,可以针对语音数据进行编辑、…

ModuleNotFoundError: No module named ‘setuptools_rust‘ 解决方案

大家好,我是爱编程的喵喵。双985硕士毕业,现担任全栈工程师一职,热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的…

基于 GEE 制作研究区影像覆盖图

目录 1 研究区影像覆盖图案例 2 基于 GEE 制作研究区影像覆盖图完整代码 3 运行结果 在写论文的时候,会有一小节内容专门介绍自己的研究区和使用的影像数据。为了让论文非常漂亮,有时候就需要做出研究区的地理位置图和所用卫星影像覆盖图,…

Mysql--基础篇--多表查询(JOIN,笛卡尔积)

在MySQL中,多表查询(也称为联表查询或JOIN操作)是数据库操作中非常常见的需求。通过多表查询,你可以从多个表中获取相关数据,并根据一定的条件将它们组合在一起。MySQL支持多种类型的JOIN操作,每种JOIN都有…

ASA-Cluster集群模式

集群设备数量看授权 整体性能小于单个设备累加 广播选举 优先级1-100 选举完成 不抢占 集群状态 master、standby 接口模式 Spanned EtherChannel、IndividualInterface 心跳线 control link。 数据、控制层面 集群脑裂之后 设备需要手动加入集群 连接的三个角色&#xf…

用于 EV 牵引电机的先进冷却技术

电动汽车牵引电机的冷却挑战 热管理的重要性 有效的热管理在电动汽车 (EV) 设计中至关重要,尤其是在牵引电机方面。这些电机将电能转化为机械运动,对车辆的整体性能和效率至关重要。 管理它们的热量至关重要,不仅可以…

RK3568平台(USB篇)禁用USB端口

一.linux中怎样查看usb的端口号 在USB口插入U盘: [ 198.141319][ T106] usb 3-1.3: new SuperSpeed Gen 1 USB device number 5 using xhci-hcd [ 198.161695][ T106] usb 3-1.3: New USB device found, idVendor=0781, idProduct=5591, bcdDevice= 1.00 [ 198.161721]…

Redis Exporter 安装与配置指南(v1.67.0)

🚀 1. 下载 Redis Exporter 首先,登录到目标服务器,下载 Redis Exporter v1.67.0 安装包。 wget https://github.com/oliver006/redis_exporter/releases/download/v1.67.0/redis_exporter-v1.67.0.linux-amd64.tar.gz📦 2. 解压…

Python 的网页自动化工具 DrissionPage 介绍

DrissionPage 介绍 视频教程 不要再学selenium了,DrissionPage更香_哔哩哔哩_bilibili不要再学selenium了,DrissionPage更香DrissionPage官网 https://www.drissionpage.cn/, 视频播放量 56768、弹幕量 12、点赞数 1012、投硬币枚数 503、收藏人数 316…

【HarmonyOS NEXT】鸿蒙应用使用后台任务之长时任务,解决屏幕录制音乐播放等操作不被挂起

【HarmonyOS NEXT】鸿蒙应用使用后台任务之长时任务,解决屏幕录制音乐播放等操作不被挂起 一、前言 1.后台是什么? 了解后台任务和长时任务前,我们需要先明白鸿蒙的后台特性:所谓的后台,指的是设备返回主界面、锁屏、…

nvm实现nodejs的版本管理

部分老旧项目需要使用低版本的node,网上很多是无效的,高版本无法直接安装低版本node,但是低版本nodejs可以安装部分高版本node,从而达到升级效果。 NVM安装 nvm是什么 nvm全英文也叫node.js version management,是一个…

基于华为ENSP的OSPF接口网络类型深入浅出(4)

本篇技术博文摘要 🌟 OSPF的接口在不同网络类型下的工作方式;不同网络类型下的报文通告方式深入浅出hub-spoke架构 引言 📘 在这个快速发展的技术时代,与时俱进是每个IT人的必修课。我是肾透侧视攻城狮,一名什么都会一…

【深度学习】多目标融合算法(二):底部共享多任务模型(Shared-Bottom Multi-task Model)

目录 一、引言 1.1 往期回顾 1.2 本期概要 二、Shared-Bottom Multi-task Model(SBMM) 2.1 技术原理 2.2 技术优缺点 2.3 业务代码实践 三、总结 一、引言 在朴素的深度学习ctr预估模型中(如DNN),通常以一个行…

TVbox 手机、智能电视节目一网打尽

文章目录 一、简要介绍二、优点三、下载地址 一、简要介绍 TVbox是目前最火爆的多端、多源的电视影音工具,是一款开源的自定义添加站源的影音工具。TVBox,支持电视频道直播。一款TV端影视工具,软件本身不具有任何影视资源,但可以…

2025新春烟花代码(二)HTML5实现孔明灯和烟花效果

效果展示 源代码 <!DOCTYPE html> <html lang"en"> <script>var _hmt _hmt || [];(function () {var hm document.createElement("script");hm.src "https://hm.baidu.com/hm.js?45f95f1bfde85c7777c3d1157e8c2d34";var …

ue5 蒙太奇,即上半身动画和下半身组合在一起,并使用。学习b站库得科技

本文核心 正常跑步动画端枪动画跑起来也端枪 正常跑步动画 端枪动画的上半身 跑起来也端枪 三步走&#xff1a; 第一步制作动画蒙太奇和插槽 第二步动画蓝图选择使用上半身动画还是全身动画&#xff0c;将上半身端枪和下半身走路结合 第三步使用动画蒙太奇 1.开始把&a…

YOLOv8实战人员跌倒检测

本文采用YOLOv8作为核心算法框架&#xff0c;结合PyQt5构建用户界面&#xff0c;使用Python3进行开发。YOLOv8以其高效的实时检测能力&#xff0c;在多个目标检测任务中展现出卓越性能。本研究针对人员跌倒目标数据集进行训练和优化&#xff0c;该数据集包含丰富人员跌倒图像样…