文章目录
- 1. 大数据概述
- 1.1 大数据概念和影响
- 1.2 大数据的应用
- 1.3 大数据的关键技术
- 1.4 大数据与云计算和物联网的关系
- 云计算
- 物联网
1. 大数据概述
- 大数据的四大特点:大量化、快速化、多样化、价值密度低
1.1 大数据概念和影响
- 大数据摩尔定律
-
大数据由结构化和非结构化的数据组成,非结构化的数据占比大,如图像数据
-
结构化的数据就是关系数据库表中的图表数据
-
非结构化的数据种类繁多
-
大数据从数据的生成到消耗,时间窗口非常小,可用于生成决策的时间非常少,必须实现
秒级决策
-
价值密度低,商业价值高
-
大数据的影响
- 全样非抽样:因为现在存储廉价,数据可以全部保存,不在需要抽样进行统计分析
- 效率而非精确:因为从前的抽样的结果误差放在全样上会被放大,现在基于全样的分析不存在效率问题
- 相关而非因果:大数据时代追求的更多的追求数据之间的相关性,而非因果关系
1.2 大数据的应用
1.3 大数据的关键技术
- 四个关键技术
- 两大核心技术:分布式存储和分布式处理
-
分布式存储:解决海量数据的存储问题
- 分布式数据库,以及分布式文件系统
-
分布式处理:解决海量数据的处理问题
- 分布式并行处理技术
-
-
不同的计算模式需要不同产品:批处理、流计算、图计算、查询分析计算
- MapReduce是批处理计算模式的典型代表,其无法满足实时要求
- 流计算:流数据需要实时处理,给出实时响应,否则分析结果会失去商业价值
- S4+Storm+Flume
- 图计算:代表Goole Pregel 设计可以高效处理图流数据的产品
- 查询分析计算:秒级响应,实现交互式计算,如Google Dremel、Hive、Cassandra
1.4 大数据与云计算和物联网的关系
云计算
-
云计算:解决海量数据的分布式存储问题和分布式处理问题
- 典型特征:虚拟化、多租户
- 概念:云计算是通过网络以服务的方式为用户提供非常廉价的IT资源
- 优势:企业无需自建IT基础设施,可以租用云端资源
- 云的三种模式
-
云计算的三种模式
-
公有云:构建的云平台是面对所有公众服务的:如百度云
-
私有云:企业内部自己构建的面对企业内部员工的云平台
-
混合云:构建的云平台部分给自己用,部分给外面用
-
-
三种云服务:
-
IaaS:基础设施即服务
- 将基础设施(计算资源和存储)作为服务出租
-
PaaS:平台即服务
-
开发云产品:在别人提供的云服务环境中,利用其提供的接口,开发各种云服务产品,也部署到其分布式环境中去
-
-
SaaS:软件即服务
- 将云中心财务软件买卖给你
-
-
虚拟化和多租户:
-
云计算数据中心:各种数据和应用,并非在天上云端,而是位于数据中心里
- 其应用广泛
物联网
-
概念:物联网(IoT:The Internet of Things)物联网就是物物相连的互联网,是互联网的延伸
-
物联网的层次架构
-
物联网的关键技术:识别和感知技术
-
物联网的应用:
-
云计算和物联网的关系: