一.大数据概述
(一)大数据概念
1.技术支撑:存储、计算、网络。
2.数据产生方式
- 第一阶段:运营式系统阶段
- 第二阶段:用户原创内容阶段
- 第三阶段:感知式系统阶段(物联网的实现普及)
3.大数据的特性(4V)
- 快速化(variety)
处理速度非常快(秒级决策)。 - 大量化(volume)
大数据摩尔定律:每两年数据增长一倍。
大数据是由结构化和非结构化(占比大)数据组成。 - 多样化(velocity)
- 价值密度低(value)
价值密度低,商业价值高。
5.影响
1)几种科学研究范式:
- 实验范式
- 理论范式
- 计算范式
- 数据范式:大数据带来了第四种科学研究范式,以数据为驱动去发现问题。
2)影响
- 全样而非抽样。传统思维上,数据太多,无法保存和分析,统计学采用抽样。
- 效率而非精确。追求高效率,全样不会放大误差,数据时效性高。
- 相关而非因果。
(三)关键技术
- 数据采集
- 数据存储于管理
- 数据处理与分析
- 数据隐私与安全
1.两大关键技术
- 分布式存储
- 分布式处理
2.典型计算模式
- 批处理,MapReduce和Spark就是典型的批处理计算模式的典型代表,不能满足时效性要求。Spark时效性比MapReduce要好,Spark可以高效的做迭代计算。
- 流计算,需要实时处理,实时响应。
- 图计算
- 查询分析计算,如Hive,实时性高。
(五)大数据与云数据、物联网的关系
1.云计算:通过网络以服务的方式为用户提供非常廉价的IT资源。
1)解决两大核心问题。
- 分布式存储
- 分布式处理
2)典型特征:虚拟化、多租户。
3)云计算的三种模式
- 共有云
- 私有云
- 混合云
4)三种云服务
- SaaS:软件即服务,提供云软件服务,面向用户。
- PaaS:平台即服务,面向应用开发者。
- IaaS:即基础设施即服务,将基础设施(计算资源和存储)作为服务出租。面向网络架构师。
2.物联网
物联网(IoT):万物相连的互联网,是互联网的延伸。
1)层次架构:
- 应用层
- 处理层
- 网络层
- 感知层
2)关键技术
- 识别和感知技术
3.关系:大数据继承自云计算,大数据的飞速发展,使得云计算中的分布式存储和分布式处理有了用武之地,大数据技术为物联网数据分析提供了支撑。
4.云计算、大数据和物联网推动了第三次信息化浪潮。