大数据的定义
大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。
大数据的概念–4V+XV
- 1,数据量大(Volume)
- 2,类型繁多(Variety )
- 3,速度快时效高(Velocity)
- 4,价值密度低(ValueLess )
- 可变性(Variability)
- 真实性(Veracity
大数据的概念–数量、类型
大数据产生模式的三个阶段
-
运营式系统阶段
管理信息应用系统 -
用户原创内容阶段
WEB 2.0, 微博、微信等 -
感知式系统阶段
传感器,物联网
大数据对科学研究的影响
- 第一种范式:实验科学
- 第二种范式:理论科学
- 第三种范式:计算科学
- 第四种范式:数据密集型科学
大数据对思维方式的影响
- 全样而非采样;
- 效率而非准确;
- 相关而非因果;
大数据计算模式
- 批处理计算;MapReduce
- 流计算;Storm,Flink,Spark streaming
- 图计算;Pregel,Spark GraphX
- 查询分析计算;Dremel,Hive,Impala
Hadoop的定义
Apache 开源软件基金会开发的,运行于大规模普通服务器上的大数据存储、计算、分
析的分布式存储系统和分布式运算框架
Hadoop2.0 由三个部分组成
- 分布式文件系统 HDFS
- 资源分配系统 Yarn
- 分布式运算框架 MapReduce
Hadoop 与谷歌三大论文
Hadoop 的特点
- 扩容能力(Scalable):能可靠地(reliably)存储和处理千兆字节(PB)数据。
- 成本低(Economical):可以通过普通机器组成的服务器群来分发以及处理数据。这些服务器群总计可达数千个节点。
- 高效率(Efficient):通过分发数据,hadoop 可以在数据所在的节点上并行地(parallel)处理它们,这使得处理非常的快速。
- 可靠性(Reliable):hadoop 能自动地维护数据的多份副本,并且在任务失败后能自动地重新部署(redeploy)计算任务。