learn from 从0开始学大数据(极客时间)
大规模数据存储问题:
- 容量问题,数据量超过磁盘容量
- 读写速度,磁盘读写慢
- 数据可靠性,磁盘寿命问题
RAID(独立磁盘冗余阵列) 是将多块普通磁盘组成一个阵列,共同对外提供服务。主要是为了改善磁盘的存储容量、读写速度,增强磁盘的可用性和容错能力
RAID 技术只是在单台服务器的多块磁盘上组成阵列(垂直伸缩)
大数据需要更大规模的存储空间和更快的访问速度。
将 RAID 思想原理应用到分布式服务器集群上,就形成了 Hadoop 分布式文件系统 HDFS 的架构思想。(水平伸缩)