learn from 从0开始学大数据(极客时间)
- 数据太大(PB级别),将程序发送到数据所在地方进行计算,比移动数据更划算
如何实现的:
- 将大规模数据存储在集群的所有服务器上,(HDFS系统,块存储)
- 大数据引擎根据服务器的计算能力,在每台服务器启动若干分布式任务执行进程待命
- 大数据计算框架编程,打包编程模型,如 Java 的 JAR 包
- 用 Hadoop 或 Spark 执行 JAR 包(解析数据输入路径、大小、数据切分、数据片分配给任务执行进程)
- 任务执行进程,检查是否有对应的程序包,没有则下载,通过反射的方式加载程序
- 加载程序后,读取数据,执行程序