特点
通用 批处理 迭代式计算 交互查询 流处理
组件
spark core:任务调度 内存管理 容错机制 内部定义了RDDs 提供了很多API ,为其他组件提供底层的服务
spark sql:报表统计
streaming :从kafka接收数据做实时统计
mlib:mll 支持横向扩展,机器学习
graphx:处理图 图计算 如社交网络图
cluster managers:集群管理
紧密集成优点
节省组件组合时的部署测试时间
与hadoop比较
时效性高(基于内存) 机器学习等领域
RDD
分布式数据集。不可变、可分区、可并行计算
允许用户在执行多个查询时显式将工作集缓存在内存中
后续查询能重用工作集
RDD属性
分片partition