简介
弹性资源组件提供动态资源能力,是分布式系统关键基础设施,分布式datax,分布式索引,事件引擎都需要集群和资源的弹性资源能力,提高伸缩性和作业处理能力。
本文介绍弹性资源组件的设计,包括架构设计和详细设计,指导开发人员代码开发,设计基于《flink原理源码分析(一) 集群与资源@k8s》,抽出作业管理器,包括其内部的调度器,通用化为资源消费者,标准化与资源管理器和任务管理器的交互接口;增加约束,如,组件间通讯rpc组件,高可用组件,心跳组件等,最大程度使用原flink代码,后续的迭代不断标准化,抽象化交互接口,支持不同的实现。
本文是弹性资源组件设计最后一章,描述任务管理器的设计和资源消费者规范
技术架构
弹性资源组件的技术架构图,其中作业管理器接入系统提供,需实现与资源管理器和任务管理器的交互, 还有一些技术要求。
总体架构是master-worker,master的高可用是k8s的复制机制提供,选主机制k8s提供,作业管理器和资源管理器参与选主,作业管理器/任务管理器接入资源管理器主节点监听,获取最新资源管理器;作业管理器接入作业管理器主节点监听,获取最新的作业管理器主节点
数据架构,资源是组件的核心数据,分两条线a线 现有资源,b线 待定资源
- 4资源请求->5a 分配可用资源-> 6a 请求使用资源-> 7a 提供资源->8a 提交任务
- 4资源请求->5b 分配待定资源-> 6b 请求新worker-> 7b 启动任务管理器->8b 注册/报告资源
a线是分配现有资源;b线请求新资源,新资源注册后是现有资源,在a线分配
组件架构
上图弹性资源组件架构,作为SDK,提供RPC,slot池,心跳,高可用等组件支持,这些组件有约束的,有可选用的
任务管理器模块
任务管理器,资源的拥有者,负责报告资源槽,执行任务
《提供资源》是《请求使用资源》的关联用例,任务管理器向资源消费者确认提供资源消费者所需资源
请求使用资源/提供资源
资源管理器分配资源,匹配了合适的空闲资源slot,资源管理器请求资源所在的任务管理器使用资源,任务管理器确认使用后,通知资源使用者
- 资源管理器向资源所在的任务管理器TaskExecutor发出使用请求requestSlot
- TaskExecutor调用allocateSlotForJob,登记资源使用,登记信息包括jobId, slotId, allocationId, resourceProfile, targetAddress等
- TaskExecutor rpc-offerSlots通知ResourceConsumer确认提供该资源
- ResourceConsumer转交SlotPool的offerSlots处理,同样,最终处理是DeclarativeSlotPool
- DeclarativeSlotPool的matchOfferWithOutstandingRequirements匹配offerSlot与未完成的资源请求,构建AllocatedSlot
- 最后AllocatedSlot放入分配池AllocatedSlotPool,返回接收的offerSlots给TaskExecutor处理,没有匹配部分没有使用,无需返回
本节描述基于资源消费者使用弹性资源提供的slot池组件,管理获提供的资源,资源消费者也可自行实现资源管理
提交任务/载入和启动任务
资源消费者获得资源后,提交任务配置,包括任务的类型和参数,任务管理器启动任务
资源消费者规范
本节介绍系统使用弹性资源组件的规范,系统接入弹性资源组件,提供资源消费者实现
- 资源消费者需接入弹性资源的高可用机制,任务管理器监听资源消费者主节点变更
- 资源消费者需使用弹性资源的rpc组件实现规范的输入和输出接口
- 资源消费者与资源管理器和任务管理器间的心跳(HeatBeat),以及实现心跳超时资源的释放,重连