1、Elastic-job介绍
Elastic-job 是由当当网基于quartz 二次开发之后的分布式调度解决方案 , 由两个相对独立的子项目Elastic-Job-Lite和Elastic-Job-Cloud组成 。Elastic-Job-Lite定位为轻量级无中心化解决方案,使用jar包的形式提供分布式任务的协调服务。 Elastic-job主要的设计理念是无中心化的分布式定时调度框架,思路来源于Quartz的基于数据库的高可用方案。但数据库没有分布式协调功能,所以在高可用方案的基础上增加了弹性扩容和数据分片的思路,以便于更大限度的利用分布式服务器的资源。(最新版本:V3.0.0)官方文档:https://shardingsphere.apache.org/elasticjob/current/en/overview/,github地址:https://github.com/apache/shardingsphere-elasticjob
2、XXL-Job介绍
XXL-Job是大众点评员工许雪里开发的一个轻量级分布式任务调度平台,其核心设计目标是开发迅速、学习简单、轻量级、易扩展。现已开放源代码并接入多家公司线上产品线,开箱即用。(最新版本:V 2.3.0)官方文档:《分布式任务调度平台XXL-JOB》 ,github地址:https://github.com/xxl-job/xxl-job-admin
3、XXL-Job VS Elastic-job
对比项目 | XXL-Job | Elastic-Job |
项目背景 | 大众点评公司下员工xuxueli,贡献者3人 | 当当网开源、贡献者17人 |
依赖 | mysql ,jdk1.7+ , maven3.0+ | jdk1.7+, zookeeper 3.4.6+ ,maven3.0.4+ ,mesos |
集弹性扩容、缩容 | 使用Quartz基于数据库的分布式功能,服务器超出一定数量会给数据库造成一定压力,在V2.1.0版本中,自研调度组件,移除Quartz依赖。一旦有新执行器机器上线或者下线,下次调度时将会重新分配任务; | 通过zk实现各服务的注册、控制及协调 |
报警 | 调度失败时,将会触发失败报警,如发送报警邮件 | 通过监听zk实现各服务的注册、控制及协调 |
日志可追溯 | 支持,有日志查询界面 | 可通过事件订阅的方式处理调度过程中的重要事件,用于查询、统计和监控。 |
支持并行调度 | 调度系统多线程触发调度运行(默认10个),确保调度精确执行,不被阻塞 | 将任务分片为多个小任务在多台服务器上同时执行 |
动态分片策略 | 分片广播任务以执行器为维度进行分片,支持动态扩容器执行器集群从而动态增加分片数量,协同进行业务处理;在进行大数据量业务操作时可显著提升任务处理能力和速度。 | 提供基于平均分配、作业名HASH后IP升降序分片、作业名Hash后对Job实例列表进行轮转;还提供自定义分片策略 |
失败处理策略 | 失败告警(默认)、失败重试(界面可配置) | Elastic-Job-Cloud由Mesos Framework负责作业高可用和分片。在某台服务器执行完毕后主动抓取未分配的分片,并在某台服务器下线后主动寻找可用的服务器执行任务。 |
管理界面 | 支持 | 支持 |
高级功能 | 弹性扩容,多种作业模式,失效转移,运行状态收集,多线程处理数据,幂等性,容错处理,spring命名空间支持 | 弹性扩容,分片广播,故障转移,Rolling实时日志,GLUE(支持在线编辑代码,免发布),任务进度监控,任务依赖,数据加密,邮件报警,运行报表,国际化 |
帮助文档 | xxl-job-码云(gitee.com) | 开发者手册 :: ElasticJob |
缺点 | 调度中心通过获取 DB锁来保证集群中执行任务的唯一性, 如果短任务很多,随着调度中心集群数量增加,那么数据库的锁竞争会比较厉害,性能不好。 | 需要引入zookeeper , mesos, 增加系统复杂度, 学习成本较高 |
3.1 对比结论
XXL-Job:侧重的业务实现的简单和管理的方便,学习成本简单,失败策略和路由策略丰富。推荐使用在“用户基数相对少,服务器数量在一定范围内”的情景下使用。
Elastic-Job:关注的是数据,增加了弹性扩容和数据分片的思路,以便于更大限度的利用分布式服务器的资源。但是学习成本相对高些,推荐在“数据量庞大,且部署服务器数量较多”时使用。
4、特性介绍
XXL-JOB :xxl-job分布式任务调度平台、各版本特性参见:分布式任务调度平台XXL-JOB
主要特性:
简单:支持通过Web页面对任务进行CRUD操作,操作简单,一分钟上手;
调度中心HA(中心式):调度采用中心式设计,“调度中心”基于集群Quartz实现并支持集群部署,可保证调度中心HA;
执行器HA(分布式):任务分布式执行,任务"执行器"支持集群部署,可保证任务执行HA;
弹性扩容缩容:一旦有新执行器机器上线或者下线,下次调度时将会重新分配任务;
分片广播任务:执行器集群部署时,任务路由策略选择"分片广播"情况下,一次任务调度将会广播触发集群中所有执行器执行一次任务,可根据分片参数开发分片任务;
动态分片:分片广播任务以执行器为维度进行分片,支持动态扩容执行器集群从而动态增加分片数量,协同进行业务处理;在进行大数据量业务操作时可显著提升任务处理能力和速度。
动态:支持动态修改任务状态、暂停/恢复任务,以及终止运行中任务,即时生效;
注册中心: 执行器会周期性自动注册任务, 调度中心将会自动发现注册的任务并触发执行。同时,也支持手动录入执行器地址;
一致性:“调度中心”通过DB锁保证集群分布式调度的一致性, 一次任务调度只会触发一次执行;
其他特性:
路由策略:执行器集群部署时提供丰富的路由策略,包括:第一个、最后一个、轮询、随机、一致性HASH、最不经常使用、最近最久未使用、故障转移、忙碌转移等;
故障转移:任务路由策略选择"故障转移"情况下,如果执行器集群中某一台机器故障,将会自动Failover切换到一台正常的执行器发送调度请求。
阻塞处理策略:调度过于密集执行器来不及处理时的处理策略,策略包括:单机串行(默认)、丢弃后续调度、覆盖之前调度;
任务超时控制:支持自定义任务超时时间,任务运行超时将会主动中断任务;
任务失败重试:支持自定义任务失败重试次数,当任务失败时将会按照预设的失败重试次数主动进行重试;其中分片任务支持分片粒度的失败重试;
任务失败告警;默认提供邮件方式失败告警,同时预留扩展接口,可方面的扩展短信、钉钉等告警方式;
事件触发:除了"Cron方式"和"任务依赖方式"触发任务执行之外,支持基于事件的触发任务方式。调度中心提供触发任务单次执行的API服务,可根据业务事件灵活触发。
任务进度监控:支持实时监控任务进度;
脚本任务:支持以GLUE模式开发和运行脚本任务,包括Shell、Python、NodeJS、PHP、PowerShell等类型脚本;
调度线程池:调度系统多线程触发调度运行,确保调度精确执行,不被堵塞;
数据加密:调度中心和执行器之间的通讯进行数据加密,提升调度信息安全性;
邮件报警:任务失败时支持邮件报警,支持配置多邮件地址群发报警邮件;
运行报表:支持实时查看运行数据,如任务数量、调度次数、执行器数量等;以及调度报表,如调度日期分布图,调度成功分布图等;
全异步:任务调度流程全异步化设计实现,如异步调度、异步运行、异步回调等,有效对密集调度进行流量削峰,理论上支持任意时长任务的运行;
Elastic-Job:新一代分布式任务调度框架:当当elastic-job开源项目的10项特性
1、分布式:最重要的功能,如果任务不能在分布式的环境下执行,那么直接使用Quartz就可以了。
2、任务分片:是elastic-job中最重要也是最难理解的概念。任务的分布式执行,需要将一个任务拆分为n个独立的任务项,然后由分布式的服务器分别执行某一个或几个分片项。
3、弹性扩容缩容:将任务拆分为n个任务项后,各个服务器分别执行各自分配到的任务项。一旦有新的服务器加入集群,或现有服务器下线,elastic-job将在保留本次任务执行不变的情况下,下次任务开始前触发任务重分片。
4、稳定性:在服务器无波动的情况下,并不会重新分片;即使服务器有波动,下次分片的结果也会根据服务器IP和作业名称哈希值算出稳定的分片顺序,尽量不做大的变动。
5、高性能:elastic-job会将作业运行状态的必要信息更新到注册中心,但为了考虑性能问题,可以牺牲一些功能,而换取性能的提升。
6、幂等性:elastic-job可牺牲部分性能用以保证同一分片项不会同时在两个服务器上运行。
7、失效转移:弹性扩容缩容在下次作业运行前重分片,但本次作业执行的过程中,下线的服务器所分配的作业将不会重新被分配。失效转移功能可以在本次作业运行中用空闲服务器抓取孤儿作业分片执行。同样失效转移功能也会牺牲部分性能。
8、状态监控:监控作业的运行状态,可以监控数据处理功能和失败次数,作业运行时间等。是幂等性,失效转移必须的功能。
9、多作业模式:作业可分为简单和数据流处理两种模式,数据流又分为高吞吐处理模式和顺序性处理模式,其中高吞吐处理模式可以开启足够多的线程快速的处理数据,而顺序性处理模式将每个分片项分配到一个独立线程,用于保证同一分片的顺序性,这点类似于kafka的分区顺序性。
其他一些功能,如错过任务重执行,单机并行处理,容错处理,Spring命名空间支持,运维平台等。
从功能角度来看:
弹性调度
支持任务在分布式场景下的分片和高可用
能够水平扩展任务的吞吐量和执行效率
任务处理能力随资源配备弹性伸缩
资源分配
在适合的时间将适合的资源分配给任务并使其生效
相同任务聚合至相同的执行器统一处理
动态调配追加资源至新分配的任务
作业治理
失效转移
错过作业重新执行
自诊断修复
作业依赖(TODO)
基于有向无环图(DAG)的作业间依赖
基于有向无环图(DAG)的作业分片间依赖
作业开放生态
可扩展的作业类型统一接口
丰富的作业类型库,如数据流、脚本、HTTP、文件、大数据等
易于对接业务作业,能够与 Spring 依赖注入无缝整合
可视化管控端
作业管控端
作业执行历史数据追踪
注册中心管理
之前也有人做过一些总结:
1、elastic-job 和 xxl-job 的对比
2、java定时任务框架quartz、elastic-job和xxl-job的分析对比