阿帕奇跨域
Apache Beam是一个开放源代码统一模型,用于定义批处理和流数据并行处理管道。 使用一种开源的Beam SDK,您可以构建一个定义管道的程序。 然后,该管道由Beam支持的分布式处理后端之一执行,这些后端包括Apache Apex , Apache Flink , Apache Spark和Google Cloud Dataflow 。
Beam对于令人尴尬的并行数据处理任务特别有用,在该任务中,问题可以分解为许多较小的数据束,可以独立和并行处理。 您还可以将Beam用于提取,转换和加载(ETL)任务以及纯数据集成。 这些任务对于在不同的存储介质和数据源之间移动数据,将数据转换为更理想的格式或将数据加载到新系统上非常有用。
Apache Beam管道运行器
Beam Pipeline Runners将您使用Beam程序定义的数据处理管道转换为与您选择的分布式处理后端兼容的API。 运行Beam程序时,需要为要在其中执行管道的后端指定适当的运行器。
Beam当前支持与以下分布式处理后端一起使用的Runner:
- Apache Apex
- Apache Flink
- Apache Gearpump(正在孵化)
- Apache Spark
- Google Cloud Dataflow
[1] https://beam.apache.org
翻译自: https://www.javacodegeeks.com/2018/02/apache-beam.html
阿帕奇跨域