作者系 JP Morgan 大数据工程师,文章内容来源于[DET 网络研讨会] 与 Apache SeaTunnel 的数据集成:https://www.youtube.com/watch?v=ln4mn6vLenc(有兴趣的同学可以观看演讲)
文章介绍了他任职期间使用 Apache SeaTunnel 优化数据操作,利用其与 Spark 集群的无缝集成,从 PostgreSQL、DynamoDB 等源摄取数据并加载至 S3。
SeaTunnel 提供的数据类型转换功能确保数据完整性,JP Morgan 计划进一步探索 Zeta 和 Flink 集群,扩展数据源,并贡献于 SeaTunnel 社区。
背景
摩根大通(JP Morgan)银行是一家拥有超过 200,000 名员工的金融巨头,其中包括 30,000 多名数据专业人员(工程师、分析师、科学家和顾问),正在与复杂的遗留系统和新兴的数据环境作斗争。
这个世界级银行巨头在 10 多个不同的数据平台组成的迷宫中运营,迫切需要一种强大、安全且高效的数据集成方法。
挑战
对摩根大通银行来说,主要挑战在于导航复杂的隐私和访问控制网络,尽管这些控制对数据保护至关重要,但往往会延迟数据摄取过程。
再加上公司向 AWS 的过渡阶段,尽管已经进行了两年,但仍在进行中,同时还在试验像 Snowflake 这样的现代数据库解决方案,显而易见,迫切需要一个灵活的数据集成解决方案。
寻求解决方案
在追求敏捷性的过程中,摩根大通银行评估了几种选择。其一是Fivetran ,一种流行的云服务,尽管效率很高,但针对数据量收费的费用很高,而且对新增数据源类型的支持较慢,使得试用陷入困境。
其二考虑了Airbyte,尽管 Airbyte 具有开源魅力,但由于它没有使用 Spark 或 Flink 等强大的数据处理引擎,因此在可扩展性方面存在不足。这就需要一种可以利用我们的 Spark 集群来实现最佳性能的替代方案。
SeaTunnel:游戏规则改变者
摩根大通银行发现了Apache SeaTunnel:一种与现有的Spark基础设施兼容的开源商业化的多功能数据集成工具。一个关键优势是它与Java代码库的无缝集成,允许从摩根大通银行的主要编码环境直接触发数据迁移作业。
架构与实施
SeaTunnel的数据架构简单而强大。摩根大通银行利用 SeaTunnel从 Oracle、DB2、PostgreSQL、DynamoDB 和 SFTP 文件等源获取数据,在 Spark 集群上处理数据,并最终将其加载到 S3(摩根大通银行的集中式数据存储库)中。随后集成到 Snowflake 和 Amazon Athena 进行高级分析。
Apache SeaTunnel的一个突出功能是它能够显式处理数据类型转换,确保不同系统之间的数据完整性——这是摩根大通银行多元化数据生态系统的重要组成部分。
未来路线图
展望未来,摩根大通银行的目标是减少延迟,并探索 SeaTunnel的Zeta引擎和Flink 集群等引擎在推荐和搜索等实时用例中的潜力。此外,摩根大通银行计划与Apache 一起扩展数据源库,将 Kafka 和 AWS SQS 合并到SeaTunnel框架中。
结论
在不断发展的数据环境中,Apache SeaTunnel已成为摩根大通银行数据战略的关键组件,证明了其作为可扩展、Java 友好的数据集成工具的价值。
本文由 白鲸开源科技 提供发布支持!