Apache Seatunnel Zeta引擎-启动脚本分析

Apache SeaTunnel Zeta引擎的集群模式启动的第一步是执行bin/seatunnel-cluster.sh脚本,所以先来学习下这个脚本。

脚本执行流程分析

脚本简要注释

#!/bin/bash
#
# Licensed to the Apache Software Foundation (ASF) under one or more
# contributor license agreements.  See the NOTICE file distributed with
# this work for additional information regarding copyright ownership.
# The ASF licenses this file to You under the Apache License, Version 2.0
# (the "License"); you may not use this file except in compliance with
# the License.  You may obtain a copy of the License at
#
#    http://www.apache.org/licenses/LICENSE-2.0
#
# Unless required by applicable law or agreed to in writing, software
# distributed under the License is distributed on an "AS IS" BASIS,
# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
# See the License for the specific language governing permissions and
# limitations under the License.
#
##########
# set -e 当脚本出现异常时马上退出,后续命令不再执行
# set -u 把未定义的变量视作错误,默认情况下Bash会把未定义的变量视为空,不会报错
##########
set -eu
# resolve links - $0 may be a softlink
#$0返回当前值行的shell脚本的名称
PRG="$0"# -h 表示 如果 FILE 存在且是一个符号连接则为真
while [ -h "$PRG" ] ; do# shellcheck disable=SC2006ls=`ls -ld "$PRG"` # -d 仅列出当前目录本身# shellcheck disable=SC2006link=`expr "$ls" : '.*-> \(.*\)$'`  # 提取软连接的目标路径# 如果 link 以 / 开头,则 为true 否则为 falseif expr "$link" : '/.*' > /dev/null; thenPRG="$link"  # 以 / 开头表明 路径为全路径else# shellcheck disable=SC2006PRG=`dirname "$PRG"`/"$link"  # 不以 / 开头说明 link只是 文件名称,需要拼接全路径fi
donePRG_DIR=`dirname "$PRG"`  # 返回启动脚本的父目录bin
APP_DIR=`cd "$PRG_DIR/.." >/dev/null; pwd` # 进入启动脚本的父目录bin 的上级目录,即软件HOME目录
CONF_DIR=${APP_DIR}/config # 配置文件路径
APP_JAR=${APP_DIR}/starter/seatunnel-starter.jar  # starter jar 路径
APP_MAIN="org.apache.seatunnel.core.starter.seatunnel.SeaTunnelServer"  # starter jar main class
OUT="${APP_DIR}/logs/seatunnel-server.out" # 定义控制台日志输出文件
HELP=falseif [ -f "${CONF_DIR}/seatunnel-env.sh" ]; then  # 判断是否存在 seatunnel-env.sh# . seatunnel-env.sh 在当前进程中执行 shell脚本,从而使脚本中定义的变量函数在当前shell中生效而不是在子shell 中# 使得脚本中的环境设置对当前进程持续生效. "${CONF_DIR}/seatunnel-env.sh"  # 如果存在则加载其中的环境变量
fi# $# 参数的个数
if [ $# == 0 ]  # 判断参数的个数是否为0
thenargs=""
elseargs=$@  # $@ 脚本传入的所有参数
fiset +u  # 取消对未设置变量的使用报错
# SeaTunnel Engine Config
if [ -z $HAZELCAST_CONFIG ]; then  # -z 字符串长度为 0 则为真HAZELCAST_CONFIG=${CONF_DIR}/hazelcast.yaml  # 当不存在变量 $HAZELCAST_CONFIG 时 ,设置该变量的值
fiif [ -z $SEATUNNEL_CONFIG ]; thenSEATUNNEL_CONFIG=${CONF_DIR}/seatunnel.yaml  # 当不存在变量 $SEATUNNEL_CONFIG 时 ,设置该变量的值
fiif test ${JvmOption} ;then  # 如果变量不为空 则 test 返回trueJAVA_OPTS="${JAVA_OPTS} ${JvmOption}"
fifor i in "$@"  # 循环脚本传输的参数
doif [[ "${i}" == *"JvmOption"* ]]; then  # 如果参数包含 JvmOption 则将该变量的值赋给 JVM_OPTIONJVM_OPTION="${i}"JAVA_OPTS="${JAVA_OPTS} ${JVM_OPTION#*=}"elif [[ "${i}" == "-d" || "${i}" == "--daemon" ]]; thenDAEMON=trueelif [[ "${i}" == "-h" || "${i}" == "--help" ]]; thenHELP=truefi
doneJAVA_OPTS="${JAVA_OPTS} -Dseatunnel.config=${SEATUNNEL_CONFIG}"
JAVA_OPTS="${JAVA_OPTS} -Dhazelcast.config=${HAZELCAST_CONFIG}"# Log4j2 Config
JAVA_OPTS="${JAVA_OPTS} -Dlog4j2.contextSelector=org.apache.logging.log4j.core.async.AsyncLoggerContextSelector"
if [ -e "${CONF_DIR}/log4j2.properties" ]; thenJAVA_OPTS="${JAVA_OPTS} -Dlog4j2.configurationFile=${CONF_DIR}/log4j2.properties"JAVA_OPTS="${JAVA_OPTS} -Dseatunnel.logs.path=${APP_DIR}/logs"JAVA_OPTS="${JAVA_OPTS} -Dseatunnel.logs.file_name=seatunnel-engine-server"
fi# Server Debug Config
# Usage instructions:
# If you need to debug your code in cluster mode, please enable this configuration option and listen to the specified
# port in your IDE. After that, you can happily debug your code.
# JAVA_OPTS="${JAVA_OPTS} -Xdebug -Xrunjdwp:server=y,transport=dt_socket,address=5001,suspend=y"CLASS_PATH=${APP_DIR}/lib/*:${APP_JAR}  #设置CLASS_PATHwhile read line  # 用while 循环读取输入文件中的每一行
doif [[ ! $line == \#* ]] && [ -n "$line" ]; then # 如果字符串不以 # 开头,同时非空 则为真JAVA_OPTS="$JAVA_OPTS $line"fi
done < ${APP_DIR}/config/jvm_options # 将jvm_options中设置的jvm配置加入 到   JAVA_OPTSif [[ $DAEMON == true && $HELP == false ]]; then  ## 如果参数 不是help 并且 为 daemon 时 自动创建日志目录if [[ ! -d ${APP_DIR}/logs ]]; thenmkdir -p ${APP_DIR}/logsfitouch $OUT  # 创建控制台输出日志文件# 启动Java应用程序# ${JAVA_OPTS} java虚拟机的启动参数# ${CLASS_PATH} 类路径# ${APP_MAIN} Java应用程序主类# ${args}传给java应用程序的主要参数nohup java ${JAVA_OPTS} -cp ${CLASS_PATH} ${APP_MAIN} ${args} > "$OUT" 200<&- 2>&1 < /dev/null &
elsejava ${JAVA_OPTS} -cp ${CLASS_PATH} ${APP_MAIN} ${args}
fi

脚本一些特别说明

JVM相关参数

根据对脚本的分析可知,共有三处可以配置和制定JVM相关参数

执行脚本时通过命令行参数传入

可以在执行seatunnel-cluster.sh脚本时传入jvm参数,但是格式比如符合如下要求:需要格式为key=value的格式,key中必须包含字符串JvmOption,value则是具体的JVM配置项。如:

bash seatunnel-cluster.sh JvmOption="-Xms2G -Xmx2G"
bash seatunnel-cluster.sh xJvmOptionx="-Xms2G -Xmx2G"
bash seatunnel-cluster.sh -DJvmOption="-Xms2G -Xmx2G"
添加脚本

seatunnel-cluster.sh脚本第一行添加JAVA_OPTS="-Xms2G -Xmx2G"

以上两种方式官网部署文档皆有说明,如下

在配置文件jvm_options中指定

在启动脚本中有一部分代码是对 位于CONF_DIR下的jvm_options中的配置逐行加载。

虽然以上三种均会把相关配置加载到JAVA_OPTS,但是我个人更推荐通过配置文件jvm_options的方式来指定,这样既避免了对seatunnel-cluster.sh脚本进行修改,又可以以文件的形式将详细配置保存下来。

为启动脚本seatunnel-cluster.sh创建软链

根据对启动脚本的分析,允许使用 软链的方式启动seatunnel zeta服务, 可以用于在服务器中集中管理 各种服务启动脚本的场景。

用户可以通过软链固定服务启动路径,如在/usr/bin目录下指定seatunnel-cluster.sh的软链:

cd /usr/bin
ln -snf /opt/soft/seatunnel/apache-seatunnel-2.3.5/bin/seatunnel-cluster.sh seatunnel-cluster

则可通过如下命令启动服务:

/usr/bin/seatunnel-cluster

日志目录配置

根据对脚本的分析,seatunnel zeta的目录被设置为${APP_DIR}/logs, 在脚本中进行硬编码以变量seatunnel.logs.path传入JAVA_OPTS, 然后log4j2.properties通过该变量读取的日志目录的配置。

如果需要自定义目录的配置:

  1. 要么修改seatunnel-cluster.sh指定自定义的日志目录

  2. 要么修改log4j2.properties文件放弃从环境变量读取seatunnel.logs.path, 直接指定自定义的日志目录。

目前来看以上两种方式都不够友好,另外结合seatunnel-cluster.sh在执行过程中会加载seatunnel-env.sh

在对当前日志目录配置的逻辑不进行大的调整的前提下,如果把日志相关目录的配置开放到seatunnel-env.sh对于需要自定义日志目录的用户来说会更为友好,当然这需要对脚本做一定的修改。

附录

附录为脚本执行流程的文字描述,作为对执行流程图无法表达的内容的补充:

脚本大意如下

首先获取当前执行脚本的名称,然后判断执行为脚本文件是否属于软链接,如果是软连接则获取软连接指向的原始脚本文件,并获取seatunnel-cluster.sh所在目录bin,根据获取到的bin目录获取SeatunnelHOME目录并赋值为APP_DIR,同时设置 配置文件目录 为CONFIG_DIR,并且定义seatunnel-starter.jar的路径为APP_JAR

设置org.apache.seatunnel.core.starter.seatunnel.SeaTunnelServer为 main classAPP_MAIN,定义控制台日志输出文件 为OUT

判断是否存在seatunnel-env.sh, 如果存在则执行该脚本将环境变量加载到当前进程。

判断传入的参数个数,如果为0,则将参数置为"", 否则将所有参数赋给arg

判断HAZELCAST_CONFIG变量是否存在,不存在则将hazelcast.yaml文件路径赋值给它。

判断SEATUNNEL_CONFIG变量是否存在,不存在则将seatunnel.yaml文件路径赋值给它。

判断JvmOption变量是否存在,若存在就添加到JAVA_OPTS参数当中。

循环判断脚本传入的所有参数

若参数包含字符串JvmOption, 则认定该参数为 JVM配置,并且从该参数开头删除第一个==之前的字符,将剩下的内容添加到参数JAVA_OPTS当中。

这一点说明,可以在启动脚本时传递 JVM参数,但是对格式有一定要求,即 需要格式为 key=value的格式,key中必须包含字符串JvmOption,value 则是具体的JVM配置项。

若参数为-d--daemon, 则将变量DAEMON设置为 true。

若参数为-h--help, 则将变量HELP设置为true。

HAZELCAST_CONFIGSEATUNNEL_CONFIG变量添加到 参数JAVA_OPTS

将日志配置-Dlog4j2.contextSelector=org.apache.logging.log4j.core.async.AsyncLoggerContextSelector添加到参数JAVA_OPTS

判断log4j2.properties日志配置文件是否存在,若存在则将-Dlog4j2.configurationFile=${CONF_DIR}/log4j2.properties-Dseatunnel.logs.path=${APP_DIR}/logs-Dseatunnel.logs.file_name=seatunnel-engine-server添加到参数JAVA_OPTS

设置CLASS_PATH,然后将jvm_options配置文件中的配置逐行加入到 参数JAVA_OPTS

  • 如果变量DEAMONtrue并且 变量HELPfalse
 1. 判断日志目录 ` ${APP_DIR}/logs`是否存在,不存在则创建2. 创建控制台日志输出文件3. 运行命令 `nohup java ${JAVA_OPTS} -cp ${CLASS_PATH} ${APP_MAIN} ${args} > "$OUT" 200<&- 2>&1 < /dev/null &`后台启动 `Seatunnel ` Zeta 引擎
  • 如果变量DEAMONtrue并且 变量HELPtrue:
  1. 运行命令`java ${JAVA_OPTS} -cp ${CLASS_PATH} ${APP_MAIN} ${args}`前台运行 `Seatunnel Zeta引擎`
  • 如果变量DEAMONfalse:
  1. 运行命令`java ${JAVA_OPTS} -cp ${CLASS_PATH} ${APP_MAIN} ${args}`前台运行 `Seatunnel Zeta引擎`

到此为止,已经完成整个脚本的执行,成功启动SeaTunnel Zeta引擎。以上为作者个人学习解读,如果错误之处,欢迎批评指正!!!

本文由 白鲸开源科技 提供发布支持!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/56819.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

设计模式02-桥接模式(Java)

4.2 桥接模式 **1.定义&#xff1a;**将抽象与实现分离&#xff0c;使它们可以独立变化。它是用组合关系代替继承关系来实现&#xff0c;从而降低了抽象和实现这两个可变维度的耦合度。 2.结构&#xff1a; 抽象化角色 &#xff1a;定义抽象类&#xff0c;并包含一个对实现化…

你的电脑能不能安装windows 11,用这个软件检测下就知道了

为了应对Windows 11的推出&#xff0c;一款名为WhyNotWin11的创新型诊断软件应运而生。这个强大的工具不仅仅是一个简单的兼容性检测器&#xff0c;它更像是一位细心的数字医生&#xff0c;全方位评估您的计算机是否准备好迎接微软最新操作系统的挑战。 WhyNotWin11的功能远超…

【动手学深度学习】8.3 语言模型(个人向笔记)

下面是语言模型的简介 1. 学习语言模型 使用计数来建模 N元语法&#xff1a;这里的元可以理解为我们之前的时间变量。对于 N 元语法&#xff0c;我们可以把所有长度为 N 的子序列存下来。其中 1 元语法用的很少。这里其实就是算概率的时候我们不往前看所有的概率&#xff0c;…

前端遮罩层的应用

最近微信小程序需要开发新手引导功能&#xff0c;发现需要在遮罩层中间抠一个洞出来&#xff0c;但是一直不知道该怎么去做&#xff0c;其实很简单&#xff0c;先展示源码&#xff1a; <template><div class"num01">hello<div class"mask"&…

ai字幕用什么软件制作?6款视频加字幕工具分享!

在视频制作和后期处理中&#xff0c;字幕的添加是一个重要的环节。随着AI技术的发展&#xff0c;越来越多的软件开始支持AI自动加字幕功能&#xff0c;使得字幕的制作变得更加简单和高效。本文将为大家介绍几款常用的AI字幕制作软件&#xff0c;并详细讲解如何使用AI自动加字幕…

【MySQL 保姆级教学】在Linux(CentoS 7)中安装MySQL(1)

目录 1. 卸载linux&#xff08;Centos7&#xff09; 中不要的环境2. 获取MySQL官方yum源2.1 获取yum源前先查看自己 linux&#xff08;Centos&#xff09;的版本2.2 获取官方yum源 3. 安装xftp和连接4. 开放连接端口5. 上传文件到Centos76. 安装MySQL6.1 顺利安装6.2 查询是否安…

从RNN讲起(RNN、LSTM、GRU、BiGRU)——序列数据处理网络

文章目录 RNN&#xff08;Recurrent Neural Network&#xff0c;循环神经网络&#xff09;1. 什么是RNN&#xff1f;2. 经典RNN的结构3. RNN的主要特点4. RNN存在问题——长期依赖&#xff08;Long-TermDependencies&#xff09;问题 LSTM&#xff08;Long Short-Term Memory&a…

某MDM主数据管理系统与微软Dynamic CRM系统(国内节点)集成案例

一、需求分析 需要完成的核心场景&#xff1a; 客户主数据&#xff1a;通过SAP PO集成中间件平台&#xff0c;某MDM主数据实时推送客户主数据信息至微软CRM系统&#xff0c;方便微软CRM系统进行客户方面的管理&#xff0c;并供微软CRM查询员工信息&#xff0c;修改员工&…

STM32—FLASH闪存

1.FLASH简介 STM32F1系列的FLASH包含程序存储器、系统存储器和选项字节三个部分&#xff0c;通过闪存存储器接口&#xff08;外设&#xff09;可以对程序存储器和选项字节进行擦除和编程 我们怎么操作这些存储器呢&#xff1f;这就需要用到这个闪存存储器接口了&#xff0c;闪…

Go语言Gin框架的常规配置和查询数据返回json示例

文章目录 路由文件分组查询数据库并返回jsonservice层controller路由运行效果 启动多个服务 在 上一篇文章《使用Go语言的gorm框架查询数据库并分页导出到Excel实例》 中主要给大家分享了较多数据的时候如何使用go分页导出多个Excel文件并合并的实现方案&#xff0c;这一篇文章…

2-127基于matlab的非圆齿轮啮合动画设计

基于matlab的非圆齿轮啮合动画设计&#xff0c;可根据需求设置齿数&#xff0c;齿高、平滑系数等&#xff0c;最后输出啮合动画。程序已调通&#xff0c;可直接运行。 下载源程序请点链接&#xff1a;2-127基于matlab的非圆齿轮啮合动画设计

day-13面向对象进阶

面向对象进阶部分学习方法&#xff1a; 特点&#xff1a; ​ 逻辑性没有那么强&#xff0c;但是概念会比较多。 ​ 记忆部分重要的概念&#xff0c;理解课堂上讲解的需要大家掌握的概念&#xff0c;多多练习代码。 day13 第一章 复习回顾 1.1 如何定义类 类的定义格式如…

探索Python配置新维度:Hydra库揭秘

文章目录 探索Python配置新维度&#xff1a;Hydra库揭秘背景&#xff1a;为何选择Hydra&#xff1f;初识Hydra安装Hydra简单的库函数使用方法基础配置覆盖配置组合配置多运行 场景应用数据库配置本地和远程运行多作业运行 常见Bug及解决方案配置加载失败命令行参数解析错误远程…

014_django基于大数据运城市二手房价数据可视化系统的设计与实现2024_3ahrxq75

目录 系统展示 开发背景 代码实现 项目案例 获取源码 博主介绍&#xff1a;CodeMentor毕业设计领航者、全网关注者30W群落&#xff0c;InfoQ特邀专栏作家、技术博客领航者、InfoQ新星培育计划导师、Web开发领域杰出贡献者&#xff0c;博客领航之星、开发者头条/腾讯云/AW…

测试右移实践的一些总结思考—稳定监控“及时雨”

随着项目开发的逐渐敏捷化&#xff0c;QA的职能早已不单单是曾经简单对功能的测试&#xff0c;在领域内测试左移和测试右移这两个概念被一再提及。 本文将分别从稳定发布、监控、风险控制三个方面&#xff0c;主要介绍一下目前测试右移概念在组内的落地应用、一些还没有落地的…

Wordpress GutenKit 插件 远程文件写入致RCE漏洞复现(CVE-2024-9234)

0x01 产品简介 GutenKit 是一个WordPress的页面构建器,在 Gutenberg 设计您的下一个 WordPress 网站。借助 Gutenberg 的原生拖放界面、50+ WordPress 块、14+ 多功能模块和 500+ 模板,您可以在几分钟内创建专业、响应迅速的 Web 内容。 0x02 漏洞概述 Wordpress GutenKit…

vue-router钩子中调用ElMessage等样式出错

升级 vue3.5 时遇到奇怪的问题, 页面点击离开没反应 经过排查, 是以下几点相互作用导致此问题 vue 有应用上下文的概念, 例如 runWithContext API,vue-router 在调用钩子时会获取 vue 的应用上下文element-plus 在唤起弹窗时会从 parent 或 应用上下文上拿到 config 信息eleme…

OpenCV高级图形用户界面(20)更改窗口的标题函数setWindowTitle()的使用

操作系统&#xff1a;ubuntu22.04 OpenCV版本&#xff1a;OpenCV4.9 IDE:Visual Studio Code 编程语言&#xff1a;C11 算法描述 在OpenCV中&#xff0c;cv::setWindowTitle函数用于更改窗口的标题。这使得您可以在程序运行时动态地更改窗口的标题文本。 函数原型 void cv::…

浏览器实时更新esp32-c3 Supermini http server 数据

一利用此程序的思路就可以用浏览器显示esp32 采集的各种传感器的数据&#xff0c;也可以去控制各种传感器。省去编写针对各系统的app. 图片 1.浏览器每隔1秒更新一次数据 2.现在更新的是开机数据&#xff0c;运用此程序&#xff0c;可以实时显示各种传感器的实时数据 3.es…

【计算机网络 - 基础问题】每日 3 题(四十七)

✍个人博客&#xff1a;https://blog.csdn.net/Newin2020?typeblog &#x1f4e3;专栏地址&#xff1a;http://t.csdnimg.cn/fYaBd &#x1f4da;专栏简介&#xff1a;在这个专栏中&#xff0c;我将会分享 C 面试中常见的面试题给大家~ ❤️如果有收获的话&#xff0c;欢迎点赞…