Dinky之安装部署与基本使用

Dinky之安装部署与基本使用

  • Dinky概览
  • Linux安装部署
    • 解压到指定目录
    • 初始化MySQL数据库
    • 修改配置文件
    • 加载依赖
    • 启动Dinky
  • Docker部署
    • 启动dinky-mysql-server镜像
    • 启动dinky-standalone-server镜像
  • Dinky的基本使用
    • 上传jar包
    • Flink配置
    • 集群管理
      • 集群实例管理
      • 集群配置管理
    • 创建作业
    • 语句编写与作业配置
    • 发布运行作业
    • 查看作业运行情况
  • Dinky的其他功能服务
    • Catalog
    • 变量
    • FlinkSQL环境
    • 数据源
    • 元数据中心

Dinky概览

Dinky是一个开箱即用的一站式实时计算平台以Apache Flink为基础,连接OLAP和数据湖等众多框架致力于流批一体和湖仓一体的建设与实践。

主要功能:

在这里插入图片描述
原理:
在这里插入图片描述
核心特性:

在这里插入图片描述

官网:http://www.dlink.top/

GitHub:https://github.com/DataLinkDC/dinky

文档:http://www.dlink.top/docs/next/get_started/quick_experience/

Linux安装部署

解压到指定目录

Dinky不依赖任何外部环境,完全解耦,支持同时连接多个不同的集群实例进行运维。

下载地址:https://github.com/DataLinkDC/dinky/releases

wget https://github.com/DataLinkDC/dinky/releases/download/v0.7.3/dlink-release-0.7.3.tar.gz

上传安装包并解压

tar -zxvf dlink-release-0.7.3.tar.gz -C /usr/local/programmv dlink-release-0.7.3 dinkycd dinky

初始化MySQL数据库

Dinky采用mysql作为后端的存储库,Dinky部署需要MySQL5.7 以上版本,需要创建Dinky的后端数据库,执行初始化sql文件

在Dinky/sql目录下分别放置了dinky.sql upgrade/${version}_schema/mysql/mysql_ddl

如果第一次部署,直接执行sql/dinky-mysql.sql 如果之前已经部署,根据版本号执行upgrade目录下存放的相应版本升级sql
#登录mysql
mysql -uroot -p123456#创建数据库
create database dinky;# 切换数据库
use dinky;# 执行初始化sql文件
source /usr/local/program/dinky/sql/dinky.sql

修改配置文件

cd dinky/configvim ./application.yml

修改Dinky连接 mysql 的配置文件

spring:datasource:url: jdbc:mysql://${MYSQL_ADDR:node01:3306}/${MYSQL_DATABASE:dinky}?useUnicode=true&characterEncoding=UTF-8&autoReconnect=true&useSSL=false&zeroDateTimeBehavior=convertToNull&serverTimezone=Asia/Shanghai&allowPublicKeyRetrieval=trueusername: ${MYSQL_USERNAME:root}password: ${MYSQL_PASSWORD:123456}driver-class-name: com.mysql.cj.jdbc.Driverapplication:name: dlink

加载依赖

Dinky需要具备自身的Flink环境,该Flink环境的实现需要用户自己在Dinky根目录下 plugins/flink${FLINK_VERSION}文件夹并上传相关的Flink依赖。

下载Flink

wget https://repo.huaweicloud.com/apache/flink/flink-1.17.0/flink-1.17.0-bin-scala_2.12.tgz

解压Flink

tar  -zxvf flink-1.17.0-bin-scala_2.12.tgz 

加载Flink依赖

对应 Flink 版本的依赖,放在Dinky 安装目录下 plugins/flink${FLINK_VERSION}下

cp flink-1.17.0/lib/*  dinky/plugins/flink1.17/

加载Hadoop依赖

注意:Dinky当前版本的yarn的perjob与application执行模式依赖flink-shade-hadoop,需要额外添加flink-shade-hadoop-uber-3包。对于dinky来说,Hadoop3的uber依赖可以兼容hadoop2。

wget https://repository.cloudera.com/artifactory/cloudera-repos/org/apache/flink/flink-shaded-hadoop-3-uber/3.1.1.7.2.9.0-173-9.0/flink-shaded-hadoop-3-uber-3.1.1.7.2.9.0-173-9.0.jar

放到dinky/plugins目录

共享的JAR包放plugins目录,否则放不同版本的Flink目录下

cp flink-shaded-hadoop-3-uber-3.1.1.7.2.9.0-173-9.0.jar dinky/plugins/

启动Dinky

#启动
sh auto.sh start# 启动指令的第二个参数则是版本选择
sh auto.sh start 1.17#停止
sh auto.sh stop#重启
sh auto.sh restart 1.17#查看状态
sh auto.sh status# 查看启动日志信息
tail -f logs/dlink.log -n 200

服务启动后,默认端口 8888,访问:http://127.0.0.1:8888

在这里插入图片描述
默认用户名/密码: admin/admin

在这里插入图片描述

Docker部署

启动dinky-mysql-server镜像

Dinky采用mysql作为后端的存储库,启动该镜像提供Dinky的MySQL业务库能力

docker run --name dinky-mysql dinkydocker/dinky-mysql-server:0.7.2

出现以下日志,则启动成功

2023-07-12T08:47:52.930058Z 0 [Note] mysqld: ready for connections.
Version: '5.7.41'  socket: '/var/run/mysqld/mysqld.sock'  port: 3306  MySQL Community Server (GPL)

如果有mysql 服务,执行对应版本的SQL文件即可。

docker run --restart=always -p 8888:8888 -p 8081:8081  -e MYSQL_ADDR=IP:3306 --name dinky dinkydocker/dinky-standalone-server:0.7.2-flink14

启动dinky-standalone-server镜像

提供Dinky实时计算平台

docker run --restart=always -p 8888:8888 -p 8081:8081  -e MYSQL_ADDR=dinky-mysql:3306 --name dinky --link dinky-mysql:dinky-mysql dinkydocker/dinky-standalone-server:0.7.2-flink14

出现以下日志,则启动成功

Dinky pid is not exist in /opt/dinky/run/dinky.pid
FLINK VERSION : 1.14
........................................Start Dinky Successfully........................................
........................................Restart Successfully........................................

Dinky的基本使用

上传jar包

当Flink使用YARN运行模式中的Application模式部署时,需要将flink和dinky相关依赖包上传到HDFS

1.上传dinky的JAR包

# 创建HDFS目录
hadoop fs -mkdir -p /dinky/jar/hadoop fs -put /usr/local/program/dinky/jar/dlink-app-1.17-0.7.3-jar-with-dependencies.jar /dinky/jar

2.上传flink的JAR包

# 创建HDFS目录
hadoop fs -mkdir /flink/jarhadoop fs -put /usr/local/program/flink/lib /flink/jarhadoop fs -put /usr/local/program/flink/plugins /flink/jar

Flink配置

当使用 Application 模式以及 RestAPI 时,需要修改相关Flink配置。提交FlinkSQL 的Jar文件路径指向:上传到HDFS中的Dinky的JAR包

hdfs://node01:9000/dinky/jar/dlink-app-1.17-0.7.3-jar-with-dependencies.jar

在这里插入图片描述

集群管理

提交FlinkSQL作业时,首先要保证安装了Flink集群。Flink当前支持的集群模式包括:Standalone 集群、Yarn 集群、Kubernetes 集群Dinky提供了两种集群管理方式,一种是集群实例管理,一种是集群配置管理。

集群实例管理

Dinky推荐在使用 Yarn Session、K8s Session、StandAlone类型时采用集群实例的方式注册集群,其他类型的集群只能查看作业信息。对于已经注册的集群实例,可以对集群实例做编辑、删除、搜索、心跳检测和回收等。

1.注册Standalone集群

启动Flink的Standalone模式

[root@node01 flink]# bin/start-cluster.sh

注册集群
在这里插入图片描述
配置成功则显示正常:
在这里插入图片描述

2.注册Yarn Session集群

启动Flink的YARN运行模式

[root@node01 flink]# bin/yarn-session.sh -d

启动日志如下,关注日志信息: Found Web Interface node02:42628 of application 'application_1689258255717_0002'.

2023-07-13 22:50:08,081 INFO  org.apache.flink.yarn.YarnClusterDescriptor                  [] - Cannot use kerberos delegation token manager, no valid kerberos credentials provided.
2023-07-13 22:50:08,088 INFO  org.apache.flink.yarn.YarnClusterDescriptor                  [] - Submitting application master application_1689258255717_0002
2023-07-13 22:50:08,393 INFO  org.apache.hadoop.yarn.client.api.impl.YarnClientImpl        [] - Submitted application application_1689258255717_0002
2023-07-13 22:50:08,393 INFO  org.apache.flink.yarn.YarnClusterDescriptor                  [] - Waiting for the cluster to be allocated
2023-07-13 22:50:08,396 INFO  org.apache.flink.yarn.YarnClusterDescriptor                  [] - Deploying cluster, current state ACCEPTED
2023-07-13 22:50:12,939 INFO  org.apache.flink.yarn.YarnClusterDescriptor                  [] - YARN application has been deployed successfully.
2023-07-13 22:50:12,939 INFO  org.apache.flink.yarn.YarnClusterDescriptor                  [] - Found Web Interface node02:42628 of application 'application_1689258255717_0002'.
JobManager Web Interface: http://node02:42628
2023-07-13 22:50:13,131 INFO  org.apache.flink.yarn.cli.FlinkYarnSessionCli                [] - The Flink YARN session cluster has been started in detached mode. In order to stop Flink gracefully, use the following command:
$ echo "stop" | ./bin/yarn-session.sh -id application_1689258255717_0002
If this should not be possible, then you can also kill Flink via YARN's web interface or via:
$ yarn application -kill application_1689258255717_0002
Note that killing Flink might not clean up all job artifacts and temporary files.

注册集群,根据提示输入相应信息:
在这里插入图片描述
配置成功则显示正常:
在这里插入图片描述

集群配置管理

Dinky推荐在使用Yarn Per Job、Yarn Application、K8s Application类型时采用集群配置的方式注册集群。对于已经注册的集群配置,可以对集群配置做编辑、删除和搜索等

填写核心参数:

Hadoop配置文件路径:/usr/local/program/hadoop/etc/hadoop,指服务器Hadoop配置路径lib路径:hdfs://node01:9000/flink/jar,HDFS中包含Flink运行时依赖JAR的路径Flink配置文件路径:/usr/local/program/flink/conf,指服务器Flink的配置文件路径

点击测试,测试连接成功,则代表配置无问题
在这里插入图片描述

创建作业

创建一个目录demo,选中右键,创建作业,类型选择FlinkSql。创建完成后,就可以在作业下编写SQL及配置作业参数
在这里插入图片描述

语句编写与作业配置

当FlinkSQL编写完成后,即可进行作业的配置。在作业配置中,可以选择作业执行模式、Flink 集群、SavePoint策略等配置,对作业进行提交前的配置。

在这里插入图片描述
作业SQL

--创建源表source
CREATE TABLE source(id  BIGINT,name STRING,age INT
) WITH ('connector' = 'datagen'
);--创建结果表sink
CREATE  TABLE sink(id  BIGINT,name STRING,age INT
) WITH ('connector' = 'print'
);--将源表数据插入到结果表
INSERT INTO sink SELECT id, name, age from source;

语法检查

在这里插入图片描述

发布运行作业

保存后,选择执行SQL或者提交作业
在这里插入图片描述

查看作业运行情况

提交执行后,可以到运维中心查看作业的运行情况。
在这里插入图片描述
在这里插入图片描述

Dinky的其他功能服务

Catalog

Dinky可以利用MySQL持久化Flink元数据,只需要在FlinkSQL的作业配置中选择DefaultCatalog,即可使用MySQL来存储,否则Flink采用基于内存catalog

Mysql Catalog 持久化目前默认的Catalog为my_catalog,默认的FlinkSQLEnv为DefaultCatalog。

将元数据信息保存到 Mysql以后,可以查看MySQL元数据、使用Mysql Catalog,即在作业中无需再显式声明DDL 语句,如建表操作。

在这里插入图片描述
在这里插入图片描述

变量

1.局部变量

定义变量的语法如下:

key1 := value1;

定义及使用变量

-- 定义变量
myKey := source;-- 使用变量
select * from ${myKey};

还需要在作业配置中开启全局变量
在这里插入图片描述

2.全局变量
在这里插入图片描述
执行使用全局变量

-- 使用全局变量
select * from ${MyVariable};

3.查看变量

-- 定义变量
myKey := source;-- 查看单个变量
SHOW FRAGMENT myKey;-- 查看所有变量
SHOW FRAGMENTS;

FlinkSQL环境

在执行 FlinkSQL 时,会先执行FlinkSqlEnv 内的语句。适用于所有作业的SET、DDL语法统一管理的场景。

新建作业,类型选择FlinkSqlEnv
在这里插入图片描述
定义一些执行环境变量
在这里插入图片描述
使用自定义FlinkSQL环境
在这里插入图片描述

数据源

创建数据源

在这里插入图片描述

配置参考示例:
在这里插入图片描述

Flink 连接配置:

避免私密信息泄露,同时作为全局变量复用连接配置,在FlinkSQL中可使用 ${名称} 来加载连接配置,如 ${ods}。说明:名称指的是英文唯一标识,即如图所示的名称。注意需要开启全局变量(原片段机制)

     'hostname' = 'localhost','port' = '3306','username' = 'root','password' = '123456','server-time-zone' = 'UTC'

Flink 连接模板:

Flink连接模板作用是为生成 FlinkSQL DDL而扩展的功能。

注意引用变量的前后逗号,使用此方式作业右侧必须开启全局变量${schemaName} 动态获取数据库,${tableName} 动态获取表名称
     'connector' = 'mysql-cdc','hostname' = 'localhost','port' = '3306','username' = 'root','password' = '123456','server-time-zone' = 'UTC','scan.incremental.snapshot.enabled' = 'true','debezium.snapshot.mode'='latest-offset'  ,'database-name' = '${schemaName}','table-name' = '${tableName}'

注意:

定义数据源的名称可以作为的变量键,定义数据源的Flink连接配置可以作为变量的值

在这里插入图片描述

元数据中心

当对数据源配置完成后,可以查看表的详细信息与对应的建表语句,查看建表语句功能很实用

具体操作: 数据开发->左侧点击 元数据->选中当前创建的数据源 -> 展开库 -> 右键单击 表名 -> 点击 SQL生成 -> 查看FlinkDDL
在这里插入图片描述
也可以在添加完数据源后,在元数据中心可以访问
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/199992.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

打破界限:SQL数据库水平扩展的8大挑战与机遇

数据库扩展是指提升数据库处理更多数据、更多用户或更多交易的能力。通常,SQL数据库采用垂直扩展的方式,即通过增加更多的CPU、内存或存储空间来增强数据库服务器的性能。然而,这种方法受限于单个服务器的硬件能力。 为了克服这一限制&#…

《形式语言与自动机理论(第4版)》笔记(二)

文章目录 [toc]前导《形式语言与自动机理论(第4版)》笔记(一) 第三章:有穷状态自动机3.1|语言的识别3.2|有穷状态自动机即时描述 s e t ( ) set() set()例题问题 1 1 1解答问题 2 2 2解答 3.3|不确定的有穷状态自动机构…

pandas详细笔记

一:什么是Pandas from matplotlib import pyplot import numpy as np import pandas as pdarange np.arange(1, 10, 2) series pd.Series(arange,indexlist("ABCDE")) print(series)二:索引 三:切片 位置索引切片(左闭…

【数据结构(七)】查找算法

文章目录 查找算法介绍1. 线性查找算法2. 二分查找算法2.1. 思路分析2.2. 代码实现2.3. 功能拓展 3. 插值查找算法3.1. 前言3.2. 相关概念3.3. 实例应用 4. 斐波那契(黄金分割法)查找算法4.1. 斐波那契(黄金分割法)原理4.2. 实例应用 查找算法介绍 在 java 中,我们…

Linux快速搭建本地yum更新audit

场景:内网一台服务器上线,需要更新audit版本,因无法与其他服务器通信,需临时配置本地仓库。 1、上传新版本操作系统iso到服务器 2、创建yum仓库文件存储目录 mkdir /opt/myrepo 3、挂载磁盘到/mnt mount /opt/Kylin-Server-V…

电脑CentOS 7.6与Windows系统对比:使用方式、优缺点概述

在多操作系统环境中,CentOS 7.6和Windows系统各自独占鳌头,它们在功能、稳定性、兼容性以及安全性等方面都有着各自的优点。这篇文章将对比分析这两个操作系统,以便用户能更好地了解它们的特点和使用方式。 一、使用方式 CentOS 7.6 CentO…

探索Web前端技术的变革与未来发展

Web前端技术作为构建现代互联网应用的重要一环,自诞生以来已经经历了多轮的发展和变革。本文将回顾过去的进展,介绍当前的前端技术栈,并展望未来前端领域的发展趋势,包括新兴技术和重要概念。 引言 在信息时代的快速发展的背景下&…

【剑指offer|图解|位运算】训练计划VI+撞色搭配

🌈个人主页:聆风吟 🔥系列专栏:数据结构、剑指offer每日一练 🔖少年有梦不应止于心动,更要付诸行动。 文章目录 一. ⛳️训练计划VI(题目难度:中等)1.1 题目1.2 示例1.3 …

读书笔记-《数据结构与算法》-摘要3[选择排序]

选择排序 核心:不断地选择剩余元素中的最小者。 找到数组中最小元素并将其和数组第一个元素交换位置。在剩下的元素中找到最小元素并将其与数组第二个元素交换,直至整个数组排序。 性质: 比较次数(N-1)(N-2)(N-3)…21~N^2/2交换次数N运行…

基于ssm vue的风景文化管理平台源码和论文

摘 要 随着信息化时代的到来,管理系统都趋向于智能化、系统化,基于vue的木里风景文化管理平台也不例外,但目前国内的市场仍都使用人工管理,市场规模越来越大,同时信息量也越来越庞大,人工管理显然已无法应对…

SpringBoot集成mail发送邮件

前言 发送邮件功能,借鉴 刚果商城,根据文档及项目代码实现。整理总结便有了此文,文章有不对的点,请联系博主指出,请多多点赞收藏,您的支持是我最大的动力~ 发送邮件功能主要借助 mail、freemarker以及rocke…

CoreDNS实战(七)-日志处理

本文主要用于介绍CoreDNS用来记录日志的几种方式以及在生产环境中遇到的一些问题和解决方案。 1 log插件 coredns的日志输出并不如nginx那么完善(并不能在配置文件中指定输出的文件目录,但是可以指定日志的格式),默认情况下不论…

【Midjourney实战】| 新年礼盒元素设计

文章目录 1 初步提示词2 润色提示词3 提示词发散联想 这期实践任务,我们想去做一个新年礼盒的效果,最后我们想把不同元素拼在一起,方便后期进行新年的相关设计 1 初步提示词 提示词初步我们乍一想,肯定要包括主体元素礼盒 新年礼…

Verilog基础:$time、$stime和$realtime系统函数的使用

相关阅读 Verilog基础https://blog.csdn.net/weixin_45791458/category_12263729.html $time、 $stime和$realtime这三个系统函数提供了返回当前仿真时间方法。注意,这里的仿真时间的最小分辨能力是由仿真时间精度决定的,简单来说,可以理解为…

gpt阅读论文利器

1. txyz.ai 读论文 严伯钧 3. consensus 两亿科学论文的资源库. 用英文. 中国经济发展, 美国加州没有,减肥没有. 2. chrome插件 gpt sidebar 3. gpt academic 论文润色和学术翻译 ,一键输出公式. 英语口语8000句. 托福备考计划表. 百词斩托福. 薄荷外刊. 分区笔记精读法.…

【STM32】EXTI外部中断

1 中断系统 1.1 中断简介 中断:在主程序运行过程中,出现了特定的中断触发条件(中断源),使得CPU暂停当前正在运行的程序,转而去处理中断程序,处理完成后又返回原来被暂停的位置继续运行。 比如&a…

GSLB是什么?谈谈对该技术的一点理解

GSLB是什么?它又称为全局负载均衡,是主流的负载均衡类型之一。众所周知,负载均衡位于服务器的前面,负责将客户端请求路由到所有能够满足这些请求的服务器,同时最大限度地提高速度和资源利用率,并确保无任何…

AIGC发展史

1 AIGC概况 1.1 AIGC定义 AIGC(AI Generated Content)是指利用人工智能技术生成的内容。它也被认为是继PGC,UGC之后的新型内容生产方式,AI绘画、AI写作等都属于AIGC的具体形式。2022年AIGC发展速度惊人,迭代速度更是呈现指数级发…

揭秘接口测试的必备基础知识!

这一篇讲接口测试的基础,如果你还在做手工测试,你可以从这里开始入门,做接口测试是最容易的一种自动化测试。 一、接口测试是什么 首先要理解接口测试就是测接口,如图所示: 让我们以数据驱动的视角来看接口测试&#…

AI生成视频-Pika

背景介绍 Pika 是一个使用 AI 生成和编辑视频的平台。它致力于通过 AI 技术使视频制作变得简单和无障碍。 Pika 1.0 是 Pika 的一个重大产品升级,包含了一个新的 AI 模型,可以在各种风格下生成和编辑视频,如 3D 动画,动漫,卡通和电影风格。…