Flink 大数据 学习详情

参考视频:

         尚硅谷大数据Flink1.17实战教程从入门到精通_哔哩哔哩_bilibili

核心目标:

        数据流上有状态计算

        具体说明: Apache Flink是一个 框架分布式处理引擎,用于对 无界(eg:kafka)有界(eg:文本) 数据流进行有状态计算

        有状态: 存储中间的结果或者计算结果,保存在flink内部(内存/RockSDB),定期存储到磁盘

        状态在内存中: 速度快,但可靠性差

        状态在分布式系统中:速度慢,但可靠性高

特点:

        高吞吐和低延迟:

                每秒处理数百万个事件,毫秒级延迟

        结果的准确性:

                Flink提供了事件时间(event-time) 和处理时间(processing-time)语义。对于乱序事件流,事件时间语义仍然能提供一致且准确的结果

精确一次(exactly-once)的状态一致性保证

可以连接到最常用的存储系统:

        Kafka,Hive,JDBC,HDFS,Redis等

高可用:

        本身高可用的设置,加上与 K8s,YARN和Mesos的紧密集成,再加上从故障中快速恢复和动态扩展任务的能力,Flink能做到以极少的停机时间7*24全天候运行

Flink和SparkStreaming比较

        本质:spark streaming是批处理(RDD模型),flink是流处理

FlinkStreaming
计算模型流计算微批处理
时间语义事件时间,处理时间处理时间
窗口多,灵活少,不灵活(窗口必须是批次的整数倍)
状态
流式sql

ps:

Flink提供了三种时间语义,以满足不同计算场景的需求:处理时间,事件时间和注入时间。

  • 处理时间(Processing Time):一种直观的时间语义,表示数据进入算子并开始处理的实际时间点。
  • 事件时间(Event Time):表示事件实际发生的时间,通常在消息的时间戳字段中找到。由于可能会有数据乱序的问题,但它能保证精确度高的计算场景。
  • 注入时间(Ingestion Time):介于处理时间和事件时间之间的折中选择,代表数据进入Flink处理系统的时间。

Flink分层API

最高层 SQL(最好用)
声明式领域专用语言Table API(像表一样处理数据,还不够好用)
核心APIsDataStream(数据流,流计算,高版本一般都用流计算) / DataSet API(数据集,批处理)
底层APIs(处理函数)有状态流处理

有状态流处理:

        通过底层API(处理函数),对最原始数据加工处理。底层API与DataStream API相集成,可以处理复杂的计算

DataStream API(流处理) 和 DataSet API(批处理)

         封装了底层处理函数,提供了通用的模块,比如转换(transformations,包括map,flatmap等) ,连接(join),聚合(aggregations),窗口(windows)操作等。

        注意:Flink1.12以后,DataStream API已经实现真正的批流一体,所以DataSet API已经过时

Table API

        以表未中心的声明式编程,其中表可能会动态变化。 Table API遵循关系模型:表有二维数据结构,类似于关系数据库中的表;同时API提供可比较的操作,例如:select,project,group-by,aggregate等。 我们可以在表与 DataStream / DataSet之间无缝切换,以允许程序将Table API 与DataStream / DataSet 混合使用

SQL

        这一层在语法与表达能力上与Table API类似,但是以SQL查询表达式的形式表现程序。

        SQL抽象与Table API交互密切,同时SQL查询可以直接在Table API定义的表上执行

Flink快速上手

		<dependency><groupId>org.apache.flink</groupId><artifactId>flink-streaming-java</artifactId><version>1.17.0</version></dependency><dependency><groupId>org.apache.flink</groupId><artifactId>flink-clients_2.10</artifactId><version>1.17.0</version></dependency>

看视频吧,不同的引包写法有差异

Flink集群部署

组件流程介绍    

flink提交作业和执行任务,需要几个关键组件:

        客户端(client):代码由客户端获取并作转换,之后提交给 jobManager

        JobManager:就是flink集群里的“管事人”,对作业进行中央调度管理;而它获取到要执行的作业后,会进一步处理转换,然后分发任务给众多的TaskManager

        TaskManager:就是真正“干活的人”,数据的处理操作都是它们来做的

注意:

       

       流程:

                 Flink Client -> 一个JobManager(协调调度中心) -> N个TaskManager(工作节点)

                多个备用 JobManager

Flink是一个非常灵活的处理框架,它支持多种不同的部署场景,还可以和不同的资源管理平台方便地集成

集群搭建:

集群规划:
节点服务器hadoop102hadoop103hadoop104
角色JobManager,TaskManagerTaskManagerTaskManager
下载解压安装包

        eg:flink-1.17.0-bin-scala_2.12.tgz

vim flink-conf.yaml

jobmanager.rpc.address: hadoop102 (rpc连接的地址)
jobmanager.bind-host: 0.0.0.0 (任何机器都可以访问)
rest.address: hadoop102 (Rest Api访问地址)
rest.bind-address: 0.0.0.0taskmanager.bind-host: 0.0.0.0
taskmanager.host: hadoop102 (不同服务器配置相应的ip)还可更改
jobmanager.rpc.port:6123
jobmanager.memory.process.size:48g (jobmanager进程可使用的全部内存,包括JVM和其他开销,默认1600M)
taskmanager.memory.process.size:8g (taskmanager进程可使用的全部内存,包括JVM和其他开销,默认1728M)
taskmanager.numberOfTaskSlots: 24 (对每个taskmanager能够分配的slot数量进行配置,默认1,可根据cpu进行决定)
parellelism.default: 8 # 并行数量,默认1,优先级低于代码中进行的并行度配置
high-availability: zookeeper
high-availability.storageDir: ftp://sjsy:chianoly@139.6.0.224:6600/flink/ha/
high-availability.zookeeper.quorum: zk01:2181,zk02:2181,zk03:2181
jobmanager.execution.failover-strategy: region
#历史服务器
jobmanager.archive.fs.dir: ftp://sjsy:chianoly@139.6.0.224:6600/flink/completed-jobs/
historyserver.web.address: 0.0.0.0
historyserver.web.port: 8082
historyserver.archive.fs.dir: ftp://sjsy:chianoly@139.6.0.224:6600/flink/completed-jobs/
heartbeat.timeout: 180000
akka.ask.timeout: 60s
web.timeout: 1000000
state.checkpoints.num-retained: 3

vim workers

hadoop102
hadoop103
hadoop104

vim masters(jobmanager)

hadoop102:8081
//可以多个
hadoop105:8081
hadoop106:8081
...

命令行启动(也可以手动上传)

1 上传

2

bin/flink run -m hadoop102:8081 -c com.chinaoly.wc.WordCountStream ./FlinkTutorial-1.17-1.0-SNAPSHOT.jar -m :后面跟 jobmanager的ip端口
-c : 后面跟全类名 
最后,相对路径或者绝对路径

部署模式

        会话模式(Session Mode

        单作业模式(Per-Job Mode)

        应用模式(Application Mode)

会话模式(Session Mode)

        最符合常规思维,我们先启动一个集群,保持一个会话,在这个会话中通过客户端提交作业。

        集群启动时所以资源都已经确定,所以所有提交的作业会竞争集群中的资源。

        会话模式比较适用于: 单个规模小,执行时间短的大量作业

单作业模式(Per-Job Mode)

        会话模式因为资源共享会导致很多问题,所以为了更好地隔离资源,我们可以考虑为每个提交的作业启动一个集群,这就是所谓的单作业模式

        作业完成后,集群就会关闭,所以资源也会释放

        这些特性使得单作业模式在生产环境运行中更加稳定,所以是 实际应用的首选模式

        需要注意:Flink本身无法直接这样允许,所以单作业模式一般需要借助一些资源管理框架来启动集群,比如 YARN,Kubernates(K8S)

应用模式(Application Mode)

        前面提到的两种模式下,应用代码都是在客户端执行,然后由客户端提交到JobManager的。但是这种方式客户端需要占用大量网络带宽,去下载依赖和把二进制数据发送给JobManager;加上很多情况下我们提交作业用的是同一个客户端,就会加重客户端所在节点的资源消耗。

        所以解决方法是: 我们不要客户端了,直接把应用提交到JobManager上运行。 而这也就代表着,我们需要为每一个提交的应用单独启动一个JobManager,也就是创建一个集群。这个JobManager只为执行一个应用而存在,执行结束后JobManager也就关闭了。这就是所谓的应用模式。

        应用模式与单作业模式,都是提交作业后才创建集群;单作业模式是通过客户端来提交的,客户端解析出的每一个作业对应一个集群;而应用模式下,是直接由JobManager执行应用程序的。

运行模式

        standalone运行模式

        yarn运行模式

        K8S运行模式

Standalone运行模式(了解)

        独立模式是独立运行的,不依赖任何外部的资源管理平台;当然独立也是有代价的: 如果资源不足,或者出现故障,没有自动扩展或重分配资源的保证,必须手动处理,所以独立模式一般只使用在开发测试或者作业非常少的情景下。

        此模式Flink自己管理资源

        比如页面提交运行,打包成一个完成的jar,命令运行等。     

会话模式支持,默认
单作业模式不支持,单作业模式需要借助一些资源管理平台
应用模式可是实现,应用模式下不会提前创建集群,所以不能调用start-cluster.sh脚本。我们可以使用同样在bin目录下的standalone-job.sh来创建一个JobManager
yarn运行模式(重点)

        yarn上部署过程: 客户端把flink应用提交给yarn的ResourceManager,Yarn的ResourceManager会启动ApplicationMaster,ApplicationMaster会向ResourceManager注册,申请NodeManager申请资源和容器,并且监控;这些容器上,Flink会部署JobManager和TaskMAnager的实例,从而启动集群。

        Flink会根据运行在JobManager上的作业所需要的Slot数量动态分配TaskManager资源

确保安装hadoop,至少在2.2版本以上,并且集群中由HDFS服务

flink和hadoop的依赖集成,配置,加上

sudo vim /etc/profile.d/my_env.shHADOOP_HOME=/opt/moduae/hadoop-3.3.4
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
# flink需要的
export HADOOP_CONF_DIR=${HADOOP_HOME}/etc/hadoop
export HADOOP_CLASSPATH=`hadoop classpath` source /etc/profile.d/my_env.sh

WebUI访问:

http://hadoop102:8081/

脚本

停止运行
bin/stop-cluster.sh查看
xcall jps
jps

standalone模式脚本

standalone模式下运行,需要把jar包放到lib下面
bin/standalone-job.sh start --job-classname com.chinaoly.SocketStreamWordCount停止standalone
bin/standalone-job.sh stop

taskmanager脚本

启动taskmanager
bin/taskmanager.sh start停止taskmanager
bin/taskmanager.sh stop

yarn运行模式脚本

参考文档:

【大数据】Flink 架构(三):事件时间处理-CSDN博客

Flink架构、原理与部署测试_未来链flink-CSDN博客

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/726665.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

3、Redis Cluster集群运维与核心原理剖析

Redis集群方案比较 哨兵模式 在redis3.0以前的版本要实现集群一般是借助哨兵sentinel工具来监控master节点的状态&#xff0c;如果master节点异常&#xff0c;则会做主从切换&#xff0c;将某一台slave作为master&#xff0c;哨兵的配置略微复杂&#xff0c;并且性能和高可用性…

服务器CPU有哪些优点?

服务器CPU是服务器硬件配置中十分重要的组成部分之一&#xff0c;服务器CPU能够影响着服务器的处理速度和存储容量等多方面的性能特征&#xff0c;能够保证服务器的稳定性&#xff0c;接下来我们就具体了解一下服务器CPU的优点有哪些。 服务器CPU有着大量的缓存空间&#xff0c…

【C语言】冒泡排序

概念 冒泡排序&#xff08;Bubble Sort&#xff09;是一种简单的排序算法&#xff0c;它重复地遍历要排序的列表&#xff0c;一次比较两个元素&#xff0c;并且如果它们的顺序错误就把它们交换过来。通过多次的遍历和比较&#xff0c;最大&#xff08;或最小&#xff09;的元素…

数智化转型的新篇章:企业如何在「数据飞轮」理念中寻求增长?_光点科技

在当今的数字化浪潮中&#xff0c;企业对数据的渴求与日俱增。数据不再仅是辅助决策的工具&#xff0c;而是成为推动业务增长的核心动力。自从「数据中台」概念降温后&#xff0c;企业纷纷探寻新的数智化路径。在这个过程中&#xff0c;「数据飞轮」作为一种新兴的理念&#xf…

Blazor系统教程(.net8)

Blazor系统教程 1.认识 Blazor 简单来讲&#xff0c;Blazor旨在使用C#来替代JavaScript的Web应用程序的UI框架。其主要优势有&#xff1a; 使用C#编写代码&#xff0c;这可提高应用开发和维护的效率利用现有的NET库生态系统受益于NET的性能、可靠性和安全性与新式托管平台(如…

prometheus配置grafana看板及alert告警文档

【1】、环境说明&#xff1a; Promethues Web网页地址&#xff1a; Grafana Web网页地址&#xff1a; Exporter&#xff08;kafka接口&#xff09; Web网页地址&#xff1a; 监控部署服务器地址&#xff1a; 【2】、Promethues rules配置 打开Promethues Web网页地址进入Graph模…

第三方软件测试报告有效期是多久?专业软件测试报告获取

第三方软件测试报告是在软件开发过程中&#xff0c;由独立的第三方机构对软件进行全面测试和评估后发布的报告。这些第三方机构通常是与软件开发商和用户无关的专业技术机构&#xff0c;具备丰富的测试经验和专业知识。    第三方测试报告具有以下几个好处&#xff1a;   …

阿里云Linux系统MySQL8忘记密码修改密码

相关版本 操作系统&#xff1a;Alibaba Cloud Linux 3.2104 LTS 64位MySQL&#xff1a;mysql Ver 8.0.34 for Linux on x86_64 (Source distribution) MySQL版本可通过下方命令查询 mysql --version一、修改my.cnf文件 文件位置&#xff1a;etc/my.cnf进入远程连接后可以打…

落地灯哪个牌子好?实机测评喜爱度爆表的五款落地灯!

近些年来&#xff0c;由于使用电子产品以及学习压力大的人越来越多&#xff0c;而且越加年轻化&#xff0c;而平时用眼时的不良光线影响着人们的视力健康&#xff0c;不少眼科专家都推荐使用能够带来更好光线效果的落地灯&#xff0c;对此&#xff0c;作为专业的电器测评员&…

【操作系统学习笔记】文件管理1.2

【操作系统学习笔记】文件管理1.2 参考书籍: 王道考研 视频地址: Bilibili 文件的逻辑结构 无结构文件 文件内部的数据就是一系列的二进制流或字符流组成&#xff0c;又称流式文件&#xff0c;例如 .text 文件 有结构文件 由一组相似的记录组成&#xff0c;又称记录式文件…

大模型中 .safetensors 文件、.ckpt文件和.pth以及.bin文件区别、加载和保存以及转换方式

目录 模型格式介绍 加载以及保存 - 加载.safetensors文件&#xff1a; - 保存/加载.pth文件&#xff1a; - 保存/加载.ckpt文件&#xff1a; - 处理.bin文件&#xff1a; 模型之间的互相转换 pytorch-lightning 和 pytorch ckpt和safetensors 模型格式介绍 在大型深度…

Pygame教程05:帧动画原理+边界值检测,让小球来回上下运动

------------★Pygame系列教程★------------ Pygame教程01&#xff1a;初识pygame游戏模块 Pygame教程02&#xff1a;图片的加载缩放旋转显示操作 Pygame教程03&#xff1a;文本显示字体加载transform方法 Pygame教程04&#xff1a;draw方法绘制矩形、多边形、圆、椭圆、弧…

baidu, google和chatgpt -- 翻译对比

原文 That ChatGPT can automatically generate something that reads even superficially like human-written text is remarkable, and unexpected. But how does it do it? And why does it work? My purpose here is to give a rough outline of what’s going on inside…

Context

在 Android 开发中&#xff0c;Context 是一个表示应用程序环境的类&#xff0c;它提供了访问应用程序资源和执行应用程序级操作的接口。它是一个抽象类&#xff0c;具体的实现类是 ContextImpl。 Context 类的实例在整个 Android 应用程序中广泛使用&#xff0c;它可以用于执…

Linux-socket套接字

前言 在当今数字化时代&#xff0c;网络通信作为连接世界的桥梁&#xff0c;成为计算机科学领域中至关重要的一部分。理解网络编程是每一位程序员必备的技能之一&#xff0c;而掌握套接字编程则是深入了解网络通信的关键。本博客将深入讨论套接字编程中的基本概念、常见API以及…

国际数字影像产业园:全面推进“AI+”行动,加快标准建设,厚植创新沃土

人工智能作为数字经济时代的重要基础设施、关键技术、先导产业以及赋能引擎&#xff0c;将长期为我国各行业转型升级和数字经济发展提供核心驱动力。树莓集团总部国际数字影像产业园&#xff0c;作为新时代科技与数字产业的交汇点&#xff0c;正全面推进“AI”行动&#xff0c;…

小白在VMware Workstation Pro上安装部署SinoDB V16.8

一、安装环境说明 CPU&#xff1a;2核或以上&#xff0c;内存&#xff1a;2G或以上&#xff1b;磁盘10G或以上&#xff1b;网卡&#xff1a;千兆 1.1检查服务器内存大小 命令&#xff1a;free -m 1.2检查服务器磁盘空间大小 命令&#xff1a;df -h 1.3检查服务器网络配置信息 命…

bunx 使用文档

注意 — bunx 是 bun x 的别名。安装 bun 时&#xff0c;bunx CLI 将自动安装。 使用 bunx 从 npm 自动安装和运行包。它相当于 npx 或 yarn dlx。 bunx cowsay "Hello world!" ⚡️ 速度 — 由于 Bun 的启动时间很快&#xff0c;对于本地安装的软件包&#xff0c;b…

服务器防火墙和安全组放开

问题 我的项目上传后安全组也放开了但是访问项目地址404&#xff0c;最后发现是服务器防火墙没放行。 下面介绍一下如何排查防火墙问题。 服务器防火墙操作命令 查看防火墙状态&#xff1a;systemctl status firewalld 禁用防火墙&#xff1a;systemctl stop firewalld 启…

Linux系统安装Dashy服务结合内网穿透实现公网访问本地导航页

文章目录 简介1. 安装Dashy2. 安装cpolar3.配置公网访问地址4. 固定域名访问 简介 Dashy 是一个开源的自托管的导航页配置服务&#xff0c;具有易于使用的可视化编辑器、状态检查、小工具和主题等功能。你可以将自己常用的一些网站聚合起来放在一起&#xff0c;形成自己的导航…