flink on yarn

前言

Apache Flink,作为大数据处理领域的璀璨明星,以其独特的流处理和批处理一体化模型,成为众多企业和开发者的首选。它不仅能够在处理无界数据流时展现出卓越的实时性能,还能在有界数据批处理上达到高效稳定的效果。本文将简要介绍Flink的基本概念,以及如何在Yarn上安装和配置Flink。

初识Flink的魅力

Apache Flink是一个开源的计算框架,专为分布式数据流和批量数据处理而设计。它支持对有界和无界数据流进行状态化的计算,使得数据处理不再局限于传统的批处理或单一的流处理模式。这种一体化模型让Flink在实时分析和离线计算之间架起了桥梁,满足了多样化的数据处理需求。

Flink的核心优势在于其高效的内存执行速度和出色的容错机制。它采用Java和Scala编写,提供了丰富的API和灵活的窗口操作,使得开发者能够轻松构建复杂的数据处理流程。此外,Flink还保证了严格的一次性语义,确保每条数据只被处理一次,从而避免了数据重复或丢失的问题。

在实时处理方面,Flink展现了无与伦比的优势。它的延迟可以低至毫秒级别,远优于传统的批处理框架。这使得Flink在处理需要高实时性的应用场景时,如金融交易分析、在线广告推荐等,具有显著的优势。

Flink与Yarn的完美结合

Yarn(Yet Another Resource Negotiator)是Apache Hadoop的一个资源管理器,负责在集群中分配和管理资源。将Flink与Yarn结合使用,可以充分发挥Yarn的资源调度优势,提升Flink任务的执行效率。

在Yarn上运行Flink主要有两种模式:会话模式(Session Mode)和每作业模式(Per-Job Mode)。

会话模式允许用户预先启动一个Flink集群,并为其分配固定的资源。一旦集群启动,用户就可以将多个作业提交到该集群上执行。这种模式适用于需要长时间运行多个作业的场景,但缺点是即使在没有作业运行时,集群也会占用一定的资源。

每作业模式则更为灵活。在这种模式下,每次提交作业时,Flink都会为其创建一个独立的集群,并根据作业的需求动态分配资源。作业执行完毕后,集群会自动销毁,释放资源。这种模式适用于作业量较大且作业间相互独立的场景,能够充分利用集群资源并减少资源浪费。

安装与配置Flink on Yarn

要在Yarn上安装和配置Flink,首先需要下载并解压Flink的发行版。然后,根据集群的实际情况修改Flink的配置文件(如flink-conf.yaml),设置相关的参数,如Yarn集群的地址、任务的并行度等。接下来,将Flink的相关文件(如jar包和配置文件)上传到集群的指定位置,并配置环境变量以便在集群中运行Flink命令。

完成上述步骤后,就可以通过Flink提供的命令行工具或API提交作业到Yarn集群上执行了。Flink会根据作业的需求和Yarn集群的资源状况,动态地创建和管理集群,确保作业的顺利执行。

总结

Apache Flink以其独特的流处理和批处理一体化模型,以及高效的内存执行速度和出色的容错机制,成为大数据处理领域的佼佼者。与Yarn的结合使用,更是让Flink在集群环境中发挥了最大的性能优势。通过合理的安装和配置,Flink on Yarn将为大数据处理带来前所未有的速度和稳定性,助力企业在实时分析和离线计算方面取得更大的成功。

安装部署
解压缩文件

tar -zxvf flink-1.14.0-bin-scala_2.12.tgz -C /opt/module/


添加环境变量

#FLINK_HOME
export FLINK_HOME=/opt/module/flink-1.14.0
export PATH=$PATH:$FLINK_HOME/bin
export HADOOP_CLASSPATH=`hadoop classpath`
export HADOOP_CONF_DIR=${HADOOP_HOME}/etc/hadoop


刷新环境变量,使其生效

source /etc/profile


进入 conf 目录,修改 flink-conf.yaml 文件(可以使用默认值)

jobmanager.memory.process.size: 1600m
taskmanager.memory.process.size: 1728m
taskmanager.numberOfTaskSlots: 1
parallelism.default: 1

在bigdata_env.sh文件中添加export HADOOP_CLASSPATH=`hadoop classpath`

在flink的conf目录下,修改 flink-conf.yaml 文件添加的内容如下classloader.check leaked classloader: false


以per job 运行文件


flink run -m yarn-cluster -p 2 -yjm 2G -ytm 2G $FLINK_HOME/examples/batch/WordCount.jar


 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/794948.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

高校心理咨询预约系统的设计与实现(论文+源码)_kaic

摘 要 随着社会的发展,计算机的优势和普及使得高校心理咨询预约系统的开发成为必需。高校心理咨询预约系统主要是借助计算机,通过对信息进行管理。减少管理员的工作,同时也方便广大用户对个人所需信息的及时查询以及管理,其次是大…

苍穹外卖——项目搭建

一、项目介绍以及环境搭建 1.苍穹外卖项目介绍 1.1项目介绍 本项目(苍穹外卖)是专门为餐饮企业(餐厅、饭店)定制的一款软件产品,包括 系统管理后台 和 小程序端应用 两部分。其中系统管理后台主要提供给餐饮企业内部员…

【洛谷 P8655】[蓝桥杯 2017 国 B] 发现环 题解(邻接表+并查集+路径压缩)

[蓝桥杯 2017 国 B] 发现环 题目描述 小明的实验室有 N N N 台电脑,编号 1 ∼ N 1 \sim N 1∼N。原本这 N N N 台电脑之间有 N − 1 N-1 N−1 条数据链接相连,恰好构成一个树形网络。在树形网络上,任意两台电脑之间有唯一的路径相连。 …

ARM架构学习笔记2-汇编

RISC是精简指令集计算机(RISC:Reduced Instruction Set Computing) ARM汇编概述 一开始,ARM公司发布两类指令集: ① ARM指令集,这是32位的,每条指令占据32位,高效,但是太占空间 2…

怎么让html打开网页自动跳转(多个链接)?

🏆本文收录于「Bug调优」专栏,主要记录项目实战过程中的Bug之前因后果及提供真实有效的解决方案,希望能够助你一臂之力,帮你早日登顶实现财富自由🚀;同时,欢迎大家关注&&收藏&&…

#SOP#-如何使用AI辅助论文创作

#SOP#-如何使用AI辅助论文创作 ——2024.4.6 “在使用工具的时候,要做工具的主人” 最终交付物: 一份可执行的AI辅助创作论文的指导手册 交付物质量要求: 不为任何AI大模型付费!不为任何降重网站付费!通过知网检查论…

语义分割——自动驾驶鱼眼数据集

一、重要性及意义 环境感知:语义分割技术能够精确识别道路、车辆、行人、障碍物、交通标志和信号等各种交通场景元素。这为自动驾驶系统提供了丰富的环境信息,有助于车辆准确理解周围环境的结构和动态变化。决策规划:基于语义分割的结果&…

2024 最新版 Proteus 8.17 安装汉化教程

前言 大家好,我是梁国庆。 今天给大家带来的是目前 Proteus 的最新版本——Proteus 8.17。 时间:2024年4月4日 获取 Proteus 安装包 我已将本篇所使用的安装包打包上传至百度云,扫描下方二维码关注「main工作室」,后台回复【…

(2024,手部生成,SMPL,MANO,SD,手部参数)HanDiffuser:具有逼真手部外观的文本到图像生成

HanDiffuser: Text-to-Image Generation With Realistic Hand Appearances 公和众和号:EDPJ(进 Q 交流群:922230617 或加 VX:CV_EDPJ 进 V 交流群) 目录 0. 摘要 2. 相关工作 3. HanDiffuser 3.1. 基础 3.2. Tex…

webrtcP2P通话流程

文章目录 webrtcP2P通话流程webrtc多对多 mesh方案webrtc多对多 mcu方案webrtc多对多 sfu方案webrtc案例测试getUserMediagetUserMedia基础示例-打开摄像头getUserMedia canvas - 截图 打开共享屏幕 webrtcP2P通话流程 在这里,stun服务器包括stun服务和turn转发服…

docker进行jenkins接口自动化测试持续集成实战

文章目录 一、接口功能自动化测试项目源码讲解二、接口功能自动化测试运行环境配置1、下载jdk,maven,git,allure并配置对应的环境变量2、使用docker安装jenkins3、配置接口测试的运行时环境选择对应节点4、jenkins下载插件5、jenkins配置环境…

I2C驱动实验:验证所添加的I2C设备的设备节点

一. 简介 前面一篇文章向设备树中的 I2C1控制器节点下,添加了AP3216C设备节点。文章如下: I2C驱动实验:向设备树添加 I2C设备的设备节点信息-CSDN博客 本文对设备树进行测试,确认设备节点是否成功创建好。 二. I2C驱动实验&a…

算法刷题应用知识补充--基础算法、数据结构篇

这里写目录标题 位运算&#xff08;均是拷贝运算&#xff0c;不会影响原数据&#xff0c;这点要注意&#xff09;&、|、^位运算特性细节知识补充对于n-1的理解异或来实现数字交换找到只出现一次的数据&#xff0c;其余数据出现偶数次 >> 、<<二进制中相邻的位的…

动态多目标优化:动态约束多目标优化测试集DCP1-DCP9的TruePF(提供MATLAB代码)

一、进化动态约束多目标优化测试集DCP1-DCP9 参考文献&#xff1a; [1]G. Chen, Y. Guo, Y. Wang, J. Liang, D. Gong and S. Yang, “Evolutionary Dynamic Constrained Multiobjective Optimization: Test Suite and Algorithm,” in IEEE Transactions on Evolutionary Com…

Web3:数字化社会的下一步

随着技术的不断进步和互联网的发展&#xff0c;我们正逐渐迈入一个全新的数字化社会阶段。在这个新的时代&#xff0c;Web3作为数字化社会的重要组成部分&#xff0c;将发挥着举足轻重的作用。本文将探讨Web3在数字化社会中的意义、特点以及对未来发展的影响。 1. 重新定义数字…

人脸识别:Arcface--loss+code

之前只接触过传统方法的人脸识别算法&#xff0c;本以为基于深度学习的方法会使用对比损失之类的函数进行训练&#xff0c;但是Arcface算法基于softmax进行了创新&#xff0c;本文未深究其详细的loss公式原理&#xff0c;在大致明白其方向下&#xff0c;运行了代码&#xff0c;…

06-kafka及异步通知文章上下架

kafka及异步通知文章上下架 1)自媒体文章上下架 需求分析 2)kafka概述 消息中间件对比 特性ActiveMQRabbitMQRocketMQKafka开发语言javaerlangjavascala单机吞吐量万级万级10万级100万级时效性msusmsms级以内可用性高&#xff08;主从&#xff09;高&#xff08;主从&#…

spring中各种bean加载顺序

具体加载顺序按照罗列的顺序 XXXAware ApplicationContextAware、EnvironmentAware、BeanFactoryAware、BeanClassLoaderAware 顾名思义&#xff0c;用于获取对应的对象&#xff0c;需要在实体类中声明对应的对象且当前类为普通类能被注入。 InitializingBean void afterProp…

下载页面上的视频

引言&#xff1a;有些页面上的视频可以直接右键另存为或者F12检索元素找到视频地址打开后保存&#xff0c;但有些视频页面是转码后的视频&#xff0c;不能直接另存为视频格式&#xff0c;可以参考下本方法 以该页面视频为例&#xff1a;加载中...点击查看详情https://wx.vzan.c…

WindowsPowerShell安装配置Vim的折腾记录

说明 vim一直以来都被称为编辑器之神一样的存在。但用不用vim完全取决于你自己&#xff0c;但是作为一个学计算机的同学来说&#xff0c;免不了会和Linux打交道&#xff0c;而大部分的Linux操作系统都预装了vim作为编辑器&#xff0c;如果是简单的任务&#xff0c;其实vim只要会…