【大数据】Apache NiFi 助力数据处理及分发

Apache NiFi 助力数据处理及分发

  • 1.什么是 NiFi ?
  • 2.NiFi 的核心概念
  • 3.NiFi 的架构
  • 4.NiFi 的性能预期和特点
  • 5.NiFi 关键特性的高级概览

在这里插入图片描述

1.什么是 NiFi ?

简单的说,NiFi 就是为了解决不同系统间数据自动流通问题而建立的。虽然 dataflow 这个术语在各种场景都有被使用,但我们在这里使用它来表示不同系统间的自动化的可管理的信息流。自企业拥有多个系统开始,一些系统会有数据生成,一些系统要消费数据,而不同系统之间数据的流通问题就出现了。这些问题出现的相应的解决方案已经被广泛的研究和讨论,其中企业集成 eip(Enterprise Integration Patterns) 就是一个全面且易于使用的方案。

dataflow 要面临的一些挑战包括

  • Systems fail:网络故障,磁盘故障,软件崩溃,人为事故。
  • Data access exceeds capacity to consume:有时,给定的数据源可能会超过处理链或交付链的某些部分的处理能力,而只需要一个环节出现问题,整个流程都会受到影响。
  • Boundary conditions are mere suggestions:总是会得到太大、太小、太快、太慢、损坏、错误或格式错误的数据。
  • What is noise one day becomes signal the next:现实业务或需求变更快,设计新的数据处理流程或者修改已有的流程必须要迅速。
  • Systems evolve at different rates:给定的系统所使用的协议或数据格式可能随时改变,而且常常跟周围其他系统无关。dataflow 的存在就是为了连接这种大规模分布的,松散的,甚至根本不是设计用来一起工作的组件系统。
  • Compliance and security:法律,法规和政策发生变化。企业对企业协议的变化。系统到系统和系统到用户的交互必须是安全的,可信的,负责任的。
  • Continuous improvement occurs in production:通常不可能在测试环境中完全模拟生产环境。

多年来,数据流一直是架构中不可避免的问题之一。现在有许多活跃的、快速发展的技术,使得 dataflow 对想要成功的特定企业更加重要,比如 SOA,API,IOT,BigData。此外,合规性,隐私性和安全性所需的严格程度也在不断提高。尽管不停的出现这些新概念新技术,但 dataflow 面临的困难和挑战依旧,其中主要的区别还是复杂的范围,需要适应的需求变化的速度以及大规模边缘情况的普遍化。NiFi 旨在帮助解决这些现代数据流挑战。

2.NiFi 的核心概念

NiFi 的基本设计概念与基于流程的编程 FBP(Flow-based programming)的主要思想密切相关。以下是一些主要的 NiFi 概念以及它们如何映射到 FBP:

NiFi 术语FBP 术语描述
FlowFileInformation PacketFlowFile 表示在系统中移动的每个对象,对于每个 FlowFile,NiFi 都会记录它一个属性键值对和 0 个或多个字节内容(FlowFile 有 attributecontent
FlowFile ProcessorBlack Box实际上是处理器起主要作用。在 eip 术语中,处理器就是不同系统间的数据路由,数据转换或者数据中介的组合。处理器可以访问给定 FlowFile 的属性及其内容。处理器可以对给定工作单元中的零或多个流文件进行操作,并提交该工作或回滚该工作
ConnectionBounded BufferConnections 用来连接处理器。它们充当队列并允许各种进程以不同的速率进行交互。这些队列可以动态地对进行优先级排序,并且可以在负载上设置上限,从而启用背压
Flow ControllerScheduler流控制器维护流程如何连接,并管理和分配所有流程使用的线程。流控制器充当代理,促进处理器之间流文件的交换
Process GroupSubnet进程组里是一组特定的流程和连接,可以通过输入端口接收数据并通过输出端口发送数据,这样我们在进程组里简单地组合组件,就可以得到一个全新功能的组件(Process Group)

此设计模型也类似于 SEDA,带来了很多好处,有助于 NiFi 成为非常有效的、构建功能强大且可扩展的数据流的平台。其中一些好处包括:

  • 有助于处理器有向图的可视化创建和管理。
  • 本质上是异步的,允许非常高的吞吐量和足够的自然缓冲。
  • 提供高并发的模型,开发人员不必担心并发的复杂性。
  • 促进内聚和松散耦合组件的开发,然后可以在其他环境中重复使用并方便单元测试。
  • 资源受限的连接(流程中可配置 connections)使得背压和压力释放等关键功能非常自然和直观。
  • 错误处理变得像基本逻辑一样自然,而不是粗粒度的全部捕获(catch-all)。
  • 数据进入和退出系统的点,以及它是如何流动的,都是容易理解和跟踪的。

3.NiFi 的架构

在这里插入图片描述
NiFi 在操作系统上的 JVM 内执行。JVM 上 NiFi 的主要组件如下:

  • Web Server:Web 服务器的目的是承载 NiFi 基于 http 的命令和控制 API。
  • Flow Controller:是整个操作的核心,为将要运行的组件提供线程,管理调度。
  • Extensions:有各种类型的 NiFi 扩展,这些扩展在其他文档中进行了描述。这里的关键点是 NiFi 扩展在 JVM 中操作和执行。
  • FlowFile Repository:对于给定一个流中正在活动的 FlowFile,FlowFile Repository 就是 NiFi 保持跟踪这个 FlowFile 状态的地方。FlowFile Repository 的实现是可插拔的(多种选择,可配置,甚至可以自己实现),默认实现是使用 Write-Ahead Log 技术(简单普及下,WAL 的核心思想是:在数据写入库之前,先写入到日志,再将日志记录变更到存储器中)写到指定磁盘目录。
  • Content Repository:Content Repository 是给定 FlowFile 的实际内容字节存储的地方。Content Repository 的实现是可插拔的。默认方法是一种相当简单的机制,它将数据块存储在文件系统中。可以指定多个文件系统存储位置,以便获得不同的物理分区以减少任何单个卷上的争用(所以环境最佳实践时可配置多个目录,挂载不同磁盘,提高 IO)。
  • Provenance Repository:Provenance Repository 是存储所有事件数据的地方。Provenance Repository 的实现是可插拔的,默认实现是使用一个或多个物理磁盘卷。在每个位置内的事件数据都是被索引并可搜索的。

NiFi 也能够在集群内运行。

在这里插入图片描述
从 NiFi 1.0 版本开始,NiFi 集群采用了 Zero-Master Clustering 模式。NiFi 集群中的每个节点对数据执行相同的任务,但每个节点都在不同的数据集上运行。Apache ZooKeeper 选择单个节点作为集群协调器,ZooKeeper 自动处理故障转移。所有集群节点都会向集群协调器发送心跳报告和状态信息。集群协调器负责断开和连接节点。此外,每个集群都有一个主节点,主节点也是由 ZooKeeper 选举产生。我们可以通过任何节点的用户界面与 NiFi 集群进行交互,并且我们所做的任何更改都将复制到集群中的所有节点上。

4.NiFi 的性能预期和特点

NiFi 的设计目的是充分利用其运行的底层主机系统的能力。这种资源的最大化在 CPU 和磁盘方面尤其明显。

  • For IO:不同系统不同配置可预期的吞吐量或延迟会有很大差异,具体取决于系统的配置方式。鉴于大多数 NiFi 子系统都有可插拔的实现方法,所以性能取决于实现。但是,对于一些具体和广泛适用的地方,请考虑使用现成的默认实现。这些实现都是持久的,有保证的让数据流传递,并且是使用本地磁盘来实现。因此,保守点说,假设在典型服务器中的普通磁盘或 RAID 卷上的每秒读 / 写速率大约为 50 MB,那么,对于大型数据流,NiFi 应该能够有效地达到每秒 100 MB 或更多的吞吐量。这是因为预期添加到 NiFi 的每个物理分区和 Content repository 都会出现线性增长,瓶颈将出现在 FlowFile repositoryProvenance repository 的某个点上。我们计划提供一个基准测试和性能测试模板,然后允许用户能够轻松测试他们的系统并确定瓶颈在哪里,以及他们可能成为瓶颈的原因。此模板还应使系统管理员可以轻松进行更改并验证其影响。(期待这个测试功能的出现)

  • For CPU:Flow Controller 充当引擎的角色,指示特定处理器何时可以被分配线程去执行。编写处理器以在执行任务后立即释放线程。可以为 Flow Controller 提供一个配置值,该值指示它维护的各种线程池的可用线程。理想的线程数取决于主机系统内核数量,系统中是否正在运行其他服务,以及流程中要处理的流的性质。对于典型的 IO 大流量,合理的做法是让多线程可用。

  • For RAM:NiFi 在 JVM 中运行,因此限制于 JVM 提供的内存。JVM 垃圾回收成为限制实际堆总大小以及优化应用程序的运行的一个非常重要的因素。NiFi 作业在定期读取相同内容时可能会占用大量 I/O。可以配置足够大的磁盘以优化性能。

5.NiFi 关键特性的高级概览

  • Flow Management

    • Guaranteed Delivery:NiFi 的核心理念是,即使在非常高的规模下,也必须保证交付。这是通过有效地使用专门构建的 Write-Ahead Log 和 Content repository 来实现的。它们一起被设计成具备允许非常高的事务速率、有效的负载分布、写时复制和能发挥传统磁盘读 / 写的优势。
    • Data Buffering w/ Back Pressure and Pressure Release:NiFi 支持缓冲所有排队的数据,以及在这些队列达到指定限制时提供背压的能力,或在数据达到指定期限(其值已失效)时老化数据的能力。
    • Prioritized Queuing:NiFi 允许设置一个或多个优先级方案,用于如何从队列中检索数据。默认情况是先进先出,但有时应该首先提取最新的数据(后进先出)、最大的数据先出或其他定制方案。
    • Flow Specific QoS(latency v throughput, loss tolerance, etc.):可能在数据流的某些节点上数据至关重要,不容丢失,并且在某些时刻这些数据需要在几秒钟就处理完毕传向下一节点才会有意义。对于这些方面 NiFi 也可以做细粒度的配置。
  • Ease of Use

    • Visual Command and Control:数据流的处理逻辑和过程可能会非常复杂。能够可视化这些流程并以可视的方式来表达它们可以极大地帮助用户降低数据流的复杂度,并确定哪些地方需要简化。NiFi 可以实现数据流的可视化建立,而且是实时的。并不是 “设计、部署”,它更像泥塑。如果对数据流进行了更改,更改就会立即生效,并且这些更改是细粒度的和组件隔离的。用户不需要为了进行某些特定修改而停止整个流程或流程组。
    • Flow Templates:FlowFile 往往是高度模式化的,虽然通常有许多不同的方法来解决问题,但能够共享这些最佳实践却大有帮助。流程模板允许设计人员构建和发布他们的流程设计,并让其他人从中受益和复用。
    • Data Provenance:在对象流经系统时,甚至在扇入、扇出、转换等过程,NiFi 会自动记录、索引并提供可用的源数据。这些信息在支持法规遵从性、故障排除、优化以及其他方案中变得极其关键。
    • Recovery / Recording a rolling buffer of fine-grained history:NiFi 的 Content repository 旨在充当历史数据的滚动缓冲区。数据仅在 Content repository 老化或需要空间时才会被删除。Content repository 与 Data provenance 能力相结合,为在对象的生命周期中的特定点(甚至可以跨越几代)实现可以查看内容,内容下载和重放等功能提供了非常有用的基础。
  • Security

    • System to System:数据流越安全越好。对于数据流中每个节点 NiFi 都是通过使用加密协议(如双向 SSL)来安全地交换数据。此外,NiFi 的流程能够加密和解密内容,并在发送方 / 接收方任何一侧使用共享密钥或其他机制来保证数据的安全。
    • User to System:NiFi 支持双向 SSL 身份验证,并提供可插拔授权方式,以便能够正确控制用户的访问权限和特定级别(只读,数据流管理,admin)。如果用户在流程中输入敏感属性(如密码),则会立即在服务器端加密,保证敏感信息不会再次暴露在客户端(前端 UI)中(比如用户 A 在流程中输入了 MySQL 的用户密码,填写完毕后任何人即使是用户 A 也看不到明文密码)。
    • Multi-tenant Authorization:NiFi 数据流的权限级别适用于每个组件,并且允许管理员用户拥有细粒度的控制访问级别。这意味着每个 NiFi 集群都能够处理一个或多个组织的需求。与隔离拓扑相比,多租户授权支持数据流管理的自助服务,允许每个团队或组织在完全了解流的其余部分的情况下管理流,而无法访问流。
  • Extensible Architecture

    • Extension:NiFi 的核心是可扩展,因此它是一个能以可预测和可重复的方式去执行和交互的数据流流程平台。可扩展的包括:processorsController ServicesReporting TasksPrioritizersCustomer User Interfaces
    • Classloader Isolation:对于任何基于组件的系统,涉及依赖的问题时常发生。NiFi 通过提供自定义类加载器来解决这个问题,确保每个扩展包都暴露在一组非常有限的依赖中。因此,构建扩展包的时候不必担心它们是否可能与另一个扩展包冲突。这些扩展包的概念称为 “NiFi Archives”,在 Developer’s Guide 中有更详细的讨论。
    • Site-to-Site Communication Protocol:NiFi 实例之间的首选通信协议是 NiFi 站点到站点(S2S)协议。S2S 轻松,高效,安全地将数据从一个 NiFi 实例传输到另一个实例。NiFi 客户端库可以轻松构建并捆绑到其他应用程序或设备中,通过 S2S 协议与 NiFi 进行通信。S2S 中支持以 Socket 的协议和 HTTP / HTTPS 协议作为底层传输协议,使得可以将代理服务器嵌入到 S2S 协议的通信中。
  • Flexible Scaling Model

    • Scale-out (Clustering):NiFi 的设计是可集群,可横向扩展的。如果配置单个节点并将其配置为每秒处理数百 MB 数据,那么可以相应的将集群配置为每秒处理 GB 级数据。但这也带来了 NiFi 与其获取数据的系统之间的负载平衡和故障转移的挑战。采用基于异步排队的协议(如消息服务,Kafka 等)可以提供帮助解决这些问题。使用 NiFi 的 S2S 功能也非常有效,因为它是一种协议,允许 NiFi 和客户端(包括另一个 NiFi 群集)相互通信,共享有关加载的信息,以及交换特定授权的数据端口。
    • Scale-up & down:NiFi 还可以非常灵活地扩展和缩小。从 NiFi 框架的角度来看,在增加吞吐量方面,可以在配置时增加 “调度” 选项卡下处理器上的并发任务数。这允许更多线程同时执行,从而提供更高的吞吐量。另一方面,您可以完美地将 NiFi 缩小到适合在边缘设备上运行,因为硬件资源有限,所需的占用空间很小,这种情况可以使用 MiNiFi。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/98293.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【Linux】 rm命令使用

作为一个程序员 我们经常用到rm -rf * 或者rm -rf XXX 。但是rm -rf 是什么意思不是很清楚,咱们一起来学习一下吧。 rm(英文全拼:remove)命令用于删除一个文件或者目录。 rm 命令 -Linux手册页 著者 由保罗鲁宾、大卫麦肯齐、理…

Qt的WebEngineView加载网页时出现Error: WebGL is not supported

1.背景 当我在qml中使用WebEngineView加载一个网页时,出现以下错误: Error: WebGL is not supported 2.解决方案 其实这个问题在Qt的帮助文档中已经提及了解决办法: 因此,可以按照下面的步骤操作一下: 2.1.pro文件 …

Unity中Shader光强与环境色

文章目录 前言一、实现下图中的小球接受环境光照实现思路:1、在Pass中使用前向渲染模式2、使用系统变量 _LightColor0 获取场景中的主平行灯 二、返回环境中主环境光的rgb固定a(亮度),小球亮度还随之改变的原因三、获取Unity中的环境光的颜色1、Color模式…

练[SUCTF 2019]CheckIn

[SUCTF 2019]CheckIn 文章目录 [SUCTF 2019]CheckIn掌握知识解题思路关键paylaod 掌握知识 ​ .user.ini文件上传利用–需要上传目录有一个php文件(index.php)&#xff0c;文件头绕过&#xff0c;文件内容<&#xff1f;检测 解题思路 打开题目链接&#xff0c;发现又是一…

模块化编程+LCD1602调试工具——“51单片机”

各位CSDN的uu们你们好呀&#xff0c;小雅兰又来啦&#xff0c;刚刚学完静态数码管显示和动态数码管显示&#xff0c;感觉真不错呢&#xff0c;下面&#xff0c;小雅兰就要开始学习模块化编程以及LCD1602调试工具的知识了&#xff0c;让我们进入51单片机的世界吧&#xff01;&am…

Zabbix配置监控文件系统可用空间小于30GB自动告警

一、创建监控项 二、配置监控项 #输入名称–>键值点击选择 #找到磁盘容量点击 注&#xff1a; 1、vfs 该键值用于检测磁盘剩余空间&#xff0c;zabbix 内置了非常多的键值可以选着使用 2、单位B不需要修改&#xff0c;后期图表中单位和G拼接起来就是GB 3、更新时间 10S…

❋JQuery的快速入门2 jq鼠标滚轮

onmousewheelscript当鼠标滚轮正在被滚动时运行的脚本。 主要是利用top与left进行上下移动和左右移动 【使用获取的角度正值还是负值&#xff0c;判断是向上还是上下滚动】 $(element).on("mousewheel", function(event){var de event.originalEvent.deltaY; //需要…

基于springboot实现汽车租赁管理系统项目演示【项目源码+论文说明】分享

基于springboot实现汽车租赁管理系统项目演示 摘要 随着社会的发展&#xff0c;计算机的优势和普及使得汽车租赁系统的开发成为必需。汽车租赁系统主要是借助计算机&#xff0c;通过对汽车租赁信息等信息进行管理。减少管理员的工作&#xff0c;同时也方便广大用户对个人所需汽…

异常:找不到匹配的key exchange算法

目录 问题描述原因分析解决方案 问题描述 PC 操作系统&#xff1a;Windows 10 企业版 LTSC PC 异常软件&#xff1a;XshellPortable 4(Build 0127) PC 正常软件&#xff1a;PuTTY Release 0.74、MobaXterm_Personal_23.1 服务器操作系统&#xff1a;OpenEuler 22.03 (LTS-SP2)…

树的基本概念及二叉树

目录 一、树的基本概念 &#xff08;1&#xff09;树的结点 &#xff08;2&#xff09;度 &#xff08;3&#xff09;结点层次 &#xff08;4&#xff09;树的高度 树的特点&#xff1a; 二、二叉树 &#xff08;1&#xff09;满二叉树 &#xff08;2&#xff09;完…

JVM(八股文)

目录 一、JVM简介 二、JVM中的内存区域划分 三、JVM加载 1.类加载 1.1 加载 1.2 验证 1.3 准备 1.4 解析 1.5 初始 1.6 总结 2.双亲委派模型 四、JVM 垃圾回收&#xff08;GC&#xff09; 1.确认垃圾 1.1 引用计数 1.2 可达性分析&#xff08;Java 采用的方案&a…

Hudi 系列-基础概念-索引机制

目录 前言问题作用减少开销怎么理解数据变更基础 类型全局索引FlinkSpark 总结 前言 Hudi 系列文章在这个这里查看 https://github.com/leosanqing/big-data-study 索引(Index)是 Hudi 最重要的特性之一,也是区别于之前传统数仓 Hive 的重要特点, 是实现 Time Travel, Update…

抢先知:公抓抓 信息挖掘工具

随着经济全球化进程的加速&#xff0c;企业在不断发展和壮大&#xff0c;同时也在不断地适应市场的变化。在这个过程中&#xff0c;企业信息的及时获取和掌握变得至关重要。那么&#xff0c;最新企业信息哪里找呢&#xff1f;在这里介绍几个路径&#xff0c;可以参考&#xff0…

ARM:使用汇编完成三个灯流水亮灭

1.汇编源代码 .text .global _start _start: 设置GPIOF寄存器的时钟使能LDR R0,0X50000A28LDR R1,[R0]ORR R1,R1,#(0x1<<5)STR R1,[R0]设置GPIOE寄存器的时钟使能LDR R0,0X50000A28LDR R1,[R0] 从r0为起始地址的4字节数据取出放在R1ORR R1,R1,#(0x1<<4) 第4位设…

Visual Studio自定义模板参数、备注

模板路径&#xff1a; VS2022 x64&#xff1a;C:\Program Files\Microsoft Visual Studio\2022\Enterprise\Common7\IDE\ItemTemplatesVS2022 x86&#xff1a;C:\Program Files (x86)\Microsoft Visual Studio\2022\Enterprise\Common7\IDE\ItemTemplates 一、声明和启用模板…

4.方法操作实例变量 对象的行为

4.1 操作对象状态的方法 同一类型的每个对象能够有不同的方法行为&#xff0c;任一类的每个实例都带有相同的方法&#xff0c;但是方法可以根据实例变量的值来表现不同的行为。 play()会播放title值表示的歌曲&#xff0c;调用某个实例的play()可能会播放“Politik”而另一个会…

Zabbix自定义脚本监控MySQL数据库

一、MySQL数据库配置 1.1 创建Mysql数据库用户 [rootmysql ~]# mysql -uroot -p create user zabbix127.0.0.1 identified by 123456; flush privileges; 1.2 添加用户密码到mysql client的配置文件中 [rootmysql ~]# vim /etc/my.cnf.d/client.cnf [client] host127.0.0.1 u…

JMeter压测如何分配业务比例?

在进行综合场景压测时&#xff0c;由于不同的请求&#xff0c;要求所占比例不同&#xff0c;那如何实现呢&#xff1f; 有人说将这些请求分别放到单独的线程组下&#xff0c;然后将线程组的线程数按照比例进行配置&#xff0c;这种方法不是很好&#xff0c;想想&#xff0c;不…

百元开放式耳机哪款好一点耐用、百元耳放推荐

在耳机品类中&#xff0c;佩戴无需入耳、可保持耳道舒适的开放式耳机正成为新的潮流&#xff0c;不仅不少消费者趋之若鹜&#xff0c;相对于传统入耳式耳机&#xff0c;开放式耳机具备开放双耳的特性&#xff0c;能敞开耳道&#xff0c;让耳朵随时呼吸&#xff0c;保持干燥透气…

pytorch算力与有效性分析

pytorch Windows中安装深度学习环境参考文档机器环境说明3080机器 Windows11qt_env 满足遥感CS软件分割、目标检测、变化检测的需要gtrs 主要是为了满足遥感监测管理平台&#xff08;BS&#xff09;系统使用的&#xff0c;无深度学习环境内容swin_env 与 qt_env 基本一致od 用于…