【大数据】NiFi 中的处理器(二):PutDatabaseRecord

NiFi 中的处理器(二):PutDatabaseRecord

  • 1.基本介绍
  • 2.属性配置
  • 3.连接关系
  • 4.应用场景

1.基本介绍

PutDatabaseRecord 处理器使用指定的 RecordReader 从传入的流文件中读取(可能是多个,说数组也成)记录。这些记录将转换为 SQL 语句,并作为一个批次执行。如果发生任何错误,则将流文件路由到 failureretry,如果执行成功,则将传入的流文件路由到 success。处理器执行的 SQL 语句类型通过 Statement Type 属性指定,该属性接受一些硬编码的值,例如 INSERTUPDATEDELETE ,使用 "Use statement.type Attribute" 可以使处理器获取流文件属性中的语句类型。

说明:如果语句类型为 UPDATE,正常的不应该修改主键的值。如果记录中修改主键的值,那么有可能找不到数据进行修改或者修改破坏了一些数据(说白了,代码是按照根据主键值为条件进行 update 的)。

当然,隐藏的功能是 statement.type 的值时 'SQL' 的时候,可以从 record 中的某个字段读取值,此值应该是一个可以执行的 SQL 语句,该处理器就执行这个 SQL 就可以了。

2.属性配置

在下面的列表中,必需属性的名称以粗体显示。任何其他属性(不是粗体)都被认为是可选的,并且指出属性默认值(如果有默认值),以及属性是否支持表达式语言。

Name
Default Value
Allowable Values
Description
Record ReaderController Service API:
RecordReaderFactory
Implementations: JsonPathReader
XMLReader
ScriptedReader
CSVReader
Syslog5424Reader
GrokReader
AvroReader
JsonTreeReader
ParquetReader
SyslogReader
指定用于解析传入数据和确定数据模式的 Controller Service。
Database TypeGenericGeneric
Oracle
Oracle 12+
MSSQL 2012+
MSSQL 2008
MySQL
PostgreSQL
数据库的类型/风格,用于生成特定于数据库的代码。在许多情况下,通用类型就足够了,但是某些数据库(例如 Oracle)需要自定义 SQL 子句。
Statement TypeUPDATE
INSERT
UPSERT
DELETE
Use statement.type Attribute
指定要生成的 SQL 语句的类型。请参考数据库文档以获取每个操作行为的描述。请注意,某些数据库类型可能不支持某些语句类型。如果选择了 "Use statement.type Attribute",则该值取自 FlowFile 中的 statement.type 属性。 "Use statement.type Attribute" 选项是唯一允许使用 "SQL" 语句类型的选项。如果指定了 "SQL",则 "Field ContainingSQL" 属性指定的字段的值应为目标数据库上的有效 SQL 语句,并将按原样执行。
Database Connection Pooling ServiceController Service API:
DBCPService
Implementations:
DBCPConnectionPool
HiveConnectionPool
DBCPConnectionPoolLookup
Controller Service,用于获得与数据库的连接以发送记录。
Catalog Name语句应更新的目录的名称。这可能不适用于你要更新的数据库。在这种情况下,请将该字段留空。
Supports Expression Language: true (will be evaluated using flow file attributes and variable registry)
Schema Name表所属的schema的名称。这可能不适用于你要更新的数据库。在这种情况下,请将该字段留空。
Supports Expression Language: true (will be evaluated using flow file attributes and variable registry)
Table Name语句应影响的表的名称。
Supports Expression Language: true (will be evaluated using flow file attributes and variable registry)
Translate Field Namestruetrue
false
如果为 true,则处理器将尝试将字段名称转换为指定表的适当列名称。如果为 false,则字段名称必须与列名称完全匹配,否则该列将不会更新。
Unmatched Field BehaviorIgnore Unmatched FieldsIgnore Unmatched Fields
Fail on Unmatched Fields
如果输入的记录有一个字段没有映射到数据库表的任何列,该属性会指定如何处理这种情况。
Unmatched Column BehaviorFail on Unmatched ColumnsIgnore Unmatched Columns
Warn on Unmatched Columns
Fail on Unmatched Columns
如果输入的记录没有数据库表所有列的字段映射,该属性会指定如何处理这种情况。
Update Keys列名的逗号分隔列表,可唯一标识数据库中 UPDATE 语句的行。如果语句类型为 UPDATE 且未设置此属性,则使用表的主键。在这种情况下,如果不存在主键,并且如果 Unmatched Column Behaviour 设置为 FAIL,则到 SQL 的转换将失败。如果语句类型为 INSERT,则忽略此属性。
Supports Expression Language: true (will be evaluated using flow file attributes and variable registry)
Field Containing SQL如果语句类型为 "SQL"(在 statement.type 属性中设置),则此字段指示记录中的哪个字段包含要执行的 SQL 语句。该字段的值必须是单个 SQL 语句。如果语句类型不是 "SQL",则忽略此字段。
Supports Expression Language: true (will be evaluated using flow file attributes and variable registry)
Allow MultipleSQL Statementsfalsetrue
false
如果语句类型为 "SQL"(在 statement.type 属性中设置),则此字段指示是否用分号分隔字段值并分别执行每个语句。如果有任何语句导致错误,则将回滚整个语句集。如果语句类型不是 "SQL",则忽略此字段。
Quote Column Identifiersfalsetrue
false
启用此选项将导致所有列名都被引用,从而允许你将保留字用作表中的列名。
Quote Table Identifiersfalsetrue
false
启用该选项后,表名将加引号,以支持在表名中使用特殊字符。
Max Wait Time 0 0 0 seconds运行的 SQL 语句所允许的最长时间, 0 0 0 表示没有限制。少于 1 1 1 秒的最长时间将等于 0 0 0
Supports Expression Language: true (will be evaluated using variable registry only)
Rollback On Failurefalsetrue
false
指定如何处理错误。默认情况下(false),如果在处理 FlowFile 时发生错误,则 FlowFile 将根据错误类型路由到 "failure""retry" 关系,处理器可以继续使用下一个 FlowFile。相反,你可能想回滚当前已处理的 FlowFile,并立即停止进一步的处理。在这种情况下,你可以通过启用此 Rollback On Failure 属性来实现。如果启用,失败的 FlowFiles 将保留在输入关系中,而不会受到惩罚,并会反复处理,直到成功处理或通过其他方式将其删除。重要的是要设置足够的 "Yield Duration",以免重试太频繁。
Table Schema Cache Size 100 100 100指定应缓存多少个表模式
Maximum Batch Size 0 0 0指定 INSERTUPDATE 语句的最大批处理大小。该参数对 Statement Type 中指定的其他语句无效。 0 0 0 表示批量不受限制。
Supports Expression Language: true (will be evaluated using flow file attributes and variable registry)

在这里插入图片描述

3.连接关系

Name
Description
retry如果无法更新数据库,但再次尝试操作可能会成功,将 FlowFile 路由到此关系。
success从 SQL 查询结果集中成功创建了 FlowFile。
failure如果无法更新数据库,并且无法重试该操作(例如无效查询或违反完整性约束),也会将 FlowFile 路由到此关系。

4.应用场景

PutDatabaseRecord 之前,我们想要写入数据到数据库,往往需要使用 ConvertJsonToSql + PutSQL 组合,尤其是当数据格式不是 json 的时候还需要先将数据转换为 json,而使用 ConvertJsonToSql 属于一边连接了目标库,一边要在内存解析一次数据,转成了参数化的 SQL,并且参数也是放到 FlowFile 的属性中,平白无故的这个 FlowFile 也就更吃内存了。PutDatabaseRecord 的好处就是我们可以将任何 NIFI 支持的 Record 写入指定目的,在内存解析一次数据就可以了。当然了,前后两种方式写数据到数据库的基本原理都是一样的,只是 PutDatabaseRecord 的效率更好一些。

最早,PutDatabaseRecord 支持将特定的 Record 集合转成 InsertUpdateDelete 语句,我们只要选择 Statement Type 即可。然后为了更灵活,增加了 Use statement.type Attribute 选项,我们可以在上游的 FlowFile 中指定 statement.type 属性,这期间又暗地里加了 "statement.type=SQL" 的功能,当 Statement Type 的值为 "SQL" 的时候,我们要配合 Field Containing SQL 配置进行工作。Field Containing SQL 指的是上游来的 FlowFile 中的一个字段,这个字段值是一个可执行的 SQL。

可能让我们比较迷茫的是 Unmatched Field BehaviorUnmatched Column Behavior,我们如果纠结这两个配置的描述就会很难受,我们只关注两个单词 FieldColumn 就可以分清楚了。

Column 我们知道,(目标)表的列嘛,就是说如果你手里的数据中的列没有与我目标表的 Column 对应会怎么样。而 Field 针对的是 Record(博主注:可以理解为一行行数据),是具体的数据,就是说如果你目标表里的列没有与我 Record 中的 Field 相对应会怎么样。具体的关系我描述一下:首先 Record 中会携带 schema 元数据信息(或推断出 schema 信息),信息里会有若干个 Field。我们在生成 SQL 的时候,会从目标数据库查询指定表的元数据信息(放缓存里),而数据库里设置成非 null 的且非自增长的没有设置默认值的则认为是 required 字段。

  • 然后针对 insertdelete 大体有三个步骤:
    • 第一步是遍历 required 字段,看 Record 里是否都有这几个字段,如果没有就用到 Unmatched Column Behavior,如果我们配置了 ignore 了,就继续执行。
    • 第二步是对这几个 Field 的遍历,查询是否在指定表的元数据里有对应的列信息,当遇到没有的情况时,就是 Unmatched Field Behavior,如果我们配置了 ignore 了,就继续执行。如果存在,我们就放到一个集合 set 里存起来。
    • 第二步遍历结束后,第三步我们再判断这个集合 set 有没有值,如果是空的,就直接报 "None of the fields in the record map to the columns defined by the " + tableName + " table" 的 SQLDataException 异常了。
  • update 的话稍微有些不一样,第一步就检测 Update Keys,如果没有对应值就默认使用目标表的主键,如果都没有值就报 "Table '" + tableName + "' does not have a Primary Key and no Update Keys were specified" 异常了,然后紧接着检测 Record 里是否有这些字段,没有就要 Unmatched Column Behavior。第二步跟上面一样,就是对这几个 Field 的遍历,查询是否在指定表的元数据里有对应的列信息,当遇到没有的情况时,就是 Unmatched Field Behavior,如果我们配置了 ignore 了,就继续执行。
  • 最后 upset 的检查就是融合了 insertupdate

在这里插入图片描述
然后得说一下这个 Translate Field Names,这个功能点其实非常好,其实就是将列名转大写并替换下划线(Record 中的列和指定表的列都做此转换,指定表的列信息会做成一个 Map 映射,转换的列名 : 列元数据信息)。

private static String normalizeColumnName(final String colName, final boolean translateColumnNames) {return colName == null ? null : (translateColumnNames ? colName.toUpperCase().replace("_", "") : colName);}

fieldName 转大写并替换下划线,然后跟指定表的同样转换过后的列元数据信息映射进行匹配,记录下 Field 的那个索引值,然后组 SQL 设置参数的时候根据索引值找到 Record 中对应的 value 就行了。这个功能其实就是帮助我们更好的对 Record 列和目标表列进行匹配。而 SQL 中的列名其实用的还是从指定表查询出来的列元数据信息。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/612200.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

DHSP和DNS

一、服务程序 1.1DHCP定义 DHCP(动态主机配置协议)是一个局域网的网络协议。指的是由服务器控制一段IP地址范围,客户机登录服务器时就可以自动获得服务器分配的IP地址和子网掩码。默认情况下,DHCP作为Windows Server的一个服务组…

性格是如何形成的?能不能改变性格?

有一句话叫“性格决定命运”,广泛流传,也就是说 “命运”与“性格”是紧密相连的,可见“性格”对于一个人的重要性。 性格是怎么来的? 1、遗传基因 根据一些心理学家的最新研究,认为性格与人体内的基因有关系&#x…

不再恐惧指针,指针详解

什么是指针? 通俗来说指针就相当于地址,因为我们写入的代码每个变量的数据类型不同,字节大小不同,在计算机内存中所开辟存储的大小自然不同,且指针通常存储的是内存单元中最小单元的编号 比如:int*指针的…

【Scala】——面向对象

1 Scala 包 1.1 包风格 Scala 有两种包的管理风格。 第一种 Java 的包管理风格相同,每个源文件一个包(包 名和源文件所在路径不要求必须一致),包名用“.”进行分隔以表示包的层级关系,如 com.atguigu.scala。另一种风…

遥感单通道图像保存为彩色图像

系列文章目录 第一章PIL单通道图像处理 文章目录 系列文章目录前言一、代码实现二、问题记录在这里插入图片描述 总结 前言 将单通道图像以彩色图像的形式进行保存主要使用了PIL库 一、代码实现 palette_data [***]:可以进行自定义设置 代码如下: fr…

UVa12304 2D Geometry 110 in 1!

题目链接 UVa12304 2D Geometry 110 in 1! 题意 这是一个拥有6(二进制是110)个子问题的2D几何问题集。 1 CircumscribedCircle x1 y1 x2 y2 x3 y3:求三角形(x1,y1)-(x2,y2)-(x3,y3)的外接圆。这3点保证不共线。答案应格式化成(x,y,r…

服务器 配置git

参考了下面这篇文章,不对的地方做了改正 在服务器上git clone github项目的过程-CSDN博客 1. 下载解压 wget https://www.kernel.org/pub/software/scm/git/git-2.34.1.tar.gz tar -zxvf git-2.34.1.tar.gz 2. 安装 cd git-2.34.1/ ./configure make confi…

Geotools-PG空间库(Crud,属性查询,空间查询)

建立连接 经过测试,这套连接逻辑除了支持纯PG以外,也支持人大金仓,凡是套壳PG的都可以尝试一下。我这里的测试环境是Geosence创建的pg SDE,数据库选用的是人大金仓。 /*** 获取数据库连接资源** param connectConfig* return* {…

springboot私人健身与教练预约管理系统源码和论文

随着信息技术和网络技术的飞速发展,人类已进入全新信息化时代,传统管理技术已无法高效,便捷地管理信息。为了迎合时代需求,优化管理效率,各种各样的管理系统应运而生,各行各业相继进入信息管理时代&#xf…

【rk3568】01-环境搭建

文章目录 1.开发板介绍1.1相关资源:1.2接口布局1.3屏幕1.4核心板引脚可复用资源 2.环境搭建2.1安装依赖包2.2git配置2.3安装sdk2.4sdk介绍2.5sdk编译 3.镜像介绍 1.开发板介绍 开发板:atk-rk3568开发板 eMMC:64G LPDDR4:4G 显示屏…

螺旋数字矩阵 - 华为OD统一考试

OD统一考试(C卷) 分值: 100分 题解: Java / Python / C++ 题目描述 疫情期间,小明隔离在家,百无聊赖,在纸上写数字玩。他发明了一种写法: 给出数字个数n和行数m (0 < n <= 999,0 < m <= 999),从左上角的1开始,按照顺时针螺旋向内写方式,依次写出2,3……

创建ROS模型与小机器人地图规划

1、打开自己的VM系统 2、安装小机器人的安装包&#xff0c;输入如下命令&#xff0c;回车输入密码(自己设的)&#xff1a; sudo apt install ros-noetic-turtlebot3-simulations ros-noetic-turtlebot3-slam ros-noetic-turtlebot3-navigation 提示我之前安装过了 3、用rosla…

Java 常见缓存详解以及解决方案

一. 演示Mybatis 一级缓存 首先我们准备一个接口 两个实现的方法&#xff0c; 当我们调用这个queryAll&#xff08;&#xff09;方法时我们需要调用selectAll&#xff08;&#xff09;方法来查询数据 调用此接口实现效果 这个时候我们就可以发现了问题&#xff0c;我们调用方法…

18张AI电脑动漫超清壁纸免费分享

18张AI电脑动漫壁纸&#xff0c;紫色系和暗黑系&#xff0c;都很不错&#xff0c;喜欢的朋友可以拿去 CSDN免积分下载

【LV12 DAY12-13 GPIO C 语言与寄存器封装】

GPIO 通用型输入输出&#xff0c;GPIO可以控制连接在其引脚实现信号的输入和输出 芯片的引脚和外部设备相连从而实现与外部硬件的通讯&#xff0c;控制&#xff0c;信号采集的功能。 控制CHG_COK引脚输出为高电平&#xff0c;LED亮&#xff0c;输出为低电平&#xff0c;LED熄灭…

Android 10.0 TvSettings系统设置wifi连接密码框点击Enter键失去焦点

1.前言 在10.0的box产品开发中,在TvSettings中,在wifi连接的时候,在用遥控器输入wifi密码框的时候,会发现在按遥控器Enter键的时候, 发现EditText焦点失去了,导致输入法消失了,为了解决这个问题就需要拦截Enter键保证正常输入wifi密码,接下来就来实现这个功能 如图: 2.…

CSS 弹幕按钮动画

<template><view class="content"><button class="btn-23"><text class="text">弹幕按钮</text><text class="marquee">弹幕按钮</text></button></view></template><…

win7添加access的odbc数据源

从控制面板打开odbc数据源&#xff1b;如果像下面没有access的驱动程序&#xff0c; 根据资料&#xff0c;打开C盘-Windows-SysWow64-odbcad32.exe&#xff0c;看一下就有了&#xff1b; 然后添加用户DSN&#xff0c;选中access的驱动程序&#xff0c; 自己输入一个数据源名&am…

【浅尝C++】引用

&#x1f388;归属专栏&#xff1a;浅尝C &#x1f697;个人主页&#xff1a;Jammingpro &#x1f41f;记录一句&#xff1a;大半夜写博客的感觉就是不一样&#xff01;&#xff01; 文章前言&#xff1a;本篇文章简要介绍C中的引用&#xff0c;每个介绍的技术点&#xff0c;在…

Gitlab-ci:从零开始的前端自动化部署

一.概念介绍 1.1 gitlab-ci && 自动化部署工具的运行机制 以gitlab-ci为例&#xff1a; (1) 通过在项目根目录下配置.gitlab-ci.yml文件&#xff0c;可以控制ci流程的不同阶段&#xff0c;例如install/检查/编译/部署服务器。gitlab平台会扫描.gitlab-ci.yml文件&…