kettle从入门到精通 第七十三课 ETL之kettle kettle调用http分页接口教程

场景:kettle调用http接口获取数据(由于数据量比较大,鉴于网络和性能考虑,所以接口是个分页接口)。

 方案:构造页码list,然后循环调用接口。

1、总体设计

1)、初始化分页参数pageNum=1,pageSize=20,这里的pageSize可以根据自己的需求自行调整,比如每次从接口取数100或者1000等等。

2)、第一次请求分页接口,然后保存数据&获取总页数。

3)、根据总分页数据,然后计算出页码list。

4)、循环页码list,单条数据请求http接口。

注:2和4调用的是同一个子trans

2、初始化分页参数

1)这里为了演示方便,使用的生成记录生成了一条数据,其中pageNum=1,pageSize=50

2)这里的pageSize可以根据自己的需求自行调整,比如每次从接口取数100或者1000等等。

3)实际业务场景中有可能用不到生成记录步骤,这个大家根据自己场景进行选择。

 3、第一次请求http接口

1)从以前的结果获取记录步骤获取初始化的参数pageNum=1和pageSize=20

2)这里的模拟http请求使用的是写日志步骤,具体场景中使用的是http post步骤。

3)这里的模拟http响应数据落地是空步骤,具体场景中应该是json input、table output等步骤。

 4)模拟接口返回的总页数这里使用的是增加常量,具体使用时应该从json input步骤解析出来totalNum字段。具体的业务场景总页数字段可能不叫totalNum,根据实际情况填写即可。

4、计算页码list

1) 这一步很重要,将单条数据变成list,如上一步的totalNum为3,这里会输出[{"paggNum":"2","pageSize":"20"},{"paggNum":"3","pageSize":"20"}]

2) 脚本如下

var max_page_int = str2num(totalNum);
for(var curr_page=2;curr_page<=max_page_int;curr_page++){var outputRow = new Array(_step_.getOutputRowMeta().size()); outputRow[_step_.getOutputRowMeta().indexOfValue("pageNum")] = num2str(curr_page);outputRow[_step_.getOutputRowMeta().indexOfValue("pageSize")] = pageSize;_step_.putRow(_step_.getOutputRowMeta(), outputRow);
}
var trans_Status = SKIP_TRANSFORMATION;

5、循环请求http接口(从第二页开始)

1)这里一定要勾选执行每一个输入行,勾选之后才会执行for循环操作。会循环上一步的结果[{"paggNum":"2","pageSize":"20"},{"paggNum":"3","pageSize":"20"}]

2)这一步调用子trans和第一次请求http接口的子trans是一样的。细心的朋友可能会发现其实只有第一次请求http接口之后才关心totalNum,之后的请求都不会关心这个totalNum。

注:kettle是个非常灵活的工具,这里只是提供了一个思路而已,大家如果有更好的实现思路,评论区或者沟通交流群告诉我。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/32672.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

[MYSQL] 数据库基础

1.什么是数据库 从数据库的名字可以看出,它是用来操作(增删查改....)数据的,事实上也的确如此,通过数据库,我们可以更方便.更高效的来操作.管理数据 以文件形式存储数据的缺点 文件的安全问题文件不利于数据的查询和删除文件不利于存储海量数据操作文件并不方便 为了解决上述问…

深度神经网络DNN概念科普

深度神经网络DNN概念科普 深度神经网络&#xff08;Deep Neural Network, DNN&#xff09;是机器学习领域中一类具有多层结构的神经网络模型&#xff0c;它能够通过学习数据中的复杂模式来解决非线性问题。下面是对深度神经网络的详细解析&#xff1a; 基本组成部分 输入层&…

Day 31:100334. 包含所有1的最小矩形面积Ⅰ

Leetcode 100334. 包含所有1的最小矩形面积Ⅰ 给你一个二维 **二进制 **数组 grid。请你找出一个边在水平方向和竖直方向上、面积 最小 的矩形&#xff0c;并且满足 grid 中所有的 1 都在矩形的内部。 返回这个矩形可能的 **最小 **面积。 确定首次出现 1 的第一行 top&#xf…

VB6.0中的ADO

在VB6.0中&#xff0c;使用ADO&#xff08;ActiveX Data Objects&#xff09;可以进行各种数据库操作&#xff0c;包括连接数据库、执行查询、更新数据等。以下是一些常见的ADO操作应用&#xff1a; 1、连接数据库&#xff1a; Dim conn As ADODB.Connection Set conn New A…

Pip换源秘籍:让你的Python包飞行起来!

在Python的包管理中&#xff0c;Pip是最重要的工具之一。它允许开发者从Python Package Index (PyPI)安装包&#xff0c;但有时由于网络问题或服务器负载过高&#xff0c;直接从PyPI安装包可能会非常慢。这时&#xff0c;更换Pip源到一个更快的镜像站点是一个常见的解决方案。本…

Docker Compose是什么?

Docker Compose 是一个用于定义和运行多容器 Docker 应用的工具。它通过一个 YAML 文件来配置应用所需的所有服务&#xff0c;然后通过一条命令来启动和运行这些服务。Docker Compose 使得管理复杂的多容器应用变得更加简单和高效。 Docker Compose 的主要功能 1. 定义多容器应…

基于SSM的校园闲置物品交易系统【附源码】

题目&#xff1a; 基于SSM的校园闲置物品交易系统 摘 要 伴随着电子商务的飞速发展&#xff0c;网上交易日益发挥出其不可替代的优越性。但由于电子商务在校园的应用起步较晚&#xff0c;以及校园电子商务模式应用的不成熟&#xff0c;使高校校园电子商务的发展缓慢。 二手商品…

python中的*运算符

问题&#xff1a; self.resblocks nn.Sequential(*[ResidualAttentionBlock(width, heads, attn_mask) for _ in range(layers)])这个里面的*是什么意思&#xff1f; 在 Python 中&#xff0c;* 运算符可以用于在函数调用时解包&#xff08;unpack&#xff09;列表或元组。这…

基于S7-200PLC的全自动洗衣机控制系统设计

wx供重浩&#xff1a;创享日记 那边对话框发送&#xff1a;plc洗衣 获取完整无水印设计说明报告&#xff08;含程序梯形图&#xff09; 1.自动洗衣机PLC控制的控制要求 1.1全自动洗衣机的基本结构、工作流程和工作原理 1.自动洗衣机的基本结构 2.自动洗衣机的工作流程 自动洗…

MySQL锁详解

目录 前言 MySQL锁 共享锁和排他锁 - Shared and Exclusive Locks 意向锁 - Intention Locks 索引记录锁 - Record Locks 间隙锁 - Gap Locks 临键锁 - Next-Key Locks 插入意向锁 - Insert Intention Locks AUTO-INC Locks 死锁 死锁产生条件 InnoDB对死锁的检测…

海康威视-下载的录像视频浏览器播放问题

目录 1、播放异常比对 2、视频编码检查 2.1、正常视频解析 2.2、海康视频解析 2.3、比对工具 3、转码 3.1、maven依赖 3.2、实现代码 4、验证 在前面的文章&#xff08;海康威视-按时间下载录像文件_海康威视 sdk 下载录像 大小0-CSDN博客&#xff09;中&#xff0c;通…

计算机网络之奇偶校验码和CRC冗余校验码

今天我们来看看有关于计算机网络的知识——奇偶校验码和CRC冗余校验码&#xff0c;这两种检测编码的方式相信大家在计算机组成原理当中也有所耳闻&#xff0c;所以今天我就来跟大家分享有关他们的知识。 奇偶校验码 奇偶校验码是通过增加冗余位使得码字中1的个数恒为奇数或偶数…

Scikit-learn基础教程:揭开机器学习的神秘面纱

Scikit-learn基础教程&#xff1a;揭开机器学习的神秘面纱 摘要&#xff1a; Scikit-learn是一个开源的Python机器学习库&#xff0c;它提供了一系列易于使用的工具&#xff0c;用于数据挖掘和数据分析。本文将作为一个Scikit-learn基础教程&#xff0c;介绍Scikit-learn的安装…

汽车网络安全 -- 漏洞该如何管理

目录 1.漏洞获取途径汇总 2.CAVD的漏洞管理规则简析 2.1 通用术语简介 2.2 漏洞评分指标 2.3.1 场景参数 2.3.2 威胁参数 2.3.3 影响参数 2.3 漏洞等级判定 ​3.小结 在汽车网络安全的时代背景下&#xff0c;作为一直从事车控类ECU基础软件开发的软件dog&#xff0c;…

MapReduce 实践题:Web 访问日志分析与异常检测

文章目录 作业描述MapReduce 实践题&#xff1a;Web 访问日志分析与异常检测题目背景数据集说明任务要求输入数据示例输出数据示例实现步骤 解题思路1. 数据预处理2. 访问统计3. 异常检测4. 主方法5. 结果输出 作业描述 MapReduce 实践题&#xff1a;Web 访问日志分析与异常检…

mysql启动时遇到:本地计算机上的MySQL服务启动后停止

1.问题重述&#xff1a; 今早启动数据库时发现无法启动&#xff0c;报错&#xff1a;本地计算机 上的 MySQL服务启动后停止。某些服务在未由其他服务或程序使用时将自动停止。 2.解决方案&#xff1a; 1.数据备份&#xff1a; 2.在bin目录下&#xff0c;命令行中输入 mysqld …

【IPython 使用技巧整理】

IPython 使用技巧整理 IPython 是一个交互式 Python 解释器&#xff0c;比标准 Python 解释器提供了更加强大的功能和更友好的使用体验。它为数据科学、机器学习和科学计算提供了强大的工具&#xff0c;是 Python 开发人员不可或缺的工具之一。本文将深入探讨 IPython 的各种使…

Java中的多线程编程实用指南

Java中的多线程编程实用指南 大家好&#xff0c;我是免费搭建查券返利机器人省钱赚佣金就用微赚淘客系统3.0的小编&#xff0c;也是冬天不穿秋裤&#xff0c;天冷也要风度的程序猿&#xff01;今天我们来探讨一下Java中多线程编程的实用指南。 在当今软件开发的世界中&#x…

python3.9安装pysal库

一、安装geopandas 下载地址&#xff1a;https://download.csdn.net/download/xiangfengl/89330615 然后逐个按顺序安装 1.安装gdal pip install GDAL-3.3.3-cp39-cp39-win_amd64.whl 2.安装Fiona pip install Fiona-1.8.20-cp39-cp39-win_amd64.whl 3.安装shapely pip …

Python面试宝典:云服务概览以及Python在云计算服务中的应用相关面试笔试题(1000加面试笔试题助你轻松捕获大厂Offer)

Python面试宝典:1000加python面试题助你轻松捕获大厂Offer【第二部分:Python高级特性:第二十六章:Python与云计算:第一节:云服务概览以及Python在云计算服务中的应用】 第二十六章:Python与云计算第一节:云服务概览以及Python在云计算服务中的应用1. 云计算服务的开发与…