使用Datax自定义采集组件Reader/Writer实现国产数据库支持以及_Datax数据清洗/过滤规则功能自定义---大数据之DataX工作笔记007

使用Datax自定义采集组件Reader/Writer实现国产数据库支持以及_Datax数据清洗/过滤规则功能自定义---大数据之DataX工作笔记007

news/2025/4/26 17:04:01/文章来源:https://blog.csdn.net/lidew521/article/details/137456772

我们基于datax来做的自己的数据采集系统,现在基本的数据采集已经实现了,也就是调用datax的数据采集能力,实现在已支持的数据库之间同步数据.我们是基于datax-web实现的,里面都有开源的代码了,可以分析以后拿过来用,这个过程并不复杂,而且,结合xxljob的web那个开源项目,也可以让datax和定时任务结合起来,思路是这样的,而且实现也不复杂,小同事去做的就搞定了.

现在碰到了问题,首先是datax对国产化数据库的支持,比如瀚高等等,这个时候,就需要我们自定义对应的reader和writer就可以了.

下载源码以后,直接去修改对应的源码,或者复制一下,原来的比如mysql的writer和reader的源码,然后

再去,根据这两个去编写瀚高DB的等等,这样就实现了,对国产化数据库的支持.

具体的代码以后再补充,这里是对接瀚高的.

https://download.csdn.net/download/lidew521/89094626

可以看到上面就是我们自己定义的,对瀚高数据库的datax的读写插件,可以拿去用,放到下载里了.

这个拿到以后,直接放到代码中就可以使用了,打包出来,放到,datax的安装目录中去就可以了.

2.然后是对于数据的过滤和清洗规则,这里:

可以看到datax是通过,里面叫做transformer的组件来实现数据的清洗的,当然也可以定义自己的清洗规则.

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/801996.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

gateway基于redis做限流处理

gateway基于redis做限流处理

文章目录前言一、如何限流？二、使用步骤总结前言限流的意义限流是针对于并发量比较高的时候，如果不针对对应的服务做限流操作，可能造成服务器压力过大，宕机等情况. 一、如何限流？ 限流的方式： 计数…

阅读更多...

Kafka消费者在Java中的应用

Kafka消费者在Java中的应用

加油，新时代打工人！ Kafka生产者在Java中的应用创建Kafka消费者配置 Properties props new Properties(); props.setProperty("bootstrap.servers", "node1.itcast.cn:9092"); props.setProperty("group.id", "t…

阅读更多...

Redis 和 Mysql 数据库数据如何保持一致性

Redis 和 Mysql 数据库数据如何保持一致性

Redis 和 Mysql 数据库数据如何保持一致性保持Redis和MySQL数据库数据一致性是一个常见且重要的问题，特别是在使用Redis作为MySQL数据库的缓存层时。以下是几种常用的保证二者数据一致性的策略和方法： 双写一致性（同步更新）&…

阅读更多...

KIOXIA铠侠CD8P-R NVMe 2.0 PCIe 5.0 KCD81PUG3T84大容量SSD

KIOXIA铠侠CD8P-R NVMe 2.0 PCIe 5.0 KCD81PUG3T84大容量SSD

今天给大家介绍一下KIOXIA铠侠CD8P-R系列3T84容量固态硬盘SSD,这是一款面向数据中心的NVMe™ SSD，专为支持各种规模的分布式和云应用而优化，包括大数据/IoT、在线交易处理和虚拟化。接口： PCIe 5.0 (32 GT/s x4) 接口随机读取速度&#x…

阅读更多...

Windows完全卸载MySQL后再下载安装（附安装包）

Windows完全卸载MySQL后再下载安装（附安装包）

目录友情提醒第一章：如何完全卸载干净mysql教程（三个步骤完全卸载）1）步骤一：卸载程序2）步骤二：删除文件3）步骤三：删除注册表信息第二章：下载软件两种方式1&…

阅读更多...

网桥设置介绍

网桥设置介绍

网桥（Networking Bridge），在计算机网络中，是一种将两个或多个网络段（物理或逻辑分段）连接在一起的设备。它工作在 OSI 模型的数据链路层（第二层），可以转发、过滤或阻止网络流量。网桥主要用于将不同的网络分段连接起来，以便它们表现为一个统一的网络。以下是一些关…

阅读更多...

RuleEngine规则引擎底层改造AviatorScript 之公式规则

RuleEngine规则引擎底层改造AviatorScript 之公式规则

前情提要，看上一个文章，具体要实现的效果就是当然上来的问题就是前端的问题，这个框首先他们用的是富文本，富文本传到后台的结果是前端脚本，带着h5的标签，后面改成了这个，当时这个东西其实和后…

阅读更多...

【力扣】238. 除自身以外数组的乘积

【力扣】238. 除自身以外数组的乘积

238. 除自身以外数组的乘积题目描述给你一个整数数组 nums，返回数组 answer ，其中 answer[i] 等于 nums 中除 nums[i] 之外其余各元素的乘积。题目数据保证数组 nums之中任意元素的全部前缀元素和后缀的乘积都在 32 位整数范围内。请不要使…

阅读更多...

Java中常见的设计模式(持续更新中)

Java中常见的设计模式(持续更新中)

文章目录介绍模板设计模式介绍优势代码装饰者设计模式介绍套路代码单例设计模式介绍步骤分类代码多例设计模式介绍步骤代码工厂设计模式介绍步骤代码介绍是一套被反复使用，多数人知晓，经过分类编目的，代码设计经验的总结使用设计模式…

阅读更多...

express操作mysql数据库的方法总结

express操作mysql数据库的方法总结

作为前端，我们无需去考虑数据库的问题，业务场景需要的话，我们可以mock数据，满足暂时的联调场景。但是对于数据库，我们前端可以不用，却不能不了解不懂。所以这篇文章整理下，nodejs框架express中怎…

阅读更多...

007 spring aop(通知)(xml)

007 spring aop(通知)(xml)

文章目录 pom.xmlLogAspect.javaStudentServiceImpl.javaStudentService.javaapplicationContext.xmlStudentServiceImplTest.java pom.xml <?xml version"1.0" encoding"UTF-8"?> <project xmlns"http://maven.apache.org/POM/4.0.0"…

阅读更多...

IDEA+Docker远程一键部署SpringBoot项目

IDEA+Docker远程一键部署SpringBoot项目

一.引语本文将学习使用IDEADocker远程一键部署SpringBoot项目，对比上传jar包到服务器，再通过java指令运行项目，极大程度的提高了项目部署效率。可谓不用不知道，一用再也停不下来~ 为了后续学习方便，需要提前进行如下…

阅读更多...

Firebase集成

Firebase集成

目标： 1）集成Firebase; 2) 集成Firebase Crashlytics，监控APP崩溃海外APP开发需要科学上网。一、Firebase是什么？ Firebase 是一个应用开发平台，可帮助您构建和拓展用户喜爱的应用和游戏。提供了应用的构建、发布…

阅读更多...

Nuxt3 实战 (三)：使用 release-it 自动管理版本号和生成 CHANGELOG

Nuxt3 实战 (三)：使用 release-it 自动管理版本号和生成 CHANGELOG

release-it 能做什么？ 增加版本号并提交 Git生成变更日志（Changelog）并提交到 Git创建 Git 标签并推送到远程仓库发布到 npm 等软件仓库在 GitHub、GitLab 等平台创建发行版前置知识在看这篇文章之前，我们有必要了解一下 Sem…

阅读更多...

css不知道宽度，如何绘制一个正方形

css不知道宽度，如何绘制一个正方形

我们可以给当前盒子加一个伪元素，设置padding-bottom: 100%，就可以绘制一个正方形 <div class"parent"><div></div><div></div><div></div> </div> .parent{width:100%;padding:20px;displ…

阅读更多...

Few-Shot目标检测数据集 | Few-Shot目标检测数据集_已经整理成MS-COCO数据格式_含60000+张图_可直接用于目标检测算法训练

Few-Shot目标检测数据集 | Few-Shot目标检测数据集_已经整理成MS-COCO数据格式_含60000+张图_可直接用于目标检测算法训练

项目应用场景面向 Few-Shot 目标检测场景，项目提供 6000 张图，已经整理成 MS-COCO 数据格式，可用于 Few-Shot 目标检测的训练数据集，或作为 Few-Shot 目标检测数据集的补充。数据集展示数据集下载 > 具体参见项目 README.m…

阅读更多...

人工智能_大模型023_AssistantsAPI_01_OpenAI助手的创建_API的调用_生命周期管理_对话服务创建---人工智能工作笔记0159

人工智能_大模型023_AssistantsAPI_01_OpenAI助手的创建_API的调用_生命周期管理_对话服务创建---人工智能工作笔记0159

先来说一下一些问题: 尽量不要微调,很麻烦,而且效果需要自己不断的去测试. 如果文档中有图表,大量的图片去分析就不合适了. 是否用RAG搜索,这个可以这样来弄,首先去es库去搜能直接找到答案可以就不用去RAG检索了,也可以设置一个分,如果低于60分,那么就可以去进行RAG检索微…

阅读更多...

Teachable Machine模型之TensorFlow使用篇

Teachable Machine模型之TensorFlow使用篇

前言: 使用在teachable machine训练的h5格式模型 tensorflow使用篇 1. 使用teachable machine训练模型地址: 传送门, 需要梯子翻一下训练后, 导出的时候可以选择三种类型导出模型文件 converted_keras.zip (py版) 解压后得到 2. py项目中使用模型根据你当时使用tea…

阅读更多...

7.网络编程-安全

7.网络编程-安全

目录引言 Session Cookie JWT (JSON Web Token) 网络攻击 CSRF DDoS 其他常见网络攻击类型及应对措施引言 Session、Cookie 和 JWT 都是Web开发中用于实现用户状态管理和身份验证的技术。它们各自有不同的特点和应用场景： Session Session 是一种服务器…

阅读更多...

基于erp业务的责任链模式实战

基于erp业务的责任链模式实战

Handler接口是用来规范所有的责任链节点都要实现处理数据的方法 AbstractSchHandlerContains 是责任链节点保存的抽象类 ScheduleHandlerContains 子类可以覆盖责任链节点保存容器实现自定义遍历责任链节点容器方法设置自定义容器一. 创建责任链节点接口用于规范责任链的处理…

阅读更多...

最新文章