datax入门(datax的安装与简单使用)——01

datax入门(datax的安装与简单使用)——01

  • 1. 官网
  • 2. 工具部署(通过下载DataX工具包)
    • 2.1 下载、解压
    • 2.2 配置
      • 2.2.1 查看配置模版
      • 2.2.2 根据模版配置json
      • 2.2.3 启动DataX
  • 3. datax的简单使用
    • 3.1 mysql2stream
    • 3.2 mysql2mysql
      • 3.2.1 拼接where的
      • 3.2.2 直接写查询的sql语句的
  • 4. 解释
    • 4.1 json中seeting说明
    • 4.2 参数说明(以mysql为例)

1. 官网

  • 地址如下:
    https://github.com/alibaba/DataX/blob/master/userGuid.md.
  • 简介
    在这里插入图片描述
    在这里插入图片描述

2. 工具部署(通过下载DataX工具包)

2.1 下载、解压

  • 因为官网很详细,这里就简单记录一下:
    下载 datax.tar.gz ,然后解压,命令如下:
    tar -zxvf datax.tar.gz
    
    在这里插入图片描述
  • 查看解压后的目录
    在这里插入图片描述

2.2 配置

2.2.1 查看配置模版

  • 命令如下:
    python datax.py -r streamreader -w streamwriter
    
    在这里插入图片描述

2.2.2 根据模版配置json

  • 创建stream2stream.json文件,如下:
    cd /Users/susu/study_down/about_datax/datax/jobvim stream2stream.json
    
  • stream2stream.json 内容如下:
    #stream2stream.json
    {"job": {"content": [{"reader": {"name": "streamreader","parameter": {"sliceRecordCount": 10,"column": [{"type": "long","value": "10"},{"type": "string","value": "hello,你好,世界-DataX"}]}},"writer": {"name": "streamwriter","parameter": {"encoding": "UTF-8","print": true}}}],"setting": {"speed": {"channel": 5}}}
    }
    

2.2.3 启动DataX

  • 启动命令,开始同步,如下:
    python ../bin/datax.py stream2stream.json
    
    在这里插入图片描述
    在这里插入图片描述
  • 同步结束,查看日志如下:
    在这里插入图片描述

3. datax的简单使用

  • 环境有限,下面就以mysql为主了,mysql_to_别的数据库,后续有机会再做介绍

3.1 mysql2stream

  • 使用命令先查看模版:

    python datax.py -r mysqlreader -w streamwriter
    
  • mysql2stream.json 如下:

    {"job": {"setting": {"speed": {"channel": 3},"errorLimit": {"record": 0,"percentage": 0.02}},"content": [{"reader": {"name": "mysqlreader","parameter": {"username": "root","password": "susu@123","column": ["dog_num","dog_name"],"splitPk": "dog_num","connection": [{"table": ["dog"],"jdbcUrl": ["jdbc:mysql://127.0.0.1:3306/datax_1"]}]}},"writer": {"name": "streamwriter","parameter": {"print": true}}}]}
    }
  • 效果如下:

    python ../bin/datax.py mysql2stream.json
    

    在这里插入图片描述

3.2 mysql2mysql

  • 使用命令先查看模版:
    python datax.py -r mysqlreader -w mysqlwriter
    

3.2.1 拼接where的

  • mysql2mysql_where.json文件如下:
    {"job": {"content": [{"reader": {"name": "mysqlreader","parameter": {"column": ["*"],"connection": [{"jdbcUrl": ["jdbc:mysql://127.0.0.1:3306/datax_1"],"table": ["dog"]}],"username": "root","password": "susu@123","where": "dog_num=1000003"}},"writer": {"name": "mysqlwriter","parameter": {"column": ["*"],"connection": [{"jdbcUrl": "jdbc:mysql://127.0.0.1:3306/datax_2","table": ["dog"]}],"username": "root","password": "susu@123","writeMode": "insert"}}}],"setting": {"speed": {"channel": "1"}}}
    }
  • 效果如下:
    python ../bin/datax.py mysql2mysql_where.json
    
    在这里插入图片描述
    在这里插入图片描述

3.2.2 直接写查询的sql语句的

  • 使用querySql参数(注意querySql 和 SQL 只能保留一个),如下:
    在这里插入图片描述
    在这里插入图片描述
  • mysql2mysql_query.json 文件代码如下:
    {"job": {"content": [{"reader": {"name": "mysqlreader","parameter": {"connection": [{"jdbcUrl": ["jdbc:mysql://127.0.0.1:3306/datax_1"],"querySql": ["select t.dog_num,t.dog_name,t.db_source from dog t where dog_num=1000004"]}],"username": "root","password": "susu@123"}},"writer": {"name": "mysqlwriter","parameter": {"column": ["*"],"connection": [{"jdbcUrl": "jdbc:mysql://127.0.0.1:3306/datax_2","table": ["dog"]}],"username": "root","password": "susu@123","writeMode": "insert"}}}],"setting": {"speed": {"channel": "1"}}}
    }
  • 效果如下:
    python ../bin/datax.py mysql2mysql_query.json
    
    在这里插入图片描述
    在这里插入图片描述

4. 解释

4.1 json中seeting说明

  • 关于seeting
    settingspeed表示控制并发数channel设置并发的数量如果设置的print为true,则会打印slicRecordCount*channel次如果是从mysql导入hdfs等其他操作,则会是真正代表并发数,而不是打印多少次
    

4.2 参数说明(以mysql为例)

  • 其他的,从官网截图来看吧:
    https://github.com/alibaba/DataX/blob/master/mysqlreader/doc/mysqlreader.md.
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/36621.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

PyCharm 2024.1最新变化

PyCharm 2024.1 版本带来了一系列激动人心的新功能和改进,以下是一些主要的更新亮点: Hugging Face 模型和数据集文档预览:在 PyCharm 内部快速获取 Hugging Face 模型或数据集的详细信息,通过鼠标悬停或使用 F1 键打开文档工具窗口来预览。 …

Discourse OpenAI 生成图片

正如一些讨论的,生成图片是比较贵的。 差不多到了 1 元 一张图了。 就 OpenAI 生成了上面 4 张图,费用 0.4 美元。 Discourse OpenAI 生成图片 - Discourse - iSharkFly

PHP 网络通信底层原理分析

大家好,我是码农先森。 引言 我们日常的程序开发大多数都是以业务为主,很少会接触到底层逻辑。对于我们程序员来说,了解程序的底层运行逻辑,更有助于提升我们对程序的理解。我相信大多数的人,每天基本上都是完成业务…

桃园三结义 | 第1集 | 三人一条心,黄土变成金,有你带着俺,大事定能成功啊!| 正所谓择木之禽,得其良木,择主之臣,得遇明主 | 三国演义 | 群雄逐鹿

🙋大家好!我是毛毛张! 🌈个人首页: 神马都会亿点点的毛毛张 📌这篇博客是毛毛张结合三国演义原著分享三国演义文学剧本中的经典台词和语句,本篇分享的是《三国演义》第Ⅰ部分《群雄逐鹿》的第1️⃣集《桃…

基于Istio服务网格的熔断限流实现

在微服务架构的宏大图景中,Istio服务网格如同一位精巧的交通指挥官,它不仅确保了服务间通信的顺畅无阻,还通过先进的熔断与限流机制,为系统的稳定性筑起了一道坚固的防线。接下来,让我们一窥Istio如何在不改动服务代码…

2024 6.17~6.23 周报

一、上周工作 吴恩达的机器学习、实验-回顾之前密集连接部分 二、本周计划 继续机器学习,同时思考实验如何修改,开始整理代码 三、完成情况 3.1 多类特征、多元线性回归的梯度下降、特征缩放、逻辑回归 多类特征: 多元线性回归的梯度下…

AI 开发平台(Coze)搭建《美食推荐官》

前言 本文讲解如何从零开始,使用扣子平台去搭建《美食推荐官》 bot直达:美食推荐官 - 扣子 AI Bot (coze.cn) 欢迎大家体验一下!! 效果 正文 prompt 美食推荐官的首要任务就是推荐美食,基于这个我们要给他一个基…

【Java笔记】Flyway数据库管理工具的基本原理

文章目录 1. 工作流程2. 版本号校验算法3. 锁机制3.1 为什么数据库管理工具需要锁3.2 flyway的锁机制 Reference 最近实习做的几个项目都用到了Flyway来做数据库的版本管理,顺便了解了下基本原理,做个记录。 详细的使用就不写了,网上教程很多…

第一后裔/The First Descendant延迟高的解决方法

第一后裔/The First Descendant是一款备受玩家关注的射击游戏,该作拥有多个角色,并为其设定不同的概念和战斗风格,以及技能点,不仅能让玩家畅快作战,还能通过各种道具,不断强化角色能力值,让其战…

unidbg介绍

1.unicorn介绍 好比是一个CPU,可以模拟执行各种指令 提供了很多编程语言接口,可以操作内存、寄存器等 但它不是一个系统,内存管理、文件管理、系统调用等都需要自己来实现 2.基于unicorn开发的框架 cemu用来学习汇编的工具 AndroidNativeEm…

音视频入门基础:H.264专题(8)——H.264官方文档的描述符

音视频入门基础:H.264专题系列文章: 音视频入门基础:H.264专题(1)——H.264官方文档下载 音视频入门基础:H.264专题(2)——使用FFmpeg命令生成H.264裸流文件 音视频入门基础&…

Generative Model-Based Feature Knowledge Distillation for Action Recognition

标题:基于生成模型的特征知识蒸馏用于动作识别 源文链接:Generative Model-Based Feature Knowledge Distillation for Action Recognition| Proceedings of the AAAI Conference on Artificial Intelligencehttps://ojs.aaai.org/index.php/AAAI/artic…

Python笔记 json数据格式的转换

一、json数据格式 1.什么是json json是一种轻量级的数据交互格式。可以按照json指定的格式去组织和封装数据 json本质上是一个带有特定格式的字符串 主要功能:json就是一种在各个编程语言中流通的数据格式,负责不同编程语言中的数据传递和交互。类似…

计算机网络 DHCP以及防护

一、理论知识 1.DHCP:用于在网络中自动分配IP地址及其他网络参数(如DNS、默认网关)给客户端设备。 2.VLAN:逻辑上的局域网分段,用于隔离和管理不同的网络流量。 3.DHCP地址池:为每个VLAN配置不同的DHCP地…

MySQL锁和使用

在MySQL中,锁用于控制并发访问,以保证数据的一致性和完整性。MySQL提供了多种类型的锁,包括表级锁、行级锁和页面级锁。以下是MySQL中各种锁的详细介绍及其使用方法: 1. 表级锁(Table Locks) 表级锁用于锁…

输出100以内的质数

质数&#xff1a;只能被1和自身整除的数 let count; for(let i2; i<100; i){for(let j1; j<i; j){if(i % j 0){// 只要能被整除&#xff0c;count就加1count;}} if(count 2) {// 从1到自身被整除完之后&#xff0c;如果count只有两次&#xff0c;则说明i为质数co…

大数据------JavaWeb------Maven(完整知识点汇总)

额外知识点 IDE IDE是集成开发环境的缩写&#xff0c;它是一种软件应用程序&#xff0c;提供了编码、调试和部署软件的一站式解决方案。这些功能集成在一起&#xff0c;使开发人员能够在一个环境中完成整个软件开发过程&#xff0c;从编写代码到调试和测试&#xff0c;直到最终…

掌握SEO:如何优化用ChatGPT生成的文章以提升搜索排名

在数字化时代&#xff0c;搜索引擎优化&#xff08;SEO&#xff09;已经成为网站流量的重要来源。随着人工智能技术的进步&#xff0c;越来越多的人开始使用ChatGPT等AI工具来生成文章。然而&#xff0c;虽然这些工具可以快速生成内容&#xff0c;但要确保这些内容在搜索引擎中…

MK米客方德SD NAND磨损均衡技术

上次MK给大家讲解了MK SD NAND异常掉电保护机制&#xff0c;不少的工程师朋友们对此挺感兴趣&#xff0c;今天再和大家聊一聊SD NAND内部的另外一个核心技术SD NAND&#xff1a;磨损均衡&#xff08;Wear Leveling&#xff09;。 SD NAND内部主要由NAND Flash和Flash Controll…

Python操作MySQL数据库--使用pymysql模块

Python操作MySQL数据库--使用pymysql模块 一、新建数据库和数据表1.1 新建book数据库1.2 新建bookprice数据表二、连接数据库2.1 建立数据库连接三、新增数据3.1 新增单条数据3.2 新增多条数据3.3 批量新增四、修改数据4.1 修改单条数据4.2 修改多条数据五、删除数据5.1 删除单…