大数据基础设施搭建 - Maxwell

文章目录

  • 一、上传压缩包
  • 二、解压压缩包
  • 三、启用MySQL Binlog
    • 3.1 修改MySQL配置文件
    • 3.2 重启MySQL服务
    • 3.3 测试
  • 四、创建Maxwell所需数据库和用户
    • 4.1 创建数据库
    • 4.2 调整MySQL数据库密码级别
    • 4.3 创建Maxwell用户并赋予其必要权限
    • 4.4 测试
  • 五、修改配置文件
    • 5.1 修改Maxwell配置文件名称
    • 5.2 修改Maxwell配置文件
  • 六、增量数据同步
    • 6.1 创建Kafka Topic
    • 6.2 启动/停止
    • 6.3 测试
      • 6.3.1 向MySQL中插入数据
      • 6.3.2 Maxwell采集到的json数据
  • 八、历史数据全量同步
    • 8.1 全量同步
    • 8.2 遇到问题
      • 8.2.1 重命名8.0jar包
      • 8.2.2 拷贝5.1jar包到Maxwell的lib目录
      • 8.2.3 重启Maxwell

一、上传压缩包

下载地址:https://github.com/zendesk/maxwell/releases/download/v1.29.2/maxwell-1.29.2.tar.gz
注意1:Maxwell是用java写的,需要JDK环境。
注意2:Maxwell-1.30.0及以上版本不再支持JDK1.8。

二、解压压缩包

[mall@mall software]$ tar -zxvf maxwell-1.29.2.tar.gz -C /opt/module/

三、启用MySQL Binlog

MySQL Binlog默认是不开启的。

3.1 修改MySQL配置文件

[mall@mall module]$ sudo vim /etc/my.cnf

新增内容:

注意:需要在[mysqld]下面添加mysql相关配置!
server-id:开启binlog后,MySQL就以为要搞主从复制了,所以需要给服务器编上号,然后标记哪个是主哪个是从。

[mysqld]#数据库id
server-id = 1
#启动binlog,该参数的值会作为binlog的文件名
log-bin=mysql-gmall-binlog
#binlog类型,maxwell要求为row类型
binlog_format=row
#启用binlog的数据库,需根据实际情况作出修改
binlog-do-db=gmall

3.2 重启MySQL服务

[mall@mall module]$ sudo systemctl restart mysqld

3.3 测试

File:binlog文件名,文件写满后会滚动后缀。
Position:偏移量

[mall@mall module]$ mysql -uroot -p
mysql> show master status;

四、创建Maxwell所需数据库和用户

Maxwell需要在MySQL中存储其运行过程中的所需的一些数据,包括binlog同步的断点位置(Maxwell支持断点续传)等等,故需要在MySQL为Maxwell创建数据库及用户。

4.1 创建数据库

msyql> CREATE DATABASE maxwell;

4.2 调整MySQL数据库密码级别

每次创建/修改用户、密码都得执行此命令。

mysql> set global validate_password_policy=0;
mysql> set global validate_password_length=4;

4.3 创建Maxwell用户并赋予其必要权限

创建用户:创建maxwell用户,开放给所有host连接地址,密码为maxwell。
授予权限1:把maxwell库下的所有表的ALL所有权限授予给maxwell用户的%任意的host地址连接。
授予权限2:任意库里的任意表的基础读权限(SELECT, REPLICATION CLIENT, REPLICATION SLAVE),给到maxwell用户的任意地址连接

mysql> CREATE USER 'maxwell'@'%' IDENTIFIED BY 'maxwell';
mysql> GRANT ALL ON maxwell.* TO 'maxwell'@'%';
mysql> GRANT SELECT, REPLICATION CLIENT, REPLICATION SLAVE ON *.* TO 'maxwell'@'%';

4.4 测试

select_priv:查询权限
repl_slave_priv:成为主服务器的从属服务器的权限
repl_client_priv:从主服务器接收binlog文件的权限

mysql> select user,select_priv,repl_slave_priv,repl_client_priv from user;

五、修改配置文件

5.1 修改Maxwell配置文件名称

[mall@mall module]$ cd /opt/module/maxwell-1.29.2/
[mall@mall maxwell-1.29.2]$ cp config.properties.example config.properties

5.2 修改Maxwell配置文件

[mall@mall maxwell-1.29.2]$ vim config.properties

内容:

#Maxwell数据发送目的地,可选配置有stdout|file|kafka|kinesis|pubsub|sqs|rabbitmq|redis
producer=kafka
#目标Kafka集群地址
kafka.bootstrap.servers=hadoop102:9092,hadoop103:9092
#目标Kafka topic,可静态配置,例如:maxwell,也可动态配置,例如:%{database}_%{table}
kafka_topic=maxwell_gmall#MySQL相关配置
host=mall
user=maxwell
password=maxwell
jdbc_options=useSSL=false&serverTimezone=Asia/Shanghai

六、增量数据同步

6.1 创建Kafka Topic

maxwell不会自动去创建topic,必须手动创建topic,否则maxwell会启动失败。

[hadoop@hadoop102 kafka_2.11-2.4.1]$ bin/kafka-topics.sh --bootstrap-server hadoop102:9092 --create --replication-factor 2 --partitions 2 --topic maxwell_gmall

6.2 启动/停止

# 启动
[mall@mall ~]$ /opt/module/maxwell-1.29.2/bin/maxwell --config /opt/module/maxwell-1.29.2/config.properties --daemon
# 停止
[mall@mall ~]$ ps -ef | grep maxwell | grep -v grep | awk '{print $2}'
[mall@mall ~]$ kill 

6.3 测试

6.3.1 向MySQL中插入数据

mysql> INSERT INTO `activity_info` VALUES (2, 'oppo专场', '3102', 'oppo满减', '2020-10-22 18:49:12', '2020-11-30 18:49:15', NULL);

6.3.2 Maxwell采集到的json数据

ts:10为时间戳,单位是秒s,表示采集到json数据的时间
xid:事务id
commit:事务是否提交成功

{"database": "gmall","table": "activity_info","type": "insert","ts": 1701337924,"xid": 10012,"commit": true,"data": {"id": 2,"activity_name": "oppo专场","activity_type": "3102","activity_desc": "oppo满减","start_time": "2020-10-22 18:49:12","end_time": "2020-11-30 18:49:15","create_time": null}
}

八、历史数据全量同步

本质是select,性能差。
在进行增量同步之前,先进行一次历史数据的全量同步,这样才能保证得到一个完整的数据集。
注意1:第一次全量同步只能用Maxwell,因为Maxwell采集到是json串,用其他工具同步会造成首次全量和每日增量数据格式不一致。
注意2:第一条type为bootstrap-start和最后一条type为bootstrap-complete的数据,是bootstrap开始和结束的标志,不包含数据,中间的type为bootstrap-insert的数据才包含数据。
注意3:一次bootstrap输出的所有记录的ts都相同,为bootstrap开始的时间。

8.1 全量同步

[mall@mall ~]$ /opt/module/maxwell-1.29.2/bin/maxwell-bootstrap --database gmall --table activity_info --config /opt/module/maxwell-1.29.2/config.properties

8.2 遇到问题

问题描述:连接MySQL失败!
报错info:MaxwellBootstrapUtility: Connections could not be acquired from the underlying database!
原因:Maxwell的lib中的MySQL连接包是mysql-connector-java-8.0.17.jar,MySQL的版本是5.7,8.0的jar包无法连接5.7的数据库。
解决方案:下载5.1的jar包进行替换,替换后重启。

8.2.1 重命名8.0jar包

[mall@mall ~]$ cd /opt/module/maxwell-1.29.2/lib/
[mall@mall lib]$ mv mysql-connector-java-8.0.17.jar mysql-connector-java-8.0.17.jar.bak

8.2.2 拷贝5.1jar包到Maxwell的lib目录

[mall@mall lib]$ cp /opt/software/mysql/mysql-connector-java-5.1.27-bin.jar /opt/module/maxwell-1.29.2/lib/

8.2.3 重启Maxwell

# 停止
[mall@mall ~]$ ps -ef | grep maxwell | grep -v grep | awk '{print $2}'
[mall@mall ~]$ kill 
# 启动
[mall@mall ~]$ /opt/module/maxwell-1.29.2/bin/maxwell --config /opt/module/maxwell-1.29.2/config.properties --daemon

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/185843.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【【FPGA的 MicroBlaze 的 介绍与使用 】】

FPGA的 MicroBlaze 的 介绍与使用 可编程片上系统(SOPC)的设计 在进行系统设计时,倘若系统非常复杂,采用传统 FPGA 单独用 Verilog/VHDL 语言进行开发的方式,工作量无疑是巨大的,这时调用 MicroBlaze 软核…

laravel 重写批量添加,自动维护时间戳

laravel 自带的批量添加是不会自动维护时间戳的&#xff0c;意思是说&#xff0c;使用laravel的批量添加&#xff0c;时间戳字段不会插入&#xff0c;也不会在更新的时候进行更新。 使用继承或者trait来解决这个问题&#xff0c;在这里感谢Mr.wen <?php namespace App\Mo…

作 业

1. 查出至少有一个员工的部门。显示部门编号、部门名称、部门位置、部门人数。 mysql> SELECT d.deptno AS 部门编号, d.dname as 部门名称, d.loc as 部门位置, COUNT(e.empno) as 部门人数 FROM dept d JOIN employee e ON d.deptno e.deptno GROUP BY d.deptno, d.dname…

LeetCode 1657. 确定两个字符串是否接近:思维题

【LetMeFly】1657.确定两个字符串是否接近&#xff1a;思维题 力扣题目链接&#xff1a;https://leetcode.cn/problems/determine-if-two-strings-are-close/ 如果可以使用以下操作从一个字符串得到另一个字符串&#xff0c;则认为两个字符串 接近 &#xff1a; 操作 1&…

nvm 下载node时候下载不到npm包的解决方法

个人博客链接 公众号-nvm 下载node时候下载不到npm包的解决方法 求关注 可以跳过的背景 最近项目比较有空&#xff0c;所以就可以有时间写一些demo&#xff0c;主要测试下react的一些语法&#xff0c;毕竟自己上次写react已经是22年的7月份了,期间对于react-router等的hook…

Java中的Integer.bitCount浅析

文章目录 Java中的Integer.bitCount浅析问题思考Integer.bitCount解释拓展 Java中的Integer.bitCount浅析 原文链接 问题 有一个整数x,我们需要统计该整数的二进制表示中包含的1的个数。这个也被称为汉明重量&#xff08;Hamming weight&#xff09;。 例如&#xff0c;整数…

000 - 前言

目录 问题1&#xff1a;学Qt之前是不是得先把C基础打好才行&#xff1f;会一点点C可以学吗&#xff1f; 问题2&#xff1a;我已经会 PyQt 了&#xff0c;还有必要再学 Qt 吗&#xff1f; 问题3&#xff1a;Qt 和 QML 学哪个比较好呢&#xff1f; 大家好呀~ 我是角角。从今天…

创建JDK8版本的SpringBoot项目的方法

目录 一.通过阿里云下载 二.通过IDEA创建 1.下载安装JDK17 2.创建SpringBoot 3.X的项目 3.把JDK17改成JDK8 截止到2023.11.24&#xff0c;SpringBoot不再支持3.0X之前的版本&#xff0c;3.0X之后的版本所对应的JDK版本为JDK17&#xff0c;下面介绍如何在idea上继续使用JDK…

解析javascript数组方法 find 和 filter 有何区别

首先用一个案例可以很直观的看到 find 和 filter 的区别&#xff1b; 相同点&#xff1a; 两者分别可以接受三个参数&#xff1a;当前元素、当前索引、整个数组&#xff1b;两者都可以用来查找数组中符合条件的元素&#xff1b; 不同点&#xff1a; find&#xff1a; 用于查…

YOLOv8+Nanodet强强联合改进标签分配:使用NanoDet动态标签分配策略,同时集成VFL全新损失,来打造新颖YOLOv8检测器

💡本篇内容:YOLOv8+Nanodet强强联合改进标签分配:使用NanoDet动态标签分配策略,同时集成VFL全新损失,来打造新颖YOLOv8检测器 💡🚀🚀🚀本博客 YOLO系列 + 改进NanoDet模型的动态标签分配策略源代码改进 💡一篇博客集成多种创新点改进:VFL损失函数 + Nanodet…

C/C++不定参数的使用

文章目录 C语言的不定参C的不定参 C语言的不定参 C语言的不定参数最常见的应用示例就是printf函数&#xff0c;如下&#xff0c;参数列表中的...表示不定参数列表 #include <stdio.h> int printf(const char *format, ...);试着模拟实现C语言的printf函数 void myprin…

Android:BackStackRecord

BackStackRecord:fragment回退栈,继承自FragmentTransaction,并且实现了OpGenerator接口,OpGenerator接口用来添加或弹出事务的,后面会提到。 从《Android:从源码看FragmentManager如何工作》文章知道,每次beginTransaction会创建一个BackStackRecord对象,改对象持有f…

C++基础——文件操作

文章目录 1 概述2 文本文件2.1 写文件2.1.1 写文件流程2.1.2 文件打开方式 2.2 读文件 3 二进制文件3.1 写文件3.2 读文件 1 概述 程序最基本的操作之一就是文件操作&#xff0c;程序运行时的数据都是临时数据&#xff0c;当程序结束后就不复存在了。通常都是通过文件或其他持…

【vue实战项目】通用管理系统:信息列表,信息录入

本文为博主的vue实战小项目系列中的第六篇&#xff0c;很适合后端或者才入门的小伙伴看&#xff0c;一个前端项目从0到1的保姆级教学。前面的内容&#xff1a; 【vue实战项目】通用管理系统&#xff1a;登录页-CSDN博客 【vue实战项目】通用管理系统&#xff1a;封装token操作…

深入理解HTTP协议

一、简介 超文本传输协议&#xff08;英文&#xff1a;HyperText Transfer Protocol&#xff0c;缩写&#xff1a;HTTP&#xff09;是一种用于分布式、协作式和超媒体信息系统的应用层协议。HTTP是万维网的数据通信的基础。 二、协议概述 HTTP是一个客户端终端&#xff08;用…

栈模拟先序后序中序遍历(非递归遍历)

先序遍历&#xff1a; vector<int> preorderTraversal(TreeNode* u) {stack<TreeNode*>stk;vector<int>res;if(unullptr) return res;while(stk.size()||u){if(u){res.push_back(u->val);//遍历当前结点stk.push(u);//记录当前递归层uu->left;//遍历左…

显示Excel功能区或工具栏的方法不少,其中快捷方式最快

Microsoft Excel是Office套件中最复杂的工具之一&#xff0c;它提供了大量功能&#xff0c;其中大部分都是使用工具栏操作的。缺少工具栏使Excel很难完成工作。 如果Excel中没有这些关键元素&#xff0c;你将无法快速完成工作&#xff0c;因此&#xff0c;可以理解的是&#x…

处理机调度与作业调度

处理机调度 一个批处理型作业&#xff0c;从进入系统并驻留在外存的后备队列上开始&#xff0c;直至作业运行完毕&#xff0c;可能要经历如下的三级调度 高级调度 也称为作业调度、长程调度、接纳调度。调度对象是作业 主要功能&#xff1a; 挑选若干作业进入内存 为作业创建…

flutter Running Gradle task ‘assembleDebug‘

flutter Running Gradle task assembleDebug Running Gradle task assembleDebug新问题描述新问题解决方案Running Gradle task ‘assembleDebug’ 用Android Stduio创建Flutter项目的时候,会出现各种问题,踩了一个又一个,最后编译的时候可能会出现一直显示Running Gradle …

在Pycharm中创建项目新环境,安装Pytorch

在python项目中&#xff0c;很多项目使用的各类包的版本是不一致的。所以我们可以对每个项目有专属于它的环境。所以这个文章就是教你如何创建新环境。 一、创建新环境 首先我们需要去官网下载conda。然后在Pycharm下面添加conda的可执行文件。 用conda创建新环境。 二、…