背景
我们的业务数据一般来说都是放在Mysql中的,而我们要分析的数据一般都存放在clickhouse中,所以如何把数据从mysql同步到ck,就变成了一个必须的步骤,本文简单记录下几种同步的方式
mysql数据同步到clickhouse
方式一:
在clickhouse中独立创建一个ck的表,对应着mysql的一张表数据,然后使用定时任务比如每天或者每小时从mysql中查询一天的增量或者一小时的增量数据插入到ck中,这种方式比较容易理解和实现
方式二:
使用canel+kafka同步二进制binlog的方式同步数据,具体来说是把每条db的变更转换成kafka的记录,然后消费kafka消息把数据插入到ck中
方式三:
使用ck提供的mysql引擎表
CREATE TABLE [IF NOT EXISTS] [db.]table_name [ON CLUSTER cluster]
(name1 [type1] [DEFAULT|MATERIALIZED|ALIAS expr1] [TTL expr1],name2 [type2] [DEFAULT|MATERIALIZED|ALIAS expr2] [TTL expr2],...
) ENGINE = MySQL('host:port', 'database', 'table', 'user', 'password'[, replace_query, 'on_duplicate_clause'])
SETTINGS[ connection_pool_size=16, ][ connection_max_tries=3, ][ connection_wait_timeout=5, ][ connection_auto_close=true, ][ connect_timeout=10, ][ read_write_timeout=300 ]
;
方式四:
使用ck提供的当前还处于实验阶段的MaterializedMySQL引擎
CREATE DATABASE mysql ENGINE = MaterializedMySQL('localhost:3306', 'db', 'user', '***');
方式五:
通过把mysql表导出成Tsv文件,然后通过clickhouse-client工具把TSV文件的数据导入到ck的表中.
参考文献:
https://clickhouse.com/docs/zh/engines/database-engines/materialized-mysql