Apache Doris Sink Connector部署指南

在当今数据驱动的时代,如何高效、准确地处理和分析大数据成为了各行各业面临的共同挑战。Apache Doris,作为一个基于 MPP 架构的高性能、实时的分析型数据库,为大规模数据分析提供了强大的支持。

在当今数据驱动的时代,如何高效、准确地处理和分析大数据成为了各行各业面临的共同挑战。Apache Doris,作为一个基于 MPP 架构的高性能、实时的分析型数据库,为大规模数据分析提供了强大的支持。

随着Doris Connector的推出,开发者现在可以更加便捷地将数据实时导入Doris,无论是流数据还是批量数据。本指南将引导您完成Doris及其数据接收连接器的部署过程。

Doris

Doris数据接收连接器支持流式和批量模式,使得数据向Doris的传输变得简单高效。它的内部实现采用了批处理缓存和流加载导入,确保了数据处理的灵活性和可靠性。

支持的版本

  • 精确一次 & CDC 支持 Doris 版本 >= 1.1.x
  • 支持数组数据类型 Doris 版本 >= 1.2.x
  • 将在 Doris 版本 2.x 支持映射数据类型

:::

关键特性

  • 精确一次
  • CDC

配置项

名称类型是否必须默认值
fenodesstring-
usernamestring-
passwordstring-
table.identifierstring-
sink.label-prefixstring-
sink.enable-2pcbooltrue
sink.enable-deleteboolfalse
doris.configmap-

fenodes [string]

Doris 集群的 fenodes 地址,格式为 "fe_ip:fe_http_port, ..."

username [string]

Doris 用户名

password [string]

Doris 用户密码

table.identifier [string]

Doris 表名

sink.label-prefix [string]

流加载导入时使用的标签前缀。在 2pc 场景中,需要全局唯一性以确保 SeaTunnel 的 EOS 语义。

sink.enable-2pc [bool]

是否启用两阶段提交(2pc),默认为 true,以确保精确一次语义。有关两阶段提交的更多信息,请参考这里。

sink.enable-delete [bool]

是否启用删除功能。此选项要求 Doris 表启用批量删除功能(0.15+ 版本默认启用),且仅支持唯一模型。更多详情请参考此链接:

https://doris.apache.org/docs/dev/data-operate/update-delete/batch-delete-manual

doris.config [map]

流加载的 data_desc 参数,更多详情请参考此链接:

https://doris.apache.org/docs/dev/sql-manual/sql-reference/Data-Manipulation-Statements/Load/STREAM-LOAD

支持的导入数据格式

支持的格式包括 CSV 和 JSON。默认值:CSV

示例

使用 JSON 格式导入数据

sink {Doris {fenodes = "e2e_dorisdb:8030"username = rootpassword = ""table.identifier = "test.e2e_table_sink"sink.enable-2pc = "true"sink.label-prefix = "test_json"doris.config = {format="json"read_json_by_line="true"}}
}

使用 CSV 格式导入数据

sink {Doris {fenodes = "e2e_dorisdb:8030"username = rootpassword = ""table.identifier = "test.e2e_table_sink"sink.enable-2pc = "true"sink.label-prefix = "test_csv"doris.config = {format = "csv"column_separator = ","}}
}

更新日志

2.3.0-beta 2022-10-20 添加 Doris 数据接收连接器

下一版本

[Improve] 更改 Doris 配置前缀 3856

[Improve] 重构一些 Doris 数据接收代码以及支持 2pc 和 CDC 4235

tip

PR 4235 is an incompatible modification to PR 3856. Please refer to PR 4235 to use the new Doris connect.

随着大数据技术的不断进步,Apache Doris及其数据接收连接器将在数据处理和分析领域发挥越来越重要的作用。通过遵循本指南,您将能够轻松部署Doris数据接收连接器,有效地将数据导入Doris,为数据驱动的决策提供强有力的支持。我们期待看到开发者和企业通过使用Doris解锁数据分析的无限潜力。

随着Doris Connector的推出,开发者现在可以更加便捷地将数据实时导入Doris,无论是流数据还是批量数据。本指南将引导您完成Doris及其数据接收连接器的部署过程。

Doris

Doris数据接收连接器支持流式和批量模式,使得数据向Doris的传输变得简单高效。它的内部实现采用了批处理缓存和流加载导入,确保了数据处理的灵活性和可靠性。

支持的版本

  • 精确一次 & CDC 支持 Doris 版本 >= 1.1.x
  • 支持数组数据类型 Doris 版本 >= 1.2.x
  • 将在 Doris 版本 2.x 支持映射数据类型

:::

关键特性

  • 精确一次
  • CDC

配置项

名称类型是否必须默认值
fenodesstring-
usernamestring-
passwordstring-
table.identifierstring-
sink.label-prefixstring-
sink.enable-2pcbooltrue
sink.enable-deleteboolfalse
doris.configmap-

fenodes [string]

Doris 集群的 fenodes 地址,格式为 "fe_ip:fe_http_port, ..."

username [string]

Doris 用户名

password [string]

Doris 用户密码

table.identifier [string]

Doris 表名

sink.label-prefix [string]

流加载导入时使用的标签前缀。在 2pc 场景中,需要全局唯一性以确保 SeaTunnel 的 EOS 语义。

sink.enable-2pc [bool]

是否启用两阶段提交(2pc),默认为 true,以确保精确一次语义。有关两阶段提交的更多信息,请参考这里。

sink.enable-delete [bool]

是否启用删除功能。此选项要求 Doris 表启用批量删除功能(0.15+ 版本默认启用),且仅支持唯一模型。更多详情请参考此链接:

https://doris.apache.org/docs/dev/data-operate/update-delete/batch-delete-manual

doris.config [map]

流加载的 data_desc 参数,更多详情请参考此链接:

https://doris.apache.org/docs/dev/sql-manual/sql-reference/Data-Manipulation-Statements/Load/STREAM-LOAD

支持的导入数据格式

支持的格式包括 CSV 和 JSON。默认值:CSV

示例

使用 JSON 格式导入数据

sink {Doris {fenodes = "e2e_dorisdb:8030"username = rootpassword = ""table.identifier = "test.e2e_table_sink"sink.enable-2pc = "true"sink.label-prefix = "test_json"doris.config = {format="json"read_json_by_line="true"}}
}

使用 CSV 格式导入数据

sink {Doris {fenodes = "e2e_dorisdb:8030"username = rootpassword = ""table.identifier = "test.e2e_table_sink"sink.enable-2pc = "true"sink.label-prefix = "test_csv"doris.config = {format = "csv"column_separator = ","}}
}

更新日志

2.3.0-beta 2022-10-20 添加 Doris 数据接收连接器

下一版本

[Improve] 更改 Doris 配置前缀 3856

[Improve] 重构一些 Doris 数据接收代码以及支持 2pc 和 CDC 4235

tip

PR 4235 is an incompatible modification to PR 3856. Please refer to PR 4235 to use the new Doris connect.

随着大数据技术的不断进步,Apache Doris及其数据接收连接器将在数据处理和分析领域发挥越来越重要的作用。通过遵循本指南,您将能够轻松部署Doris数据接收连接器,有效地将数据导入Doris,为数据驱动的决策提供强有力的支持。我们期待看到开发者和企业通过使用Doris解锁数据分析的无限潜力。

本文由 白鲸开源科技 提供发布支持!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/710297.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

CSS的弹性布局

CSS 的弹性布局 前言 前端中为了实现页面的布局效果,采用的一个技术手段,它在前端开发的技术场景是非常广泛的 实现上述区域的页面相关的布局效果,就可以使用弹性布局来完成 弹性布局(flex布局) flex 是 flexible box 的缩写,…

MongoDB聚合运算符:$cos

文章目录 语法使用举例余弦值角度余弦值弧度 $cos聚合运算符用来计算余弦值&#xff0c;返回指定表达式的余弦值。 语法 { $cos: <expression> }<expression>为可被解析为数值的表达式$cos返回弧度&#xff0c;使用$radiansToDegrees运算符可以把弧度转换为角度$…

现代企业架构框架——应用架构

现代企业架构框架——应用架构。 现代企业架构中的应用架构是指企业在构建和维护应用系统时所采用的一种架构框架。应用架构旨在实现应用系统的可扩展性、灵活性、可维护性和可重用性,以满足企业在数字化时代对应用系统的快速交付和持续创新的需求。下面将详细介绍应用架构的…

文生视频基础1:sora技术报告学习

sora技术报告学习 背景学后理解训练流程技术拆解编码解码扩散模型训练用数据 28号直播交流会后的一些想法自身的一点点想法 参考 原文地址&#xff1a;Video generation models as world simulators 背景 此项目的背景是基于Datawhale的关于sora技术文档的拆解和相关技术讲解…

GEE入门篇|图像处理(二):在Earth Engine中进行波段计算

目录 波段计算 1.NDVI的计算 2.NDVI 归一化差值的单次运算计算 3.使用 NDWI 的归一化差值 波段计算 许多指数可以使用 Earth Engine 中的波段运算来计算。 波段运算是对图像中两个或多个波段进行加、减、乘或除的过程。 在这里&#xff0c;我们将首先手动执行此操作&#x…

mac 终端 任何命令都运行不了了

特殊情况 记录一下 mac 配置是发生错误 导致几乎所有命令都运行不了了 下面解决方案 这可能是由于你的 PATH 没有设置正确&#xff0c;或者 .bash_profile 或 .zshrc 文件中存在语法错误。你可以尝试以下方法来解决这个问题&#xff1a; 打开一个新的终端窗口。 通过输入 /bin…

Redis第6讲——主从复制模式详解

Redis的读写性能很高&#xff0c;但在面对大规模数据和高发访问的挑战时&#xff0c;单节点的Redis可能无法满足需求&#xff0c;这就引出了Redis集群的概念。本节先介绍一下Redis高可用方案之一的主从复制模式&#xff0c;虽说现在基本不会用这种模式&#xff0c;但是无论是哨…

特征值和特征向量及其在机器学习中的应用

特征值和特征向量是线性代数中的概念&#xff0c;用于分析和理解线性变换&#xff0c;特别是由方阵表示的线性变换。它们被用于许多不同的数学领域&#xff0c;包括机器学习和人工智能。 在机器学习中&#xff0c;特征值和特征向量用于表示数据、对数据执行操作以及训练机器学…

掌握电子邮件的未来:深入解析IMAP4的革命性特性与实践

IMAP4基本概念 Internet Message Access Protocol, Version 4 (IMAP4) 是一种广泛使用的邮件获取协议&#xff0c;它允许邮件客户端访问和操作远程邮件服务器上存储的邮件信息。IMAP4是IMAP协议的最新版本&#xff0c;提供了更加丰富的邮件处理功能&#xff0c;如邮件搜索、标…

SpringSecurity入门demo(四)权限校验

用户认证授权后&#xff0c;就可以进行接口权限控制。思路是拿用户&#xff08;已授予的&#xff09;权限与接口所需权限进行比较&#xff0c;不包含则视为无权。在SpringSecurity中&#xff0c;权限校验可以通过以下方式实现&#xff1a; &#xff08;1&#xff09;自定义拦截…

SQL 语句创建数据库

文章目录 MysqlPostgreInfluxDB语法使用 DROP DATABASE 删除数据库 Mysql mysql创建数据库需要账号具有高权限,我们创建一个test001数据库 mysql> CREATE DATABASE test001;使用该SHOW语句找出服务器上当前存在哪些数据库&#xff1a; mysql> SHOW DATABASES; -------…

使用分布式锁解决分布式环境下的并发安全问题

分布式锁 分布式锁的基本概念 在我们进行单机应用开发&#xff0c;涉及并发同步的时候&#xff0c;我们往往采用synchronized或者Lock的方式来解决多线程间的代码同步问题&#xff0c;这时多线程的运行都是在同一个JVM之下。但当我们的应用是分布式集群工作的情况下&#xff…

windows下使用vscode + NDK搭建 Android c++编译环境

需要的环境&#xff1a; NDK cmake&#xff08;若用android studio用过cmake则在sdk下有&#xff09; main.cpp 测试printf打印和log打印 #include <jni.h> // 需要智能提示则在 .vscode/c_cpp_properties.json 将 ndk 下的 toolchains\\llvm\\prebuilt\\windows-x8…

MWC 2024 | 广和通携手意法半导体发布智慧家居解决方案

世界移动通信大会2024期间&#xff0c;广和通携手横跨多重应用领域、全球排名前列的半导体公司意法半导体&#xff08;STMicroelectronics&#xff0c;以下简称ST&#xff1b;纽约证券交易所代码&#xff1a;STM&#xff09;发布支持Matter协议的智慧家居解决方案。该方案在广和…

【两万字面试系列】三年前的面试题。Service里面的线程安全问题

前言 三年前&#xff0c;大概是21年&#xff0c;那会刚学完java&#xff0c;然后去面试&#xff0c;被打的一塌糊涂&#xff0c;今天来盘一盘之前的面试&#xff0c;到底是怎样的问题整住了。然后发现了去年整的线程安全东西&#xff0c;也贴到文章后面了。那个贴的还不太准&a…

如何在Jupyter Notebook切换conda虚拟环境

大家好我是咕噜美乐蒂&#xff0c;很高兴又和大家见面了&#xff01;在 Jupyter Notebook 中切换 Conda 虚拟环境可以通过以下步骤完成。首先&#xff0c;确保您已经安装了 Conda&#xff0c;并且创建了多个虚拟环境。接下来&#xff0c;我将详细介绍在 Jupyter Notebook 中如何…

【大数据面试题】012 谈谈 Hive 性能优化常用的方法

一步一个脚印&#xff0c;一天一道面试题 数据分区和分桶&#xff1a;合适的分区和分桶能减少数据量的输入 合适的数据格式&#xff1a;Parquet&#xff0c;ORC 是可以减少 I/O &#xff0c;网络传输速率等的 列裁剪&#xff1a;一般不要使用 SELECT *&#xff0c;只获取真正…

设计模式:行为型模式

行为型设计模式是一类设计模式&#xff0c;它们关注的是对象之间的相互作用&#xff0c;以及对象如何通过消息传递来实现松耦合。这些模式涉及到算法和对象之间职责的分配。在本文中&#xff0c;我们将深入探讨几种常见的行为型模式&#xff0c;并提供详细的解释、示例和应用场…

HQL,SQL刷题,尚硅谷

目录 相关表数据&#xff1a; 题目及思路解析&#xff1a; 查询结果排序&分组指定条件 1、查询学生的总成绩并按照总成绩降序排序 2、按照如下格式显示学生的语文、数学、英语三科成绩&#xff0c;没有成绩的输出为0&#xff0c;按照学生的有效平均成绩降序显示 3、查询一…

hosts.allow限制可通过SSH登录到服务器的IP

hosts.allow限制可通过SSH登录到服务器的IP 网络防火墙是阻挡非授权主机访问网络的第一道防护&#xff0c;但是它们不应该仅有一道屏障。Linux使用了两个文件!。/etc/hosts.allow和/etc/hosts.deny&#xff0c;根据网络请求的来源限制对服务的访问。 hosts.allow文件列出了允…