一文让您读懂实时数仓(Apache Doris)

引言:

随着大数据时代的来临,实时数据处理与分析成为企业核心竞争力的关键因素之一。在这场数据革命中,SelectDB成为引领者。从百度自研的实时数仓平台 Palo,到开源项目 Apache Doris,再到飞轮科技研发的 SelectDB,这些名字都代表着大数据处理领域的前沿技术和最佳实践,接下来带您深入了解实时数仓及其发展现状。

2013 年百度研发了实时数仓平台 Palo,采用列存和MPP查询引擎,最初应用在百度统计、广告报表分析场景,经过四年的发展与优化,实时数仓已经推广到了百度所有的业务线,正式成为了百度统一的实时数仓;

2018 年,Palo 开源,并成为 Apache 基金会孵化器项目,更名为 ApacheDoris,Apache Doris 被数百家企业应用在生产系统,包含美团、京东、小米、字节、华为、腾讯等公司;

2022年 1 月,Doris 团队创建飞轮科技(SELECTDB),SelectDB 是 Doris 的重要推动力量,大力建设开源社区并提供商业化产品和服务支持;

2022 年 6 月,Apache Doris 孵化毕业,成为 Apache 顶级项目(TLP)。截止 2023 有 2000 多家中大企业使用,9000+ Star,550+ 多开发者,是目前最活跃、最受欢迎的开源大数据项目;

2022年7月,Apache Doris 1.1 版本发布,该版本是全面向量化引擎支持,性能提升3-5倍,内存统计和限制机制,稳定性大幅提升,500+优化和修复:ZSTD压缩算法、Lateral,View语法及 TableFunction 表函数等;

2022年12月,Apache Doris 1.12 版本发布,该版本算子全面优化,宽表性能领先;Clickbench 全球性能第一,领先 Clickhouse;新主键模型(MoW Uniquekey),聚合性能提升5-10倍;嵌套数据类型: Array,JSON;初步完备的LakeHouse,性能比presto快3-5倍;轻量 Schema Change;

2023年7月,Apache Doris 2.0 版本发布 ,该版本复杂查询盲测性能提升近 10倍:

  • 全新的查询优化器,pipeline 执行引擎;

  • 倒排索引,相比 ElasticSearch 10倍性价比的日志存储分析方案;

  • 完善的 Lakehouse (Hive,Iceberg,Hudi,JDBC RDMBS) 和性能提升;

  • 高并发数据服务支持,点查性能单机数万,线性可扩展;

  • MoW Unique Key 稳定支持大批量导入,支持部分列更新,完善的 DML;

  • 资源弹性:冷热数据分层 + 弹性计算节点;

  • 众多企业级特性:跨级群复制 CCR、负载管理和排队、万表库、K8S 对接;

Apache Doris 2.1 版本将会在年前发布,该版本有以下特性:

  • SelectDB Cloud 上完善的存算分离能力开源到社区;

  • 数据科学场景高速读取数据;

  • Varint 数据类型,更灵活的半结构化数据支持;

  • 多表物化视图;

  • Lakehouse 兼容 Trino 语法;

  • PL/SQL 存储过程。

实时数仓(Apache Doris)概念

ApacheDoris 是一个基于MPP架构的高性能、实时的分析型数据库,以极速易用的特点被人们所熟知,仅需亚秒级响应时间即可返回海量数据下的查询结果,不仅可以支持高并发的点查询场景,也能支持高吞吐的复杂分析场景。基于此,ApacheDoris 能够较好的满足报表分析、即时查询、统一数仓构建、数据湖联邦查询加速等使用场景,用户可以在此之上构建用户行为分析、AB实验平台、日志检索分析、用户画像分析、订单分析等应用。

实时数仓(Apache Doris)主要特性

高效:

  • 极速的分析性能:支持标准的 SQL 并且完全兼容 MySQL 协议,能够提供亚秒级响应时间,在海量数据场景下提供毫秒级查询服务;

  • 高效的数据更新:提供了数据插入、更新、删除等操作的高效实现,支持实时的数据更新;

  • 丰富的数据导入:支持多种数据导入方式,如批量导入、增量导入等,可以满足不同场景的数据导入需求;

  • 极致弹性与存算分离:支持存算分离的架构设计,可以实现计算资源的弹性扩展,同时保证了存储的高可用性;

简单:

  • 高可用与高可靠:采用了高可用和高可靠的设计,保证了数据的可靠性和系统的稳定性;

  • 多租户管理:支持多租户管理,可以满足不同用户或不同应用的数据需求;

  • 易用易管理:提供了一体化的管理界面,方便用户进行数据的管理和查询操作;

统一:

  • 半结构化数据分析:支持半结构化数据分析,可以满足不同类型数据的查询需求。

  • 湖仓一体:可以与数据湖进行集成,实现湖仓一体的数据管理,方便用户进行数据的统一管理和查询操作。

实时数仓(Apache Doris)在数据分析中的定位:

实时数仓(Apache Doris)应用场景:

数据源经过各种数据集成和加工处理后,通常会入库到实时数仓 Doris 和离线湖仓(Hive,Iceberg,Hudi 中),实时数仓(Apache Doris)被广泛应用在以下场景中:

报表分析:面向企业内部分析师和管理者的报表分析,方便他们快速了解情况以及做出决策;

即席查询(AdHoc):是用户根据自己的需求,灵活的选择查询条件,系统能够根据用户的选择生成相应的统计报表。即席查询与普通应用查询最大的不同是普通的应用查询是定制开发的,而即席查询是由用户自定义查询条件的;

统一数仓构建 :一个平台满足统一的数据仓库建设需求,简化繁琐的大数据软件栈。蜀海供应链基于 Doris 构建的统一数仓,替换了原来由 Spark、Hive、Kudu、Hbase、Phoenix 组成的旧架构,架构大大简化;

数据湖联邦查询:通过外表的方式联邦分析位于 Hive、Iceberg、Hudi 中的数据,在避免数据拷贝的前提下,查询性能大幅提升。

原文链接:

一文让您读懂实时数仓(Apache Doris) - SelectDB

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/746819.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

程序人生——Java数组和集合使用建议(1)

目录 引出数组和集合建议60:性能考虑,数组是首选建议61:若有必要,使用变长数组建议62:警惕数组的浅拷贝 建议63:在明确的场景下,为集合指定初始容量建议64:多种最值算法,…

使用opencv进行图片分析

opencv学习 一、配置环境并打开编译器 配置opencv在你的任意一个盘里创建一个专属于opencv的文件夹便于学习与整理 打开控制台winr输入cmd,进入后输入conda activate opencv,进入环境以后进入你所设置的opencv文件的盘,我的是D盘&#xff0…

php.exe运行时,提示缺少VCRUNTIME140.dll

php.exe运行时,提示缺少VCRUNTIME140.dll 下载地址 https://www.microsoft.com/zh-cn/download/details.aspx?id48145根据需要选择下载3.运行安装后,再次运行php.exe。

javaweb篇请求与相应的参数问题

目录 目录 前言 简单传参设置 get请求无法识别 post请求 简单传参问题无法识别的解决问题 注意事项 改法 实体参数 代码展示(1)------单个私有类 代码展示(2)----多个私有类 实现服务器的部署以及实参的传递 今日分享…

B3620 x 进制转 10 进制(详解)

题目 思路 八进制数567怎么转化为十进制数。首先八进制就是逢八进一,也就是说这里面最大的数也就7,没有≥8的数。下面我们就讲一下567怎么转化为十进制:首先7是个位,可以直接写成十进制的7,6是十位,它是通…

图片制作二维码能批量生成吗?快捷在线制作二维码的技巧

现在很多场景下获取内容的方式都会通过扫描二维码来获取,比如常见的有文本内容、图片照片、音频视频等。二维码制作的方法也越来越简单,只需要通过二维码生成器的功能就可以快速完成,那么如果需要将多张图片每一张单独生成二维码使用时&#…

虚幻引擎5比Maya更好用吗?来看看Maya大神眼中的虚幻引擎5

这两年,大家总在争论: 虚幻引擎5(UE5)比Maya更好用吗? 未来会替代Maya吗? 虚幻引擎5(UE5)的快速发展,让许多传统Maya动画师感到焦虑和迷茫。但不要担心,这篇文章旨在解决你的困扰。…

Springboot——JSR303校验

1. 请求参数的合法性校验 使用基于JSR303的校验框架实现,Springboot提供了JSR-303的支持,它就是spring-boot-starter-validation,他包括了很多的校验规则,只需要在模型中通过注解指定校验规则,在Controller方法上开启校…

激活函数理解

前言 为什么神经网中非要有各种各样的激活函数?他们有什么用?没有他们会怎样?常见的激活函数有哪些,他们都有什么特点? 如果我们不运用激活函数,神经网络的输出信号将仅仅是一个简单的线性函数。线性方程…

Docker 容器化技术:构建高效、可移植的开发环境和部署流程|Docker 网络

为了支持网络协议栈的多个实例,Linux 在网络协议栈中引入了网络命名空间。这些独立的协议栈被隔离到不同的命名空间中,处于不同命名空间中的网络协议栈是完全隔离的,彼此无法通信。通过对网络资源的隔离,就能在一台宿主机上虚拟多…

FFmepg--视频编码流程--yuv编码为h264

文章目录 基本概念流程api核心代码 基本概念 YUV格式:是一种颜色编码方式,YUV分别为三个分量:‘Y’是明亮度,也就是灰度值;‘U’和‘V’是色度 YUV格式的分类: planar的YUV格式:先存储planar的…

初步了解序列化和反序列化

01什么是序列化和反序列化 序列化是将对象转化为字符串以便存储的一种方式。而反序列化恰好是序列化的逆过程,反序列化会将字符串转化为对象供程序使用。 常见的php系列化和反系列化方式主要有:serialize,unserialize;json_enco…

姿态旋转的哥氏定理以及速度微分的推导

姿态旋转中涉及到坐标系的转换,在有相对旋转的两个坐标系中观察一个向量的变化,用到了哥氏定理。 例如在i系中观察e系下的运动,则 哥氏定理的公式 wie是e相对于i的角运动 注意符号i在前e在后。 wie是e相对于i的角运动 注意符号i在前e在…

R语言:如何基于地球外辐射(Ra)和相对日照(n/N)计算太阳辐射Rs?

正在编写相关软著,借此机会了解R语言的基本语法和一些处理流程,所以解释稍微繁琐。 Note: 使用的R语言版本是 R version 4.3.2 (2023-10-31 ucrt) 使用的RStudio编辑器版本是: 01 基于随机森林的插值填补缺失值 这是目前处理…

深入探索C与C++的混合编程

实现混合编程的技术细节 混合使用C和C可能由多种原因驱动。一方面,现有的大量优秀C语言库为特定任务提供了高效的解决方案,将这些库直接应用于C项目中可以节省大量的开发时间和成本。另一方面,C的高级特性如类、模板和异常处理等,…

mysql数据库中查询重复数据和去重数据

文章目录 1.查找重复数据2. 查到重复组的唯一数据3.删除重复数据4.注意重复的内容和删除的记录数是否一致 1.查找重复数据 select gene_entrez_id,count(*) a from diag_gene GROUP BY gene_entrez_id HAVING a > 12. 查到重复组的唯一数据 原理 分组后如果组内多个数据…

跨境电商干货|如何在Snapchat上做电商?

Snapchat是一个与用户互动与创意内容为主的平台,也因其广阔的受众群体广受跨境电商卖家的喜爱,成为跨境出海的热门渠道之一。本文将为大家分享,要在Snapchat上进行电子商务,可以遵循以下步骤: 1、创建商业账户 在Snap…

卷积的九大变体算法

注意:本文引用自专业人工智能社区Venus AI 更多AI知识请参考原站 ([www.aideeplearning.cn]) 引言 卷积神经网络(CNN)的核心在于其多样化的卷积技术,每种技术针对不同的应用和性能需求有着独特的优势。逐…

力扣46. 全排列

Problem: 46. 全排列 文章目录 题目描述思路及解法复杂度Code 题目描述 思路及解法 回溯可以理解为是在对一个多叉树的操作 1.回溯结束条件:当决策路径的长度等于nums数组的长度时,将当前的结果添加到二维结果集res中; 2.每一次决策的选择处…

Qt 图形视图 /基于Qt示例DiagramScene解读图形视图框架

文章目录 概述从帮助文档看示例程序了解程序背景/功能理清程序概要设计 分析图形视图的协同运作机制如何嵌入到普通Widget程序中?形状Item和文本Item的插入和删除?连接线Item与形状Item的如何关联?如何绘制ShapeItem间的箭头线? 下…