一文让您读懂实时数仓(Apache Doris)

引言:

随着大数据时代的来临,实时数据处理与分析成为企业核心竞争力的关键因素之一。在这场数据革命中,SelectDB成为引领者。从百度自研的实时数仓平台 Palo,到开源项目 Apache Doris,再到飞轮科技研发的 SelectDB,这些名字都代表着大数据处理领域的前沿技术和最佳实践,接下来带您深入了解实时数仓及其发展现状。

2013 年百度研发了实时数仓平台 Palo,采用列存和MPP查询引擎,最初应用在百度统计、广告报表分析场景,经过四年的发展与优化,实时数仓已经推广到了百度所有的业务线,正式成为了百度统一的实时数仓;

2018 年,Palo 开源,并成为 Apache 基金会孵化器项目,更名为 ApacheDoris,Apache Doris 被数百家企业应用在生产系统,包含美团、京东、小米、字节、华为、腾讯等公司;

2022年 1 月,Doris 团队创建飞轮科技(SELECTDB),SelectDB 是 Doris 的重要推动力量,大力建设开源社区并提供商业化产品和服务支持;

2022 年 6 月,Apache Doris 孵化毕业,成为 Apache 顶级项目(TLP)。截止 2023 有 2000 多家中大企业使用,9000+ Star,550+ 多开发者,是目前最活跃、最受欢迎的开源大数据项目;

2022年7月,Apache Doris 1.1 版本发布,该版本是全面向量化引擎支持,性能提升3-5倍,内存统计和限制机制,稳定性大幅提升,500+优化和修复:ZSTD压缩算法、Lateral,View语法及 TableFunction 表函数等;

2022年12月,Apache Doris 1.12 版本发布,该版本算子全面优化,宽表性能领先;Clickbench 全球性能第一,领先 Clickhouse;新主键模型(MoW Uniquekey),聚合性能提升5-10倍;嵌套数据类型: Array,JSON;初步完备的LakeHouse,性能比presto快3-5倍;轻量 Schema Change;

2023年7月,Apache Doris 2.0 版本发布 ,该版本复杂查询盲测性能提升近 10倍:

  • 全新的查询优化器,pipeline 执行引擎;

  • 倒排索引,相比 ElasticSearch 10倍性价比的日志存储分析方案;

  • 完善的 Lakehouse (Hive,Iceberg,Hudi,JDBC RDMBS) 和性能提升;

  • 高并发数据服务支持,点查性能单机数万,线性可扩展;

  • MoW Unique Key 稳定支持大批量导入,支持部分列更新,完善的 DML;

  • 资源弹性:冷热数据分层 + 弹性计算节点;

  • 众多企业级特性:跨级群复制 CCR、负载管理和排队、万表库、K8S 对接;

Apache Doris 2.1 版本将会在年前发布,该版本有以下特性:

  • SelectDB Cloud 上完善的存算分离能力开源到社区;

  • 数据科学场景高速读取数据;

  • Varint 数据类型,更灵活的半结构化数据支持;

  • 多表物化视图;

  • Lakehouse 兼容 Trino 语法;

  • PL/SQL 存储过程。

实时数仓(Apache Doris)概念

ApacheDoris 是一个基于MPP架构的高性能、实时的分析型数据库,以极速易用的特点被人们所熟知,仅需亚秒级响应时间即可返回海量数据下的查询结果,不仅可以支持高并发的点查询场景,也能支持高吞吐的复杂分析场景。基于此,ApacheDoris 能够较好的满足报表分析、即时查询、统一数仓构建、数据湖联邦查询加速等使用场景,用户可以在此之上构建用户行为分析、AB实验平台、日志检索分析、用户画像分析、订单分析等应用。

实时数仓(Apache Doris)主要特性

高效:

  • 极速的分析性能:支持标准的 SQL 并且完全兼容 MySQL 协议,能够提供亚秒级响应时间,在海量数据场景下提供毫秒级查询服务;

  • 高效的数据更新:提供了数据插入、更新、删除等操作的高效实现,支持实时的数据更新;

  • 丰富的数据导入:支持多种数据导入方式,如批量导入、增量导入等,可以满足不同场景的数据导入需求;

  • 极致弹性与存算分离:支持存算分离的架构设计,可以实现计算资源的弹性扩展,同时保证了存储的高可用性;

简单:

  • 高可用与高可靠:采用了高可用和高可靠的设计,保证了数据的可靠性和系统的稳定性;

  • 多租户管理:支持多租户管理,可以满足不同用户或不同应用的数据需求;

  • 易用易管理:提供了一体化的管理界面,方便用户进行数据的管理和查询操作;

统一:

  • 半结构化数据分析:支持半结构化数据分析,可以满足不同类型数据的查询需求。

  • 湖仓一体:可以与数据湖进行集成,实现湖仓一体的数据管理,方便用户进行数据的统一管理和查询操作。

实时数仓(Apache Doris)在数据分析中的定位:

实时数仓(Apache Doris)应用场景:

数据源经过各种数据集成和加工处理后,通常会入库到实时数仓 Doris 和离线湖仓(Hive,Iceberg,Hudi 中),实时数仓(Apache Doris)被广泛应用在以下场景中:

报表分析:面向企业内部分析师和管理者的报表分析,方便他们快速了解情况以及做出决策;

即席查询(AdHoc):是用户根据自己的需求,灵活的选择查询条件,系统能够根据用户的选择生成相应的统计报表。即席查询与普通应用查询最大的不同是普通的应用查询是定制开发的,而即席查询是由用户自定义查询条件的;

统一数仓构建 :一个平台满足统一的数据仓库建设需求,简化繁琐的大数据软件栈。蜀海供应链基于 Doris 构建的统一数仓,替换了原来由 Spark、Hive、Kudu、Hbase、Phoenix 组成的旧架构,架构大大简化;

数据湖联邦查询:通过外表的方式联邦分析位于 Hive、Iceberg、Hudi 中的数据,在避免数据拷贝的前提下,查询性能大幅提升。

原文链接:

一文让您读懂实时数仓(Apache Doris) - SelectDB

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/746819.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

程序人生——Java数组和集合使用建议(1)

目录 引出数组和集合建议60:性能考虑,数组是首选建议61:若有必要,使用变长数组建议62:警惕数组的浅拷贝 建议63:在明确的场景下,为集合指定初始容量建议64:多种最值算法,…

使用opencv进行图片分析

opencv学习 一、配置环境并打开编译器 配置opencv在你的任意一个盘里创建一个专属于opencv的文件夹便于学习与整理 打开控制台winr输入cmd,进入后输入conda activate opencv,进入环境以后进入你所设置的opencv文件的盘,我的是D盘&#xff0…

php.exe运行时,提示缺少VCRUNTIME140.dll

php.exe运行时,提示缺少VCRUNTIME140.dll 下载地址 https://www.microsoft.com/zh-cn/download/details.aspx?id48145根据需要选择下载3.运行安装后,再次运行php.exe。

JAVA后端编码的主键字段存储为什么倾向于使用雪花算法

1.背景 最近有人问,什么是雪花算法,为什么使用雪花算法不使用数据库UUID,基于此,写一个说明。 2.简介 (1)雪花算法,英文名为snowflake,翻译过来就是是雪花,所以叫雪花…

javaweb篇请求与相应的参数问题

目录 目录 前言 简单传参设置 get请求无法识别 post请求 简单传参问题无法识别的解决问题 注意事项 改法 实体参数 代码展示(1)------单个私有类 代码展示(2)----多个私有类 实现服务器的部署以及实参的传递 今日分享…

B3620 x 进制转 10 进制(详解)

题目 思路 八进制数567怎么转化为十进制数。首先八进制就是逢八进一,也就是说这里面最大的数也就7,没有≥8的数。下面我们就讲一下567怎么转化为十进制:首先7是个位,可以直接写成十进制的7,6是十位,它是通…

图片制作二维码能批量生成吗?快捷在线制作二维码的技巧

现在很多场景下获取内容的方式都会通过扫描二维码来获取,比如常见的有文本内容、图片照片、音频视频等。二维码制作的方法也越来越简单,只需要通过二维码生成器的功能就可以快速完成,那么如果需要将多张图片每一张单独生成二维码使用时&#…

虚幻引擎5比Maya更好用吗?来看看Maya大神眼中的虚幻引擎5

这两年,大家总在争论: 虚幻引擎5(UE5)比Maya更好用吗? 未来会替代Maya吗? 虚幻引擎5(UE5)的快速发展,让许多传统Maya动画师感到焦虑和迷茫。但不要担心,这篇文章旨在解决你的困扰。…

Springboot——JSR303校验

1. 请求参数的合法性校验 使用基于JSR303的校验框架实现,Springboot提供了JSR-303的支持,它就是spring-boot-starter-validation,他包括了很多的校验规则,只需要在模型中通过注解指定校验规则,在Controller方法上开启校…

卫星参数转换之二行转轨道六根数转经纬度坐标

生命无罪,健康万岁,我是laity。 我曾七次鄙视自己的灵魂: 第一次,当它本可进取时,却故作谦卑; 第二次,当它在空虚时,用爱欲来填充; 第三次,在困难和容易之…

Linux关机和重启指令

关机 立即关机指令如下, sudo shutdown -h now 延迟关机指令如下,(5表示5分钟后执行该操作) sudo shutdown -h 5 重启 立即重启指令如下, sudo shutdown -r now 延迟重启指令如下, sudo shutdow…

【Android】源码中的工厂方法模式

本文是基于 Android 14 的源码解析 工厂方法模式应用很广泛,我们平时开发中经常会使用到的数据结构中其实也隐藏着对工厂方法模式的应用,以 List 和 Set 为例,List 和 Set 都继承于 Collection 接口,而 Collection 接口继承于 Ite…

头歌-贪心算法

第1关 找零钱 任务描述 本关任务:设计一个贪婪算法,使得找的钱币张数最少。 商店售货员找给 1 个顾客 n 元,用以下七种面值的纸币:100 元,50 元,20 元,10 元,5 元,2 …

激活函数理解

前言 为什么神经网中非要有各种各样的激活函数?他们有什么用?没有他们会怎样?常见的激活函数有哪些,他们都有什么特点? 如果我们不运用激活函数,神经网络的输出信号将仅仅是一个简单的线性函数。线性方程…

Docker 容器化技术:构建高效、可移植的开发环境和部署流程|Docker 网络

为了支持网络协议栈的多个实例,Linux 在网络协议栈中引入了网络命名空间。这些独立的协议栈被隔离到不同的命名空间中,处于不同命名空间中的网络协议栈是完全隔离的,彼此无法通信。通过对网络资源的隔离,就能在一台宿主机上虚拟多…

L1-019 谁先倒(Java)

一、题目描述: 划拳是古老中国酒文化的一个有趣的组成部分。酒桌上两人划拳的方法为:每人口中喊出一个数字,同时用手比划出一个数字。如果谁比划出的数字正好等于两人喊出的数字之和,谁就输了,输家罚一杯酒。两人同赢或…

android 事件分发笔记

这是学习笔记,以我看得明白为主。 分为 view.dispatchTouchEvent,---只有事件的处理逻辑 ----- ViewGroup.dispatchTouchEvent---实现了分发流程的逻辑 事件接收流程 setView#ViewRootImpl.java //接收事件的方法 ------> new WindowInputEventReceiver(inputChann…

FFmepg--视频编码流程--yuv编码为h264

文章目录 基本概念流程api核心代码 基本概念 YUV格式:是一种颜色编码方式,YUV分别为三个分量:‘Y’是明亮度,也就是灰度值;‘U’和‘V’是色度 YUV格式的分类: planar的YUV格式:先存储planar的…

初步了解序列化和反序列化

01什么是序列化和反序列化 序列化是将对象转化为字符串以便存储的一种方式。而反序列化恰好是序列化的逆过程,反序列化会将字符串转化为对象供程序使用。 常见的php系列化和反系列化方式主要有:serialize,unserialize;json_enco…

【运维开发岗面试题1】

目录 mkdir -p 中-p 是干什么的?df -h 和 du -h 命令作用?磁盘管理你都用到过什么命令?cp 和 mv 是干什么的?有什么区别内存大小怎么查看?查看内存的运行情况?怎么查看内存?进程杀不掉怎么办如何…