数据所在,计算随行:Databend 的 2023 年度总结

2023 年是 Databend 为用户和客户全面交付 Data Cloud 数据云平台的一年,真正实现了「数据所在,计算随行」的理念,即将计算力带至数据之处,致力于为用户交付更澎湃的算力。

Databend 自 2021 年开始研发,「三年之期已到」,作为 Snowflake 的开源竞品,Databend 会交出怎样的一份答卷呢?让我们一起看看吧。

Large Scale,直面规模化挑战

以往第一个 Part 是留给开源/社区的,但是今年我们将第一个部分留给用户,谈「规模化」。

一方面,越来越多的用户信任并选择 Databend ,应对生产环境中的海量数据分析场景,我们已经服务于广告投放、医疗健康、AIGC、电信服务、快递物流、企业服务等多个行业,为技术栈现代化、数据汇聚平台、数据归档、广告投放分析、 用户行为分析等多个场景贡献力量。

  • Databend 提供高性能低成本的查询解决方案,支持标准 SQL 和自动索引,减少研发运维的学习成本。Databend 在 DMALL 除了 TiDB、 MySQL 数据归档场景外,又添加一新场景: 日志归档与实时查询,10 亿数据量级下,常用查询均可做到秒级响应。
  • Databend 能够基于对象存储提供高性能查询,数据迁移成本低,并且兼容原有协议和查询语句。使用 Databend 替换 CDH ,某医药集团大表查询和历史归档数据关联查询场景下,查询加载速度提升 2 倍,存储成本降低为本地盘多副本模式的 1/15。

另一方面,Databend 所处理的数据也在规模化,凭借存算分离、算算分离、读写分离的能力,直面业内顶级的数据分析场景。除了云和私有化部署之外,也解锁了混合云的新姿势。

  • Databend 能够应对超大规模数据导入和分析场景,结合读写分离策略,在单表数据数万亿行、原始数据 超 10 PB 的场景下,可以做到秒级写入、秒级读取。
  • Databend 采用了存算分离的设计理念,既增强系统的灵活性和扩展性,又优化多租户环境下的读写分离策略,显著提升性能、安全性和稳定性。万全网络中台架构从 Greenplum 成功迁移到 Databend:查询性能增加了3.7倍,数据导入性能提高了 1.5 倍,数据导出速度提升了2.5倍,存储效率增加了2倍,同时 schema 维护的效率也提高了4倍。
  • 凭借 Databend 对存储和计算资源的优化,在数据湖场景(数据汇聚平台) 中,帮助用户实现按需按量付费模式。Databend 的数据压缩技术可以将用户数据压缩比提高至 8 - 15 倍,同时,结合高效的 ETL/ELT 工作流,用户能够更便捷地完成数据的清洗和整理工作。

MoreConnectivity,打破数据孤岛新范式

Databend 致力于打破数据孤岛,帮助企业更合理地管理和利用现有的数据资源和计算资源。通过构建更加开放的数据生态和统一的数据管理抽象,Databend 可以助力用户整合公有云、私有云和边缘设备,自如地管理和处理超大规模数据。

在 2023 年,Databend 的着眼点在于如何让数据更加高效流转,让数据活起来、用起来。我们提供了一站式的 ETL 数据处理工作流:

  • 对接丰富的数据存储服务,利用 Stage 打通数据中转链路
  • 支持接入丰富的数据源和数据格式,提供数据清洗与转化能力,让数据立等可用
  • 提供替换、合并、数据流等多样化数据更新方式,保持数据新鲜度和可用性
  • 打造数据开放生态朋友圈,帮助数据「引进来」和「走出去」
  • Databend 支持对 JSON 的高效查询处理,利用 Databend Cloud 的高效数据摄入能力和丰富的可视化集成支持,某 AIGC 初创公司的用户行为分析成本降低至原有方案的十分之一。
  • Databend 支持混合云架构以优化私有化部署成本,结合 Databend Cloud 的弹性计算能力,某短视频内容产业客户采用混合云方案,在环境规模和 IT 成本限制的前提下满足大规模数据分析的算力调度需求。

云数据库或者新一代数仓,并不是 Databend 的最终目标,我们希望通过构建 Connectivity Cloud Database 的范式,为用户创造更具联通性的数字未来。

Crest of Innovation,勇攀数据库之巅

没有持续投入创新和研发,再好的理念也只是空中楼阁。前一部分讲述了理念,接下来我们将介绍 Databend 在 2023 年迭代过程中取得的一些进展。

性能登顶与资源调度优化

TPC-H 是一款面向商品零售业的决策支持系统测试基准,在 TPC-H SF100 测试中,我们利用 22 条查询和接近 6 亿行数据综合评估 Snowflake 和 Databend Cloud 的性能与成本。Databend Cloud 以不到一半的成本实现了更高性能,有关测试详情与复现方式,请参考 TPC-H Benchmark: Databend Cloud vs. Snowflake | Databend 。

ClickBench 是 ClickHouse 发起的分析型数据库性能测试排行榜,收录了Snowflake、ClickHouse 等 50 多个主流分析型数据库的测试结果,采用公开标准来衡量数据库的性能。2023 年 3 月,在三种不同机型测试中,Databend 的导入性能均获得第一名,Hot Run 查询下,我们有一个机型是第一名,其他两个机型分别是第二,第三名。

(数据采集自 benchmark.clickhouse.com ,2023 年 03 月)

此外,Databend 的 Python 绑定的出色性能和高效资源调度能力也得到用户认可,以是少数几个提供 Python API 且能够在资源有限条件下完成复杂查询的 SQL 数据分析工具之一。

迭代:更贴心的一站式 Lakehouse

2023 年,Databend 的形态更加贴近 Lakehouse ,我们提供一站式的数据分析解决方案,覆盖数据全生命周期,并特别增强以下能力:

  • 更强劲的数据处理能力,支持在导入数据过程中进行数据清洗,MERGE INTO 和 ATTACH TABLE,保证数据始终就绪。
  • 更完备的类型和函数支持, 丰富的 JSON 处理函数和 GEO 地理位置函数。
  • 更自如的数据源集成:提供 CONNECTION 复用访问凭据,支持 Delta Table 和 Iceberg 表引擎。
  • 更全面的安全策略和权限模型,涵盖网络、密码、用户访问控制等。

此外,Databend 也正式推出企业版,以提供更丰富的高级特性,助力用户业务成功:

  • 计算列(Computed Columns) :通过表达式从其他列计算生成数据的列,使用计算列可以将表达式的数据存储下来加快查询速度,同时可以简复杂的查询表达式。
  • VACUUM TABLE :从表中永久删除历史数据文件来释放存储空间,有助于优化系统性能。
  • 聚合索引:通过预计算与索引聚合技术,聚合索引可以满足高性能查询;支持自定义索引,支持业务的不同需要。
  • 数据脱敏:基于角色的数据掩码策略,保护您的敏感信息;在提供默认安全的同时保证数据的可用性,满足业务合规需求。
  • Serverless Background Service :自动发现数据写入之后需要压缩、重排序、清理的表,无需其他服务,也无需手动操作,自动触发对应表的维护工作,降低维护负担。

Databend 目前支持的企业级特性可以访问下方链接获取:

Enterprise Features | Databend

用户业务从 Snowflake 转换到 Databend / Databend Cloud 几乎没有迁移和使用成本。 我们也提供了详细的特性对照表,可以访问 Databend vs. Snowflake Features and Capabilities · Issue #13059 · datafuselabs/databend · GitHub 获取。

AIR&D,探索大模型驱动的产研工作流

今年最火的关键词莫过于生成式 AI ,Databend 也是最早一批投入精力探索大模型与数据库结合的项目。我们在 Databend 中内置了 AI 函数,支持通过 SQL 调用 OpenAI 兼容 API 、创建了开源的知识库问答方案 AskBend 。

随着 Databend 开源社区的快速发展,新功能的持续增加和现有功能的优化提出了新的测试挑战。除了原有的严格且丰富的测试方案之外,我们还引入了 GPT-4 作为质量保障的一个关键环节,帮助我们执行正确性和优化器层面的测试,智能挖掘潜在的 bug ,确保稳定性。

目前,我们开源了一套由 GPT-4 驱动的数据生成和结果集校验方案,可以访问 GitHub - datafuselabs/wizard: A GPT4 powered tool for detecting bugs in Databend 获取,其中包括:

  • 双缝探测模型:比较当前 PR 版本与主分支(main)版本的结果集来进行验证。
  • 结果集正确性模型:对照其他数仓方案,确保 Databend 的结果集的正确性。

除此之外,Databend 的工作流中也包含丰富的 AI 基础设施,文档团队可以借助 GPT-4 改善文档质量、进行多语言支持,并且提供更符合业务需要的用例,大幅解放生产力。

Beyond Code,构建更棒的社区

(采集自 ossinsight.io ,数据更新略有延迟)

开源,是 Databend 团队不变的初心。在过去一年里,Databend 主 Repo:

  • 新增约 1900 star ,star 总数量达到 6963 。
  • 新增 PR 约 3700 个,总 PR 数量达到 9100+ 。
  • 解决 Issue 1100 余个,累计已解决 Issue 接近 4200 个。
  • 新增 33 位贡献者,在特性支持、功能完善、文档等多个不同方面贡献力量。
  • 总计提交次数突破 30000 。

Databend 团队在 2023 年也积极举办和参与各项技术分享活动,共话技术创新:

  • 举办 7 场线上 Data Infra 分享和 1 场线下的 Rust Tuesday
  • 参与包括 InfoQ、3306π、Rust 中文社区等伙伴举办的多场分享活动

除了贡献者社区和合作伙伴社区的不断发展之外,2023 年的重要变化是,Databend 的用户社区得到进一步的壮大,我们的缘分从代码开始,又在代码之上建立了更加广泛和深刻的联系。感谢大家的一路支持与陪伴,我们期望与大家有更多机会,共同畅聊数字未来。

Crafting the Future,展望 2024

对于 Databend 团队而言,2023 年是一个重要的里程碑,我们直面了规模化挑战,获得了客户的认可与信赖。

2024 年,我们的目标是基于 Databend,通过 SQL 交付包括 CPU 和 GPU 资源在内的更多算力,Compute Where Data Lives: Swift, Smart, Seamless,服务于更多数据科学场景,让算力更加触手可及 。

当前 Databend 的 2024 年开源产品路线图正在讨论中,也欢迎大家关注和参与:Databend Roadmap for 2024 (Discussion) · Issue #14167 · datafuselabs/databend · GitHub

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/687694.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Redis篇----第五篇

系列文章目录 文章目录 系列文章目录前言一、redis的过期策略以及内存淘汰机制二、Redis 常见性能问题和解决方案?三、为什么Redis的操作是原子性的,怎么保证原子性的?四、Redis事务前言 前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家…

每日OJ题_二叉树dfs①_力扣2331. 计算布尔二叉树的值

目录 力扣2331. 计算布尔二叉树的值 解析代码 力扣2331. 计算布尔二叉树的值 2331. 计算布尔二叉树的值 难度 简单 给你一棵 完整二叉树 的根,这棵树有以下特征: 叶子节点 要么值为 0 要么值为 1 ,其中 0 表示 False ,1 表示…

京东电商API接口|Python爬虫实战 | 批量爬取网页信息

爬虫爬取网页有时需要模拟网页行为,比如京东、淘宝详情页面,图片加载随着滚动自动加载的。这种情况我们就要进行浏览器模拟操作才能获取要爬取的数据。 Selenium 是一个用于自动化浏览器操作的开源框架,主要用于网页测试,支持多种…

C++ STL:deque使用及源码剖析

Deque是一种双向开口的连续线性空间。能在头尾两端分别做元素的插入和删除,而且是在常数的时间内完成。虽然Vector也可以在首端进行元素的插入和删除(利用insert和erase),但效率差(涉及到整个数组的移动)&a…

代码随想录 Leetcode56. 合并区间

题目&#xff1a; 代码(首刷自解 2024年2月18日&#xff09;&#xff1a; 这题与气球扎针&#xff0c;删除重复的大体逻辑相似。需要额外定义些变量来存储头尾 class Solution { private:const static bool cmp(vector<int>& a, vector<int>& b) {return …

001 QGIS介绍

Quantum GIS&#xff08;QGIS&#xff09;是开源地理信息系统桌面软件&#xff0c;使用GNU&#xff08;General Public License&#xff09;授权&#xff0c; 属于 Open Source eospatial Foundation&#xff08;OSGeo&#xff09;的官方计划。在 GNU 授权下&#xff0c;开发者…

Postman路径修改

默认安装好Postman之后&#xff0c;默认路径在&#xff1a;C:\Users\用户名\AppData\Local\Postman。 修改路径只需要将整个文件夹拷贝到需要移动的位置即可&#xff0c;然后重新创建一个快捷方式。再删除原来路径的文件夹。

C++ //练习 7.29 修改你的Screen类,令move、set和display函数返回Screen并检查程序的运行结果,在上一个练习中你的推测正确吗?

C Primer&#xff08;第5版&#xff09; 练习 7.29 练习 7.29 修改你的Screen类&#xff0c;令move、set和display函数返回Screen并检查程序的运行结果&#xff0c;在上一个练习中你的推测正确吗&#xff1f; 环境&#xff1a;Linux Ubuntu&#xff08;云服务器&#xff09; …

RIP协议详解

​RIP是最早的动态路由协议&#xff0c;虽然已经过时并且很少使用&#xff0c;但是可以通过学习RIP并且和ospf等现在正在使用的路由协议对比&#xff0c;了解其工作原理和过时原因&#xff0c;具有很强的学习性。 一、RIP协议简介 RIP&#xff08;Routing Information Protoc…

Bpmn-js 属性控制

我们可以通过bpmn-js来访问对应的BPMN图例的属性信息。对应的流程图中的每个图例元素&#xff08;如开始、结束、中间/边界事件等都通过businessObject属性存储对基础BPMN元素的引用。业务对象是从BPMN 2.0 XML导入并在导出过程中序列化的实际元素。使用业务对象来读取和写入BP…

如何减少HTTP请求次数

资料来源 : 小林coding 小林官方网站 : 小林coding (xiaolincoding.com) 如何减少HTTP请求次数? 减少 HTTP 请求次数自然也就提升了 HTTP 性能&#xff0c;可以从这 3 个方面入手: 减少重定向请求次数合并请求延迟发送请求 减少重定向请求次数 我们先来看看什么是重定向请…

美相关 APT 组织分析报告

获取方式&#xff1a; 链接&#xff1a;https://pan.baidu.com/s/1AsysdggUIbvB3PZ41MaJaQ?pwd8euh 提取码&#xff1a;8euh

Debug Monitor中断详细解析

文章目录 0 基本术语1 相关寄存器和指令1.1 Debug Halting Control and Status Register (DHCSR), 0xE000EDF01.2 Debug Exception and Monitor Control Register (DEMCR), 0xE000EDFC1.3 Debug Fault Status Register, DFSR, 0xE000ED301.4 BKPT指令 2 Debug Monitor中断示例2…

解读OpenAI视频生成模型Sora背后的原理:Diffusion Transformer

Diffusion Models视频生成-博客汇总 前言&#xff1a;OpenAI最近推出的视频生成模型Sora在效果上实现了真正的遥遥领先&#xff0c;很多博主都介绍过Sora&#xff0c;但是深入解读背后原理的博客却非常少。Sora的原理最主要的是核心模型主干《Scalable Diffusion Models with T…

Code Composer Studio (CCS) - Breakpoint (断点)

Code Composer Studio [CCS] - Breakpoint [断点] 1. BreakpointReferences 1. Breakpoint 选中断点右键 -> Breakpoint Properties… Skip Count&#xff1a;跳过断点总数&#xff0c;在断点执行之前设置总数 Current Count&#xff1a;当前跳过断电累计值 References […

CCF编程能力等级认证GESP—C++7级—20231209

CCF编程能力等级认证GESP—C7级—20231209 单选题&#xff08;每题 2 分&#xff0c;共 30 分&#xff09;判断题&#xff08;每题 2 分&#xff0c;共 20 分&#xff09;编程题 (每题 25 分&#xff0c;共 50 分)商品交易纸牌游戏 答案及解析单选题判断题编程题1编程题2 单选题…

Vue实现多个input输入,光标自动聚焦到下一个input

遇到一个需求&#xff0c;需要实现和移动端短信输入一样&#xff0c;输入内容后&#xff0c;光标会进入下一个输入框 需要用到2个事件 keydown事件发生在键盘的键被按下的时候 keyup 事件在按键被释放的时候触发 <template><div class"box"><el-fo…

OpenAI重磅发布Sora——首个视频生成模型:利用文本-视频人工智能将想象变为现实

想象一下&#xff0c;现在你有一段文本话描述的故事&#xff0c;通过输入这段文本&#xff0c;就可以立刻展开一个生动详细的视频。这就是 OpenAI 神奇的 Sora&#xff0c;一个革命性的文本到视频的 AI 模型。Sora于2024年2月推出&#xff0c;凭借其仅凭文字提示就能生成现实和…

CSS 不同颜色的小圆角方块组成的旋转加载动画

<template><!-- 创建一个装载自定义旋转加载动画的容器 --><view class="spinner"><!-- 定义外部包裹容器,用于实现整体旋转动画 --><view class="outer"><!-- 定义四个内部小方块以形成十字形结构 --><view clas…

攻防演练后的一点随记

攻防演练 攻防演练算是告一段落了&#xff0c;各位红队和蓝队的兄弟们都辛苦了&#xff0c;写一点随记&#xff0c;供大家参考。 记得第一次参加攻防演练是在2018年&#xff0c;当时被派到北京&#xff0c;在某个政企单位做攻防演练支撑工作&#xff0c;然后2020年又被紧急派到…