2023 年是 Databend 为用户和客户全面交付 Data Cloud 数据云平台的一年,真正实现了「数据所在,计算随行」的理念,即将计算力带至数据之处,致力于为用户交付更澎湃的算力。
Databend 自 2021 年开始研发,「三年之期已到」,作为 Snowflake 的开源竞品,Databend 会交出怎样的一份答卷呢?让我们一起看看吧。
Large Scale,直面规模化挑战
以往第一个 Part 是留给开源/社区的,但是今年我们将第一个部分留给用户,谈「规模化」。
一方面,越来越多的用户信任并选择 Databend ,应对生产环境中的海量数据分析场景,我们已经服务于广告投放、医疗健康、AIGC、电信服务、快递物流、企业服务等多个行业,为技术栈现代化、数据汇聚平台、数据归档、广告投放分析、 用户行为分析等多个场景贡献力量。
- Databend 提供高性能低成本的查询解决方案,支持标准 SQL 和自动索引,减少研发运维的学习成本。Databend 在 DMALL 除了 TiDB、 MySQL 数据归档场景外,又添加一新场景: 日志归档与实时查询,10 亿数据量级下,常用查询均可做到秒级响应。
- Databend 能够基于对象存储提供高性能查询,数据迁移成本低,并且兼容原有协议和查询语句。使用 Databend 替换 CDH ,某医药集团大表查询和历史归档数据关联查询场景下,查询加载速度提升 2 倍,存储成本降低为本地盘多副本模式的 1/15。
另一方面,Databend 所处理的数据也在规模化,凭借存算分离、算算分离、读写分离的能力,直面业内顶级的数据分析场景。除了云和私有化部署之外,也解锁了混合云的新姿势。
- Databend 能够应对超大规模数据导入和分析场景,结合读写分离策略,在单表数据数万亿行、原始数据 超 10 PB 的场景下,可以做到秒级写入、秒级读取。
- Databend 采用了存算分离的设计理念,既增强系统的灵活性和扩展性,又优化多租户环境下的读写分离策略,显著提升性能、安全性和稳定性。万全网络中台架构从 Greenplum 成功迁移到 Databend:查询性能增加了3.7倍,数据导入性能提高了 1.5 倍,数据导出速度提升了2.5倍,存储效率增加了2倍,同时 schema 维护的效率也提高了4倍。
- 凭借 Databend 对存储和计算资源的优化,在数据湖场景(数据汇聚平台) 中,帮助用户实现按需按量付费模式。Databend 的数据压缩技术可以将用户数据压缩比提高至 8 - 15 倍,同时,结合高效的 ETL/ELT 工作流,用户能够更便捷地完成数据的清洗和整理工作。
MoreConnectivity,打破数据孤岛新范式
Databend 致力于打破数据孤岛,帮助企业更合理地管理和利用现有的数据资源和计算资源。通过构建更加开放的数据生态和统一的数据管理抽象,Databend 可以助力用户整合公有云、私有云和边缘设备,自如地管理和处理超大规模数据。
在 2023 年,Databend 的着眼点在于如何让数据更加高效流转,让数据活起来、用起来。我们提供了一站式的 ETL 数据处理工作流:
- 对接丰富的数据存储服务,利用 Stage 打通数据中转链路
- 支持接入丰富的数据源和数据格式,提供数据清洗与转化能力,让数据立等可用
- 提供替换、合并、数据流等多样化数据更新方式,保持数据新鲜度和可用性
- 打造数据开放生态朋友圈,帮助数据「引进来」和「走出去」
- Databend 支持对 JSON 的高效查询处理,利用 Databend Cloud 的高效数据摄入能力和丰富的可视化集成支持,某 AIGC 初创公司的用户行为分析成本降低至原有方案的十分之一。
- Databend 支持混合云架构以优化私有化部署成本,结合 Databend Cloud 的弹性计算能力,某短视频内容产业客户采用混合云方案,在环境规模和 IT 成本限制的前提下满足大规模数据分析的算力调度需求。
云数据库或者新一代数仓,并不是 Databend 的最终目标,我们希望通过构建 Connectivity Cloud Database 的范式,为用户创造更具联通性的数字未来。
Crest of Innovation,勇攀数据库之巅
没有持续投入创新和研发,再好的理念也只是空中楼阁。前一部分讲述了理念,接下来我们将介绍 Databend 在 2023 年迭代过程中取得的一些进展。
性能登顶与资源调度优化
TPC-H 是一款面向商品零售业的决策支持系统测试基准,在 TPC-H SF100 测试中,我们利用 22 条查询和接近 6 亿行数据综合评估 Snowflake 和 Databend Cloud 的性能与成本。Databend Cloud 以不到一半的成本实现了更高性能,有关测试详情与复现方式,请参考 TPC-H Benchmark: Databend Cloud vs. Snowflake | Databend 。
ClickBench 是 ClickHouse 发起的分析型数据库性能测试排行榜,收录了Snowflake、ClickHouse 等 50 多个主流分析型数据库的测试结果,采用公开标准来衡量数据库的性能。2023 年 3 月,在三种不同机型测试中,Databend 的导入性能均获得第一名,Hot Run 查询下,我们有一个机型是第一名,其他两个机型分别是第二,第三名。
(数据采集自 benchmark.clickhouse.com ,2023 年 03 月)
此外,Databend 的 Python 绑定的出色性能和高效资源调度能力也得到用户认可,以是少数几个提供 Python API 且能够在资源有限条件下完成复杂查询的 SQL 数据分析工具之一。
迭代:更贴心的一站式 Lakehouse
2023 年,Databend 的形态更加贴近 Lakehouse ,我们提供一站式的数据分析解决方案,覆盖数据全生命周期,并特别增强以下能力:
- 更强劲的数据处理能力,支持在导入数据过程中进行数据清洗,
MERGE INTO
和ATTACH TABLE
,保证数据始终就绪。 - 更完备的类型和函数支持, 丰富的 JSON 处理函数和 GEO 地理位置函数。
- 更自如的数据源集成:提供
CONNECTION
复用访问凭据,支持 Delta Table 和 Iceberg 表引擎。 - 更全面的安全策略和权限模型,涵盖网络、密码、用户访问控制等。
此外,Databend 也正式推出企业版,以提供更丰富的高级特性,助力用户业务成功:
- 计算列(Computed Columns) :通过表达式从其他列计算生成数据的列,使用计算列可以将表达式的数据存储下来加快查询速度,同时可以简复杂的查询表达式。
VACUUM TABLE
:从表中永久删除历史数据文件来释放存储空间,有助于优化系统性能。- 聚合索引:通过预计算与索引聚合技术,聚合索引可以满足高性能查询;支持自定义索引,支持业务的不同需要。
- 数据脱敏:基于角色的数据掩码策略,保护您的敏感信息;在提供默认安全的同时保证数据的可用性,满足业务合规需求。
- Serverless Background Service :自动发现数据写入之后需要压缩、重排序、清理的表,无需其他服务,也无需手动操作,自动触发对应表的维护工作,降低维护负担。
Databend 目前支持的企业级特性可以访问下方链接获取:
Enterprise Features | Databend
用户业务从 Snowflake 转换到 Databend / Databend Cloud 几乎没有迁移和使用成本。 我们也提供了详细的特性对照表,可以访问 Databend vs. Snowflake Features and Capabilities · Issue #13059 · datafuselabs/databend · GitHub 获取。
AIR&D,探索大模型驱动的产研工作流
今年最火的关键词莫过于生成式 AI ,Databend 也是最早一批投入精力探索大模型与数据库结合的项目。我们在 Databend 中内置了 AI 函数,支持通过 SQL 调用 OpenAI 兼容 API 、创建了开源的知识库问答方案 AskBend 。
随着 Databend 开源社区的快速发展,新功能的持续增加和现有功能的优化提出了新的测试挑战。除了原有的严格且丰富的测试方案之外,我们还引入了 GPT-4 作为质量保障的一个关键环节,帮助我们执行正确性和优化器层面的测试,智能挖掘潜在的 bug ,确保稳定性。
目前,我们开源了一套由 GPT-4 驱动的数据生成和结果集校验方案,可以访问 GitHub - datafuselabs/wizard: A GPT4 powered tool for detecting bugs in Databend 获取,其中包括:
- 双缝探测模型:比较当前 PR 版本与主分支(main)版本的结果集来进行验证。
- 结果集正确性模型:对照其他数仓方案,确保 Databend 的结果集的正确性。
除此之外,Databend 的工作流中也包含丰富的 AI 基础设施,文档团队可以借助 GPT-4 改善文档质量、进行多语言支持,并且提供更符合业务需要的用例,大幅解放生产力。
Beyond Code,构建更棒的社区
(采集自 ossinsight.io ,数据更新略有延迟)
开源,是 Databend 团队不变的初心。在过去一年里,Databend 主 Repo:
- 新增约 1900 star ,star 总数量达到 6963 。
- 新增 PR 约 3700 个,总 PR 数量达到 9100+ 。
- 解决 Issue 1100 余个,累计已解决 Issue 接近 4200 个。
- 新增 33 位贡献者,在特性支持、功能完善、文档等多个不同方面贡献力量。
- 总计提交次数突破 30000 。
Databend 团队在 2023 年也积极举办和参与各项技术分享活动,共话技术创新:
- 举办 7 场线上 Data Infra 分享和 1 场线下的 Rust Tuesday
- 参与包括 InfoQ、3306π、Rust 中文社区等伙伴举办的多场分享活动
除了贡献者社区和合作伙伴社区的不断发展之外,2023 年的重要变化是,Databend 的用户社区得到进一步的壮大,我们的缘分从代码开始,又在代码之上建立了更加广泛和深刻的联系。感谢大家的一路支持与陪伴,我们期望与大家有更多机会,共同畅聊数字未来。
Crafting the Future,展望 2024
对于 Databend 团队而言,2023 年是一个重要的里程碑,我们直面了规模化挑战,获得了客户的认可与信赖。
2024 年,我们的目标是基于 Databend,通过 SQL 交付包括 CPU 和 GPU 资源在内的更多算力,Compute Where Data Lives: Swift, Smart, Seamless,服务于更多数据科学场景,让算力更加触手可及 。
当前 Databend 的 2024 年开源产品路线图正在讨论中,也欢迎大家关注和参与:Databend Roadmap for 2024 (Discussion) · Issue #14167 · datafuselabs/databend · GitHub