7 月 12 日,第 13 届 PostgreSQL 中国技术大会在杭州盛大开幕。本次大会以“聚焦云端创新,汇聚智慧共享”为主题,邀请了国内外 PG 领域众多行业大咖、学术精英及技术专家,共同探讨数据库领域的发展趋势、技术创新和实践经验。酷克数据作为国内领先的 PG 技术栈实践者和重要的社区贡献者出席本次大会,酷克数据的技术专家团队也受邀参与主论坛及多场分论坛,为与会者带来了精彩的主题演讲。
同时,酷克数据作为社区先锋,积极贡献,推动生态繁荣,以创新技术引领 PostgreSQL 社区发展,荣获“第 13 届 PostgreSQL 中国技术大会数据库杰出贡献奖”。
01PostgreSQL分布式数据库的开源新选择——CloudberryDB
演讲人:酷克数据联合创始人马涛
在数据库领域,Greenplum(GP)一直以其高效的数据处理能力和灵活的扩展性著称。然而,近期发生的 GP 源码归档事件引发了大规模讨论。
在《PostgreSQL 分布式数据库的开源新选择——CloudberryDB》的主题演讲中,酷克数据联合创始人马涛从技术发展与用户需求的角度,阐述了 CloudberryDB 作为 GP 的衍生版,在保持与 GP 原生兼容和无缝迁移的基础上,如何通过创新工程特性解决 GP 的痛点,并满足新型计算需求和架构下的挑战。
马涛认为,GP 归档事件不仅影响了大量 GP 用户的日常使用,还对 GP 的未来发展产生了深远的影响,尤其是考虑到 GP 在全球及国内市场的高排名和广泛应用,将促使许多用户面临更新断档和迁移挑战。
为了响应用户需求,推动开源生态,酷克数据于去年正式开源基于 PostgreSQL 与 Greenplum 研发、面向 AI 和分析场景打造的新一代数据库 Cloudberry Database (CloudberryDB)。
CloudberryDB 遵循 Apache License 2.0,确保项目的开放性和商业友好性,整体目标是实现与 GP 的原生兼容和无缝迁移,以确保用户能以相同的方式使用 CloudberryDB,就像使用 GP 一样,保持体验和操作方式的一致性。
马涛强调,作为 GP 的衍生版,CloudberryDB 不是简单地克隆代码并重新命名,而是致力于形成足够的差异化价值,以满足新型计算需求和架构下的需求。CloudberryDB 特别新增了诸多关键的工程特性,在 Greenplum 的使用痛点上下功夫,提供了包括性能优化、实时计算支持以及新型架构解决方案支持等能力。
一直以来,酷克数据坚持以开源方式推动 CloudberryDB 发展,始终遵循“反哺上游”、“体验优先”、“宽容开源协议”、“保持开放”关键原则。为实现开源愿景,酷克数据计划将 CloudberryDB 托管至第三方中立基金会,确保社区共同治理,构建并遵循社区治理机制,确保项目长期维护。
除了开源数据库项目 CloudberryDB,酷克数据还将提供 HashData 云原生数据仓库的全面商业服务。马涛表示,“从最开始的专注构建数据仓库,到如今,我们的理念是追求“湖仓一体”。这不仅仅是一个实现过程,更是我们的核心愿景:帮助客户实现全域数据的纳管与分析,打造从数据到应用落地的闭环管理和自动化管理。”
为了实现这一目标,酷克数据在 HashData 云原生数据仓库上下游技术栈上进行了广泛的改造,推出了面向存算分离架构的 UnionStore 存储模式、In-Database 机器学习平台 HashML 以及基于 HashData 构建分布式大规模多模态向量知识库,为用户提供具备强大工具链的一站式数据平台。
马涛强调:“酷克数据将持续致力于 HashData 云原生数据仓库的创新与发展,不断推出更多前沿技术和解决方案,以满足客户日益增长的数据处理需求。我们相信,通过 HashData 的强大功能和完善服务,将助力更多企业在数字化转型的道路上取得更大成功。”
会后,马涛接受了央视频的特邀专访,分享了关于GP闭源对国产数仓行业深远影响的见解。马涛表示:“中国科技的飞速发展,为我们国产品牌在科技强国之路上提供了前所未有的机遇。GP闭源事件,表面上看似挑战,实则为我们打造自主科技品牌、推动科技自立自强按下了加速键。”
谈及应对策略,马涛强调了三大方向:一是坚持开源理念不动摇。开源不仅是技术创新的重要驱动力,更是连接全球开发者、促进技术共享与进步的桥梁。二是利用开源优势扩大客户基础与商业版图。开源文化能够吸引全球范围内的开发者与合作伙伴,共同推动技术创新与产业升级。最后,积极适应并引领国际化竞争新态势。
面对国际市场的风云变幻,酷克数据正积极调整战略方向,以适应更加复杂多变的竞争环境。GP闭源事件促使酷克数据继续坚定走在自主创新之路,通过不断提升自身技术实力与服务质量,为全球客户提供更加安全、可靠、高效的解决方案。
02CloudberryDB 执行引擎的优化实践
演讲人:酷克数据 内核研发工程师 杨凯迪
大规模数据查询是 MPP 型数据库的核心应用场景,然而,现有的 Postgres 执行器在实际应用中已难以满足业务对大数据查询性能的需求。为此,CloudberryDB 在 Postgres 执行器的基础上进行了深度改造,显著提升了执行器在查询分析场景下的性能。
本次大会,酷克数据内核研发工程师杨凯迪发表了题为《CloudberryDB 执行引擎的优化实践》的演讲,分享了 Cloudberry 向量化引擎的实现细节,以及 CloudberryDB 执行器执行流的改造工作和并行化方面的进展。
在大数据查询分析的场景中,业务方总是期望更少的执行时间。从工程实现的角度来看,主要有 3 个优化目标:
1.减少指令数与 CPU 消耗:通过优化执行路径,减少指令数,降低 CPU 负担。
2.指令级/数据级并行:利用现代 CPU 的多核特性,实现指令级并行(如超标量流水线)和数据级并行(如 SIMD),提高执行效率。
3.多核资源利用:通过并行化技术,最大化利用多核处理器资源,缩短执行时间。
向量化引擎的实现
CloudberryDB 选择了向量化作为首要手段来加速 PostgreSQL 执行器的性能。CloudberryDB 的向量化引擎以插件形式接入,与底层列式存储(基于 Arrow 格式)紧密配合,实现了高效的数据交换和处理。通过重新实现 Postgres 的向量化算子(如 Scan、Agg、Sort、Motion 等),结合 SIMD 加速,优化了复杂数据类型的表示和计算,特别是针对 numeric 类型采用定长存储,显著提升了计算速度。
push 模型执行流改造
对比 pull 模型,push 模型控制流和数据流均自底向上,数据驱动,能更好地划分任务,具有缓存友好、数据局部性好、循环更短等优势,且对 code-gen/并行化/向量化的实现非常友好。因此,CloudberryDB 的向量化模型选择基于 push 模型进行演进。
为了优化执行,CloudberryDB 采用 pipeline 作为调度点,使调度任务包含更多的数据在寄存器中执行计算,仅在必要时进行物化。
并行化算子实现
•并行化 Join:采用两阶段构建哈希表,减少线程间数据竞争,通过 partition 策略并行化执行哈希表合并;
•并行化聚集:与并行化 Join 类似,也采用两阶段聚集,减少数据同步代价;
•排序优化:通过 mergePath 策略实现更高效的资源利用,增加了合并过程的线程利用率。
目前,CloudberryDB 已经基本实现了向量化算子的并行化。未来,CloudberryDB 将继续优化调度模型以及查询计划的生成,来进一步提升大数据查询分析的性能。
03HashData 加速大模型在企业落地应用
演讲人:酷克数据 数据科学工程师 卞传鑫
随着大模型技术的蓬勃兴起,如何以经济高效的方式构建并应用这些模型,已成为企业界竞相探索的核心议题。在本届 PostgreSQL 技术大会中,“AI 与 PostgreSQL:向量插件及智能数据处理”分论坛上,酷克数据数据科学工程师卞传鑫,发表了题为《HashData:加速大模型在企业落地应用的创新实践》的精彩演讲,全面展示了酷克数据在云原生数据仓库与 AI 技术融合方面的创新成果与前瞻布局。
为解决当前大模型规模化应用面临的高成本问题,酷克数据基于 HashData 云数仓开发了下一代 In-Database 高级分析和数据科学工具 HashML,通过机器学习、深度学习及预训练大模型等技术,致力于降低 AI 技术应用门槛,为数据科学家、数据工程师、AI 应用开发者提供便利。
卞传鑫介绍到,HashML 首要设计目标就是简单易用,用户只需编写少量代码就可以完成从数据加载到数据处理,再到模型训练、服务部署和推理预测的全流程任务。HashML 功能全面,涵盖经典机器学习、主流深度学习框架及最新的大语言模型技术,支持对百亿到千亿级参数 LLM 进行微调与推理。同时,HashML 与 HashData 云原生数据库兼容,提供丰富接口及卓越性能,支持多机多卡分布式处理,且模型部署弹性可伸缩,灵活应对服务负载变化。
在产品功能布局上,HashML 精心构建了数据访问、模型算法、以及模型部署三大核心板块,全面赋能用户。
•数据访问领域,HashML 对数据库访问进行了深度抽象与优化,确保操作接口设计紧贴用户习惯,与广受欢迎的 Python 库保持高度一致性,极大地降低了用户的学习曲线与使用门槛。
•模型算法方面,HashML 展现出强大的兼容性与创新能力。HashML 集成 sklearn 经典算法与 xgboost、lightgbm 等梯度提升算法,满足用户多样化的建模需求。同时,HashML 支持 PyTorch、TensorFlow 等深度学习框架,让用户能够轻松构建 MLP、CNN、ResNet 等经典深度学习模型。HashML 还前瞻性地支持大语言模型,涵盖后预训练、微调及 RAG 应用等前沿技术,并基于主流开源模型,打造了从文生图到文生视频等一系列创新扩散模型 pipeline。
•模型部署环节,HashML 支持多实例弹性部署,配合 RestAPI 访问接口,无论是机器学习、深度学习还是大语言模型,均可通过简洁的代码实现高效部署。HashML 的扩展式设计赋予其强大的横向扩展能力,能够轻松部署至多台机器,同时提供灵活的调度策略,确保系统在高负载下依然稳定运行。
在应用支撑技术方面,卞传鑫指出,为了提升大语言型在特定领域的能力,HashML 采用两类方法增强大语言模型领域能力:RAG(检索增强生成),依托向量知识库、语言模型与 embedding 技术;及大模型微调与后预训练,提供全参数、LoRA 等主流方案。
同时,HashData 云原生数仓赋能大语言模型应用的四大能力:
•模型推理与弹性部署:支持模型的多实例弹性部署,并提供了 RestAPI 访问接口。无论是机器学习模型还是深度学习模型或者是大语言模型,都可以通过简短的代码进行服务部署。另外它的扩展式设计可以轻松扩展到多台机器,并提供灵活的调度支持。
•模型微调及后预训练:在提升大语言模型在特定领域能力的同时,也对齐了人类的语言习惯。关于模型微调与后预训练,HashML 也提供了全套的解决方案,包括全参数、LoRA 等主流方法。
•非结构化数据的管理和处理:HashData 中提出了目录表用于非结构化数据的纳管,并在 HashML 中开发了一系列原始文件的解析、拆分、处理相关的工具,构建了由非结构化数据到结构化数据处理的全流程,便于后续数据的进一步使用。
•大规模分布式向量知识库:向量知识库是 HashML 工具库中的一个重要组成部分,它提供了一种有效的方式来存储和检索大规模的向量化知识。HashML 也对向量知识库模块进行了封装,只需要几行代码就可以完成向量知识库的构建与查询功能。
应用场景方面,卞传鑫提到,基于 HashML 提供的算法能力以及服务部署,向上共开发了四个智能应用,分别是 rechat,chatdata, visgen 以及 xpilot,在此他主要介绍了 rechat 以及 chatdata 两款应用。
检索增强的智能问答 ReChat
通用大模型在应用于特定领域时普遍存在回答不精准的现象。针对这一问题,HashML 可以基于大语言模型,快速搭建面向专业领域的的智能问答系统(ReChat)。在 ReChat 中,企业通过调用本地部署的 embedding 服务将自有的知识库(包括管理制度、产品手册、技术手册、运维手册、工作规范、流程记录、FAQ 等)进行向量化,并存放到 HashData 形成向量知识库。
当回答用户提问时,通过检索向量知识库获得相关信息,作为上下文和问题一起提交给大语言模型,这样大语言模型就能够生成精准的回答,从而有效解决困扰大语言模型的生成“幻觉”问题。ReChat 的典型用例包括智能客服、销售助手、文档阅读助手等,在企业有着非常广泛的应用场景。
对话式智能数据查询分析 ChatData
在ChatData中,用户能够以自然语言的方式与HashData数据库进行交互, 实现数据查询和结果展示,还能够以自然语言的方式对查询结果进行可视化,从而大幅降低数据分析应用的门槛,允许企业更多的员工在职权范围内借助数据分析提升工作效率和工作质量。
为了提升大语言模型的 SQL 能力,HashML 研发团队对模型进行了微调,并针对每个评估样本构造了一个由若干数据表构成的数据库,每张数据表都包含若干条数据记录。对于每个评估样本,分别执行 Ground-Truth SQL 和生成的 SQL,通过检验生成 SQL 的可执行度和比对查询结果的一致性,判断生成 SQL 的正确性,最终统计整个评估集的准确率。
评估结果显示,HD-SQL-LLaMA2 在不同难度的评估样本集上均表现良好,13B 模型准确率接近 82%,34B 模型准确率超过 88%,且仍在不断提升中。
04酷克数据荣获数据库杰出贡献奖
本届PostgreSQL技术大会上,酷克数据凭借其卓越的技术创新和对PostgreSQL开源社区的不懈贡献,荣获了“数据库杰出贡献奖”,这一殊荣不仅是对酷克数据技术实力的高度认可,更是对其在PostgreSQL生态系统中发挥重要推动作用的肯定。
作为PostgreSQL社区的杰出成员与先锋力量,酷克数据始终秉持开放共享的理念,积极将自身的技术成果回馈给PostgreSQL社区。公司技术团队不仅频繁参与社区活动,分享技术心得与最佳实践,还通过代码编写、审查、检测等方式,为PostgreSQL的持续发展贡献着自己的力量,同时也为PostgreSQL技术性能改进和提升提供了有力支持。
展望未来,酷克数据将继续以技术创新为引领,深化与开源社区的合作与交流,共同推动数据分析技术的持续发展与应用落地。我们相信,通过不懈努力与持续贡献,定能为全球用户带来更加优质、高效的数据分析体验,为数据智能时代贡献自己的一份力量。