酷克数据亮相第13届PostgreSQL中国技术大会,获数据库杰出贡献奖


7 月 12 日,第 13 届 PostgreSQL 中国技术大会在杭州盛大开幕。本次大会以“聚焦云端创新,汇聚智慧共享”为主题,邀请了国内外 PG 领域众多行业大咖、学术精英及技术专家,共同探讨数据库领域的发展趋势、技术创新和实践经验。酷克数据作为国内领先的 PG 技术栈实践者和重要的社区贡献者出席本次大会,酷克数据的技术专家团队也受邀参与主论坛及多场分论坛,为与会者带来了精彩的主题演讲。

同时,酷克数据作为社区先锋,积极贡献,推动生态繁荣,以创新技术引领 PostgreSQL 社区发展,荣获“第 13 届 PostgreSQL 中国技术大会数据库杰出贡献奖”。


01PostgreSQL分布式数据库的开源新选择——CloudberryDB

演讲人:酷克数据联合创始人马涛


在数据库领域,Greenplum(GP)一直以其高效的数据处理能力和灵活的扩展性著称。然而,近期发生的 GP 源码归档事件引发了大规模讨论。


在《PostgreSQL 分布式数据库的开源新选择——CloudberryDB》的主题演讲中,酷克数据联合创始人马涛从技术发展与用户需求的角度,阐述了 CloudberryDB 作为 GP 的衍生版,在保持与 GP 原生兼容和无缝迁移的基础上,如何通过创新工程特性解决 GP 的痛点,并满足新型计算需求和架构下的挑战。


a039d8460aacafa60e69fcac6ac41896.jpeg


马涛认为,GP 归档事件不仅影响了大量 GP 用户的日常使用,还对 GP 的未来发展产生了深远的影响,尤其是考虑到 GP 在全球及国内市场的高排名和广泛应用,将促使许多用户面临更新断档和迁移挑战。


为了响应用户需求,推动开源生态,酷克数据于去年正式开源基于 PostgreSQL 与 Greenplum 研发、面向 AI 和分析场景打造的新一代数据库 Cloudberry Database (CloudberryDB)。


CloudberryDB 遵循 Apache License 2.0,确保项目的开放性和商业友好性,整体目标是实现与 GP 的原生兼容和无缝迁移,以确保用户能以相同的方式使用 CloudberryDB,就像使用 GP 一样,保持体验和操作方式的一致性。


马涛强调,作为 GP 的衍生版,CloudberryDB 不是简单地克隆代码并重新命名,而是致力于形成足够的差异化价值,以满足新型计算需求和架构下的需求。CloudberryDB 特别新增了诸多关键的工程特性,在 Greenplum 的使用痛点上下功夫,提供了包括性能优化、实时计算支持以及新型架构解决方案支持等能力。


bc3afb04ad8c533d6dabb476dc112fd6.jpegcf77998bd622a99e41db4fe220957a2f.jpeg


一直以来,酷克数据坚持以开源方式推动 CloudberryDB 发展,始终遵循“反哺上游”、“体验优先”、“宽容开源协议”、“保持开放”关键原则。为实现开源愿景,酷克数据计划将 CloudberryDB 托管至第三方中立基金会,确保社区共同治理,构建并遵循社区治理机制,确保项目长期维护。


e8eac38de9cd031e6d2ed42fcbb3ae5d.jpeg


除了开源数据库项目 CloudberryDB,酷克数据还将提供 HashData 云原生数据仓库的全面商业服务。马涛表示,“从最开始的专注构建数据仓库,到如今,我们的理念是追求“湖仓一体”。这不仅仅是一个实现过程,更是我们的核心愿景:帮助客户实现全域数据的纳管与分析,打造从数据到应用落地的闭环管理和自动化管理。”


为了实现这一目标,酷克数据在 HashData 云原生数据仓库上下游技术栈上进行了广泛的改造,推出了面向存算分离架构的 UnionStore 存储模式、In-Database 机器学习平台 HashML 以及基于 HashData 构建分布式大规模多模态向量知识库,为用户提供具备强大工具链的一站式数据平台。


马涛强调:“酷克数据将持续致力于 HashData 云原生数据仓库的创新与发展,不断推出更多前沿技术和解决方案,以满足客户日益增长的数据处理需求。我们相信,通过 HashData 的强大功能和完善服务,将助力更多企业在数字化转型的道路上取得更大成功。”


a3fa953a426ad9b64da3252f429e0607.jpeg


会后,马涛接受了央视频的特邀专访,分享了关于GP闭源对国产数仓行业深远影响的见解。马涛表示:“中国科技的飞速发展,为我们国产品牌在科技强国之路上提供了前所未有的机遇。GP闭源事件,表面上看似挑战,实则为我们打造自主科技品牌、推动科技自立自强按下了加速键。”


谈及应对策略,马涛强调了三大方向:一是坚持开源理念不动摇。开源不仅是技术创新的重要驱动力,更是连接全球开发者、促进技术共享与进步的桥梁。二是利用开源优势扩大客户基础与商业版图。开源文化能够吸引全球范围内的开发者与合作伙伴,共同推动技术创新与产业升级。最后,积极适应并引领国际化竞争新态势。


面对国际市场的风云变幻,酷克数据正积极调整战略方向,以适应更加复杂多变的竞争环境。GP闭源事件促使酷克数据继续坚定走在自主创新之路,通过不断提升自身技术实力与服务质量,为全球客户提供更加安全、可靠、高效的解决方案。


02CloudberryDB 执行引擎的优化实践

演讲人:酷克数据 内核研发工程师 杨凯迪


大规模数据查询是 MPP 型数据库的核心应用场景,然而,现有的 Postgres 执行器在实际应用中已难以满足业务对大数据查询性能的需求。为此,CloudberryDB 在 Postgres 执行器的基础上进行了深度改造,显著提升了执行器在查询分析场景下的性能。


本次大会,酷克数据内核研发工程师杨凯迪发表了题为《CloudberryDB 执行引擎的优化实践》的演讲,分享了 Cloudberry 向量化引擎的实现细节,以及 CloudberryDB 执行器执行流的改造工作和并行化方面的进展。


d0d5d97b12131098e3e56d8750ead6ca.jpeg


在大数据查询分析的场景中,业务方总是期望更少的执行时间。从工程实现的角度来看,主要有 3 个优化目标:


1.减少指令数与 CPU 消耗:通过优化执行路径,减少指令数,降低 CPU 负担。


2.指令级/数据级并行:利用现代 CPU 的多核特性,实现指令级并行(如超标量流水线)和数据级并行(如 SIMD),提高执行效率。


3.多核资源利用:通过并行化技术,最大化利用多核处理器资源,缩短执行时间。


向量化引擎的实现


CloudberryDB 选择了向量化作为首要手段来加速 PostgreSQL 执行器的性能。CloudberryDB 的向量化引擎以插件形式接入,与底层列式存储(基于 Arrow 格式)紧密配合,实现了高效的数据交换和处理。通过重新实现 Postgres 的向量化算子(如 Scan、Agg、Sort、Motion 等),结合 SIMD 加速,优化了复杂数据类型的表示和计算,特别是针对 numeric 类型采用定长存储,显著提升了计算速度。


push 模型执行流改造


对比 pull 模型,push 模型控制流和数据流均自底向上,数据驱动,能更好地划分任务,具有缓存友好、数据局部性好、循环更短等优势,且对 code-gen/并行化/向量化的实现非常友好。因此,CloudberryDB 的向量化模型选择基于 push 模型进行演进。


为了优化执行,CloudberryDB 采用 pipeline 作为调度点,使调度任务包含更多的数据在寄存器中执行计算,仅在必要时进行物化。


并行化算子实现


•并行化 Join:采用两阶段构建哈希表,减少线程间数据竞争,通过 partition 策略并行化执行哈希表合并;


•并行化聚集:与并行化 Join 类似,也采用两阶段聚集,减少数据同步代价;


•排序优化:通过 mergePath 策略实现更高效的资源利用,增加了合并过程的线程利用率。


目前,CloudberryDB 已经基本实现了向量化算子的并行化。未来,CloudberryDB 将继续优化调度模型以及查询计划的生成,来进一步提升大数据查询分析的性能。


03HashData 加速大模型在企业落地应用

演讲人:酷克数据 数据科学工程师 卞传鑫


随着大模型技术的蓬勃兴起,如何以经济高效的方式构建并应用这些模型,已成为企业界竞相探索的核心议题。在本届 PostgreSQL 技术大会中,“AI 与 PostgreSQL:向量插件及智能数据处理”分论坛上,酷克数据数据科学工程师卞传鑫,发表了题为《HashData:加速大模型在企业落地应用的创新实践》的精彩演讲,全面展示了酷克数据在云原生数据仓库与 AI 技术融合方面的创新成果与前瞻布局。


111191d32223c4bd10c32398867caa15.jpeg


为解决当前大模型规模化应用面临的高成本问题,酷克数据基于 HashData 云数仓开发了下一代 In-Database 高级分析和数据科学工具 HashML,通过机器学习、深度学习及预训练大模型等技术,致力于降低 AI 技术应用门槛,为数据科学家、数据工程师、AI 应用开发者提供便利。


卞传鑫介绍到,HashML 首要设计目标就是简单易用,用户只需编写少量代码就可以完成从数据加载到数据处理,再到模型训练、服务部署和推理预测的全流程任务。HashML 功能全面,涵盖经典机器学习、主流深度学习框架及最新的大语言模型技术,支持对百亿到千亿级参数 LLM 进行微调与推理。同时,HashML 与 HashData 云原生数据库兼容,提供丰富接口及卓越性能,支持多机多卡分布式处理,且模型部署弹性可伸缩,灵活应对服务负载变化。


在产品功能布局上,HashML 精心构建了数据访问、模型算法、以及模型部署三大核心板块,全面赋能用户。


数据访问领域,HashML 对数据库访问进行了深度抽象与优化,确保操作接口设计紧贴用户习惯,与广受欢迎的 Python 库保持高度一致性,极大地降低了用户的学习曲线与使用门槛。


模型算法方面,HashML 展现出强大的兼容性与创新能力。HashML 集成 sklearn 经典算法与 xgboost、lightgbm 等梯度提升算法,满足用户多样化的建模需求。同时,HashML 支持 PyTorch、TensorFlow 等深度学习框架,让用户能够轻松构建 MLP、CNN、ResNet 等经典深度学习模型。HashML 还前瞻性地支持大语言模型,涵盖后预训练、微调及 RAG 应用等前沿技术,并基于主流开源模型,打造了从文生图到文生视频等一系列创新扩散模型 pipeline。


模型部署环节,HashML 支持多实例弹性部署,配合 RestAPI 访问接口,无论是机器学习、深度学习还是大语言模型,均可通过简洁的代码实现高效部署。HashML 的扩展式设计赋予其强大的横向扩展能力,能够轻松部署至多台机器,同时提供灵活的调度策略,确保系统在高负载下依然稳定运行。


应用支撑技术方面,卞传鑫指出,为了提升大语言型在特定领域的能力,HashML 采用两类方法增强大语言模型领域能力:RAG(检索增强生成),依托向量知识库、语言模型与 embedding 技术;及大模型微调与后预训练,提供全参数、LoRA 等主流方案。


6c59b31b2719b4c5966979ad0289af9b.jpeg


同时,HashData 云原生数仓赋能大语言模型应用的四大能力:


•模型推理与弹性部署:支持模型的多实例弹性部署,并提供了 RestAPI 访问接口。无论是机器学习模型还是深度学习模型或者是大语言模型,都可以通过简短的代码进行服务部署。另外它的扩展式设计可以轻松扩展到多台机器,并提供灵活的调度支持。


•模型微调及后预训练:在提升大语言模型在特定领域能力的同时,也对齐了人类的语言习惯。关于模型微调与后预训练,HashML 也提供了全套的解决方案,包括全参数、LoRA 等主流方法。


•非结构化数据的管理和处理:HashData 中提出了目录表用于非结构化数据的纳管,并在 HashML 中开发了一系列原始文件的解析、拆分、处理相关的工具,构建了由非结构化数据到结构化数据处理的全流程,便于后续数据的进一步使用。


•大规模分布式向量知识库:向量知识库是 HashML 工具库中的一个重要组成部分,它提供了一种有效的方式来存储和检索大规模的向量化知识。HashML 也对向量知识库模块进行了封装,只需要几行代码就可以完成向量知识库的构建与查询功能。 


应用场景方面,卞传鑫提到,基于 HashML 提供的算法能力以及服务部署,向上共开发了四个智能应用,分别是 rechat,chatdata, visgen 以及 xpilot,在此他主要介绍了 rechat 以及 chatdata 两款应用。


检索增强的智能问答 ReChat


通用大模型在应用于特定领域时普遍存在回答不精准的现象。针对这一问题,HashML 可以基于大语言模型,快速搭建面向专业领域的的智能问答系统(ReChat)。在 ReChat 中,企业通过调用本地部署的 embedding 服务将自有的知识库(包括管理制度、产品手册、技术手册、运维手册、工作规范、流程记录、FAQ 等)进行向量化,并存放到 HashData 形成向量知识库。


当回答用户提问时,通过检索向量知识库获得相关信息,作为上下文和问题一起提交给大语言模型,这样大语言模型就能够生成精准的回答,从而有效解决困扰大语言模型的生成“幻觉”问题。ReChat 的典型用例包括智能客服、销售助手、文档阅读助手等,在企业有着非常广泛的应用场景。


f62fcf3e12cb68ed7d398aa505e62372.jpeg

对话式智能数据查询分析 ChatData


在ChatData中,用户能够以自然语言的方式与HashData数据库进行交互, 实现数据查询和结果展示,还能够以自然语言的方式对查询结果进行可视化,从而大幅降低数据分析应用的门槛,允许企业更多的员工在职权范围内借助数据分析提升工作效率和工作质量。


ea8990feef50acf197d1ab66a7e70ad9.jpeg


为了提升大语言模型的 SQL 能力,HashML 研发团队对模型进行了微调,并针对每个评估样本构造了一个由若干数据表构成的数据库,每张数据表都包含若干条数据记录。对于每个评估样本,分别执行 Ground-Truth SQL 和生成的 SQL,通过检验生成 SQL 的可执行度和比对查询结果的一致性,判断生成 SQL 的正确性,最终统计整个评估集的准确率。


评估结果显示,HD-SQL-LLaMA2 在不同难度的评估样本集上均表现良好,13B 模型准确率接近 82%,34B 模型准确率超过 88%,且仍在不断提升中。


04酷克数据荣获数据库杰出贡献奖


本届PostgreSQL技术大会上,酷克数据凭借其卓越的技术创新和对PostgreSQL开源社区的不懈贡献,荣获了“数据库杰出贡献奖”,这一殊荣不仅是对酷克数据技术实力的高度认可,更是对其在PostgreSQL生态系统中发挥重要推动作用的肯定。


1291c9113792f5eb0e0b14bfeecaa930.jpeg


作为PostgreSQL社区的杰出成员与先锋力量,酷克数据始终秉持开放共享的理念,积极将自身的技术成果回馈给PostgreSQL社区。公司技术团队不仅频繁参与社区活动,分享技术心得与最佳实践,还通过代码编写、审查、检测等方式,为PostgreSQL的持续发展贡献着自己的力量,同时也为PostgreSQL技术性能改进和提升提供了有力支持。


展望未来,酷克数据将继续以技术创新为引领,深化与开源社区的合作与交流,共同推动数据分析技术的持续发展与应用落地。我们相信,通过不懈努力与持续贡献,定能为全球用户带来更加优质、高效的数据分析体验,为数据智能时代贡献自己的一份力量。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/871360.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

[Vulnhub] Tr0ll3 aircrack-ng+lynx

信息收集 IP AddressOpening Ports192.168.101.147TCP:22 $ ssh start192.168.101.147 用户:Start startTr0ll3:~$ find / -type f -perm 0777 2>/tmp/1 startTr0ll3:~$ cat /var/log/.dist-manage/wytshadow.cap | nc 192.168.101.128 10035 WIFI握手包 aircrack-ng 破…

记一次 .NET某上位视觉程序 离奇崩溃分析

一:背景 1. 讲故事 前段时间有位朋友找到我,说他们有一个崩溃的dump让我帮忙看下怎么回事,确实有太多的人在网上找各种故障分析最后联系到了我,还好我一直都是免费分析,不收取任何费用,造福社区。 话不多…

[译] Rust标准库有些特殊,让我们改它

本篇是对 RustConf 2023中的The standard library is special. Let’s change that.这一视频的翻译与整理, 过程中为符合中文惯用表达有适当删改, 版权归原作者所有. 今天我将讨论Rust的标准库,更具体地说,是关于标准库有何特殊之处,以及为什么我们应该改变这一点。首先声明一下…

大模型高效参数微调技术

文章目录 一、Fine-Tuning:微调二、Prompt-Tuning:提示调优2.1 工作原理2.2 PET (Pattern-Exploiting Training)2.3 Prompt-Tuning集成2.4 模板构建方式 三、Prefix Tuning:连续提示模板3.1 提出动机3.2 工作原理 四、P-Tuning V1/V24.1 P-Tu…

MQTT——Mosquitto使用(Linux订阅者+Win发布者)

前提:WSL(Ubuntu22)作为订阅者,本机Win10作为发布者。 1、Linux安装Mosquitto 命令行安装。 sudo apt-get install mosquitto 以上默认只安装了mosquitto的服务,不带测试客户端工具mosquitto_sub和mosquitto_pub。如…

楼栋管理助你打造智慧校园寝室新时代

在聚焦于智慧校园寝室管理的楼栋管理功能上,核心目标是实现对宿舍楼本身的高效、精细化运营。这一功能围绕楼栋信息维护、空间优化、安全监管等方面展开,旨在为学生创造一个安全、舒适的生活环境,同时提升管理效率。 楼栋管理功能首先建立在全…

Run LoongArch64 Alpine VM on x86_64

一、Build from source(build on x86_64) Obtain the latest libvirt, virt-manager, and qemu source code, compile and install them. 1.1 Build libvirt from source sudo apt-get update sudo apt-get install augeas-tools bash-completion debhelper-compat dh-apparm…

防火墙NAT实验(接上一个用认证实验)

目录 一、拓扑图 二、实验需求 三、实验步骤 需求1:办公区设备可以通过电信链路和移动链路上网(多对多的NAT,并且需要保留一个公网IP不能用来转换) 策略1:电信链路,多对多NAT,保留IP地址 测试策略1 策略2&#x…

2024年上半年信息系统项目管理师——综合知识真题题目及答案(第1批次)(4)

2024年上半年信息系统项目管理师 ——综合知识真题题目及答案(第1批次)(4) 第61题:The project manager should use (tool for the purpose to report on the work remaining for projects. A. cumulativ…

内容协商源码解析与自定义 MessageConverter

目录 内容协商 1、引入xml依赖 2、postman分别测试返回json和xml 3、开启浏览器参数方式内容协商功能 4、内容协商原理 5、自定义 MessageConverter 综上 内容协商 根据客户端接收能力不同,返回不同媒体类型的数据。 若客户端无法解析服务端返回的内容&#…

keil5新建stm32工程的基本

1、建立工程文件夹,keil中新建工程,选择型号; 2、工程文件夹里建立自己所需要的文件夹等,复制固件库里面的文件到工程文件夹里; 3、将工程里建立对应的同名的分组,并将文件夹内的文件添加到工程分组中。 点…

Windows11终端winget配置

一、工具安装 Windows11是自带该工具的,如果wind10,可以找应用商店和GitHub上进行下载。 安装地址使用 winget 工具安装和管理应用程序 | Microsoft Learn 发布地址 Releases microsoft/terminal GitHub 二、无法使用问题排错 在命令行界面出现以…

CDN技术

CDN 假设你做了一个系统,要存放用户的一些信息,一般会把这些数据存放到MySQL当中,假设系统中有一些商品信息也是存放在MySQL中,慢慢的你的系统一天系统用户原来越多,查看商品的用户越来越多导致系统的响应速度越来越慢…

Real User ID 和 Effective User ID 的区别

在 Unix 和 Linux 系统中,每个进程都有多个用户标识符(UID),其中最重要的是“真实用户 ID”(real UID)和“有效用户 ID”(effective UID)。 它们的区别和用途如下: 真实…

linux nethogs网络监控程序(端口监控、流量监控、上传流量、下载流量、进程监控进程网络)

文章目录 Nethogs 网络监控程序详解1. 引言2. Nethogs 的安装与运行2.1 安装 Nethogs- **Debian/Ubuntu**- **Fedora**- **Arch Linux** 2.2 运行 Nethogs 3. Nethogs 的使用详解3.1 基本界面- **PID**:进程的 ID。- **用户**:运行该进程的用户。- **程序…

注意力机制篇 | YOLOv8改进之在C2f模块引入Global Context注意力模块 | 全局上下文注意力机制

前言:Hello大家好,我是小哥谈。GCNet(Global Context Network)是由XV Jiарui开发的一个开源项目,它旨在通过全局上下文信息增强网络的注意力机制,以改善模型对图像的理解和处理能力。它的核心思想是在每个残差块之后添加一个全局上下文模块(即本文的Global Context注意…

【Quart 框架——来源于Flask的强大且灵活的异步Web框架】

目录 前言一、Quart简介1-1、简介1-2、与flask的区别 二、快速开始2-1、安装2-2、基本用法 三、核心功能3-1、异步路由3-2、WebSockets 支持3-3、中间件3-4、蓝图 (Blueprints) 四、部署4-1、使用uvicorn部署4-2、使用hypercorn部署 五、案例分析总结 前言 Quart 是一个基于 Py…

【Python】爬虫实战01:获取豆瓣Top250电影信息

本文中我们将通过一个小练习的方式利用urllib和bs4来实操获取豆瓣 Top250 的电影信息,但在实际动手之前,我们需要先了解一些关于Http 请求和响应以及请求头作用的一些知识。 1. Http 请求与响应 HTTP(超文本传输协议)是互联网上…

虚函数__

10 文章目录 虚函数虚函数表override(不允许后续函数继承)虚析构纯虚函数 虚函数 虚函数表 override(不允许后续函数继承) 虚析构 纯虚函数

从零开始学习PX4源码3(如何上传官网源码到自己的仓库中)

目录 文章目录 目录摘要1.将PX4源码上传至腾讯工蜂2.从腾讯工蜂克隆源码到本地ubuntu3.如何查看自己源码的版本信息 摘要 本节主要记录从零开始学习PX4源码3(如何上传官网源码到自己的仓库中)及如何查看PX4的固件版本信息,欢迎批评指正! PX4源码版本V1.…