2023 龙蜥操作系统大会演讲实录:《兼容龙蜥的云原生大模型数据计算系统——πDataCS》

image.png

本文主要分三部分内容:第一部分介绍拓数派公司,第二部分介绍 πDataCS 产品,最后介绍 πDataCS 与龙蜥在生态上的合作。

杭州拓数派科技发展有限公司(简称“拓数派”,英文名称“OpenPie”)是国内基础数据计算领域的高科技创新企业。作为国内云上数据库和数据计算领域的引领者,以“Data Computing for New Discoveries”「数据计算,只为新发现」为使命,致力于在数字原生时代,运用突破性计算理论、独创的云原生数据库旗舰产品以及之上的算法和数学模型,建立下一代云原生数据平台的前沿标准,驱动企业实现从“软件公司”到“数据公司”再到“数学公司”的持续进阶,加速数字化转型升级。

拓数派自成立以来专注于数据计算领域,旗下大模型数据计算系统(PieDataComputingSystem, 缩写:πDataCS),以云原生技术重构数据存储和计算,一份存储,多引擎数据计算,让 AI 模型更大更快,全面升级大数据系统至大模型时代。πDataCS 旨在助力企业优化计算瓶颈、充分利用和发挥数据规模优势,构建核心技术壁垒,更好地赋能业务发展,使得自主可控的大模型数据计算系统保持全球领先,让大模型技术全面赋能各行各业。 目前大模型数据计算系统,面向国内市场提供公有云版、社区版、企业版及一体机多个版本,满足企业不同业务场景需求,并已为金融、制造、医疗及教育等行业用户构建了 AI 数据底座。

image.png

拓数派拥有强悍的研发核心团队和有成功上市经验的管理团队。其核心团队成员主要来自 Pivotal、IBM、腾讯、字节跳动、快手、Oracle 等世界 500 强以及国内头部互联网公司。拓数派创始人兼 CEO 冯雷(Ray Von)是数据云和人工智能领域的连续创业者和技术引领者。冯雷于 2010 年从美国硅谷归国,曾在 500 强公司 EMC 旗下创建 Greenplum 中国研发部门工作。2013 年随着全球 Pivotal 组建,冯雷先生在中国 Greenplum 大数据和 VMWare 的 PaaS 云的基础上组建了 Pivotal 中国研发中心,推动了 Greenplum 大数据库、CloudFoundry PaaS 云等知名开源产品的领域领先地位。

image.png

拓数派 2021 年创立,迅速进入快速发展阶段,引领数据计算时代的到来。成立当天即获得头部产业基金天使轮投资,成为 DAY-1 准独角兽。2022 年拓数派发布了云原生虚拟数仓 PieCloudDB 社区版与商业版。2023 年拓数派大模型数据计算系统 πDataCS 正式亮相,让 AI 模型更大更快。

image.png

下面介绍 πDataCS。数据分析的目的最终是为了发现解释世界规则的模型。有了数据和计算,最终用来描述世界规律,构建一个模型系统。构建模型系统的关键是要有足够多的数据,数据是核心竞争力。有了数据后要构造出解释世界的模型。拓数派团队既具备大数据分析的丰富经验,也具备云计算方面的实战经验。

image.png

一提到模型可能首先想到有几千亿参数的大模型数据系统,其实日常生活中的模型无处不在。例如自由落体模型,由物理实验推导而来。最早的物理规律并不是理论推导而成,而是由数据分析得出,例如开普勒行星运动三定律,就是通过分析天文学家几十年的观测数据总结得出。以自由落体模型为例,可以考虑物体的自由落体运动以时间和变量为参数。构造这样简单的一套模拟系统,通过观测收集到数据,再经过计算发现 p0、p1 参数都是 0,只有 p3 是5 。经过分析后得出,只有当 p0、p1 值为该值时才符合客观规律,这就是简单的模型训练过程。进行数据分析时,不仅要构造像大模型这种复杂系统,生活中也有很多像自由落体这种模型等待我们发现。

下面是 πDataCS 产品的架构图。

image.png

πDataCS 打造了全新的云原生架构,支持一份数据,多引擎计算。πDataCS 支持多种云平台,包括公有云和私有云。πDataCS 以云原生技术重构数据存储和计算,先将数据计算系统中的计算和数据分离,增强系统的弹性。接着,考虑到未来数据治理和交易,拓数派把元数据和用户数据再次分离,实现了全新的 eMPP 架构。元数据被映射到块存储,由元数据管理系统「木牍」进行管理;用户数据被映射到对象存储,由「简墨」存储系统来管理;计算被映射到容器或者虚拟机,由计算系统来管理。元数据可以在系统中描述数据的结构,找到数据位置。将元数据单独处理后简化了数据交换。例如进行黄金交易时不一定一手交钱一手交货,可以将存储黄金的保险柜钥匙交出,此处的保险柜钥匙就相当于元数据管理系统,避免了数据遗漏等风险。此外 πDataCS 还利用 FPGA 硬件加速技术来提高对数据文件的访问。

目前,πDataCS支持三种计算引擎:

  • PieCloudDB: 作为拓数派首款云原生数仓计算引擎,支持 SQL 语言模型,兼容 HTAP
  • PieCloudVector: 为支持和大模型配合的向量计算而建立的云原生向量计算引擎
  • PieCloudML: 为支持 Python 和 R 等机器学习语言而建立的云原生机器学习引擎

πDataCS 的第一个优势是全面升级 Hadoop 大数据和 Greenplum 数仓至云原生数据平台。打造 πDataCS 是为了全面升级用户的数据平台。曾经谈到大数据时一定会提到 Hadoop,随着时间发展,人们发现 Hadoop 的很多问题,但很多用户的大数据系统还是基于 Hadoop 实现。自从 Hadoop 之后出现很多大数据技术,但只能解决一部分数据问题。例如 MPP 数据库,主要为了处理关系型数据,还有 MySQL 数据库只能处理某一个类型的数据。只有 Hadoop 平台可以使用它的若干个模块来处理所有的数据,包括结构化的、非结构化的、文本、图像等等。同 Hadoop 一样,πDataCS 和也可以通过一个平台多种计算引擎来为客户处理所有数据,包括结构化的、非结构化的、文本、图像等。

image.png

πDataCS 的第二优势是可以全面支持大语言基础模型和私域数据结合做垂直应用。拓数派第二款计算引擎 PieCloudVector,是一款可以用于存储、查询和分析向量数据(比如特征向量)的向量数据库。

image.png

某知名金融客户积累了很多金融方面的数据,包括各种各业的行业和所投资的各个公司的一些财务数据等,这些是他的核心竞争力。他希望打造一个他私有的大模型系统,使用问答的方式来使用他收集的这些金融方面数据,但是考虑到数据的隐私和安全等,不可能使用公开的大模型。上图是以 PieCloudVector 为核心,帮助客户找到了这样一套私有的金融方面的大模型系统。首先这些文档使用模型进行提取,将特征存入向量计算 Vector 数据中,再通过架构和他的应用程序进行交互,然后可以使用问答的方式来使用金融数据,也可以使用像大语言模型系统。

πDataCS 的第三个优势是云原生 eMPP 计算引擎全面颠覆 MPP 技术,打造大模型数据计算新范式。这一优势是通过第一款计算引擎 PieCloudDB Database 来实现的。

image.png

虚拟机技术可以把一台物理服务器切换成若干台小的服务器,把它一台物理服务器的资源切换虚拟机,给不同的用户来用。同样我们希望把数仓资源切算成若干的虚拟数仓,然后交给各个部门来使用,提高硬件的使用效率。以上解释了为什么拓数派团队要对 PieCloudDB 打造基于云原生的 eMPP 架构。

PieCloudDB 是基于 eMPP 架构的数仓系统,实现了把元数据收集到元数据服务木牍当中,把用户数据存储到了简墨系统中,然后实现了存储分离的虚拟数仓,实现了元数据、用户数据和虚拟数仓数据计算之间独立的扩缩容。使用基于 PC 架构的传统数仓系统,数据和计算紧紧绑定在一起。可以对它进行横向的扩展,但是同时必须要扩展存储,也需要扩展计算,计算和存储不能进行独立的扩展。这种架构下需要缩容时操作很困难。通过 PieCloudDB 虚拟数仓,将一个个数仓打造成不包含任何数据而且无状态的计算平台。可以根据需要对数仓的计算能力进行扩缩容。

image.png

在实际的应用场景中,简墨系统可以构建在 S3 对象存储中或者 HDFS 和 NAS 中。

image.png

PieCloudDB 通过映射,让每一个业务部门自己拥有独立的一套数仓系统,使用起来与传统 MPP 数据库没有太大区别。但各个部门进行数据交换时,不需要再进行 ETL 操作,通过数据授权对元数据进行操作,将不同部门之间的数据映射给其他部门。在存储系统中,所有数据只存储了一份。类似前文交换保险柜钥匙来获得黄金,而不是真正进行黄金交换。通过虚拟数仓系统,可以降低硬件和管理成本。虚拟化可以提高硬件的使用率,提升数据资源的应用效率,再通过一些技术提高数据安全性。

image.png

为了实现虚拟数仓系统,PieCloudDB 完成了四大技术突破。

image.png

首先,PieCloudDB 实现了云原生存算分离架构:用户数据,元数据和计算三层分离,可进行独立扩缩容。第二根据云原生特点打造优化器达奇。云原生优化器负责根据部署 PieCloudDB 架构的特点来生成更优的执行计划,提高数据分析效率。第三是全新的数据存储引擎简墨,还有相关缓存架构设计,提高虚拟数仓访问数据输出的效率。第四是 eMPP 分布式技术,为传统 MPP 架构增加弹性,使虚拟数仓进行横向的扩容和缩容变得非常方便。

πDataCS 第二款计算引擎PieCloudVector,针对一些像金融、保险这方面用户,对数据的安全性要求比较高,需要打造一个自己私有的大模型系统。

image.png

把用户收集的数据或者是公有的数据,通过特征提取,创建一系列 embeddings,存储到向量数组中,再通过其他一些开源框架和大模型进行一个交互。相当于 PieCloudVector 为客户自己构建自有大模型提供存储底座。相对于其他的向量数据库,包括一些专用的数据库,还有传统的关键数据库有这些向量的插件。

image.png

相比这两种方案,我们这套系统有哪些优势呢?第一,使用专用的向量数据库,其他一些相关数据,例如存储在数据库中的关键型数据等,需要进行若干数据移动。传统的数据库在高可用或者扩展方面有缺陷。所以 PieCloudVector 集中了两方面优势,比较方便进行水平的扩缩容,第二个同时具有这两方面的优点,既可以存储普通的关系型数据,也可以存储向量数据。

第三款计算引擎是正在开发的新一代(大模型)机器学习 PieCloudML,在现有这些架构的基础上,通过新一代 PieCloudML,增加机器学习、图像数据处理等大模型系统提供更深一步的支持。

image.png

大模型数据计算系统,面向国内市场提供云上云版、社区版、企业版、一体机四个版本,满足企业不同业务场景需求。πDataCS 有三种部署方式。第一种直接部署在云上,第二种部署在客户现有的云平台,第三种是一体机系统,用户接上网线,插上电源可以直接使用。

image.png

拓数派一直秉持着“开放互信、合作共赢”的理念,致力于构建蓬勃的数据生态。πDataCS 也非常注重软件生态打造,注重与社区方面的合作。πDataCS 需要适配各种各样的云环境,所以需要打造强大的软件生态系统。拓数派团队针对不同的部署方式与龙蜥平台进行了全方位的测试,测试结果显示,龙晰平台安全稳定、性能优异。因此,我们确信,龙蜥平台可以支持 πDataCS 良好运行。 除了龙蜥外,πDataCS 也完成了与其他主流软硬件平台的适配工作。拓数派将继续努力,打造完善的产品生态,为用户提供更安全稳定、高性能、易用的大模型数据计算平台。

image.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/697231.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

论文发表 | 顶会顶刊的实验是如何炼成的

前言:Hello大家好,我是小哥谈。在计算机科学研究领域,尤其是当你追求顶级会议和期刊的发表时,没有什么⽐实验设计更关键了。为什么这么说?理由很简单。实验不仅仅是你⽤来 检验假设的⼿段,它更是审稿⼈会重点关注和阅读的部分,也是你验证⾃⼰研究多么创新、多么重要的内…

Linux之用户和用户组

目录 一、简介 1.1 用户账号分类 二、用户 2.1 useradd 2.2 userdel 2.3 usermod 2.4 passwd 2.5 su 2.6 登出 三、用户组 3.1 groupadd 3.2 groupdel 3.3 groupmod 3.4 newgrp 四、用户账号系统 4.1 /ect/passwd 4.2 常见的伪用户如下所示 五、思维导图 …

igolang学习3,golang 项目中配置gin的web框架

1.go 初始化 mod文件 go mod init gin-ranking 2.gin的crm框架 go get -u github.com/gin-gonic/gin 3.go.mod爆红解决

靡语IT:JavaScript_概述、基础

一、JavaScript 概述 javaScript 语言主要是完成页面的数据验证,因此它运行在客户端, 需要运行浏览器来解析执行 JavaScript 代码。js 是网景公司 (Netscape)的产品,最早取名为 LiveScript 最后借 java 的热度 改为 j…

C++多线程同步(上)

多线程同步 引言总述详情互斥锁示例运行结果分析条件变量示例一实现分析优化运行结果示例二实现代码运行结果示例三实现代码运行结果读写锁示例实现代码注意分析运行结果附言实现运行结果运行结果个人心得引言 项目中使用多线程,会遇到两种问题,一种是对共享资源的访问时需要…

关于运行flutter app 运行到模拟器出现异常提示

Exception: Gradle task assembleDebug failed with exit code 1 解决方案: 1.讲当前文件的distributionUrl值改为 https://mirrors.cloud.tencent.com/gradle/gradle-7.4-all.zip

超市售货|超市售货管理小程序|基于微信小程序的超市售货管理系统设计与实现(源码+数据库+文档)

超市售货管理小程序目录 目录 基于微信小程序的超市售货管理系统设计与实现 一、前言 二、系统功能设计 三、系统实现 1、微信小程序前台 2、管理员后台 (1)商品管理 (2)出入库管理 (3)公告管理 …

CrossOver2024虚拟机软件的优缺点分别是什么?

CrossOver虚拟机软件的优缺点分别如下: 优点: 无需双系统:用户可以在Mac或Linux系统上直接运行Windows应用程序,无需安装双系统,从而节省了硬盘空间并避免了系统切换的麻烦。易于安装和使用:CrossOver具有…

文件上传---->生僻字解析漏洞

现在的现实生活中,存在文件上传的点,基本上都是白名单判断(很少黑名单了) 对于白名单,我们有截断,图片马,二次渲染,服务器解析漏洞这些,于是今天我就来补充一种在upload…

RAW 编程接口 TCP 简介

一、LWIP 中 中 RAW API 编程接口中与 TCP 相关的函数 二、LWIP TCP RAW API 函数 三、LwIP_Periodic_Handle函数 LwIP_Periodic_Handle 函数是一个必须被无限循环调用的 LwIP支持函数,一般在 main函数的无限循环中调用,主要功能是为 LwIP各个模块提供…

vscode【报错】yarn : 无法将“yarn”项识别为 cmdlet

问题 CMD下载完yarn可以查看到yarn版本,但是进入到vscode控制台报错无法识别,报错内容如下: vscode【报错】yarn : 无法将“yarn”项识别为 cmdlet、函数、脚本文件或可运行程序的名称。请检查名称的拼写,如果包括路径&#xff…

ffmpeg for android编译全过程与遇到的问题

编译前准备 编译环境:Ubuntu16,可自行下载VMWare最新版并百度永久许可证或在服务器上安装Ubuntu ffmpeg源码:ffmpeg4.2.2 NDK下载:Android NDK r21e 有条件的最好还是在Liunx平台下编译吧,Windows平台下编译坑更多…

【计算机网络】数据链路层|封装成帧|透明传输|差错检测|PPP协议|CSMA/CD协议

目录 一、思维导图 ​ 二、数据链路层功能概述 1.数据链路层概述 2.数据链路层功能概述——封装成帧 3.数据链路层功能概述——透明传输 4.数据链路层功能概述——差错检测 三、数据链路层重要协议 1.数据链路层重要协议:PPP协议 2.数据链路层重要协议&#x…

js设计模式:备忘录模式

作用: 封装的对象可以在对象触发行为时进行状态的记录与保存 也可以进行状态的回退,恢复之前的状态 示例: class Editor{constructor(){this.allText }edit(text){this.allText text}saveNow(){return new EditorText(this.allText)}backspacing(editorText){this.allText…

护眼台灯哪个品牌更好用?五大好用护眼台灯大爆料!

护眼台灯相信大家都有所耳闻或者使用过,家里有小孩的可能了解更深,毕竟是孩子学习时需要使用的小家电。现在市面上的护眼台灯种类可以说是多到眼花缭乱,甚至有些劣质的产品掺杂在里面,或许有些宝妈已经踩过一些坑了,护眼台灯究竟哪个品牌更好用? &#x…

这个春节,爽了

四次医院 请了一周假,准备开始愉快的长假。 结果第一天小孩就发烧了,赶紧送医院拿药。回到家才发现,给医生看的验血报告是上一次的,那是好几个月之前的。 但是药已经吃了,这是吃错药了呀!! …

GoLand 相关

goland 下载依赖 go mod tidy:保持依赖整洁 go mod tidy 命令的作用是清理未使用的依赖,并更新 go.mod 以及 go.sum 文件。 go mod tidy 和 go mod vendor 两个命令是维护项目依赖不可或缺的工具。go mod tidy 确保了项目的 go.mod 文件精简且准确&…

ubuntu20.04安装实时内核补丁PREEMPT_RT

参考: Ubuntu 18.04安装 RT-PREEMPT 实时内核及补丁【过程记录】_ubuntu18.04 preempt rt linux 5.6.19-CSDN博客 https://github.com/UniversalRobots/Universal_Robots_ROS_Driver/blob/master/ur_robot_driver/doc/real_time.md当前内核:5.15.0-94-ge…

1.deeplabv3+网络结构及原理

这里的网络结构及原理可以看这篇博客,DeepLabV3: 在DeepLabV3基础上引入了Decoder_matlab deeplabv3resnet101-CSDN博客该博客翻译原论文解释得很清楚。 一、引言 语义分割的目标是为图像中的每个像素分配语义标签。在这项研究中,考虑了两种类型的神经网…

docker:Haoop集群

系列文章目录 docker:环境安装 docker:Web迁移 docker:Haoop集群 文章目录 系列文章目录前言一、宿主机选择二、环境准备1.前置技术2.网络环境1. docker网卡2. 分配IP 三、容器互联三、Jdk和Hadoop安装四、分发脚本五、启动Hadoop总结 前言 年前学习了docker的相关…