新一代湖仓集存储,多模型统一架构,高效挖掘数据价值

星环科技TDH一直致力于给用户带来高性能、高可靠的一站式大数据基础平台,满足对海量数据的存储和复杂业务的处理需求。

同时在易用性方面持续深耕,降低用户开发和运维成本,让数据处理平民化,助力用户以更便捷、高效的方式去挖掘数据价值。

基于这样的宗旨,星环科技TDH正式发布了9.3版本。

推出了新一代湖仓集存储格式Holodesk,一份数据满足数据湖的离线实时接入、数仓的复杂加工以及数据集市的分析需求。

避免数据冗余,减少数据流转,提升业务综合性能与时效性。

同时,分布式计算引擎实现了向量化升级,综合性能大幅度提升。

此外,TDH 9.3对多模型统一技术架构进行了迭代升级,全新发布分布式向量数据库Transwarp Hippo。

共支持11种模型数据统一存储管理,用统一查询处理语言完成跨模型数据流转与关联分析,让业务开发更加便捷。

新一代湖仓集一体架构

打破湖仓集边界

传统湖仓集混合架构,需要部署多个平台进行数据存储,造成数据冗余和存储资源浪费。

其次,数据需要跨平台ETL流转,流转开销高,时效性较差。数据跨平台流转中还容易导致不⼀致,影响业务正确性。

此外,多平台的开发标准不一致,存在一定的技术门槛,权限管理复杂。

当需要跨层数据时,严重依赖其他部门的数据⼯程师、数据科学家来加⼯数据,对数据分析师来说,数据分析探索的效率大大降低。

TDH9.3 打破数据湖、数据仓库、数据集市的边界,基于湖仓集一体平台,所有人都可以访问实时的数据、历史的数据、原始的数据、加工过的数据。

如业务分析师可以直接访问最原始的数据,数据工程师可以更高效地建模,数据科学家可以横跨不同的数据源进行数据分析和挖掘。

基于TDH9.3湖仓集一体架构,各种类型的数据通过数据集成工具,通过离线或者实时的方式加载到TDH中,结构化数据统⼀由Holodesk来承载湖仓集的存储。

通过统⼀SQL引擎和统⼀计算引擎,实现湖仓集数据的统⼀处理、查询、加工,支撑多种应⽤场景。

配合统⼀的运维、审计、权限、告警等功能实现平台的统⼀管理,避免重复建设。

一种存储格式,满足湖仓集关系型数据存储需求

TDH 9.3将之前的⾼性能存储格式Holodesk进行了重构,只需一个存储格式即可同时满足湖仓集的数据接入、数仓加工和高性能数据分析。

在全新的存储引擎下,可以将湖仓集的所有数据都放在统一的存储格式里,不需要针对不同的建设去使用不同的存储引擎。

能够同时⽀持离线批量数据和实时数据的接入,同时也支持高性能的模型加工、批处理、在线分析等计算需求。

相比ORC,更多功能、更高性能 相比于之前版本的ORC事务表,TDH9.3的Holodesk具有更多的功能和更高的性能。

  • 无需手工分桶:ORC事务表需要手动分桶,对开发和运维人员是非常大的挑战。TDH9.3 Holodesk不需要手动分桶,存储引擎自动做数据切片和分布式,用户无需关注分桶数,大幅简化了建表流程和成本。
  • 非分桶文件自动合并:Holodesk具有更灵活,更多策略的文件管理系统,自动将任意的非分桶文件按照合适的大小进行合并,避免桶文件过大或过小的情况,减少运维上的投入。
  • 高频实时数据写入:实时场景下,Holodesk支持实时流计算引擎Slipstream的实时数据写入和Batch Insert批量写入,满足数据湖的实时数据接入需求。
  • 性能数倍提升:Holodesk的IO性能是ORC事务表的10倍以上,在TPC-DS 1TB数据集测试中,相⽐于ORC事务表,TDH 9.3 Holodesk的性能提升了3倍。

相比开源湖仓,创新技术降本增效 相比于开源湖仓技术,如Hudi / Iceberg等,TDH湖仓集一体在多项技术方面实现了提升和创新,帮助用户降低开发运维成本,提高开发分析效率,提升数据处理分析性能。

  • 四种事务隔离级别:开源湖仓技术一般是基于快照的事务隔离,而TDH支持完整四种事务隔离级别,特别是在复杂的高并发比数仓业务场景下,用户可以根据业务需求调整事务隔离级别,满足不同事务处理的要求。
  • 小文件灵活、自动合并:开源湖仓技术小文件需要手工合并管理,需要通过代码来调⽤,维护成本较⾼。TDH具备灵活的多策略、独⽴资源来自动合并小文件,维护成本更低,读取性能更好。
  • 实时数据快速读写:开源湖仓技术的实时数据写入基于Merge on Read,虽然写得快,但读起来很慢。TDH9.3优化了实时数据写入的合并逻辑,避免大量文件在读时再合并,实现写快读快,具有更好的分析和加工性能。
  • 无需流转,湖仓集一体化存储:开源湖仓技术在集市分析场景下需要流转到外部分析引擎中,而基于TDH9.3的湖仓集一体架构,实现了湖仓集统一存储格式,数据⼀体化存储不冗余,也无额外数据流转开销,整体系统复杂度更低,综合时效性和性能更强。

向量化计算引擎升级,引入CodeGen技术

TDH9.3在存储升级的同时,向量化计算引擎引入了CodeGen代码生成技术,将复杂的、高开销的算⼦代码⽣成为能更⾼效调⽤GPU指令集的Native Code。生成的Native Code逻辑更简单。

避免了多余的运算和函数调⽤,运⾏更⾼效,同时Native引擎也不会GC(垃圾回收),避免因GC导致性能降低。

综合性能大幅提升,再破TPC性能巅峰

TDH是全球首个通过TPC-DS基准测试并经官方审计的产品,此次存储和计算引擎的双重升级,在TPC标准测试集中,TDH再⼀次突破了TPC-DS、TPC-BB、TPCx-HS 3个测试集的性能。

  • 在TPC-DS 10TB测试集中,TDH⽐当前公开的最好成绩,性能提升了27%。
  • 在TPC-BB 3T测试集中,TDH是当前公开的最好成绩的2倍,同时系统成本降低了67%。
  • 在TPC-HS 3T测试集中,TDH比当前公开的最好成绩,性能提升3%,同时系统成本降低了69%。

此外,经过很多实际业务的验证,通过将CDH业务迁到TDH上,简单的业务加工性能是CDH的1.26倍,复杂业务加工是2.69倍,并发跑批是2倍,业务查询是1.66倍。而在替换开源数据库GP后,TDH在复杂分析上基本上能实现4-9倍的性能提升。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/713370.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

[多媒体服务器] 通过nginx搭建 rtmp/hls/dash 媒体服务器,支持点播和直播

参考: How To Set Up a Video Streaming Server using Nginx-RTMP on Ubuntu 20.04 | DigitalOcean 用到的工具: nginx,nginx rtmp插件,OBS,ffmpeg,ubuntu,youtube-dl Step1:安装和…

jmeter如何请求访问https接口

添加线程组http请求 新建线程组,添加http请求 填入协议,ip,端口,请求类型,路径,以及请求参数,查看结果树等。 然后最关键的一步来了。 导入证书 步骤:获取证书,重新生…

基于SSM的高校竞赛和考级查询系统(有报告)。Javaee项目。ssm项目。

演示视频: 基于SSM的高校竞赛和考级查询系统(有报告)。Javaee项目。ssm项目。 项目介绍: 采用M(model)V(view)C(controller)三层体系结构,通过Sp…

Java中的动态代理与Spring AOP编程

第一章:引言 大家好,我是小黑,在Java里,动态代理和Spring AOP(面向切面编程)是两个能让代码更加灵活、更加干净的强大工具。作为一名Java程序员,小黑觉得掌握它们对于写出高质量的代码来说非常…

Property ‘glob‘ does not exist on type ‘ImportMeta‘

参考文章: vite导入文件,Property ‘globEager‘ does not exist on type ‘ImportMeta‘

通过GitHub探索Python爬虫技术

1.检索爬取内容案例。 2.找到最近更新的。(最新一般都可以直接运行) 3.选择适合自己的项目,目前测试下面画红圈的是可行的。 4.方便大家查看就把代码粘贴出来了。 #图中画圈一代码 import requests import os import rewhile True:music_id input("请输入歌曲…

IDEA创建SpringMVC项目没有java和resources

跟着一些教程创建SpringMVC项目,完了之后没有java和resources两个文件夹,他们教程让我们自己新建(感觉不是很科学啊,为什么必须自己建,生成的就没有呢) 分享一下新建的方法 在src-main目录下右键new—>D…

鸿蒙Harmony应用开发—ArkTS声明式开发(通用属性:位置设置)

设置组件的对齐方式、布局方向和显示位置。 说明: 从API Version 7开始支持。后续版本如有新增内容,则采用上角标单独标记该内容的起始版本。 align align(value: Alignment) 设置容器元素绘制区域内的子元素的对齐方式。 卡片能力: 从API…

收盘价时空模式挖掘与多股票走势聚类分析:探索市场行为共性

收盘价时空模式挖掘与多股走势聚类分析:探索市场行为共性 一.版本信息二.操作步骤1.下载各股历史交易数据A.代码(download_stocks.py)B.执行2.遍历各股的csv文件,提取收盘价数据,归一化,绘制曲线,保存图片A.代码B.执行3.用上面的图片集训练VAE模型A.代码B.执行4.用上面训出的V…

【远程开发调试】Pycharm或Webstorm使用远程服务器调试开发

Pycharm如何使用远程服务器环境进行开发_pycharm使用服务器环境-CSDN博客 Pycharm配置远程调试_pycharm 远程调试-CSDN博客

langchain学习笔记(八)

RunnableLambda: Run Custom Functions | 🦜️🔗 Langchain 可以在pipeline中使用任意函数,但要注意所有的输入都只能是“1”个参数,当函数需要多个参数时需要采用字典来包装 itemgetter用法见langchain学习笔记(六&…

【系统分析师】-系统配置与性能评价

1、性能指标 主频:又称时钟频率,1GHZ表示1秒有1G个时钟周期 1s10^9ns 主频外频 * 倍频 时钟周期 主频的倒数指令周期:取出并执行一条指令的时间 总线周期:一个访存储器或IO操作所用时间平均执行周期数:CPI表示…

【学习心得】网络中常见数据格式(爬虫入门知识)

在爬虫爬取数据的之前,必须先系统的了解一下我们待爬取的数据有哪些格式,这样做的好处在与能针对不同的数据类型采取不同分方法手段。 一、XML XML(Extensible Markup Language)是一种可扩展的标记语言,它定义了一套标…

如何解决幻兽帕鲁/Palworld服务器联机游戏时的丢包问题?

如何解决幻兽帕鲁/Palworld服务器联机游戏时的丢包问题? 等待服务器维护:首先,确保网络连接稳定,然后查看游戏官方或社区论坛,了解是否有服务器维护的消息。这是解决丢包问题的一种直接且有效的方法。 更新显卡驱动&a…

Siemens-NXUG二次开发-获取prt中体与类型、实体面与类型、实体边与类型、边上点的Tag标识[Python UF][20240302]

Siemens-NXUG二次开发-获取prt中体与类型、实体面与类型、实体边与类型、边上点的Tag标识[Python UF][20240302] 1.python uf函数1.1 NXOpen.UF.Obj.CycleObjsInPart1.2 NXOpen.UF.Obj.AskTypeAndSubtype1.3 NXOpen.UF.Modeling.AskBodyFaces1.4 NXOpen.UF.Modeling.AskFaceEdg…

RISC-V特权架构 - 机器模式下的异常处理

RISC-V特权架构 - 机器模式下的异常处理 1 进入异常1.1 从mtvec 定义的PC 地址开始执行1.2 更新CSR 寄存器mcause1.3 更新CSR 寄存器mepc1.4 更新CSR 寄存器mtval1.5 更新CSR 寄存器mstatus 2 退出异常2.1 从mepc 定义的PC 地址开始执行2.2 更新CSR 寄存器mstatus 3 异常服务程…

Android Tombstone 分析

1.什么是tombstone Tombstone是指在分布式系统中用于标记数据已被删除的记录,通常包含删除操作的时间戳和相关信息。 当一个动态库(native程序)开始执行时,系统会注册一些连接到 debuggerd 的signal handlers。当系统发生崩溃时…

wpa_supplicant与用户态程序的交互分析

1 wpa_supplicant与用户态程序wpa_cli的交互过程 1.1 交互接口类型 wpa_supplicant与用户态程序交互的主要接口包括以下几种: 1)命令行界面:通过命令行工具 wpa_cli 可以与 wpa_supplicant 进行交互。wpa_cli 允许用户执行各种 wpa_suppli…

Spark Shuffle Tracking 原理分析

Shuffle Tracking Shuffle Tracking 是 Spark 在没有 ESS(External Shuffle Service)情况,并且开启 Dynamic Allocation 的重要功能。如在 K8S 上运行 spark 没有 ESS。本文档所有的前提都是基于以上条件的。 如果开启了 ESS,那么 Executor 计算完后&a…