产品解读 | 新一代湖仓集存储,多模型统一架构,高效挖掘数据价值

图片

星环科技TDH一直致力于给用户带来高性能、高可靠的一站式大数据基础平台,满足对海量数据的存储和复杂业务的处理需求。

同时在易用性方面持续深耕,降低用户开发和运维成本,让数据处理平民化,助力用户以更便捷、高效的方式去挖掘数据价值。

基于这样的宗旨,星环科技TDH正式发布了9.3版本。

推出了新一代湖仓集存储格式Holodesk,一份数据满足数据湖的离线实时接入、数仓的复杂加工以及数据集市的分析需求

避免数据冗余,减少数据流转,提升业务综合性能与时效性。

同时,分布式计算引擎实现了向量化升级,综合性能大幅度提升

此外,TDH 9.3对多模型统一技术架构进行了迭代升级,全新发布分布式向量数据库Transwarp Hippo。

共支持11种模型数据统一存储管理,用统一查询处理语言完成跨模型数据流转与关联分析,让业务开发更加便捷。

新一代湖仓集一体架构

打破湖仓集边界

图片

传统湖仓集混合架构,需要部署多个平台进行数据存储造成数据冗余和存储资源浪费。

其次,数据需要跨平台ETL流转,流转开销高,时效性较差数据跨平台流转中还容易导致不⼀致影响业务正确性。

此外,多平台的开发标准不一致,存在一定的技术门槛,权限管理复杂

当需要跨层数据时,严重依赖其他部门的数据⼯程师、数据科学家来加⼯数据,对数据分析师来说,数据分析探索的效率大大降低

图片

TDH9.3 打破数据湖、数据仓库、数据集市的边界,基于湖仓集一体平台,所有人都可以访问实时的数据、历史的数据、原始的数据、加工过的数据。

如业务分析师可以直接访问最原始的数据,数据工程师可以更高效地建模,数据科学家可以横跨不同的数据源进行数据分析和挖掘。

图片

基于TDH9.3湖仓集一体架构,各种类型的数据通过数据集成工具,通过离线或者实时的方式加载到TDH中,结构化数据统⼀由Holodesk来承载湖仓集的存储。

通过统⼀SQL引擎和统⼀计算引擎,实现湖仓集数据的统⼀处理、查询、加工,支撑多种应⽤场景。

配合统⼀的运维、审计、权限、告警等功能实现平台的统⼀管理,避免重复建设。

图片

一种存储格式,满足湖仓集关系型数据存储需求

TDH 9.3将之前的⾼性能存储格式Holodesk进行了重构,只需一个存储格式即可同时满足湖仓集的数据接入、数仓加工和高性能数据分析

在全新的存储引擎下,可以将湖仓集的所有数据都放在统一的存储格式里,不需要针对不同的建设去使用不同的存储引擎。

能够同时⽀持离线批量数据和实时数据的接入,同时也支持高性能的模型加工、批处理、在线分析等计算需求

图片

相比ORC,更多功能、更高性能 相比于之前版本的ORC事务表,TDH9.3的Holodesk具有更多的功能和更高的性能。

  • 无需手工分桶:ORC事务表需要手动分桶,对开发和运维人员是非常大的挑战。TDH9.3 Holodesk不需要手动分桶,存储引擎自动做数据切片和分布式,用户无需关注分桶数,大幅简化了建表流程和成本。

  • 非分桶文件自动合并:Holodesk具有更灵活,更多策略的文件管理系统,自动将任意的非分桶文件按照合适的大小进行合并,避免桶文件过大或过小的情况,减少运维上的投入。

  • 高频实时数据写入:实时场景下,Holodesk支持实时流计算引擎Slipstream的实时数据写入和Batch Insert批量写入,满足数据湖的实时数据接入需求。

  • 性能数倍提升:Holodesk的IO性能是ORC事务表的10倍以上,在TPC-DS 1TB数据集测试中,相⽐于ORC事务表,TDH 9.3 Holodesk的性能提升了3倍。

相比开源湖仓,创新技术降本增效  相比于开源湖仓技术,如Hudi / Iceberg等,TDH湖仓集一体在多项技术方面实现了提升和创新,帮助用户降低开发运维成本,提高开发分析效率,提升数据处理分析性能。

  • 四种事务隔离级别:开源湖仓技术一般是基于快照的事务隔离,而TDH支持完整四种事务隔离级别,特别是在复杂的高并发比数仓业务场景下,用户可以根据业务需求调整事务隔离级别,满足不同事务处理的要求。

  • 小文件灵活、自动合并:开源湖仓技术小文件需要手工合并管理,需要通过代码来调⽤,维护成本较⾼。TDH具备灵活的多策略、独⽴资源来自动合并小文件,维护成本更低,读取性能更好。

  • 实时数据快速读写:开源湖仓技术的实时数据写入基于Merge on Read,虽然写得快,但读起来很慢。TDH9.3优化了实时数据写入的合并逻辑,避免大量文件在读时再合并,实现写快读快,具有更好的分析和加工性能。

  • 无需流转,湖仓集一体化存储:开源湖仓技术在集市分析场景下需要流转到外部分析引擎中,而基于TDH9.3的湖仓集一体架构,实现了湖仓集统一存储格式,数据⼀体化存储不冗余,也无额外数据流转开销,整体系统复杂度更低,综合时效性和性能更强。

向量化计算引擎升级,引入CodeGen技术

TDH9.3在存储升级的同时,向量化计算引擎引入了CodeGen代码生成技术,将复杂的、高开销的算⼦代码⽣成为能更⾼效调⽤GPU指令集的Native Code。生成的Native Code逻辑更简单。

避免了多余的运算和函数调⽤,运⾏更⾼效,同时Native引擎也不会GC(垃圾回收),避免因GC导致性能降低。

综合性能大幅提升,再破TPC性能巅峰

TDH是全球首个通过TPC-DS基准测试并经官方审计的产品,此次存储和计算引擎的双重升级,在TPC标准测试集中,TDH再⼀次突破了TPC-DS、TPC-BB、TPCx-HS 3个测试集的性能

  • 在TPC-DS 10TB测试集中,TDH⽐当前公开的最好成绩,性能提升了27%。

  • 在TPC-BB 3T测试集中,TDH是当前公开的最好成绩的2倍,同时系统成本降低了67%。

  • 在TPC-HS 3T测试集中,TDH比当前公开的最好成绩,性能提升3%,同时系统成本降低了69%。

此外,经过很多实际业务的验证,通过将CDH业务迁到TDH上,简单的业务加工性能是CDH的1.26倍,复杂业务加工是2.69倍,并发跑批是2倍,业务查询是1.66倍。

而在替换开源数据库GP后,TDH在复杂分析上基本上能实现4-9倍的性能提升

多模型融合

加速业务创新

图片

随着业务的复杂化和多样化,企业需要存储和处理不同模型的数据,比如图数据、时序数据、时空数据等。

TDH在2020年正式发布多模型数据统一处理技术后,每年都会发布新的模型,来满足不同业务场景和不同分析的需求。

多模型能力升级,全新发布分布式向量数据库Transwarp Hippo

TDH9.3在原多模型能力基础上新增分布式数据库Transwarp Hippo,实现10种存储引擎支持11种数据模型。

同时对原存储引擎进行升级,提供更高的性能和更强的功能,帮助企业用户满足更多以及要求更高的业务场景。

作为一款企业级云原生分布式向量数据库,星环Hippo支持存储、索引以及管理海量的向量式数据集,高效地解决向量相似度检索、高密度向量聚类等问题。

与开源的向量数据库不同,Hippo具备高可用、高性能、易拓展等特点,支持多种向量搜索索引,支持数据分区分片、数据持久化、增量数据摄取、向量标量字段过滤混合查询等功能,能很好地满足海量向量数据的高实时性查询、检索、召回等场景。

在大模型场景中,通过预处理将各种类型的文档、图片、音视频等非结构化数据转化为多维向量数据存储在Hippo中,可以很好地解决大模型无法内置快速变化的信息,输入能力受限等问题。

通过将Hippo和星环分布式图数据库StellarDB、大模型结合,可以构建业务域知识图谱和业务系统的应用服务,进一步提高人机交互的效率,提供更灵活的组合业务服务,激发出更精准更深入的业务场景应用。

多模型统一技术架构

如上述所说,不同的数据模型往往需要独立的平台来处理,而这些不同的产品在接口标准上不一致,开发者和业务分析人员需要掌握不同的语言去访问、使用、操作这些数据。

同样,这些产品也使用了各自独立的计算引擎和存储,数据存储在各自的生态中难以互通。

在业务上如果涉及到了跨模型的混合业务,需要把数据从一个平台导入到另一个平台中,ETL流转效率低,同时也难以保证数据的准确性、一致性和实效性。

TDH在2020年5月就实现多模型数据的统一处理技术,支持同一平台一站式处理多种不同的数据模型。

在TDH多模型的统一架构下,实现系统架构的四层统一。

底层基于容器化技术实现资源的统一调度管理,保障资源隔离互不影响。

通过分布式存储管理系统实现了多种模型数据的统一存储管理,统一的计算引擎自动匹配算法以提升不同数据模型的处理能力。

上层通过统一的数据操作/语言来统一处理不同业务的请求。

用户只需一个SQL就可以实现不同数据模型的操作和查询,模型转化流转以及跨模型关联分析,大大简化了开发复杂度,简化用户操作。

同时数据也仍保留在原存储引擎中,也不用对数据进行导入导出或者转换,不会存在数据不一致或数据冗余存储的问题,具有复杂度低、开发成本低、运维成本低、数据处理效率高等优点。

图片

跨模型关联分析

基于TDH多模型统一技术架构,用户不需要独立建设不同的数据

分开运维管理,在做数据分析时也不需要单独连接不同数据库,开发不同的脚本。

而是基于统⼀数据管理映射为不同的表,并且针对不同模型的特性,实现模型特有的语法。

如图数据检索语法,⽂本搜索语法来满⾜不同模型的处理需求,通过统⼀的计算引擎将多种模型的处理和关联统一处理。

工业时序设备监控与分析(时序数据+关系型数据) 

工业IoT设备实时产生大量的时序数据,对于这类数据具有数据量大、生成频率高等特点,要求存储模型有较⾼的压缩率和实时写⼊能⼒,通常企业会使用专门的时序模型。

在设备监测和分析时,除了时序数据外,⽤户往往需要结合设备的⼀些其他信息。

例如设备来源、故障记录、保养记录来综合分析设备的运⾏状况,这些数据通常存储在关系型数据库中,因此需要时序数据和关系型数据关联分析的能⼒。

图片

航空数据分析(时空数据+关系型数据)

航空数据分析场景中,航空轨迹数据⼀般包含了⼤量的坐标点位信息,通常存储在时空模型中。

在航空轨迹分析中,除了时空数据外,往往也需要结合航班的其他信息例如起降时间、机场信息等存储在关系型数据库中的数据进⾏综合的分析。

图片

基于TDH多模型统⼀技术,用户只需一句SQL就可以将多种模型数据直接关联分析,大幅降低了开发的复杂度,避免了复杂的数据流转,提升了分析效率。

融合开放

国产化替代平滑升级

图片

TDH是星环科技自主研发的大数据基础平台,根据工信部电子第五研究所代码扫描测试报告,TDH 的1200万行代码里自研代码率超过70%。

区别于开源及封装产品,不能自主可控很多组件受美国法律限制,不能规避“被制裁”风险。部分产品有license风险,如ES已经改开源license策略了,后续商用存在一定的风险。

在兼容性方面,TDH基础存储和计算组件兼容CDH/HDP,迁移成本低,同时提供迁移工具帮助用户将原系统里的数据迁移到TDH,并可以进行自动数据校验,保证整个流程平滑、安全进行。

此外,在CDH等国外产品迁移方面,TDH具有大量成功实践不存在迁移风险。

融合开放,平滑迁移

对于SQL类业务,TDH9.3持续优化SQL兼容性在Oralce、TD、DB2、Hive语法上,保证SQL的平滑迁移。

对于API对接开发类业务,TDH完成了与ES、Spark、Flink等的适配,保障这类应⽤平滑迁移。

同时,TDH也提供与之对应的自研产品,提供更先进的技术架构、更高的性能、更好的稳定性以及易用性等。

图片

在⼯具方面,TDH不仅与如Sqoop、Flume、Logstash等做了适配,并能提供全套的工具组件

如SQL开发工具、轻量级ETL工具、数据调度工作流工具、图形化数据建模工具、交互式分析与Cube设计工具、元数据管理工具、可视化报表、大数据治理工具、灾备工具等大量易用性工具。

图片

结构化数据自动归档

在实际迁移中,很多用户会继续使⽤开源数据格式。

比如ORC、Text,但这些开源格式不具备事务能⼒,无法进⾏小文件合并,需要⽤户根据文件大小,重新建表导数,在表多、数据量⼤的情况下,性能开销较大,严重的会影响业务的正常进行。

TDH 9.3新增了结构化数据自动归档能力,能够支持并自动合并开源的ORC、Text,降低了用户在开源⾮事务格式上的小文件运维成本。

合并过程中,计算资源独立,对业务透明无影响,并且可以灵活配置合并策略,配合监控功能可以完整监控小文件合并过程和状态。

国产化生态适配,针对性优化性能提升

TDH已完成与主流信创生态厂商的适配互认工作,适配长城飞腾、华为泰山、浪潮等服务器,鲲鹏、飞腾CPU,麒麟、统信等操作系统。

同时同一集群可支持基于ARM与X86服务器混合部署并有落地案例,最大化利用硬件资源,让用户实现逐步替换。

在性能上,TDH根据不同硬件和场景进⾏相应的优化,充分发挥国产ARM架构多核CPU的优势,部分场景下性能与X86架构相当。

以上就是星环科技大数据基础平台TDH 9.3,帮助企业简化系统复杂度,降低运维成本,让⼤数据开发者更⾼效地进行数据价值挖掘。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/653962.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Python tkinter (9) ——Menu控件

本文主要是Python tkinter Menu菜单控件介绍及使用示例。 tkinter系列文章 python tkinter窗口简单实现 Python tkinter (1) —— Label标签 Python tkinter (2) —— Button标签 Python tkinter (3) —— Entry标签 Python tkinter (4) —— Text控件 Python tkinter (5…

计算机毕业设计 基于SpringBoot的校园闲置物品交易系统的设计与实现 Java实战项目 附源码+文档+视频讲解

博主介绍:✌从事软件开发10年之余,专注于Java技术领域、Python人工智能及数据挖掘、小程序项目开发和Android项目开发等。CSDN、掘金、华为云、InfoQ、阿里云等平台优质作者✌ 🍅文末获取源码联系🍅 👇🏻 精…

多场景建模:腾讯3MN

3MN: Three Meta Networks for Multi-Scenario and Multi-Task Learning in Online Advertising Recommender Systems 背景 推荐领域的多场景多任务学习:维护单模型即可节省资源也可节省人力;各个场景的数据共享,理论上面学习是更加充分的 …

微信小程序Skyline在手机端不渲染的问题之一及其解决方式

问题:电脑端是skyline渲染,手机端是webview渲染?如何解? 开发者工具 当前渲染模式:Skyline 当进行预览时手机端却是: 请注意看轮播图的显示情况 请注意看轮播图的显示情况 请注意看轮播图的显示情况 从轮播图上来看,手机端是webview渲染…

“有国才有家”这个观点应该怎么理解?

​《有国才有家》这首歌由马仕健作词作曲,蒋国佳编曲,刘畅混音,马仕健演唱。 “家是最小国,国是千万家”。千百年来,“家国”这两个词一直紧紧联系在一起。“国家好,民族好,大家才会好”&#x…

【嵌入式学习】C++QT-Day3-C++基础

笔记 见我的博客:https://lingjun.life/wiki/EmbeddedNote/19Cpp 作业 设计一个Per类,类中包含私有成员:姓名、年龄、指针成员身高、体重,再设计一个Stu类,类中包含私有成员:成绩、Per类对象p1,设计这两个类的构造函…

Linux文件管理(下)

上上篇介绍了Linux文件管理的上部分内容,这次继续将 Linux文件管理的剩余部分说完。内容如下。 一、查看文件内容 1、cat 命令 1.1 输出文件内容 基本语法: cat 文件名称主要功能:正序输出文件的内容。 eg:输出 readme.txt文…

对Spring当中AOP的理解

AOP(面向切面编程)全称Aspect Oriented Programminge AOP就是把系统中重复的代码抽取出来,单独开发,在系统需要时,使用动态代理技术,在不修改源码的基础上,将单独开发的功能通知织入(应用)到系统中的过程,完…

慎投!这3本期刊诚信风险高,被警告和风险低的期刊选哪个?

近年来,学术界对学术诚信的关注越来越多,期刊的学术诚信风险也日益受到关注。科睿唯安在今年三月份剔除的35本SCI期刊中,绝大多数涉及学术诚信问题!据官方介绍,其已正式开发了一款AI工具,可以锁定存在学术诚…

【JavaScript 基础入门】01 编程语言和计算机基础

编程语言和计算机基础 目录 编程语言和计算机基础1 - 编程语言1.1 编程1.2 计算机语言1.3 编程语言1.4 翻译器1.5 编程语言和标记语言区别1.6 总结 2 - 计算机基础2.1 计算机组成2.2 数据存储2.3 数据存储单位2.4 程序运行 1 - 编程语言 1.1 编程 编程: 就是让计算…

微信小程序(二十二)获取全局实例

注释很详细,直接上代码 上一篇 新增内容: 1.全局实例的定义位置 2.全局实例中数据的修改方法 源码: app.js App({//数据可以包括在第二级globalData:{userInfo:null,token:1243,userInfo:null},//globalData并不是关键词,数据可以…

预制菜春节大洗牌,味知香、千味央厨谁是“硬菜”?

2024年春节预制菜销量走俏,预制菜依然是消费者“年夜饭”上的重头戏。各大生鲜平台、电商、商超、餐饮门店都纷纷开卖春节预制菜。 预制菜赛道两大“玩家”:“预制菜第一股”味知香(605089.SH)、“餐饮供应链第一股”千味央厨(001215.SZ)均在…

jrt运维命令改造

以前发布网站都是定死网站放置路径的,现在JRT想面向更广范围推广,所以就不能明确确定网站放置目录,为此需要改造一下jrt命令和sh来满足目录不确定情况和多个程序用不同管理命令的要求。 以前是写死的,现在改为调程序运行目录的sh…

在Mixamo网站上,下载的模型导入unity后没有材质怎么解决

在Mixamo网站上,下载的模型导入unity后没有材质 1.导入的模型没有材质2.解决方法3.提取后就有材质了 1.导入的模型没有材质 2.解决方法 选中导入的模型 > 选择提取纹理>选择你要提取到的文件夹(默认是当前文件夹)>点击 fix now 3.提取后就有材质了

【漏洞复现】中移铁通禹路由器弱口令漏洞

Nx01 产品简介 中移禹路由器支持宽带拨号、动态IP和静态IP三种上网模式,一般中国移动宽带的光猫都是智能光猫也就是光猫带路由器功能,中移禹路由器作为二级路由使用。 Nx02 漏洞描述 中移禹路由器存在默认口令(admin),攻击者可利用该漏洞获取敏感信息。 Nx03 产品…

《HTML 简易速速上手小册》第7章:HTML 多媒体与嵌入内容(2024 最新版)

文章目录 7.1 在HTML中嵌入视频和音频7.1.1 基础知识7.1.2 案例 1&#xff1a;嵌入视频文件7.1.3 案例 2&#xff1a;嵌入音频文件7.1.4 案例 3&#xff1a;创建一个视频和音频混合的播放列表 7.2 使用 <iframe> 嵌入外部内容7.2.1 基础知识7.2.2 案例 1&#xff1a;嵌入…

四. 基于环视Camera的BEV感知算法-BEVFormer实战

目录 前言1. BEVFormer实战 前言 自动驾驶之心推出的《国内首个BVE感知全栈系列学习教程》&#xff0c;链接。记录下个人学习笔记&#xff0c;仅供自己参考 本次课程我们来学习下课程第四章——基于环视Camera的BEV感知算法&#xff0c;一起去学习下 BEVFormer 的相关代码 课程…

Matlab图像平滑滤波学习笔记——卷积、中值滤波、排序滤波以及自适应滤波

1.引言 图像处理是计算机视觉领域中的一个重要分支&#xff0c;其目标是通过对图像进行各种操作来改善图像的质量或提取出特定的信息。在图像处理的诸多任务中&#xff0c;平滑和滤波是常见且关键的操作&#xff0c;用于去除噪声、增强细节或突出图像中的特征。本文将重点介绍…

探索Viper-适用于GoLang的完整配置解决方案

前言 对于现代应用程序&#xff0c;尤其大中型的项目来说&#xff0c;在程序启动和运行时&#xff0c;往往需要传入许多参数来控制程序的行为&#xff0c;我们可以通过命令行参数&#xff0c;环境变量&#xff0c;配置文件等方式来将参数传递给程序。而Viper库为Golang语言开发…

麒麟系统安装minio_centos8.0安装最新minio_离线安装minio并设置权限_创建桶---minio工作笔记001

https://www.minio.org.cn/?id=18&id=3&id=0&id=11&id=9&spinz=qianfeng&adinfo678=baidu&spinz=qianfeng&adinfo678=baidu%3E 首先去到官网去下载minio,然后 可以看到已经显示的官网,然后再去,右边点击下载 进入下载页面一般都是amd64的版本…