谈一谈数据虚拟化的技术核心和应用架构

数据虚拟化(Data Virtualization)是对数据资源的抽象,通过屏蔽数据资源的存储位置和访问方式,能够将不同数据源、不同格式的数据资源,进行逻辑上的整合集成。这一技术方案与过去面对传统数仓的弊端,业界过去经常采取的方式 Presto 方案有一定相似,但存在明显差别。

Presto 的架构本质上是一个 MPP 的引擎,其架构导致绝大部分使用 Presto 的场景都是在 ETL 最末端的消费层 ,本身面向的是 OLAP 查询。但是 Presto 可以支持跨源查询,如果想延伸到数据仓库,就意味着需要获取支持大规模数据构建的能力,而 Presto 的架构便无法再支持。

所以,数据虚拟化不等于 Presto,Presto 可以解决一部分类似于虚拟化的问题,但无法支持大规模数据构建,限制了其在数据仓库领域的应用。

其实,早期的虚拟化技术也能解决部分数据采集、数据转换的问题,而 Aloudata 的数据虚拟化技术却能做到面向全场景的能力,其核心最关键的就在于 RP 技术的突破

RP(Relational Projection)的全称是关系投影,可以理解为是一个简化传统物理作业的过程。以前 ETL 工程师需要编写 SQL,并要将数据插入到物理表中,而现在,只需编写生成数据的逻辑,再也不必关心数据是否插入了物理表。

RP 跟传统的 OLAP 引擎里面的物化视图有明显不同。传统的物化视图更多面向一些大的 SQL 的性能加速,更多的是一种加速或缓存,这种特征代表了其丢失后不会产生影响。RP 实际对标着 ETL 同学研发的作业,以前在数仓中,如果 ETL 研发作业、作业数据出现问题,查询失误则不可避免。因此物化视图与RP 的定位是不同的,在技术设计方案上也有着极大差别,包括:

一、多层 RP 构建与调度:这些真实物理作业生成的 RP 与 ETL 作业并无差别,也会有强弱依赖、分区对齐、跨周期依赖等,但其是自动生成的,而非人工配置。此外,RP 支持大规模的数据构建,支持自动推导判断全量构建、增量构建或分区构建;

二、数据的多版本能力 :RP 的数据有多个版本,而物化视图则是缓存逻辑,数据一旦构建出错,其物化视图就失效了;RP和数据通过版本切换及数据缝合技术实现新老数据的切换和组合。

三、PRP(Predictive Relational Projection)技术:这是我们在技术上取得的一个较大的突破,可以通过根据的用户的查询历史,以及定义资产的关系来实现自适应的智能加速方案;

四、RP 的自动回收:从数据仓库或 ETL 同学的视角来看,很多数仓作业在上线之后便无人关心其使用情况和生命周期的问题,造成只上不下的局面。因此,数仓数据越堆越多,必然需要通过治理来降低其计算存储成本。在拥有虚拟化之后,此过程凭借自动回收能力,取消人工操作步骤。

说完了数据虚拟化的技术原理,我们再来看一下数据虚拟化的应用架构,它主要包括两种典型的架构,不同的应用架构对应的应用场景也不相同

单层的虚拟化架构:通过一个虚拟化层把公司所有元数据连接在一起,随时可用;

多层的虚拟化架构:更多的是用于集团性公司或分地域的、多层级的公司。由于组织架构的复杂性,对数据使用有着严格的隔离和权限要求,很多情况下不具备将数据进行物理集中的条件,但又希望能够实现全域数据要素的流通和价值挖掘。

值得一提的是,作为 Data Fabric 架构理念的实践者与引领者,依托于自研的数据虚拟化技术,Aloudata 打造了国内首个逻辑数据平台——Aloudata AIR,能够帮助用户轻松实现全域数据的逻辑连接、快速访问和查询,并能够根据业务分析需求,进行跨数据源的数据整合,以及灵活开展数据分析和应用工作。

同时,Aloudata AIR 支持全局数据资产目录和统一数据服务,为下游用户与应用提供了统一的数据发现和访问入口,解决了“数据孤岛”造成的全域数据查找难、跨源查询难和集中安全治理等问题;支持人工指定物化加速和 AI 增强的自适应物化加速,基于用户查询行为,实现自动化物化链路编排和智能查询下推,让用户无需担心虚拟化带来的大数据量查询性能问题,实现全域数据更低成本、更实时地流通和消费。

 

目前,Aloudata AIR 逻辑数据平台已帮助招商银行构建了统一的敏捷数据使用平台,使业务团队在一个地方即可统一查找和理解数据,并通过逻辑视图定义和自动化编排,轻松处理和准备数据,每月由业务团队自助生成的数据已占总数据的 70% 以上。同时,动态集成和自动化编排减少了不必要的数据复制、计算和存储,至少节约了 50% 以上的存算成本。访问Aloudata 官网,即刻了解。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/52230.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

板子电源接线

目的 就是电源接板子时,分清正负 过程 AC、交流电 没有正负 分火线和0线 AC-L 交流火线 AC-N 交流0线 FG:接的是大地 G:是直流输出的地 U:表示的是电压 DC是直流正,DC-是直流负 2个AC是接交流的,一般是左…

免费的真是太香了!Chainlit接入抖音 Coze AI知识库接口快速实现自定义用户聊天界面

前言 由于Coze 只提供了一个分享用的网页应用,网页访问地址没法自定义,虽然可以接入NextWeb/ChatGPT web/open webui等开源应用。但是如果我们想直接给客户应用,还需要客户去设置配置,里面还有很多我们不想展示给客户的东西怎么办…

源代码一定要加密!10款超级好用的源代码加密软件排行榜

在当今高度竞争的商业环境中,源代码不仅是软件产品的基础,更是企业的核心资产之一。保护源代码免受未经授权的访问和盗窃至关重要。为此,许多企业采用源代码加密软件来为这一重要资产增加额外的安全层。以下是2024年企业通用的十大源代码加密…

session、cookie、token概念介绍

一、Cookie 1、cookie介绍 Cookie是网站为了辨别用户身份而储存在用户本地终端(Client Side)上的小型文本文件。 作用:Cookie主要用于保存用户登录信息、浏览记录等,以便用户再次访问时能够自动识别并提供个性化服务。存储位置…

SEO优化:如何优化自己的文章,解决搜索引擎不收录的问题

可以使用bing的URL检查,来检查自己的文章是不是负荷收录准测,如果页面有严重的错误,搜索引擎是不会进行收录的,而且还会判定文章为低质量文章! 检查是否有问题。下面的页面就是有问题,当然如果是误报你也可…

【与C++的邂逅】--- 类和对象(上)

Welcome to 9ilks Code World (๑•́ ₃ •̀๑) 个人主页: 9ilk (๑•́ ₃ •̀๑) 文章专栏: 与C的邂逅 本篇博客将讲解C中的类和对象,C是面向对象的语言,面向对象三大特性是封装,继承,多态。学习类和对象,我们可…

[数据集][目标检测]集装箱缺陷检测数据集VOC+YOLO格式4127张3类别

数据集格式:Pascal VOC格式YOLO格式(不包含分割路径的txt文件,仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件) 图片数量(jpg文件个数):4127 标注数量(xml文件个数):4127 标注数量(txt文件个数):4127 标注…

echart改变legend样式及分页

legend: {type: "scroll",orient: horizontal, // 纵向,默认横向不用写pageIconColor: #1b9aee, //翻页下一页的三角按钮颜色pageIconInactiveColor: #7f7f7f, //翻页(即翻页到头时)// 配置滚动类型的图例pageTextStyle: {color: &…

C语言每日好题(3)

有任何不懂的问题可以评论区留言&#xff0c;能力范围内都会一一回答 #define _CRT_SECURE_NO_WARNING #include <stdio.h> #include <string.h> int main(void) {if ((strlen("abc") - strlen("abcdef")) > 0)printf(">\n")…

C++_进阶:AVL树

文章目录 1. AVL树的概念2. AVL树节点的定义3. AVL树的插入4. AVL树的旋转4.1 右单旋4.2 左单旋4.3 左右双旋4.4 右左双旋 5.AVL树的验证6. AVL树模拟实现 1. AVL树的概念 二叉搜索树虽可以缩短查找的效率&#xff0c;但如果数据有序或接近有序二叉搜索树将退化为单支树&#…

git 学习--GitHub Gitee码云 GitLab

1 集中式和分布式的区别 1.1 集中式 集中式VCS必须有一台电脑作为服务器&#xff0c;每台电脑都把代码提交到服务器上&#xff0c;再从服务器下载代码。如果网络出现问题或服务器宕机&#xff0c;系统就不能使用了。 1.2 分布式 分布式VCS没有中央服务器&#xff0c;每台电脑…

将 hugo 博客搬迁到服务器

1. 说明 在 Ubuntu 22.04 上使用 root 账号&#xff0c;创建普通账号&#xff0c;并赋予 root 权限。 演示站点&#xff1a;https://woniu336.github.io/ 魔改hugo主题: https://github.com/woniu336/hugo-magic 2. 服务器配置 建立 git 用户 adduser git安装 git sudo apt …

python | 图片转换为 pdf 实现方法

目录 一、PIL 库简介及安装使用方法 &#xff08;一&#xff09;python 不同版本下 PIL 的使用方法 二、图片转换为 pdf 的两种实现方法 &#xff08;一&#xff09;简易版——pdf 页面尺寸跟随图片大小 &#xff08;二&#xff09;常用版——pdf 每页尺寸统一为 A4 一、P…

shellcode汇编复习

shellcode汇编复习 一、 汇编代码复习1.1 基础寄存器1. EAX (Accumulator Register)2. EBX (Base Register)3. ECX (Count Register)4. EDX (Data Register)5. ESI (Source Index Register)6. EDI (Destination Index Register) 二、 基础指令1. mov - 数据传送2. add - 加法3.…

Ansys Zemax|如何有效地模拟散射

附件下载 联系工作人员获取附件 概要 OpticStudio中&#xff0c;有两个用来提升散射模拟效率的工具&#xff1a;Scatter To List以及Importance Sampling。在这篇文章中&#xff0c;我们详细讨论了这两个工具&#xff0c;并且以一个杂散光分析为例示范了如何使用Importance S…

简单的jar包重打包Failed to get nested archive for entry 报错处理

简单的jar包重打包Failed to get nested archive for entry 报错处理 1. 需求 公司有一个后端项目&#xff0c;项目已经打好了jar包&#xff0c;现在我们发现jar包依赖的子包有问题&#xff0c;其中的一个mybatis xml文件查询数据不正确&#xff0c;我们需要替换项目&#xf…

批量将labelme的json文件转为png图片查看

文章目录 前提修改 l a b e l m e labelme labelme然后你就可以在这个环境下用代码批量修改了 前提 安装anaconda或者miniconda安装labelme 修改 l a b e l m e labelme labelme 查看labelme所处环境的路径&#xff1a;conda info --envs 比如我的是在py39_torch里面 修改la…

秋招力扣Hot100刷题总结——链表

1. 反转链表题目连接 题目要求&#xff1a;给你单链表的头节点 head &#xff0c;请你反转链表&#xff0c;并返回反转后的链表。 代码及思路 遍历所有节点&#xff0c;将所有节点的next指向前一个节点由于要改变节点的next指向&#xff0c;而链表是单向的&#xff0c;因此需要…

【Mac】植物大战僵尸杂交版 for Mac(经典策略塔防游戏)游戏介绍

游戏介绍 植物大战僵尸杂交版 for Mac是一款非常受欢迎的策略塔防游戏&#xff0c;植物大战僵尸游戏以其独特的主题、幽默的风格和富有挑战性的关卡设计而著称。玩家需要种植各种植物来防御入侵的僵尸&#xff0c;每种植物都有其特定的功能和攻击方式。植物大战僵尸杂交版&…

Android 上下滑隐藏显示状态栏

一、DisplayPolicy类中监听滑动事件&#xff0c;然后发送广播事件 Android12类路径&#xff1a; frameworks/base/services/core/java/com/android/server/wm/DisplayPolicy.javamSystemGestures new SystemGesturesPointerEventListener(mUiContext, mHandler,new SystemGest…