内含干货PPT下载|一站式数据管理DMS及最新解决方案发布

简介: 今天主要给大家介绍一站式数据管理平台DMS以及解决方案的发布。议题包含企业数据管理当前的一些痛,DMS一站式数据管理平台以及其核心技术,实时数仓解决方案以及相应的应用实践。

“数聚云端·智驭未来”——阿里云数据库创新上云峰会暨第3届数据库性能挑战赛决赛颁奖典礼已圆满结束,更多干货内容欢迎大家观看峰会直播回放。

峰会直播回放📎数聚云端 · 智驭未来——阿里云数据库创新上云峰会-技术公开课-阿里云开发者社区

干货PPT下载📎文件下载-阿里云开发者社区

image001.png

中国数字经济的占比在持续的提升,在企业经营管理过程中行业的头部集中效应使得精细化运营成为一个非常重要的话题,那么企业的数字价值挖掘就变得越来越重要。

image003.png

回看一个企业内部整个数据生产的生命周期,包含的数据生产与存储,数据的处理和分析以及数据应用,但实际上很少有一个平台把这三个方面全部打通做成统一支撑的平台。大部分企业随着各个业务的发展会产生根据业务特点定义的数据存储生产系统,企业的数仓分析也大部分是独立建设的,在这个过程中如何实现数据系统之间的打通和价值挖掘,就变成比较困难的问题。所以在各个报告里面我们看到在2022年新业务使用实时数据的占比会达到50%以上。

image005.png

企业在真正实践过程中就会遇到数据孤岛以及管理数据的问题,数据库类型非常多,数据链路的加工过程就非常复杂,维护成本非常高,稳定性的问题挑战很大。如何进行多种异构数据的统一管理,如何去做安全治理都变成很有挑战的问题。在这个背景下阿里云数据库提出了一站式数据管理平台DMS理念。

image007.png

DMS统一管理企业的数据资产,包括数据库的开发和设计、数据集成与加工、数据开发、数据分析、数据应用,整个过程全面打通。从架构图看到,底层对接各种异构的数据源,在中间沉淀了类似数据血缘,数据治理,数据编排,和任务调度,这些都会成为我们中间很重要的数据支撑能力。上层我们会把应用的场景产品化,比如数据安全管理,容灾/多活能力,数据归档、实时数仓构建等等一些能力产品化,这样就可以让更多的企业低门槛去使用数据解决方案。

image009.png

整体技术的架构分三层建设,底层基础服务提供数据安全体系,数据资产管理的体系,开发运营体系。中间的支撑引擎主要分成管控平面和数据平面两个部分,控制平面包含任务执行引擎以及稳定变更相关的引擎建设;数据平面包含数据结构的迁移,全量/批的数据同步以及实时的流的数据同步、数据转换,以及多源异构的联邦查询能力。上层是业务功能,主要面向像数据安全、数据库的DevOps,包括数据集成和数据开发相关的应用场景。

image011.png

DMS包含了几个重要的核心技术特性,主要包括数据资产与安全,数据库DevOps能力以及数据集成与开发。

image013.png

在整个数据资产与安全方面,其实最核心构建的是整个全域数据资产管理,让企业数据不需要进行物理集中就能够快速找到所要的数据进行数据资产的治理,同时能够让数据本身的管理覆盖整个生命周期的安全。

image015.png

展开两个点来讲,一个是数据的知识图谱的构建。我们会把业务数据以及它真正的物理元数据全部都采集回来让业务能够打标,用schema matching相关的技术去学习数据之间字段之间的关联关系,把业务的逻辑定义和物理定义映射起来。同时业务在使用DMS开发平台过程中会沉淀人员、数据和权限相关的一些关联关系以及业务相关领域的数据标记,这些东西会构建成整个数据资产关联关系知识图谱,这个知识图谱就可以应用在多源异构的各种数据类型,怎么样去根据业务的要求去做一个数仓的宽表,那么数据之间关联关系的构建过程中,企业的数据工程师就不需要对所有的数据模型非常的熟悉,因为DMS能够把这些能力提前的沉淀到系统里面,进行选择筛选过滤,就得到这个数仓的宽表,以及可以通过这个知识图谱的能力能够让企业的数据治理数据安全管理变得更加的可控。

image017.png

关于敏感数据识别,企业内部的所有数据进行统一管理后,平台就可以帮你自动把数据进行分级分类,在分级分类的基础上可以进行包括GDPR的在内的五种法案的敏感数据自动识别自动发现,企业可以使用我们超过15种的脱敏算法在应用生产过程中。我们也提供了安全代理的能力,让企业不需要有数据库的账号也可以动态的实现数据的查询和脱敏。

image019.png

第二个部分的核心能力是DevOps,安全和整个开发平台是结合在一起的。我们的整个平台其实有点像workbench是面向开发者的,底下对接着非常多的数据源,上面提供丰富的开发者开发工具集,因此DMS的平台在云上已经有超过10万个周活用户,它会帮助用户去做数据库的表结构设计,数据变更,以及相关的发布。我们提供安全规则引擎,它会内嵌在企业数据库开发的整个操作过程中,开发者会在一个受控的权限体系里面获得最大的便利性,安全和效率得到很好的平衡,这是整个设计的核心的理念。

image021.png

安全规则引擎本质是把企业的结构设计、数据变更、数据导出等等操作和操作的具体对象,比如对应的数据库类型(每种数据库类型可能都有不一样的最佳实践),以及对应的工单人员等等串起来,形成操作人、操作动作、操作对象相关的权限映射。阿里内部沉淀了超过两百多的研发规范模板可以默认使用,也可以由企业内部根据需求来定义自己的DSL,能够很方便的去定义安全规则能力。

image023.png

在变更部分也实现了变更安全能力,变更安全可以理解是企业变更发布过程中的安全能力,包括像SQL安全的审核,以及正式的SQL执行的过程中,对于表结构或者大批量数据操作,变成多次的小批量,通过SQL自动改写防止源库的稳定性抖动,包括表结构的变更的锁表的问题变成不锁表变更,等等一些细粒度的变更安全的把控。

image025.png

再往下其实就是要去发挥数据价值,我们重点建设像流批一体这样的数据传输链路,包括低代码的开发平台,通过多引擎的计算能力的支持来构建整个数据集成与开发的能力。

image027.png

整个DMS底下的数据传输会基于阿里云底层建设的数据传输服务,传输服务DTS是主流云厂商中最早发布的数据传输产品,它实现了多源异构数据的实时传输,在实时性以及稳定性上面已经经过很好的锤炼。

image029.png

在结构迁移全量以及增量的整个链路实现了完整的实时数据的传输,同时对于半结构或者是非结构化数据也会通过语义的识别,元数据的自动构建,包括数据类型的自定义,去构建数据的快速入库和入仓,把这些数据变成可分析可使用的一种数据资产。

image031.png

整个流批一体的数据架构最主要的是整个体系建设里面使用了Recored Store内存数据处理的模块,流和批处理转换一致,整个数据加工处理过程变得很简单。

image033.png

在数据开发者的界面上,我们提供了拖拉拽的方式去定义数据的加工流程,数据源以及SQL操作的节点,数据传输的节点,数据转换都变成可以通过拖拉拽去定义。企业的应用工程师、数据库开发者都可以去做这种数据加工定义。

image035.png

阿里云实时数仓构建解决方案中使用的是库仓一体的技术架构,就是数据库和数据仓库是一体化统一管理的技术架构。相比以前很多做数据链路时会把在线数据拉到一个离线存储去计算,再把计算结果回流到在线生产系统里面,这个流程非常长,数据链路和存储成本都会相应的比较高。我们实时数仓构建的解决方案是在你做全量数据初始化的时候不需要在目标端进行表结构的初始化,我们在批量数据过程中会帮你把表结构自动在目标构建。做增量数据过程中,源端发生任何的表结构变更或者源端的主备切换等变更,都不会影响整个链路的稳定性,会在目标端实现这个表结构的同步,对整个链路自动透明掉。

接下来通过两分钟视频了解DMS实时数仓构建解决方案。如何通过数据来提升生产力成了企业不断探索的方向,而数据仓库在其中发挥着关键作用。传统数仓一般基于T+1数据集成,构建离线数仓以支撑企业各项分析与服务,该方案不但会影响线上业务稳定性,且难以支持企业高频变化的实时需求,企业由此开始建设实时数仓。那么怎样构建一个企业及实时数仓呢?接下来为大家介绍如何通过阿里云一站式数据管理平台DMS和云原生实时数据仓库VB引擎来构建与在线系统增删改的延时保持在一秒内的实时数仓DMS支持两种实时数仓构建方案,实时数据入仓及基于实时拉链表的T+1周期性快照。

其中实时数据入仓支持两种方式。方式一,通过DMS实现历史全量+增量数据实时同步至ADB 实时数仓。方式二,通过DMS数据传输与加工模块进行实时数据加工后写入ADB实时数仓。为了满足业务上对于T+1快照数据需求,DMS推出了一种不影响线上业务的T+1周期性快照方案。下面介绍该方案使用方式。

通过DMS与工单模式可快速搭建基于实时数据的周期性快照,既能支持小时/天维度的快照分析,也能够支持回溯任意业务时间点进行分析,从而支持业务侧按不同时间统计总存款、总余额、总订单额等场景需求。

阿里云实时数仓构建方案相较其他方案提供了如下优势,一、数据时效性高,且实时链路对业务侧影响小,不会因为批量拉取数据影响业务侧正常运行。二、实现库仓一体的一站式数据管理,源端运维变更对链路无感知,保障多元数据汇聚时效性、稳定性和全链路血缘。三、内置复杂实时数据加工、计算逻辑、处理链路短。四、低代码操作能够大大降低实时数仓的构建难度,提升构建效率的同时,支撑企业数字化转型过程中的各类实时场景。

下面介绍两个实践,第一个案例:某汽车厂商使用DMS+ADB的解决方案来构建数据集市和营销平台。

image037.png

第二个案例:某银行使用DMS+ADB构建T+1数据仓库的解决方案。

image039.png

原文链接
本文为阿里云原创内容,未经允许不得转载。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/512255.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

java 数组数据类型_java基本数据类型和数组

第一类:逻辑型boolean第二类:文本型char第三类:整数型(byte、short、int、long)char类型占2个字节short从-32768到32767int从-2147483648,到2147483647共10位long从-9223372036854775808到9223372036854775807共19位第四类:浮点型(float、double)在数学中0到1有无数个浮点数&am…

kube-scheduler 磁盘调度源码分析

作者 | leadersnowy来源 | CSDN博客kube-scheduler介绍首先我们知道,kube-scheduler的根本工作任务是根据各种调度算法将Pod调度到最合适的工作节点上一、整个调度流程分为两个阶段:1、预选(Predicates):输入是所有节点…

开放搜索查询分析服务架构解读

简介: 搜索行为在后端都会有大量的数据计算和处理才会召回符合用户需求的搜索结果,本次分享结合自建搜索业务中查询分析服务常见的问题及难点,介绍阿里云开放搜索查询分析具备的能力及解决方案,并深度解读阿里巴巴查询分析服务架构…

多任务多目标CTR预估技术

简介: 多目标(Multi Objective Learning)是MTL中的一种。在业务场景中,经常面临既要又要的多目标问题。而多个目标常常会有冲突。如何使多个目标同时得到提升,是多任务多目标在真实业务场景中存在的意义。 作者 | 志阳…

Veeam 发布 2022 年数据保护趋势报告,开发者需关注哪些点?

如今数据作为重要的生产要素,成为数字经济高速发展的关键驱动力之一。越来越多开发者和企业认识到数据保护的重要性,关注数据保护发展趋势,以通过相关的技术解决方案来制定应对策略。 为帮助企业捋请思路,加快数字化转型步伐&…

blazeds调用java_Flex使用Blazeds与Java交互及自定义对象转换详解(转)

一、建立Flex与Java交互的工程。本文中讲到的交互是利用Blazeds的,因为这个是免费的,呵呵,我是穷人。首先就是去下载Blazeds的压缩包,这个可以从官网或者CSDN、JavaEye上下到。解压缩这个包,将里面的Blazeds.war解压&a…

从行业应用到智慧城市,升哲科技Alpha协议如何保障物理世界的数据传输

随着国家《“十四五”信息通信行业发展规划》和《物联网新型基础设施建设三年行动计划(2021-2023年)》的政策出台,物联网的产业发展迎来了新一波浪潮。在农业、制造业、生态环境、智慧消防等场景下,以数字化转型、智能化升级为动力…

Serverless 工程实践 | 零基础上手 Knative 应用

简介: Knative 是一款基于 Kubernetes 的 Serverless 框架。其目标是制定云原生、跨平台的 Serverless 编排标准。 Knative 介绍 Knative 通过整合容器构建(或者函数)、工作负载管理(动态扩缩)以及事件模型这三者实现…

DataWorks功能实践速览 05——循环与遍历

简介: DataWorks功能实践系列,帮助您解析业务实现过程中的痛点,提高业务功能使用效率!通过往期的介绍,您已经了解到在DataWorks上进行任务运行的最关键的几个知识点,其中上期参数透传中为您介绍了可以将上游…

阿里安全开源顶尖技术“猎豹” 计算更快数据更安全

两家公司想开展合作,发挥各自优势联合开发一款产品,如何以“隐私计算”的形式,在保护隐私的情况下,高效地实现两方联合计算,便成为解决这一问题的关键。 最近,阿里安全最新研发的Cheetah(猎豹&…

PaddlePaddle:在 Serverless 架构上十几行代码实现 OCR 能力

简介: 飞桨深度学习框架采用基于编程逻辑的组网范式,对于普通开发者而言更容易上手,同时支持声明式和命令式编程,兼具开发的灵活性和高性能。 飞桨 (PaddlePaddle) 以百度多年的深度学习技术研究和业务应用为基础,是中…

云原生体系下 Serverless 弹性探索与实践

简介: SAE 通过对弹性组件和应用全生命周期的不断优化以达到秒级弹性,并在弹性能力,场景丰富度,稳定性上具备核心竞争力,是传统应用 0 改造上 Serverless 的最佳选择。 作者:竞霄 Serverless 时代的来临 …

java jndi使用_Java项目中使用JNDI连接数据库

因为写的大作业经常用到数据库连接 所以自己写了个数据库连接的类 package DB_Link_info;/* * 数据库链接信息 */public class DB_link_Info {public static final String driverName "com.microsoft.sqlserver.jdbc.SQLServerDriver";public static开发环境为Java,…

Joint Consensus两阶段成员变更的单步实现

简介: Raft提出的两阶段成员变更Joint Consensus是业界主流的成员变更方法,极大的推动了成员变更的工程应用。但Joint Consensus成员变更采用两阶段,一次变更需要提议两条日志, 在一些系统中直接使用时有些不便。那么Joint Consen…

真香!8 行代码搞定最大子数组和问题

作者 | 码农的荒岛求生来源 | 码农的荒岛求生今天给大家带来一道极其经典的题目,叫做最大和子数组,给定一个数组,找到其中的一个连续子数组,其和最大。示例:输入: nums [-2,1,-3,4,-1,2,1,-5,4] 输出: 6 解释: 子数组…

深度干货|云原生分布式数据库 PolarDB-X 的技术演进

简介: 深入解读PolarDB-X的产品架构,以及分布式事务、透明分布式、水平扩展等技术内幕。 一、PolarDB-X是什么 PolarDB-X最早起源于阿里集团2009年提出用分布式架构替代传统商业数据库,阿里研发了TDDL分库分表中间件。2014年阿里集团开始全…

OpenStack 如何跨版本升级

作者 | 孙琦来源 | 万博智云OpenStack是中国私有云的事实标准根据三方统计报告,2020年,中国私有云市场规模达到951.8亿元,同比增长42.1%,私有云在国内IaaS市场占比约45%。私有云提供商有望在云计算市场持续高速发展进程中持续受益…

流计算引擎数据一致性的本质

简介: 本篇文章从流计算的本质出发,重点分析流计算领域中数据处理的一致性问题,同时对一致性问题进行简单的形式化定义,提供一个一窥当下流计算引擎发展脉络的视角,让大家对流计算引擎的认识更为深入,为可能…

java 的io流需要学吗_Java的IO流之字节流,必须要学得内容,你会嘛?

原标题:Java的IO流之字节流,必须要学得内容,你会嘛?伙伴们~端午节过的如何呀~有没有很开心呀~假期已过咱们继续开动了IO流先来认识一下IO流:IO流用来处理设备之间的数据传输,Java对数据的操作是通过流的方式…

为什么大家都在抵制用定时任务实现「关闭超时订单」功能?

作者 | 阿Q来源 | 阿Q说代码前几天领导突然宣布几年前停用的电商项目又重新启动了,让我把代码重构下进行升级。让我最深恶痛觉的就是里边竟然用定时任务实现了“关闭超时订单”的功能,现在想来,哭笑不得。我们先分析一波为什么大家都在抵制用…