玩转DB里的数据—阿里云DMS任务编排之简介和实操

5-6-3.gif

1.任务编排介绍

数据库是企业IT系统里的重要基础设施,里面存储了大量有价值的数据资产,如:交易数据、客户数据、订单数据,等等。其实,数据库在企业里一直扮演着一个数据生产者(Producer)的角色,日积月累这些数据会形成一个巨大的宝藏。但是,随着数据库中数据量的增长和数据形态的多样化,如何对数据进行存储、迁移和加工,并挖掘出其中的价值,是许多企业面临的难题。

为解决上述问题,阿里云DMS(Data Management Service)产品近期推出了一个新功能——任务编排。无论您的数据库部署在何处(阿里云/本地IDC/其他云厂商等),是何种类型(OLTP交易型数据库/OLAP分析型数据库),DMS任务编排都能够触达您的数据库,让您轻松地对数据库中的数据进行流转、加工和变换。DMS任务编排提供的主要功能和特性包括:

  • 丰富的数据迁移能力:可实现数据库与数据库之间(如:OLTP在线库与OLAP离线库)、数据库与弹性存储之间(如:MySQL与OSS)的数据自由流动;
  • 丰富的数据加工手段:单库SQL任务、跨库SQL任务、数据迁移任务、Spark任务、数据备份与恢复服务(建设中);不仅可以通过SQL语句对单个数据库或多个数据库里的数据进行加工,还可编写Spark任务进行复杂的数据处理和AI分析;
  • 任务流和定时调度:通过可视化的方式将多个任务节点进行编排形成任务流,灵活按需设置多种不同粒度间隔的定时调度;
  • 按模板一键创建任务流:为不同的场景(如:历史数据归档到OSS)内置了任务流模板,用户可一键生成模板任务流,通过简单的配置即可应用于生产;
  • 牢靠的数据安全保障:依托DMS强大的数据安全能力,任务编排会对用户权限进行严格检查,仅限有权限的用户才能执行相应的任务。

了解了DMS任务编排的功能,你一定开始好奇用DMS任务编排能做什么?下图展示了DMS任务编排支持的四类主要场景:
image.png

场景1:数据归档

目前比较流行的有两类数据库:传统单机版数据库(如:MySQL)和云原生数据库(如:阿里云PolarDB和AnalyticDB for MySQL)。前者的存储空间是有限的,后者虽然可以对存储扩容,但也要收取较高的费用。那么,当数据库中的数据量持续增长时,该如何降低存储成本呢?许多用户希望能将数据库中的冷数据/历史数据转储到可靠又低价的存储上,如:阿里云对象存储(OSS)。现在通过DMS任务编排,可轻松实现数据库数据周期归档(如:每日/每周)到OSS的需求。同时,DMS还有好地对接了阿里云数据湖分析产品(DLA),用户可在DMS里方便地访问DLA,对归档到OSS上的数据进行即席查询和分析。

场景2:数据集成

企业的数据可能分散在不同的数据源中(如:MySQL、SQL Server),也可能分散在不同的地域(例如:北京、杭州、深圳)。导致数据分散的原因有很多,比如:业务的垂直划分、微服务、应用的本地部署等等。数据的分散不可避免,但同时许多企业又有数据集成的需求,需要将各地的数据汇聚到一起进行全局分析(如:汇总和AI分析),典型的场景就是OLTP交易库的数据同步至OLAP分析库做离线分析。通过DMS任务编排,可以轻松实现这一需求。首先,DMS打通了各种网络环境(如:阿里云VPC/经典网络,本地IDC网络),可连接至各个地域的数据源。其次,DMS支持异构数据源间的数据集成,如:RDS MySQL到AnalyticDB。此外,通过DMS任务编排,还能满足各种集成方式的需求,如:单次全量集成、周期性增量集成。

场景3:数据加工

做完数据集成之后,用户通常还要对汇聚的原始数据进行加工、清洗和分析,才能挖掘出其中的价值,例如:每日统计产品的用户数(UV),按周产生报表数据。DMS任务编排提供了任务流和定时调度能力,通过任务流可以将复杂加工任务进行拆解和编排,然后配置调度信息。DMS支持单次调度和周期调度(如:按日、周、月),此外还支持多类型的加工任务,用户可使用SQL进行数据加工,也可编写Spark程序进行复杂的数据处理和AI分析。通过丰富的调度配置和任务类型,DMS任务编排能满足各种简单/复杂场景的数据加工需求。

场景4:定时操作

在日常数据库的使用中,有许多DML/DDL/DCL操作需要定期执行,如:每周清理历史数据(DELETE)防止表过大、每日更新统计信息(ANALYZE TABLE)以获得更好的查询优化结果。有些数据库在内核层面已经提供了事件调度功能,如:MySQL Event,但是使用特殊的语法创建Event和维护Event都有一定的成本。DMS任务编排的调度功能提供了可视化的方式轻松创建定时任务,并且不依赖数据库引擎上的能力,因此更加简易灵活,适用范围更广。

2.任务编排实操 — DB数据周期归档

介绍完DMS任务编排的功能和使用场景,下面将以数据归档场景为例,介绍如何通过DMS任务编排和阿里云DLA服务将RDS MySQL数据周期地归档至OSS上。具体的实操步骤还可查阅DMS的使用文档。

2.1 背景和需求

用户的RDS MySQL业务库中某张表(如:交易记录、登录/操作日志)的数据持续增长,占用了大量的存储空间,甚至影响到了数据库性能。同时,这部分数据又是有价值的,比如:用于审计、报表和统计分析,不能随意删除。为解决这个问题,用户有三个核心的需求:

• 降低MySQL业务库的存储压力;

• 对历史业务数据做增量归档;

• 对归档数据做分区,可按分区过滤进行高效查询。

为满足这三个需求,我们选择了阿里云DLA服务,因为其同时打通了OSS和RDS MySQL,能够对上面的数据进行迁移和即席分析。但是,DLA并不具备周期调度和增量数据迁移的能力,DMS任务编排正好可以与DLA互补,形成完整的解决方案满足用户需求。

在下面的实操中,我们假设用户RDS MySQL中待归档的表为订单表orders,其表结构如下(created_date字段为订单创建日期):

create table orders(order_id bigint,product_name varchar(32),price double,total_amount double,created_date date
);

2.2前置条件

1、已购买阿里云DLA服务,且DLA服务的区域(Region)和待归档的RDS MySQL区域一致,如:都是华东1(杭州)

2、已开通阿里云OSS服务,且服务的区域与DLA、RDS MySQL一致

3、已购买阿里云DMS服务

4、DLA实例已录入DMS中(请参考DMS实例录入)
各产品的购买要求和用途:

产品购买产品的区域用途
DMS无限制周期调度
DLA与RDS MySQL同区域RDS MySQL数据迁移至OSS;查询OSS上的归档数据
OSS与RDS MySQL同区域存储RDS MySQL归档的数据

2.3 配置任务流

下面介绍如何在DMS中操作实现RDS MySQL数据周期归档,主要包含5个步骤:

步骤1:创建DLA归档库

若要将数据归档至DLA上,首先要在DLA中创建一个用于归档的schema,用于存放归档表。在DMS首页的顶部菜单中,找到SQLConsole单库查询,并打开查询窗口,然后输入如下SQL语句并执行:

CREATE DATABASE demo_schema
WITH DBPROPERTIES (catalog = 'oss',location = 'oss://xxxxxx/dla_demo/'
)

步骤2:创建任务流

在DMS首页的顶部菜单中,选择数据工厂 -> 任务编排,进入任务编排的首页。在首页点击“新建任务流”,或者点击左侧tab进入开发空间,也可以快速地找到新建任务流的入口。在新建任务流的窗口,我们将任务流名称设为:rds_data_to_oss。
image.png

步骤3:配置任务节点

在任务流rds_data_to_oss中,依次新建三个DLA-SQL类型的任务节点:

  1. 创建RDS同步Schema:在DLA中创建Scheme映射到RDS
  2. 创建OSS备份表:在DLA中建立OSS备份表,用于存储历史数据
  3. 备份数据:实现RDS MySQL前一天数据的备份。

节点创建完以后,可在节点间添加连线,对节点的执行顺序进行编排,产生完整任务流。
image.png
下面对每个节点的内容进行设置:

节点1:创建RDS同步Schema

要让DLA顺利访问RDS MySQL的数据,需要在DLA中为RDS MySQL创建一个Schema,取名: dla_mysql_rds。我们将以SQL的方式来创建Schema。首先,点击第一个任务节点,在右侧的内容设置Tab页中,输入如下SQL语句(其中部分参数需替换为RDS上的真实信息):

CREATE SCHEMA IF NOT EXISTS dla_mysql_rds WITH DBPROPERTIES (CATALOG = 'mysql', LOCATION = 'jdbc:mysql://xxxxxx.rds.aliyuncs.com:3306/dmstest',USER = 'dmstest',PASSWORD = 'xxxxxxxxx',INSTANCE_ID = 'xxxxxx');MSCK REPAIR DATABASE dla_mysql_rds;

此外,为了让DLA顺利访问RDS MySQL,还需要在RDS MySQL中添加DLA的白名单,即:将IP地址段100.104.0.0/16加入到RDS的白名单列表中。RDS白名单的配置方法可参考这个文档。
image.png

节点2:创建OSS备份表

我们需要在DLA中创建OSS备份表(oss_orders),首先将节点的目标数据库设为demo_schema,然后将节点内容设置为如下的SQL语句。oss_orders表的结构与RDS中的orders表完全一致,不同的是oss_orders为分区表,按照年/月/日(y/m/d)分区:

CREATE EXTERNAL TABLE oss_orders (order_id bigint,product_name varchar(32),price double,total_amount double,created_date date)
PARTITIONED BY (y string, m string, d string)
STORED AS TEXTFILE
LOCATION 'oss://xxxxxx/dla_demo/';

其中,LOCATION参数需要填写一个OSS路径,即:归档数据储存的OSS地址。
image.png

节点3:数据备份

该数据备份实现了将RDS MySQL数据备份至OSS的功能。配置节点需要选择目标数据库为DLA的demo_schema,设置时间变量,并且编写备份SQL语句。

配置三个时间变量,它们分别是:
• year:当前日期前一天的年份(格式为yyyy)
• month:当前日期前一天的月份(格式为MM)
• day:当前日期前一天的日(格式为dd)

注:关于DMS任务编排中变量的配置和使用,请参阅该文档。bizdate为DMS任务编排里的系统参数,对应到任务运行时间的前一天,其他自定义变量也会随着任务执行时间的变化而自动更新。
image.png
设置数据备份SQL语句

/* 创建临时表 */
CREATE EXTERNAL TABLE oss_orders_tmp (order_id bigint,product_name varchar(32),price double,total_amount double,created_date date) 
STORED AS TEXTFILE 
LOCATION 'oss://xxxxxx/dla_demo/y=${year}/m=${month}/d=${day}' 
TBLPROPERTIES('auto.create.location'= 'true');/* 备份日数据 */
insert into oss_orders_tmp
SELECT * FROM dla_mysql_rds.orders 
where created_date = '${bizdate}';/* 更新备份表分区信息以及删除临时表 */
msck repair table oss_orders;
drop table oss_orders_tmp;

上面的SQL脚本本质上包括3个步骤来实现数据备份:

  1. DLA OSS中创建临时表:临时表oss_orders_tmp映射位置为oss_orders所在OSS之下的年/月/日目录中,临时表的数据会自动成为oss_orders一个分区;
  2. 备份日数据:直接使用insert-select SQL语句从RDS MySQL中的orders表中读取数据(对应到DLA中的dla_mysql_rds.orders),写入OSS中的临时表;
  3. 更新分区信息以及删除临时表:更新oss_orders元数据信息,然后删除临时表oss_orders_tmp。

这里的巧妙之处在于,合理地利用了DMS任务编排里变量的功能,以及DLA OSS表的分区功能。临时表对应的OSS路径正好是全局备份表的一个分区路径。随着任务每日执行,变量的值会自动更新,由此产生新的OSS目录和分区,RDS MySQL的增量数据也自动地归档至新分区下。例如:RDS中created_date为2020-06-01的数据,将归档至oss://xxxxxx/dla_demo/y=2020/m=06/d=01的路径下。

2.4 配置任务流调度

最后,再介绍一下如何对任务流的调度进行配置。点击任务流空白处,调出右侧的调度配置页面。首先将该任务流的调度进行开启,然后将运行时间设为RDS MySQL的业务低峰期(如:凌晨5点),并将调度周期设为“日”。这样设置以后,该任务流将在每天的5点钟定期执行,无需人工干预。如果要查看任务流的执行历史,可点击左侧的运维中心,其中还会展示每一次执行的时间和日志。
image.png

3 快速任务流构建 — 任务流模板

为了节省用户手动创建和配置任务流的时间,DMS任务编排还提供了多种模板。这些模板通常包含了内置好的任务节点和SQL内容;它们从具体的场景出发,经过悉心的设计来解决实际问题,并且来源于DMS用户的真实案例,例如:第二节介绍的RDS数据周期归档OSS场景就来自于某知名跨国汽车厂商。

通过模板,用户可一键创建任务流,然后经过简单的配置,如:设置节点的目标数据库和SQL中的部分参数,即可生成可运行的任务流。目前,我们已经上线了多个任务流模板,欢迎访问DMS任务编排的首页进行查看,我们也将持续补充模板,让任务编排的使用更加便捷。
image.png

4 总结

DMS是阿里云用户非常喜爱的一款数据库工具产品,能帮助用户打通各种网络环境,对数据库进行管理和操作。除了常规的数据库增删改查和DDL操作,越来越多的用户需要对数据库中的数据进行归档、迁移、备份和加工。为了满足这些需求,DMS推出了任务编排功能,它打通了数据库与其他系统/存储之间的通道,让数据库不再成为数据孤岛。此外,DMS任务编排还提供了丰富的任务类型,以及任务流和定时调度能力,可以帮助用户轻松地对数据库中的数据进行清洗加工,把数据转变成商业智能。

DMS任务编排虽然在公共云上发布不久,但已经积累了来自各个行业的众多用户,包括:互联网、零售、支付、交通、汽车、美妆等等。如果您想了解更多DMS任务编排的详细功能,欢迎登录DMS的控制台首页进行体验,或者查看我们的产品文档。也欢迎您扫码加入DMS的钉钉用户服务群进行交流和咨询。


image.png

原文链接
本文为云栖社区原创内容,未经允许不得转载。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/515618.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

用户隐私保护指引设置~参考案例

文章目录1. 搜索小程序2. 进入小程序详情3. 更多资料4. 小程序隐私指引5. 具体参考事项1. 搜索小程序 这里以腾讯文档进行演示 2. 进入小程序详情 3. 更多资料 4. 小程序隐私指引 5. 具体参考事项 以实际的情况为准,这里只是演示

在存储器的层次结构里,谁最快,谁最贵,谁最大?

来源 | 小林coding责编 | 寇雪芹头图 | 下载于视觉中国前言大家如果想自己组装电脑的话,肯定需要购买一个 CPU,但是存储器方面的设备,分类比较多,那我们肯定不能只买一种存储器,比如你除了要买内存,还要买硬…

云原生存储系列文章:云原生应用的基石

作者| 郡宝 阿里云技术专家 参与文末留言互动,即有机会获得赠书福利! 导读:存储服务支撑了应用的状态、数据的持久化,是计算机系统中的重要组成部分,也是所有应用得以运行的基础,其重要性不言而喻。在存储…

java 读取jar包中的文件

文章目录项目resource中文件路径和jar包中文件路径的区别正常读取jar包读取完整代码:项目resource中文件路径和jar包中文件路径的区别 打成jar包后,是一个整体的文件。 正常读取 InputStream inputStream new FileInputStream("src/main/resource…

算法真的太重要了!CSDN用动画帮你快速 get 核心原理

无论你是 Java,Python,还是 PHP,面试总逃脱不了一个问题:算法!算法是面试常问的问题,这也是程序员准备面试之前,常刷数据结构与算法的原因之一!算法成为程序员头疼的难题&#xff0c…

开启阿里云对象存储OSS防误删新功能,保护您珍贵的数据。

一、背景 阿里云对象存储 OSS 是保存海量数据的平台,支持丰富的应用。在使用过程中难免会遇到误操作、程序 Bug、覆盖写等导致数据被删除的场景,对于数据的丢失会非常着急,后果也非常严重,甚至某些情况下还会影响你的职业生涯。O…

拥抱创新,持续探索——对话阿里云MVP胡逢法

云栖号资讯:【点击查看更多行业资讯】 在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来! 简介: 胡逢法作为阿里云 MVP,是一名经验丰富的人工智能领域研究专家,谦虚诚恳、精力充沛。…

远程工作和数字鸿沟

云栖号资讯:【点击查看更多行业资讯】 在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来! 在全球持续蔓延的冠状病毒疫情的影响下,一场革命正在发生:弹性工作革命。很多企业开始意识到这样一个…

Serverless的初心、现状和未来

作者 | 不瞋 阿里云高级技术专家 导读:Serverless 是如何产生的?当前有哪些落地场景?Serverless 的未来又将如何?本文分享了阿里云高级技术专家不瞋对于 Serverless 的看法,回顾其发展历程,并对 Serverle…

查询每个用户最后一次登录信息

文章目录表结构和数据:方法一:如果只需要用户id和最后一次登陆时间方法二:如果需要携带其他日志信息方法三:oracle数据库 使用row_num() over表结构和数据: CREATE TABLE temp_test (id bigint(20) DEFAULT NULL,user…

存储极简史一幅图你就都懂了

原文链接 本文为云栖社区原创内容,未经允许不得转载。

唐云峰:想当科学家的怪极客

云栖号资讯:【点击查看更多行业资讯】 在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来! 简介: 跟唐云峰对话的时间比我们预想的都要长很久,却丝毫不觉得疲倦。聊到被奉为电脑神童的经历、中学…

maven导入异常 PKIX path building failed

异常信息: PKIX path building failed: sun.security.provider.certpath.SunCertPathBuilderException: unable to find valid certification path to requested target 解决方案:修改配置 -Dmaven.wagon.http.ssl.insecuretrue -Dmaven.wagon.http.…

网飞是如何利用大数据做出热门电视剧的?

责编 | 寇雪芹来源 | CDA数据分析师头图 | 下载于视觉中国收集更多的数据会就会有更好的决策吗?像亚马逊、谷歌和网飞这样有竞争力、精通数据的公司已经认识到,单靠数据分析并不总能产生最佳结果。在文中,数据科学家塞巴斯蒂安韦尼克分析了当…

软件研发的这些误区,你中了吗?

云栖号资讯:【点击查看更多行业资讯】 在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来! 结束了一天的工作,拖着疲惫的身躯,坐在马桶上,回顾一天的工作,发现有那么多的…

linux 部署后,前后端正常访问 点击菜单报:Cannot find module ‘@/views/system/user/index‘

现象: 解决方案: https://pan.baidu.com/s/1E9J52g6uW_VFWY34fHL6zA 提取码: vneh 微服务工具包/基础工具包/node-v14.16.1-x64.msi export const loadView (view) > {return (resolve) > require([/views/${view}], resolve) }参考链接&…

迪士尼自研算法突破百万高清像素用AI换脸来拍电影

AI换脸又一次刷爆了朋友圈 最近云毕业正当时,各家科技公司顺势推出了自己的AI换脸技术,结果又被同学们玩坏了! 换脸这件事绝不能少了业界大佬们! 不得不说,好看是不分性别的,彦宏兄气质满分! …

如何写出让 CPU 跑得更快的代码?

来源 | 小林coding责编 | 寇雪芹头图 | 下载于视觉中国前言代码都是由 CPU 跑起来的,我们代码写的好与坏就决定了 CPU 的执行效率,特别是在编写计算密集型的程序,更要注重 CPU 的执行效率,否则将会大大影响系统性能。CPU 内部嵌入…

多个域名公用80端口是实现反向代理和负载均衡

文章目录一、快速入门1. 背景2. 案例13. 案例2二、实战2.1. 配置备份2.2. 配置清空2.3. 配置初始化2.4. 配置统一管理2.5. 开发配置2.6. UAT配置2.7. 启动nginx一、快速入门 1. 背景 使用nginx做反向代理的时候,可以简单的直接把请求原封不动的转发给下一个服务。…

投入20亿,赋能1万家,阿里云正式启动云原生合作伙伴计划

导读:在 2020 阿里云合作伙伴峰会上,阿里巴巴合伙人、阿里云智能基础产品事业部高级研究员蒋江伟发表了《深耕“被集成”,共建新生态》主题演讲,他在演讲中提到,阿里云将继续深耕“被集成”战略,做强生态&a…