DRDS到MaxCompute(原ODPS)数据归档性能优化测试

摘要: cdp同步基本原理 数据集成(Data Integration)是阿里巴巴集团提供的数据同步平台。该平台具备可跨异构数据存储系统、可靠、安全、低成本、可弹性扩展等特点,可为 20 多种数据源提供不同网络环境下的离线(全量/增量)数据进出通道。

一、cdp同步基本原理


数据集成(Data Integration)是阿里巴巴集团提供的数据同步平台。该平台具备可跨异构数据存储系统、可靠、安全、低成本、可弹性扩展等特点,可为 20 多种数据源提供不同网络环境下的离线(全量/增量)数据进出通道。数据源类型的详情请参见 支持数据源类型。


数据集成的原理:
数据集成在阿里云上提供一套分布式离线数据同步平台,同时提供一套抽象化的数据抽取插件(称之为Reader)、数据写入插件(称之为Writer),并基于此框架设计一套简化版的中间数据传输格式,从而达到任意结构化、半结构化数据源之间数据传输之目的。从用户角度来看,一个数据集成同步任务运行Job示意图如下所示:



上述中,红色虚箭头是代表通过collector状态收集器监控数据返回到脏数据管理服务器进行数据分析,灰色方向箭头代表数据流向。DI Service主要是包含资源管理器、Job管理器、脏数据管理器、分布式服务、鉴权服务等。Job Container主要是将数据集成运行任务分成若干个task,然后通过scheduler调度管理。TaskGroup Container主要是数据抽取通过数据通道(channel)将数据写入。


• 使用数据集成Job启动API,向数据集成服务端发起调用,提交一个离线数据同步Job。
• 数据集成收到Job API请求后,将负责做必要的安全和权限校验,待校验通过后,数据集成会下发相应的Job到执行集群节点启动离线数据同步任务。
• Job启动后,根据您提供的源端(Reader)、目的端(Writer)的配置信息,加载并初始化相关插件,连接两端数据源,开始数据同步工作。
• Job运行过程中,将随心跳向数据集成汇报当前进度、速度、数据量等关键运行指标,可根据Job的状态API实时获取该Job运行状态,直至Job运行结束(成功或者失败)。

流程概述



步骤1:数据源端新建表。
步骤2:新增数据源。
步骤3:向导模式或脚本模式配置同步任务。
步骤4:运行同步任务,检查目标端的数据质量。

因为DRDS不支持存储过程,造一张实际生产的表有些复杂,所以采用通过RDS创建表数据,再导入到DRDS的方式

二、测试表准备:


通过RDS新建一张实际生产的表,数据量为一亿行左右(主键为自增)
通过存储结构插入数据(业务只需要天数是随机的):
delimiter

dropprocedurehuayu2;CREATEPROCEDUREhuayu2()begindeclarevarint;setvar=0;whilevar<100000000doinsertintotpcsbillrecievehuayutestselectnull,1234567,210025002110010114117029000016,0,null,0,null,null,null,0,0,null,null,0,null,null,null,21100101,null,null,null,null,null,null,null,21002500,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,CONCAT(2018,,03,,LPAD(FLOOR(1+(RAND()31)),2,0),′′,14:54:04),null,null,2017111014:54:04,null,null,null,2,4,null,null,null,null,null,0,null,null,null,null,null;setvar=var+1;endwhile;enddropprocedurehuayu2;CREATEPROCEDUREhuayu2()begindeclarevarint;setvar=0;whilevar<100000000doinsertintotpcsbillrecievehuayutestselectnull,1234567,210025002110010114117029000016,0,null,0,null,null,null,0,0,null,null,0,null,null,null,21100101,null,null,null,null,null,null,null,21002500,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,null,CONCAT(2018,′−′,′03′,′−′,LPAD(FLOOR(1+(RAND()∗31)),2,0),″,′14:54:04′),null,null,′2017−11−1014:54:04′,null,null,null,2,4,null,null,null,null,null,0,null,null,null,null,null;setvar=var+1;endwhile;end

delimiter

三、测试要求


通过mysqldump在DRDS新建导入的表,以天为分表键,分表键的值是随机分布在3月1日-3月31日的。
将源表按分表键做拆分,1天拆成1个任务,并发向目标表里进行同步,同时目标表按天做分区,找到最佳并发量。
注意:分库键的选择为自增主键,不能是固定,否则hash的时候只落在一个库里面,分表键也是随机的日期,这样数据就能均衡的分布在各个库里面

四、具体实施步骤


1、将RDS的表导入到测试环境DRDS
mysqldump –urds_xncs_qps8 –p –P3306 –h 10.1.1.1 database test1 –t > /home/hy.sql

这里加上了-t参数,目的是不备份表的结构,这样做的好处是,导入到DRDS的时候,在DRDS端建一个相同名字的数据库,并且可以自定义分库分表键,这样就省略了再次去修改备份的.sql文件而达到分库分表的目的。当然,如果只是需要一个单表,那就复制表结构跟数据就好了


2、 将复制的表数据导入到DRDS

2.1、 通过mysql -udrds_uat_pcs –P3306 –h10.3.3.3 drds_uat_pcs -p < /home/hy.slq

2.2、 进入到目标表所在的数据库,执行source /home/hy.sql
这两种方式大同小异,第一种稍微快些,第二种会有过程在屏幕上展示。习惯用第二种

在刚开始导入的时候会一些报错,但是对实际的导入不会影响

3、具体测试
数据量:

mysql> select count(*) from t_pcs_bill_recieve_huayutest ;
count(*)
78322075

1、 一个工作流,分十个同步任务执行,
每个同步任务where条件对应3天,每一个同步任务对应一个分区,共10个分区
最大速率上线10M/s,
结构图:



各个任务耗时:
1、========================================================================
任务启动时刻 : 2018-03-28 11:47:15 任务结束时刻 : 2018-03-28 11:57:28 任务总计耗时 : 612s 任务平均流量 : 1.69MB/s 记录写入速度 : 20753rec/s 读出记录总数 : 12638734 读写失败总数 : 0

2、========================================================================
任务启动时刻 : 2018-03-28 11:47:15 任务结束时刻 : 2018-03-28 11:56:18 任务总计耗时 : 543s 任务平均流量 : 1.14MB/s 记录写入速度 : 14038rec/s 读出记录总数 : 7580943 读写失败总数 : 0

3、========================================================================
任务启动时刻 : 2018-03-28 11:47:17 任务结束时刻 : 2018-03-28 11:56:23 任务总计耗时 : 545s 任务平均流量 : 1.14MB/s 记录写入速度 : 14004rec/s 读出记录总数 : 7576202 读写失败总数 : 0

4、========================================================================
任务启动时刻 : 2018-03-28 11:47:17 任务结束时刻 : 2018-03-28 11:56:26 任务总计耗时 : 548s 任务平均流量 : 1.13MB/s 记录写入速度 : 13933rec/s 读出记录总数 : 7579645 读写失败总数 : 0

5、========================================================================
任务启动时刻 : 2018-03-28 11:47:10 任务结束时刻 : 2018-03-28 11:56:17 任务总计耗时 : 546s 任务平均流量 : 1.14MB/s 记录写入速度 : 13979rec/s 读出记录总数 : 7576799 读写失败总数 : 0

6、========================================================================
任务启动时刻 : 2018-03-28 11:47:15 任务结束时刻 : 2018-03-28 11:56:28 任务总计耗时 : 553s 任务平均流量 : 1.12MB/s 记录写入速度 : 13774rec/s 读出记录总数 : 7575981 读写失败总数 : 0

7、========================================================================
任务启动时刻 : 2018-03-28 11:47:17 任务结束时刻 : 2018-03-28 11:56:18 任务总计耗时 : 541s 任务平均流量 : 1.15MB/s 记录写入速度 : 14115rec/s 读出记录总数 : 7579924 读写失败总数 : 0

8、========================================================================
任务启动时刻 : 2018-03-28 11:47:17 任务结束时刻 : 2018-03-28 11:56:18 任务总计耗时 : 541s 任务平均流量 : 1.15MB/s 记录写入速度 : 14115rec/s 读出记录总数 : 7579924 读写失败总数 : 0


9、========================================================================
任务启动时刻 : 2018-03-28 11:47:15 任务结束时刻 : 2018-03-28 11:56:27 任务总计耗时 : 551s 任务平均流量 : 1.13MB/s 记录写入速度 : 13856rec/s 读出记录总数 : 7579604 读写失败总数 : 0

10、========================================================================
任务启动时刻 : 2018-03-28 11:47:17 任务结束时刻 : 2018-03-28 11:55:20 任务总计耗时 : 482s 任务平均流量 : 877.38KB/s 记录写入速度 : 10522rec/s 读出记录总数 : 5050713 读写失败总数 : 0

整体耗时:630秒

 ![image](https://yqfile.alicdn.com/8d8f3acb4098f6860aa698d56277bcdbf9c4f975.png)


2、 一个工作流,分五个同步任务执行,
每个同步任务where条件对应6天,每一个同步任务对应一个分区,共5个分区
最大速率上线10M/s,
结构图:


任务同步耗时:

1、========================================================================
任务启动时刻 : 2018-03-28 14:27:49 任务结束时刻 : 2018-03-28 14:37:42 任务总计耗时 : 593s 任务平均流量 : 2.09MB/s 记录写入速度 : 25605rec/s 读出记录总数 : 15158472 读写失败总数 : 0

2、========================================================================
任务启动时刻 : 2018-03-28 14:27:53 任务结束时刻 : 2018-03-28 14:37:36 任务总计耗时 : 583s 任务平均流量 : 2.12MB/s 记录写入速度 : 26093rec/s 读出记录总数 : 15160230 读写失败总数 : 0

3、========================================================================
任务启动时刻 : 2018-03-28 14:27:43 任务结束时刻 : 2018-03-28 14:37:33 任务总计耗时 : 589s 任务平均流量 : 2.10MB/s 记录写入速度 : 25775rec/s 读出记录总数 : 15156082 读写失败总数 : 0

4、========================================================================
任务启动时刻 : 2018-03-28 14:27:45 任务结束时刻 : 2018-03-28 14:37:36 任务总计耗时 : 591s 任务平均流量 : 2.10MB/s 记录写入速度 : 25729rec/s 读出记录总数 : 15154873 读写失败总数 : 0

5、========================================================================
任务启动时刻 : 2018-03-28 14:27:43 任务结束时刻 : 2018-03-28 14:38:01 任务总计耗时 : 617s 任务平均流量 : 2.34MB/s 记录写入速度 : 28768rec/s 读出记录总数 : 17692418 读写失败总数 : 0

整体耗时:629秒


3、 一个工作流,分十五个同步任务执行,
每个同步任务where条件对应2天,每一个同步任务对应一个分区,共15个分区
最大速率上线10M/s,
结构图:

 ![image](https://yqfile.alicdn.com/068c1c56b16baa1c3cc270eb286f7d46ff1a8990.png)

总体耗时:623秒


4、 一个工作流,分一个同步任务执行
最大速率上线10M/s,
结构图:

同步任务耗时:
任务启动时刻 : 2018-03-28 15:42:05 任务结束时刻 : 2018-03-28 15:57:16 任务总计耗时 : 910s 任务平均流量 : 7.02MB/s 记录写入速度 : 86257rec/s 读出记录总数 : 78322075 读写失败总数 : 0

总耗时:928秒

5、 一个工作流,分三个同步任务执行
最大速率上线10M/s,
结构图:


总耗时:699秒


6、 一个工作流,分四个同步任务执行
最大速率上线10M/s,
结构图:


总耗时:672秒

测试结果:

                            
并发数    10        5        15       1        3       4    
总耗时    630秒    629秒    623秒    928秒    699秒    672秒    并发数    1         3        4        5        10       15    
总耗时    928秒    699秒    672秒    629秒    630秒    623秒    


初步结论:
在并发为5、10、15的情况下,同步数据的速率基本没有变化630秒左右,在并发为1、2、3、4的情况下,速率由930秒提升到630秒左右,从而可以得出结论,在并发为5的情况下,同步速率已经达到最大,再增加并发对于速率的增加效果不明显。

原文链接

干货好文,请关注扫描以下二维码:



本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/521910.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Vue 项目预热

软件版本Vue.js2.5.2vue-router3.0.1Node.jsv8.15.0NPM6.4.1文章目录一、 Vue项目预热 - 环境配置1. node.js环境配置1-1. node.js下载1-2. node.js安装1-3. node.js安装完成后验证3-2. 创建一个基于 webpack 模板的项目3-3. 以npm形式运行travel项目 dev环境一、 Vue项目预热 …

activiti动态办理人_安全生产许可证办理相关问题

安全生产许可证办理相关问题众所周知&#xff0c;安全生产许可证是建筑企业的重要证件&#xff0c;也是企业开展工程的保障&#xff0c;取得建筑资质证书后必须申请安许证。在建筑企业动态核查中&#xff0c;安许证及其相关安全生产条件是核查的重点&#xff0c;虽然安全许可证…

超干货|使用Keras和CNN构建分类器(内含代码和讲解)

摘要&#xff1a; 为了让文章不那么枯燥&#xff0c;我构建了一个精灵图鉴数据集&#xff08;Pokedex&#xff09;这都是一些受欢迎的精灵图。我们在已经准备好的图像数据集上&#xff0c;使用Keras库训练一个卷积神经网络&#xff08;CNN&#xff09;。为了让文章不那么枯燥&a…

网易云音乐热评的规律,44万条数据告诉你

戳蓝字“CSDN云计算”关注我们哦&#xff01;网易云的每日推荐里藏着你听过的歌&#xff0c;你听过的歌里藏着你的故事。网易云音乐的评论里&#xff0c;藏着许多人的故事。我们爬取了网易云音乐歌单中48400首歌的444054条热评&#xff0c;来看看网易云的热门评论里&#xff0c…

java servlet spring_spring与tomcat 对应关系,servlet各版本写法

构建项目时&#xff0c;需要springjdktomcat各版本对应关系&#xff0c;找了半天&#xff0c;一点都不高效&#xff0c;特此总结下&#xff0c;方便查阅。tomcatjdkservlet对应关系官网文档地址&#xff1a;http://tomcat.apache.org/whichversion.html当前时间版本关系。sprin…

数据科学指南

摘要&#xff1a; 本文为学习数据科学的指南&#xff0c;从编程语言、数据库管理、数据收集和整理方法、特征工程、机器学习模型、模型评估方面进行讲述。数据科学是一个相当庞大且具有多样化的领域&#xff0c;侧重于数学、计算机科学和领域专业知识。但是在本文中大部分内容将…

乐高ev3搭建图_乐高EV3机械爪合集

点击上方蓝字关注我&#xff01;乐高EV3机械爪合集哈喽小伙伴们&#xff01;新的一周我们又见面啦。这周给大家带来的是EV3的机械爪合集&#xff0c;5种不同结构类型的机械爪来自五十川老师的作品&#xff0c;可以应用于各种比赛或者任务场景中&#xff0c;下面我们先来看一下这…

马云卸任,张勇宣布未来五年目标:消费规模10万亿;华为发布基于5G和AI解决方案;新iPhone不支持5G 库克:市场不成熟……...

戳蓝字“CSDN云计算”关注我们哦&#xff01;嗨&#xff0c;大家好&#xff0c;重磅君带来的【云重磅】特别栏目&#xff0c;如期而至&#xff0c;每周五第一时间为大家带来重磅新闻。把握技术风向标&#xff0c;了解行业应用与实践&#xff0c;就交给我重磅君吧&#xff01;重…

望京“黑客”图鉴

摘要&#xff1a; 不是所有黑客可以登顶望京阿里中心 A 座 34 楼。本文转载自雷锋网宅客频道。最近《北京女子图鉴》很火。不过看这篇文章之前&#xff0c;你要做好几个心理准备&#xff1a;1.这篇文章不是讲黑客男主如何在北京遇上12个女主“打怪升级”的故事。2.因为我们的采…

解决:'webpack-dev-server' 不是内部或外部命令,也不是可运行的程序 或批处理文件。

webpack-dev-server错误法则&#xff1a; 前往项目根目录删除node_modules文件夹&#xff0c;然后在项目根目录路径下的终端运行"npm install"等待安装完之后&#xff0c;再次运行“npm run dev”&#xff0c;有些人的是马上就可以了&#xff0c;然而往往还会有人&am…

GPU云服务器深度学习性能模型初探

摘要&#xff1a; 本文根据实测数据&#xff0c;初步探讨了在弹性GPU云服务器上深度学习的性能模型&#xff0c;可帮助科学选择GPU实例的规格。1 背景得益于GPU强大的计算能力&#xff0c;深度学习近年来在图像处理、语音识别、自然语言处理等领域取得了重大突破&#xff0c;GP…

HDC.2019后再发力,AppGallery Connect服务新升级

不久前&#xff0c;华为2019开发者大会在东莞松山湖圆满落&#xff0c;来自全球的1500多个合作伙伴、5000多名开发者汇聚一堂&#xff0c;共同探讨未来科技发展&#xff0c;其中华为应用市场AppGallery Connect服务也在大会上重磅亮相&#xff0c;引起了广大开发者的关注。如今…

idea 利用vue.js插件创建vue初始化项目

IDEA 构建出的 Vue 项目是不含 node_modules 的&#xff0c;所以要先调出终端&#xff0c;执行 npm install 运行完成后&#xff0c;输入 npm run dev 即可。 vue初始化项目完成&#xff01;&#xff01;&#xff01; 另外 IDE 嘛&#xff0c;总是在 UI 上下了很多功夫&am…

Tensorflow快餐教程(4) - 矩阵

摘要&#xff1a; Tensorflow矩阵基础运算矩阵矩阵的初始化矩阵因为元素更多&#xff0c;所以初始化函数更多了。光靠tf.linspace&#xff0c;tf.range之类的线性生成函数已经不够用了。可以通过先生成一个线性序列&#xff0c;然后再reshape成一个矩阵的方式来初始化。例&…

为什么阿里程序猿纷纷在内网晒代码?

摘要&#xff1a; 大家知道&#xff0c;阿里有两万多名可爱的程序员。 他们也没什么别的爱好&#xff0c;就是多才多艺了一点&#xff1a;这帮阿里程序猿在改变世界前 要先撼动歌坛 就是热心肠了一点&#xff1a;阿里有个程序员&#xff0c;因为闯红灯上新闻了 虽然怕老婆但也能…

从七个方面,面试大厂高级工程师

戳蓝字“CSDN云计算”关注我们哦&#xff01;在上周&#xff0c;我密集面试了若干位Java后端的候选人&#xff0c;工作经验在3到5年间。我的标准其实不复杂&#xff1a;第一能干活&#xff1b;第二Java基础要好&#xff1b;第三最好熟悉些分布式框架。我相信其它公司招开发时&a…

Java需要掌握的底层知识_Java程序员应该掌握的底层知识

缓存缓存行&#xff1a;缓存行越大&#xff0c;局部性空间效率越高&#xff0c;但读取时间慢缓存行越小&#xff0c;局部性空间效率越低&#xff0c;但读取时间快取一个折中值&#xff0c;目前多用&#xff1a;64字节public class CacheLinePadding { //执行时间在4s左右public…

(vue基础试炼_01)使用vue.js 快速入门hello world

文章目录一、需求案例二、案例实现2.1. 原始js写法2.2. 怎样使用vue.js &#xff1f;2.3. 使用vue.js 写法三、案例vue简述&#xff1f;四、案例趣味延伸五、表达值作用及嘱咐语一、需求案例 在页面显示hello world 二、案例实现 2.1. 原始js写法 <!DOCTYPE html> &l…

如何让机器理解汉字一笔一画的奥秘?

摘要&#xff1a;从智能客服到机器翻译&#xff0c;从文本摘要生成到用户评论分析&#xff0c;从文本安全风控到商品描述建模&#xff0c;无不用到自然语言技术&#xff0c;作为人工智能领域的一个重要分支&#xff0c;如何让机器更懂得人类的语言&#xff0c;尤其是汉字这种强…