Hologres揭秘:优化COPY,批量导入性能提升5倍+

简介: 揭秘Hologres优化COPY的技术原理,实现批量导入性能提升5倍+

Hologres(中文名交互式分析)是阿里云自研的一站式实时数仓,这个云原生系统融合了实时服务和分析大数据的场景,全面兼容PostgreSQL协议并与大数据生态无缝打通,能用同一套数据架构同时支持实时写入实时查询以及实时离线联邦分析。它的出现简化了业务的架构,为业务提供实时决策的能力,让大数据发挥出更大的商业价值。从阿里集团诞生到云上商业化,随着业务的发展和技术的演进,Hologres也在持续不断优化核心技术竞争力,为了让大家更加了解Hologres,我们计划持续推出Hologres底层技术原理揭秘系列,从高性能存储引擎到高效率查询引擎,高吞吐写入到高QPS查询等,全方位解读Hologres,请大家持续关注!

本期我们将带来Hologers COPY导入性能优化实现性能提升5+倍方面的技术原理解读。

背景

在PostgreSQL中,COPY命令用于文本文件数据导入,其在PG生态里面有着重要的作用:

  • 完美兼容PG几十种数据类型,包括自定义类型等等。
  • 文本解析导入细节考虑的非常完善,也是业界标杆。
  • 业务价值,业务集成的成本低,psql一条命令或者copy manager等等无需第三方的集成依赖。
  • 日常开发测试中高频使用,比如tpch测试,功能验证,线上问题复现等。

Hologres完全兼容PG(PostgreSQL)生态,支持使用COPY命令导入数据,但是在PostgreSQL中,COPY的导入性能差强人意,只有20MB/s。而大数据处理场景,往往需要高性能的写入,PG的COPY写入性能不能满足实际业务。
基于此,Hologres对COPY写入性能进行了优化,以达到高性能、高可用的目的。本文将会介绍Hologres对COPY命令优化的技术原理,从而实现导入性能5倍+。

COPY瓶颈定位

在早期版本中,COPY导入在Hologres的实现流程图如下:1.png
执行流程:

1.FE(FrontEnd,前端节点)负责接收用户的请求,数据流入,以及具体的解析工作(包括分行,拆列,类型Format解析等)。

2.FE把完成解析的数据转成Arrow写入到Shuffle Service。

3.HQE(Hologres Query Engine)从Shuffle Service获取数据,并根据分布键完成Shuffle。

4.SE(Storage Engine)把数据流写入Pangu。

在COPY工作的过程中,能够看到FE的进程一直处于CPU打满的状态,下图是性能调试时的记录:2.png

可以确定以下瓶颈:

  • Shuffle Service中间节点引入的性能损耗。如上图的红框部分,需要将PG的内部数据结构HeapTuple转换成Arrow并写入Shuffle Service。
  • PG解析本身的耗时,比如,I/O,对数据流切分,按照类型Format解析等等。

改造技术难点

定位了瓶颈之后,结合Hologres现有技术架构,要提升性能,主要有以下几个难点:

  • PostgreSQL的进程模型,有很多Global Runtime Context,多线程改造成本高。
  • 类型解析依赖PostgreSQL类型系统,所以无法简单的利用第三方文本解析库加速,比如Arrow。
  • FE Meta管理过程中,需要PostgreSQL系统表和COPY的交互,从而保证PostgreSQL COPY系统表的行为稳定及正确性。

Hologres优化方案

为了突破上面的难点,从而解决导入效率的问题,Hologres针对FE做了优化,主要是解耦FE工作流程:

  • 保证Request进程只负责,接收请求,数据流入以及简单的数据切分;
  • 文本解析的工作交给具备PG计算能力支持的PQE分布式执行,
  • 优化后的执行方案如图:3.png
    优化后,数据通过COPY导入Hologres的执行流程如下:
  • FE负责接收用户请求,并把流入的数据按行切片,并写入共享队列Queue。
  • Coordinator把FE和PQE调度到同一台机器,这样Queue能以Shared Memory的方式实现,FE和PQE交互更高效。
  • PQE从Queue里面获取对应的切片,并完成拆行,分列,以及具体类型解析。
  • HQE从PQE拖取数据,并计算分布并Shuffle。
  • SE负责把流入数据写入到Pangu。

5倍+性能提升

通过对系统的优化,Hologres的COPY导入性能有了质的飞跃。以TPCH lineitem表为例,1亿条数据,文件13G,COPY导入性能如下:

可以从图中看到,优化后,Hologres COPY上传速度能达200MB/s+,相比PostgreSQL快5倍以上!

4.png

总结

Hologres致力于一站式实时数仓,在数据接入上有着非常庞大的生态家族,支持多种异构数据源的离线、实时写入,包括DataWorks数据集成、Flink、MaxCompute等丰富的写入方式。在大数据场景中,Hologres完全兼容PostgreSQL的COPY命令,并在此基础之上,对系统优化,实现了COPY导入性能比PG快5倍+。COPY命令方式导入数据,为Hologres数据接入生态又新增一种方式,满足业务高性能写入需求,助力快速搭建企业级实时数仓。

作者:郑晓文(鲁来) 现从事交互式分析Hologres引擎研发工作。

原文链接
本文为阿里云原创内容,未经允许不得转载。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/513047.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

io密集型和cpu密集型_一次说明白Python爬虫中多线程,多进程,异步IO编程

图/文:迷神我们在Python爬虫中,重要的是讲究速度,如果有10万或者100万Url地址,写过爬虫的都会知道,那估计是非常慢的。我们的Python爬虫一般IO密集型业务,Python爬虫程序需要发起网络请求,必然就…

【详谈 Delta Lake 】系列技术专题 之 湖仓一体( Lakehouse )

简介: 本文翻译自大数据技术公司 Databricks 针对数据湖 Delta Lake 的系列技术文章。众所周知,Databricks 主导着开源大数据社区 Apache Spark、Delta Lake 以及 ML Flow 等众多热门技术,而 Delta Lake 作为数据湖核心存储引擎方案给企业带来…

移动网络安装测试软件,家宽众测中国移动手机版(在线宽带网速测试器)V2.0.3 去广告版...

家宽众测中国移动手机版(在线宽带网速测试器)是一款手机宽带网速测试工具,用户可以通过本软件加入中国移动的宽带评测活动各种,反映家中宽带的具体使用情况,支持在线报名参加,抢先体验则有奖励赠送哦,欢迎来下载。软件…

如何删除第一张单页_单页网站-网站建设中独有的风景线

在这个网页技术飞速发展的时代,单页网站由于其自身的特点已经形成了一种独有的风景线。从本质上来说,单页网站就是只有一个页面,滚动长页面来显示相关的网站内容,网站所有菜单都链接到主页相应的部位。一些前卫的客户已经开始关注…

service注入为null_如何解决quartz调度时候,job中的service为null的问题?

在需要用到调度任务的时候,发现job中的通过依赖注入的service对象为null.如下:Component public class ExpiredOrderJob implements Job {Autowiredprivate EmployeeService employeeService; //这里的service对象为nullOverridepublic void execute(Job…

工作7年,我的10条经验总结

简介: 作者是一名很普通的技术工程师,从14年毕业到现在工作了7年。本文将与大家分享一些在职场中的道理和经验,希望能对大家有所启发和帮助。 作者 | 抱真 来源 | 阿里技术公众号 前言 简单做个自我介绍,我是一名很普通的技术工…

从能用到好用,GIS信创如何做到行稳致远?

艾瑞咨询集团出品的《2021年中国信创产业研究报告》中提到,信创内涵体现在“从‘关键环节、部分市场’走向‘全产业链、全行业’的信息技术升级,构建中国自主的IT标准和生态”。本文将从GIS信创的3大关键技术战略出发,解析当下如何快速突破发…

CPU静默数据错误:存储系统数据不丢不错的设计思考

简介: 对于数据存储系统来说,保障数据不丢不错是底线,也是数据存储系统最难的部分。据统计,丢失数据中心10天的企业,93%会在1年内破产。那么如果想要做到数据不丢不错,我们可以采取怎样的措施呢&#xff1f…

分计算iv值_筛选变量的指标—IV值

这一期咱们聊聊筛选变量的指标——IV值。计算公式如下:看公式有没有很熟悉,大家没有看错,其中一部分就是WOE的计算公式。区别就在于WOE是对一个变量的每个分组的计算,IV值是对一个变量的统计指标。如上图所示,当前使用…

无需 Dockerfile 的镜像构建:BuildPack vs Dockerfile

作者 | Addo Zhang来源 | 云原生指北过去的工作中,我们使用微服务、容器化以及服务编排构建了技术平台。为了提升开发团队的研发效率,我们同时还提供了 CICD 平台,用来将代码快速的部署到 Openshift(企业级的 Kubernetes&#xff…

android studio json插件_热门Android Studio 插件,这里是Top 20

Android Studio是Google基于IntelliJ开发的一款功能强大的开发工具,它具有构建出色Android应用所需要的一切。借助基于IntelliJ IDEA的强大的功能,插件非常丰富。正确的使用插件可以帮助你提高工作效率,更智能,更快。但是&#xf…

云原生时代,企业多活容灾体系构建思路与最佳实践

简介: 对于云原生的概念解读,大家经常会听到微服务、容器这些,那么这些技术跟企业容灾到底有什么样的关系?其实容灾的需求各行各业都有,比如金融行业对于容灾也有强烈的需求。但是怎么把容灾和多活能力构建起来&#x…

MaxCompute 挑战使用SQL进行序列数据处理

简介: MaxCompute 挑战使用SQL进行序列数据处理 --而不是用MR和函数 日常编写数据加工任务,主要的方法就是使用SQL。第一是因为自己对SQL掌握的比较好(十多年数据开发经验,就这几个关键字,也不敢跟别人说自己不行&…

低代码发展专访系列之四:低代码平台会带动企业的组织变革吗?

前言:2019年开始,低代码爆火。有人认为它是第四代编程语言,有人认为它是开发模式的颠覆,也有人认为是企业管理模式的变革……有很多声音,社区讨论很热烈。CSDN随后展开低代码平台产品系列活动,包括低代码开…

esclip直接快捷键构造函数_史上最全IntelliJ IDEA mac版快捷键文档

IntelliJ IDEA 是一款功能强大的Java IDE编辑器,支持java体系的web、客户端、安卓等开发。做为一款优秀的IDE,想要提高效率,最好是记住常用的快捷键,能让你事半功倍,小编整理了IDEA所有的快捷键,让你摆脱鼠…

禁止访问 共享计算机,win7如何禁止局域网用户访问电脑

为了方便共享资源,很多人都会设置网络共享文件夹,但是有些用户觉得在局域网内共享资源是件不安全的事情,那么win7如何禁止局域网用户访问电脑?这里小编就给大家分享一下win7旗舰版32位系统设置用户禁止访问局域网的方法。win7如何禁止局域网…

基于实时深度学习的推荐系统架构设计和技术演进

简介: 整理自 5 月 29 日 阿里云开发者大会,秦江杰和刘童璇的分享,内容包括实时推荐系统的原理以及什么是实时推荐系统、整体系统的架构及如何在阿里云上面实现,以及关于深度学习的细节介绍 本文整理自 5 月 29 日阿里云开发者大会…

阿里云肖力:跳过量变过程的安全质变

简介: 作者肖力从事网络安全工作将近20年,处理过各类攻击威胁,经历了云下云上安全的建设。云计算的安全工作从10年前开始,他们搭建了阿里云平台的防护体系,帮助各行业用户在云上构建企业安全能力。云原生的出现进一步加…

echarts bar 控制大小_echarts基本配置参数

网址&#xff1a;https://www.echartsjs.com/zh/tutorial.html#5%20%E5%88%86%E9%92%9F%E4%B8%8A%E6%89%8B%20ECharts五分钟上手 基本配置1.矩形参数<!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta name&q…

opencv opencl加速_回放 | OpenCV Webinar 3:OpenCV深度学习应用与原理分析

OpenCV DNN模块提供了深度学习的推理&#xff0c;支持Caffe、Tensoflow、Torch、Darknet、ONNX等格式的模型&#xff0c;无需用户安装对应的深度学习框架&#xff0c;也无需进行模型格式转换&#xff0c;直接调用DNN模块接口即可创建深度学习应用。DNN模块自2017年8月3.3版本从…