聚水潭是如何基于AnalyticDB for PostgreSQL 构筑海量实时数仓平台的

聚水潭数据仓库业务介绍

上海聚水潭网络科技有限公司成立于2014年。聚水潭创建之初,以电商SaaS ERP切入市场,凭借出色的产品和服务,快速获得市场领先地位。随着客户需求的不断变化,如今聚水潭已经发展成为以SaaS ERP为核心,集多种商家服务为一体的SaaS协同平台,为全国33万多家电商企业提供全面的信息化解决方案。
来自阿里巴巴旗下商家服务市场的最新数据显示,聚水潭已是企业ERP类目中使用商家数最多的软件。自双十一购物节诞生以来,团队经历了每一次电商大促的考验,尽管每年承载单量成几何倍数增加,聚水潭系统依然保持平稳、安全和顺畅地运行。2019年11月11日,聚水潭系统处理订单总量达 2.5亿单,成交额超400亿元。
基于阿里云的ECS和数据库产品,聚水潭构建了一整套具有竞争力的电商SaaS平台,为商家提供订单管理、仓储管理、分销管理和协同供应链等功能。并且基于财务和经营数据,为商家提供快速经营报表、分析、测算工具系统。阿里云数据库为其提供了多元化的数据库服务。其中AnalyticDB for PostgreSQL(简称 ADB PG)分析型数据库支撑了核心数据仓库的ETL作业、CRM系统和在线分析报表业务,整体数据量达到 200TB+,每天超过354万任务运行。过去几年年来,ADB PG支撑了多次电商大促考验,2019年双十一期间聚水潭数仓日数据增量5.6TB,平均写入TPS 208万,全程平稳,零业务异常。

聚水潭数仓演进及解决方案

聚水潭在数据仓库方面,从无到有探索出一整套符合电商SaaS平台的数据仓库架构,其数据仓库演进经历了从原始期到成熟期的4个阶段:

  • 原始期(2014年~2016年4月):公司初创期间,数据库以服务业务系统为主;
  • 探索期(2016年4月~2016年9月):业务规模达到一定程度,开始有数据仓库需求,使用业务数据库承担部分数据仓库功能,随着业务的增长,业务系统和数仓相互影响;
  • 自建期(2016年9月~2018年3月):基于开源Greenplum构建数据仓库,首先探索了数仓大库模式,但由于商家众多,且增长速度快,把商家分摊到中等数仓库,在商家增长的同时添加中等数仓库个数方式更符合业务逻辑和业务发展;
  • 成熟期(2018年3月~今):数据库全面拥抱阿里云,数据仓库全部采用ADB PG构建,ADB PG承载了离线批处理和在线分析查询等业务。

聚水潭数仓“一路向北”迁移及双十一保障

每年双十一对电商平台是一次全面系统稳定性考察、也是易用性和性能的最好练兵场。阿里云聚石塔电商云平台在2019年8月启动“一路向北”迁移,将华东机房服务整体搬迁到张北,提供更大扩展和高性价比服务。聚水潭ADB PG数仓在迁移过程中,即开始了双十一的规划。在“一路向北”准备期间,对聚水潭三十多个ADB PG实例进行了水位摸底、瓶颈分析和双十一业务预期调研,对业务量大、增长迅速的实例进行了针对性调整及扩容。
针对双十一当天增量数据暴增的情况,在双十一前对离线批处理和在线报表业务进行了压测,压测在变配/扩容/新购实例的基础上进行,压测效果满足业务需求。此外,ADB PG在双十一前还进行了实例备份巡检、Xid巡检、磁盘容量巡检、CPU巡检等,确保聚水潭双十一生产实例的万无一失。同时双十一当天及第二天派工程师到客户现场进行重点保障。目前聚水潭共计有ADB PG三十多个实例,总计1348 CPU核资源。

AnalyticDB for PostgreSQL支撑聚水潭大规模数仓的核心技术

阿里云AnalyticDB for PostgreSQL为采用MPP架构的分布式集群数据库,完备支持SQL 2003,高度兼容Oracle语法,支持PL/SQL存储过程,触发器,支持标准数据库事务ACID。ADB PG通过行存储、列存储、多种分区表和索引等机制,可以支持海量数据的在线交付分析,也支持ETL批处理任务。如下是支持聚水潭海量数据仓库业务的关键技术点:

  1. 高压缩比列存储
    ADB PG支持数据按列存储或按列存储。对于频繁更新的数据,建议采用行存储,而对于少量更新的大宽表,可以采用列存储。列存储除了可以实现高性能的全表聚合外,还具备存储的高压缩比。在聚水潭的数据仓库里,列存储数据普遍达到4倍以上的数据压缩率,从而极大的节省空间,降低成本。
  2. 复杂SQL优化
    核心数据仓库的ETL过程,往往都是复杂的多表关联聚合,最优的执行路径会带来数量级上的性能提升。ADB PG具备完备的CBO代价优化器,同时Cascade的SQL优化框架,可以很好的将RBO规则优化同CBO代价优化相互结合,从而指定最优的分布式执行计划,保证ETL的执行性能。
  3. 高性能执行
    ADB PG支持多种计划机制,包括支持表按区间或者值进行分区,支持标准BTree索引,Bitmap位图索引等,从而保证高性能的分析计算性能。

AnalyticDB for PostgreSQL 产品技术展望

ADB PG 2019年底会上线新一代向量化计算引擎,对于标准TPC-H OLAP benchmark 查询性能提升1倍以上。当前公测中的最新版本ADB PG 6.0,HTAP能力大幅增强,标准TPC-C OLTP benchmark 支持 20w tpmC,从而对混合复杂场景,高并发 QPS 场景,性能有了质的提升。ADB PG 目前推出一元试用一个月活动,基于其完备功能,卓越性能,是阿里云平台上快速构建海量实时数仓的最优选择。


双12来袭!500元淘宝红包、iPhone11等你拿。
https://www.aliyun.com/1212/2019/home?utm_content=g_1000092611

原文链接
本文为云栖社区原创内容,未经允许不得转载。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/517203.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

sqlite3的编译和使用

编译环境准备 这个是nw官网的环境搭建教程,一般需要python2.7、visual studio 2013、node-gyp、 node-pre-gyp,环境这块的文章很多自己可以百度http://docs.nwjs.io/en/latest/For Users/Advanced/Use Native%2 0Node%20Modules/ 编译好之后&#xff0…

阿里巴巴的 Kubernetes 应用管理实践经验与教训

导读:本文整理自孙健波在 ArchSummit 大会 2019 北京站演讲稿记录。首先介绍了阿里巴巴基于 Kubernetes 项目进行大规模应用实践过程中遇到的问题;随后会逐一介绍解决这些问题的现有实践及其本身存在的局限性;最后会介绍阿里巴巴目前正在进行…

Minio 分布式集群部署

文章目录一、分布式存储可靠性常用方法1. 概述2. 冗余3. 校验二、分布式Minio优势2.1. 数据保护2.2. 高可用2.3.一致性三、运行分布式Minio3.1. 启动方案简述3.2. 案例说明3.3. 制作分布式启动脚本3.4. 制作伪分布式启动脚本3.5. 登录minio四、分布式Minio负载均衡4.1. nginx安…

数据分析:为什么说Python比Excel更简单高效 ?

日本最大的证券公司之一野村证券首席数字官马修汉普森,在Quant Conference上发表讲话:“用Excel的人越来越少,大家都在用Python。”甚至直接说:“Python已经取代了Excel。”事实上,为了追求更高的效率和质量&#xff0…

快速搭建 Serverless 在线图片处理应用

简介 首先介绍下在本文出现的几个比较重要的概念: 函数计算(Function Compute):函数计算是一个事件驱动的服务,通过函数计算,用户无需管理服务器等运行情况,只需编写代码并上传。函数计算准备计…

如何在 PyFlink 1.10 中自定义 Python UDF?

我们知道 PyFlink 是在 Apache Flink 1.9 版新增的,那么在 Apache Flink 1.10 中 Python UDF 功能支持的速度是否能够满足用户的急切需求呢? Python UDF 的发展趋势 直观的判断,PyFlink Python UDF 的功能也可以如上图一样能够迅速从幼苗变成…

Node.js从零开发Web Server博客项目笔记

代码运行流程 首先开启服务器,在npm run dev的时候运行了bin目录下的www.js文件,启动http服务 当前端进行访问的时候,经过app.js文件 App.js是整个项目的入口文件,首先判断这个用户在http的header头中带了那些验证的信息&#…

如何度过二十多岁这段又穷又迷茫的岁月?

我们在后台常常会收到读者的留言我马上毕业了,但是现在很迷茫,不知道学校里学的,能不能真正的适应工作...我工作两三年,还是不知道怎么规划自己的技术成长路线,不知道该学什么来提升自己的竞争力...人生需要长线的经营…

Docker-compose 安装Minio 最新版本

文章目录一、环境准备1.安装docker-compose2. 新版本尝鲜3. 镜像下载二、单机编排2.1. 创建docker-compose.yaml2.2. 运行三、集群编排3.1. 下载docker-compose.yaml3.2. nginx.conf3.3.运行一、环境准备 1.安装docker-compose https://gblfy.blog.csdn.net/article/details/…

神龙架构没那么难理解—图解世界领先的阿里云神龙架构(一)缘起

1 概述 1.1 神龙架构的特点 阿里云官方文档对于神龙架构的描述如下: 保留了普通云服务器的资源弹性,并因嵌套虚拟化技术让弹性裸金属服务器保留了物理机的体验。 1.2 理解上的难点 同时拥有云服务器的资源弹性和保留了物理机体验的特点容易让用户在…

react native笔记-个人记录-初始化工程遇到的问题

使用Expo工具 在mac上安装expo,如果是权限问题可以参考以下解决方法 https://blog.csdn.net/testcs_dn/article/details/78869419 https://jingyan.baidu.com/article/9c69d48ff88b3813c9024e9d.html 这是第二条链接的说明:对于Mac OS X 10.11 El Capi…

神龙架构没那么难理解—图解世界领先的阿里云神龙架构(二)神龙出世

3 神龙出世 3.1 继续说我们的搬砖问题 第2章中指出只要采用虚拟化和弹性计算,就代表100个劳动力必须选择1个管理人员,实际上只能有99个劳动力进行搬砖。而神龙想做到的目标就是既然100个工人搬砖,就要全部搬砖,但同时也需要有手段…

中科院战略咨询院与戴尔发布《产业数字化转型:战略与实践》研究报告

中国北京– 2020年7月10日,中国科学院科技战略咨询研究院与戴尔科技集团联合发布《产业数字化转型:战略与实践》研究报告,总结当前产业数字化转型发展现状及主要问题,为促进中国产业数字化转型提出一系列战略和政策建议。 报告构…

“国货之光” 完美日记的微服务实践和优化思路

如果你是一位程序媛,你一定知道完美日记。 如果你是一位程序员,你的那个她一定知道完美日记。 今年双11,完美日记仅用28分钟就超过了2018年双11全天的销售额,成为第一个登上天猫双11彩妆榜首的国货品牌。在这个遍地都是漂亮小姐…

Vue 实现 Open Graph 分享预览

什么是 Open Graph Protocol?,可以去看这篇文章 Open Graph Protocol 像vue的插件,例如vue-head,vue-meta这些可以动态的添加meta标签到head头中,但是我在尝试之后,并没有什么作用,原因是我们…

Springboot2 Swagger3 集成

文章目录一、默认UI1. 版本尝鲜2. 导入依赖3. Swagger3Config配置类4. Swagger3.0常用注解4.Controller 层使用Swagger3注解例子5.访问Swagger3接口文档界面6.Swagger3接口文档界面展示二、bootstrapUI2.1. 导入依赖2.2. 访问地址一、默认UI 1. 版本尝鲜 Swagger3在Swagger2的…

10个月,15亿,阿里云如何赋能企业打造交付和创新竞争力?

阿里妹导读:中国有3000万卡车司机,他们每天开车12-16个小时,发生事故导致身亡的概率是普通人群的5倍。路歌旗下的“卡友地带”是中国最大的卡车司机交友互助平台,有超过150万的卡车司机在上面活跃。 “卡友地带”却在运行两年后&a…

涌之势,智造未来, 戴尔科技集团携新一代信息技术解决方案赋能“新基建”

2020年7月10日,戴尔科技集团邀请中国科学院专家、行业领袖、客户与合作伙伴、媒体和分析师朋友共同探讨“新基建”为行业所带来的机遇与智造未来的发展前景。 戴尔科技集团推出多款面向新一代信息技术的Power 家族创新产品组合与解决方案,多维度展示了戴…

重磅!阿里云发布最新服务等级协议SLA ,多实例可用性升为99.995%

12月13日,全球前三的云计算公司阿里云公布了最新的弹性计算服务等级协议SLA,单实例的可用性从99.95%提升至99.975%,多可用区多实例可用性从99.99%提升至99.995%,均为全球最高水准。 SLA即服务等级协议,代表了云服务商…

诚选app优化方案

解决大文件问题,目前发现整个项目打包的出来的文件过大 1.如图一、图二可以看到在Stat Parsed Gzip下文件的大小相差很大,目前从图三中可以看到两个属性productionSourceMap、ProductionGzip,productionSourceMap为true的时候会生成一些map文…