CCO x Hologres:实时数仓高可用架构再次升级,双11大规模落地

简介:本文将会介绍今年是如何在去年基础上进行实时数仓高可用架构升级,并成功大规模落地双11。

作者 | 梅酱
来源 | 阿里技术公众号

一 2021年双11总结

2021年阿里巴巴双11期间,由CCO+Hologres构建的高可用实时数仓经过2年的迭代,支撑了阿里集团内部从智能到人工,从应用到数据产品,从B/C到内部运营等数10个核心应用场景,并在双11实时大屏、实时监控大盘等多个应用场景全面启动新一代高可用及灾备方案,在Hologres主集群写入峰值达450万+每秒的情况下,还能真正做到数据“0”延迟,服务“0”延迟。

相比2020年,今年通过优化实时写入链路,在Binlog消费和维表Join流量翻倍的情况下,同等资源下Hologres Binlog读取峰值达1700万+每秒,整体水位平稳保持正常高吞吐。同时今年首次在大促核心场景上线新一代高可用及灾备方案,取消去年使用的双实例+双链路的高成本方式,极大降低人力开发、压测以及运维成本,降低无效双链路任务上百个,减少人力投入50%,节约上千cu计算资源。

下面将会介绍今年是如何在去年基础上进行实时数仓高可用架构升级,并成功大规模落地双11。

去年精彩回顾:Hologres是如何完美支撑双11智能客服实时数仓的?

二 客户简介

CCO是Chief Customer Officer的缩写,也是阿里巴巴集团客户体验事业部的简称。在阿里巴巴经济体内,CCO是“客户第一”价值观落地的组织保障,是整个经济体客户体验的神经网络,也是触达消费者和商家的最前线。“成为新商业的服务生态摇篮”,“让体验成为商业的核心竞争力”是我们的愿景。凭借着为消费者、商家和经济体提供专业服务的小二,为平台不断挖掘存量客户价值的体验运营专家,为业务发展提供底层支撑的数据、产品和技术人才,我们成为了互联网行业独一无二的数字化服务体验团队 —— 一支有爱有担当,富有创造力的“阿里柔军”。

三 业务挑战

CCO通过与Hologres高度共建,构建了集实时化、自助化、系统化于一体的用户体验实时数仓,完美助力2020年双11场景,支持上千+服务大屏,削峰30%,节约成本近30%。

但是在2021年,任务规模也相比2020年增长1.5倍,实时数据膨胀2倍以上,如何有效管理数据和资源成为了越来越关键的问题,同时2021年大促期间将会面临更加高并发高吞吐的流量,如何保障实时数仓的高可用,以及保持稳定性和成本的平衡,是今年构建实时数仓的核心挑战。

2020年双11,为了应对大促的流量洪峰,在高可用方面,我们花费1个月,投入巨大人力成本,来构建双链路+双实例的高可用方案,以下为去年双11的实时数仓架构。这个架构虽然支撑了去年双11等各种大促流量洪峰,但是在今年更为复杂的环境和外部更多挑战的情况下,也存在着一定的痛点,主要有以下几个:

  • 浪费资源:数据同时写入多个实例,满足主备要求,既浪费了计算资源,也浪费了存储资源,同时也额外增加了业务的开发成本和运维成本。
  • 无法高效保证主备链路数据一致性:在数据双写时,当某个实例因为因为种种原因出现延迟时,无法与另外一个实例保持完整的数据一致性,无法做到真正的高可靠。
  • 运维复杂:双链路意味着需要采用两套架构,虽然搭建逻辑以及开发逻辑都一致,但是当对主链路进行运维发布(如升降配,bug fixed等)或者逻辑修改时,牵一发而动全身,还需要同时维护备链路,操作比较复杂,运维链路长。

image.png

为了解决2020年遗留的问题,2021年双11对实时数仓进行升级,采用新一代高可用及灾备方案,在对单链路进行充分的压测评估以及长应急预案外,实例内使用多副本+共享存储的方式,除了在出现未知问题时可以快速切换副本来提高业务的可用性外,还极大的降低了构建双链路的成本。同时在面对大促和日常流量时,可以快速缩容,提高架构的整体灵活性,在成本和效率上相比去年更加的平衡,实现生成高可用,成功大规模落地双11。

下面将会具体介绍今年的高可用及灾备方案。

四 业务方案

整体数据链路同2020年保持一致:数据源数据通过Flink ETL处理后实时写入Hologres,行存表用于在线服务场景,列存表用于复杂多维分析场景,再由Hologres通过通过不同的场景直接对接上层应用。

在去年方案的基础上,对架构进行升级,对Hologres服务和分析场景进行集群隔离以及高可用部署,组成当下实时数仓3.0架构。

注:部分不核心业务由于历史原因暂时无法下线,所以由Hologres同步至某DB引擎提供服务。

image.png

升级1:多种隔离方式满足生产高可用

在高可用部分,今年的方案升级主要如下:
1)服务和分析集群隔离
采用行存和列存两个实例集群,有效隔离行存服务和列存分析场景下对于QPS/RT不同要求的能力。

  • 行存集群承载核心实时数据,主要承担与Flink高频的交互(数据写入、Binlog消费、维表关联),同时提供比如数据特征、用户画像等在线点查服务,实现在线推荐。
  • 列存集群主要用于复杂多维分析,由Flink实时写入,应用于实时数据大屏、实时监控等一系列核心场景

2)分析场景读写分离高可用和灾备
对于大促期间高保的列存分析核心场景,启用多实例共享存储读写分离高可用和非共享存储灾备的能力建设。

  • 读写分离高可用:多个实例共享存储,主实例具备完整能力,数据可读可写,权限、系统参数可配置,而子实例处于只读状态,所有的变更都通过主实例完成,实例之间共享一份数据存储,实例间数据异步实时同步。这个方案实现了完整的读写分离功能,保障不同业务场景的SLA,在高吞吐的数据写入和复杂的架构作业、OLAP、AdHoc查询、线上服务等场景中,负载之间物理上完全隔离,不会因写入产生查询的抖动。同时当某个子实例出现问题时,可以在其余子实例间紧急切换,也不会带来数据一致性的问题。
  • 灾备:在多机房部署多个实例,实例间不共享存储,数据通过实例间进行实时同步,数据冗余在多个文件系统,在集群出现问题时,可做紧急切换。

日增量数据在数十TB的规模下,无论是共享存储的读写分离高可用还是非共享存储的灾备模式,同机房/跨机房实时数据同步延迟都低于10ms,完全满足我们对于大促高保场景的数据时效性要求。

升级2:实时链路优化提高吞吐

对于核心场景,在大促流量洪峰下查询需要保持高性能,写入也同样需要保持高吞吐,才能不影响业务的下一步决策,例如每年双11交易峰值,对写入和Binlog消费的压力都比较大,因此实时链路的优化与保障需要格外处理。今年针对大流量场景的任务调优,在实时链路上我们针对并发、攒批、connector等都做了相应的优化,保证了高吞吐写入,降级写入延迟,满足不同业务系统的需求。

  • 优化写入connector的带宽策略,避开VIP带宽由5GB/s到20GB/s的限制。
  • 大流量的行存表扩容shard数,比如交易表,提高写入并发能力。
  • 大流量的任务选择合适的并发,比如交易表我们采用的参数是Binglog并发:512、sink并发:512、batch size:512、buffer size:20000、ingore delete:true。
  • 合适的攒批能力:选择更加合适的connector的攒批以及server端的攒批,交易场景的输入流量和输出流量的峰值差距能够达到30%,一定程度上具备削峰填谷的效果。

为什么要采用这样的方案,有比较强的场景原因也有比较客观原因造成的方案折中:

  • 由于历史原因,不同的应用系统可能会依赖不同的数据服务引擎,比如某些KV引擎暂时未改造下线,为了保证数据一致性,我们通过消费Hologres Binlog,将某些实时数据向其它KV引擎做实时同步,既保证了数据一致性,也可以满足不同应用系统的需求。
  • 对于交易流量,大促峰值往往高于日常非常多,为了保证峰值吞吐性能,所有引擎按照峰值扩容,会有极大的资源浪费,通过数仓中转的流量需要具备一定的“消峰填谷”的能力,来保证目标引擎不必过度扩容。

五 总结

由CCO+Hologres构建的高可用实时数仓经过2年的迭代,由最初的传统数仓逐渐升级到2021年的高可用实时数仓:2020年年双11大促首次采用以Hologres为核心实时数仓方案,统一了实时核心数据与部分离线数据的存储。再到2021年通过对实时数仓进行高可用架构升级,由链路双写顺利升级为读写分离高可用以及灾备架构,并在双11以及双12等核心场景规模应用。实时任务规模由去年的几百+增加至上千+,写入压力增加至1700万+每秒,数据规模高达几百TB,直接服务数十个在线服务场景,数百个核心分析业务,有效降低了构建实时数仓主备链路的人力以及机器成本,减轻了核心业务对于读取稳定的压力,完美经受住各大促核心场景的检验,实现生产高可用。

原文链接

本文为阿里云原创内容,未经允许不得转载。 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/511656.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

MLPerf世界纪录技术分享:通过模型压缩优化取得最佳性能

作者 | 刘姝 供稿 | 浪潮 MLPerf竞赛由图灵奖得主大卫帕特森(David Patterson)联合谷歌、斯坦福、哈佛大学等单位共同成立,是国际上最有影响力的人工智能基准测试之一。在MLPerf V0.7推理竞赛开放赛道中,浪潮信息通过模型压缩优…

Serverless 应用优化四则秘诀

简介:Serverless 架构下,虽然我们更多精力是关注我们的业务代码,但是实际上对于一些配置和成本也是需要进行关注的,并且在必要的时候,还需要根据配置与成本进行对我们的 Serverless 应用进行配置优化和代码优化。 Ser…

懵了,构建一个 Docker 镜像花 60 分钟?如何提高效率?

作者 | Andy来源 | 进击云原生最近,有一个需求:向镜像构建管道添加一个参数,以允许用户在构建时配置超时时间。我们计划在构建时配置 10 分钟的默认超时,并且允许用户覆盖此配置,因为他们的某些镜像构建需要长达 60 分…

java实现短信上行源码_Java 发送短信验证码 示例源码

【实例简介】执行前请先设置修改 src/test.java 文件//用户名private static String Uid "uid";//接口安全秘钥(不是登录密码)private static String Key "key";//手机号码,多个号码如13800000000,13800000001,13800000002private static Str…

Android项目架构设计深入浅出

简介:本文结合个人在架构设计上的思考和理解,介绍如何从0到1设计一个大型Android项目架构。 作者 | 璞珂 来源 | 阿里技术公众号 前言:本文结合个人在架构设计上的思考和理解,介绍如何从0到1设计一个大型Android项目架构。 一 引…

技术实践第四期|解读移动开发者日常-性能监控平台应用

简介:应用性能监控平台是用来帮助客户提升应用性能质量和稳定性的重要环节,本人作为一名移动端开发者有着丰富的使用和运维经验,希望通过本文分享过往的心得和使用经验,让我参与开发的U-APM这款产品中,作为借鉴可以在中…

彻底理解操作系统:CPU与实模式

作者 | 陆小风来源 | 码农的荒岛求生‍对于人类来说,我们不喜欢拐弯抹角,喜欢更直接的东西,“有话直说”、“没有中间商赚差价”、“简洁的设计”等等,然而对于计算机,尤其是对内存管理来说则恰恰相反,在这…

边缘计算的 4 种类型都有哪些?

作者 | Addo Zhang来源 | 云原生指北本篇文章译自 SUNKU RANGANATH 的 4 Types of Edge Computing - Broadly Categorized。文章通过 往返终端设备和数据中心的延迟 来对边缘计算的类型进行大致的分类,通俗易懂,方便大家对边缘计算有个大概的了解。边缘计…

OpenKruise v1.0:云原生应用自动化达到新的高峰

简介:OpenKruise 是针对 Kubernetes 的增强能力套件,聚焦于云原生应用的部署、升级、运维、稳定性防护等领域。 云原生应用自动化管理套件、CNCF Sandbox 项目 -- OpenKruise,近期发布了 v1.0 大版本。 OpenKruise[1] 是针对 Kubernetes 的…

Serverless Kubernetes 落地实践

简介:如何通过原生 Kubernetes 提供 Serverless 能力?如何借力丰富的云原生社区生态?本文将给大家介绍一下我们在 Serverless Kubernetes 上的落地实践。 作者:元毅 导读 Kubernetes 作为当今云原生业界标准,具备良…

如何在零停机的情况下迁移 Kubernetes 集群

简介:本文将通过集群迁移的需求、场景以及实践方式,介绍如何基于阿里云容器服务 ACK,在零停机的情况下迁移 Kubernetes 集群。 作者:顾静(子白)|阿里云高级研发工程师;谢瑶瑶&#…

轻松理解 Docker 网络虚拟化基础之 veth 设备!

作者 | 张彦飞allen来源 | 开发内功修炼最近我又对网络虚拟化技术产生了浓厚的兴趣,迫切想搞明白在 Docker 等虚拟技术下,网络底层是如何运行的。不得不说,网络虚拟化技术是我给自己抛的又一个大坑。虽然我自认为把原生 Linux 网络实现过程理…

如何做好数字化体验管理,了解一下?

简介:本文主要分为三部分,第一部分是数字化体验的必要性,从数字化体验管理对业务的影响和数字化体验管理对企业的价值两个方面来介绍其必要性;第二部分,ARMS 在数字化体验管理上的产品能力介绍;第三部分&am…

深信服智能边缘计算平台与 OpenYurt 落地方案探索与实践

简介:本文将介绍边缘计算落地的机遇与挑战,以及边缘容器开源项目 OpenYurt 在企业生产环境下的实践方案。 作者:赵震,深信服云计算开发工程师,OpenYurt 社区 Member 编者案:在 5G、物联网等新技术的持续推…

云原生的本手、妙手和俗手

作者 | 步尔斯特来源 | 步尔斯特刚刚看到一个话题:Java大军,真的开始把目光从Spring Cloud转向云原生系的k8s Istio了么?乍一看,有一丝不解,Java大军?Spring Cloud?Kubernetes?Serv…

云原生背景下故障演练体系建设的思考与实践—云原生混沌工程系列之指南篇

简介:生产环境的突袭演练是我们迈出的艰难但有力的一步,锻炼了研发运维人员的应急响应能力,在真实用户场景下锤炼系统,推进了产品的轮班制度,提升了云原生底座的稳定性和竞争力。 作者:智妍(郑…

Spring Boot Serverless 实战系列“部署篇” | Mall 应用

简介:本篇中为各位讲述如何将 Mall 应用部署到函数计算平台上。为了让分析更有代表性,我选择了 Github 上 star 数超过 50k 的电商应用 mall 作为示例。 作者:西流 导读:Spring Boot 是基于 Java Spring 框架的套件,它…

押宝云原生,Ampere Computing打响服务器芯片变革关键一枪

“闯龙潭,越虎穴”这句话用来形容在服务器领域披荆斩棘的Arm架构服务器器芯片似乎最为合适不过。所谓“龙潭”“虎穴”指的便是雄霸服务器芯片市场数载的intel与AMD,而他们所属的x86架构,更是数据中心芯片领域的绝对主流。然而云原生时代的到…

阿里云实时数仓Hologres年度发布,解读数仓新趋势

简介:阿里云实时数仓Hologres年度发布,解读数仓新趋势。 1月7日,阿里云实时数仓Hologres发布最新版本,在成本、可用性、在线高可用等多方面进行了能力升级,行存吞吐提升100%,列存吞吐提升30%,支…

服务发现与配置管理高可用实践

简介:本篇是微服务高可用最佳实践系列分享的开篇,系列内容持续更新中,期待大家的关注。 作者:三辰|阿里云云原生微服务基础架构团队技术专家,负责 MSE 引擎高可用架构 本篇是微服务高可用最佳实践系列分享…