揭秘双11丝滑般剁手之路背后的网络监控技术

简介: 本篇将重点介绍Hologres在阿里巴巴网络监控部门成功替换Druid的最佳实践,并助力双11实时网络监控大盘毫秒级响应。

概要:刚刚结束的2020天猫双11中,MaxCompute交互式分析(下称Hologres)+实时计算Flink搭建的云原生实时数仓首次在核心数据场景落地,为大数据平台创下一项新纪录。借此之际,我们将陆续推出云原生实时数仓双11实战系列内容,本篇将重点介绍Hologres在阿里巴巴网络监控部门成功替换Druid的最佳实践,并助力双11实时网络监控大盘毫秒级响应。

3...
2...
1...
00:00:00 。购物车,结算,提交订单,付款
00:01:00...。滴,您的支付宝消费xxx万元。
亿万人同时参与的千亿级项目,破记录的峰值58万笔/秒,剁手党们在整个交易过程中如丝般顺滑,好像参加了一个假的双11,而这一切的背后都离不开阿里巴巴网络能力的强大支持。随着技术的发展,尤其是近年来云和电商业务的愈发兴盛,基础网络也变得越来越庞大和复杂,如何保障这张膨胀网络的稳定性,提供云上用户畅通无阻的购物体验,对网络系统建设者和运维者说更是极大的考验。
理论上来说,故障不可避免,但是如果能够做到快速发现,定位,修复甚至预防故障,缩短故障时长,即可让用户轻微或无感是稳定性追求的终极目标。2015年的微软提出了pingmesh,成为业界事实的解决方案,但是由于天生的某些缺陷性,导致故障发现时间过长。阿里巴巴网络研发事业部从2017年就开始研发站在世界前沿的探测系统AliPing,AliPing实时系统的出现将阿里故障发现带入了秒级响应,数据采集到处理到大盘呈现最快时间延迟在数秒之间,告警+故障定位分钟级,7*24全天候监控着整个阿里的网络状况。
AliPling的核心架构图如下:
1.png

在整个系统中,监控大盘作为故障发现的核心元素,承担着实时呈现网络状况的重任,每一条曲线的起起伏伏,就有可能代表用户的业务在受损, 如何快速实时展示网络状态,并预警/发现网络故障,帮助用户迅速止血,这对于监控团队的监控大盘也是重大的考验。对于监控人员使用的监控大盘来说,困难有多个:
1)数据时效性要求高:需要实时的将处理完的结构化数据(告警,监控)7*24小时的呈现在使用者(GOC, 各个或者监控人员面前,以便及时地发现处理全阿里+蚂蚁的网络故障。
2)数据源复杂:网络数据源众多,业务场景众多,有一分钟数百G的流量监控数据,也有一分钟几十K的IDC网络数据,如何将这些不同种类,不同数据量的业务数据,纳入监控体系发现异常,对整体端到端监控大盘来说也是一种考验。
3)数据指标维度多:对于监控人员来说,需要监控的数据指标维度特别多,可以看作是一个复杂的OLAP查询系统,如何根据自身业务场景从大盘中实时查询所需的业务数据,这对于处理后端数据的OLAP框架也是一个重大挑战。

技术选型

对于监控大盘来说,用户的组合查询条件具有不可预知性,其结构化数据没有办法提前算好,只通过OLAP(联机分析处理)技术,实时对基础数据分析组合,并将结果呈现给用户。Aliping大盘实际就是OLAP技术体现,将不同维度的故障数据(机房、区域、DSW、ASW、PSW、部门、应用等等)通过大盘形式展现在用户面前。

2017年在AliPing系统实施的时候,我们对比了多项OLAP数据库, 其中选择比较有代表性的进行了对比:
1)HIVE
底层基于HDFS存储,将SQL语句分解为MapReduce任务进行查询。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。但是由于底层是HDFS分布式文件系统的限制性,不能进行常见的CUD(对表记录操作)操作,同时Hive需要从已有的数据库或日志进行同步最终入到HDFS文件系统中,当前要做到增量实时同步都相当困难。最重要的是:查询速度慢,无法满足监控大盘秒级相应需求。
2)Kylin
传统OLAP根据数据存储方式的不同分为ROLAP(relational olap)以及MOLAP(multi-dimension olap)。ROLAP 以关系模型的方式存储用作多为分析用的数据,优点在于存储体积小,查询方式灵活,然而缺点也显而易见,每次查询都需要对数据进行聚合计算,为了改善短板,ROLAP使用了列存、并行查询、查询优化、位图索引等技术。Kylin中数据立方的思想就是以空间换时间,通过定义一系列的纬度,对每个纬度的组合进行预先计算并存储。有N个纬度,就会有2的N次种组合。所以最好控制好纬度的数量,因为存储量会随着纬度的增加爆炸式的增长,产生灾难性后果。这个对于庞大的网络数据和不可确定性维度组合,是不可以接受的。

3)ClickHouse
这个是由俄罗斯yandex公司开发的,专门为在线数据分析而设计。根据官方提供的文档来看,ClickHouse 日处理记录数"十亿级"(没测过)。其机制采用列式存储,数据压缩,支持分片,支持索引,并且会将一个计算任务拆分分布在不同分片上并行执行,计算完成后会将结果汇总,支持SQL和联表查询但是支持不够好,支持实时更新,自动多副本同步。总体来说,ClickHouse还算不错,但是由于不够成熟,官方支持度不够,bug也多多,最重要的是集团内也没看到人用,只能放弃

4)Druid
是一种能对历史和实时数据提供亚秒级别的查询的数据存储系统。Druid 支持低延时的数据摄取,灵活的数据探索分析,高性能的数据聚合,简便的水平扩展。适用于数据量大,可扩展能力要求高的分析型查询系统。其机制将热点和实时数据存储在实时节点(Realtime Node)内存中,将历史数据存储在历史节点(history node)的硬盘中,实时+伪实时的结构,保证查询基本都在毫秒级。高速摄入,快速查询正是满足了我们的需求,同时还有通用计算引擎团队的有力支持,在早期我们选择了druid作为了我们监控大盘的OLAP支持系统。

新OLAP网络监控系统

随着业务的复杂化,业务进一步增多,Druid使用过程中也暴露出一系列问题:
1)数据量摄入的瓶颈, 集团上云,流量的引入,使我们数据量激增,数据写入出现了数次大故障
2)由于业务复杂多变,我们需要增加维度数据,Druid增加相对来说过程比较复杂
3)Druid的查询方式不友好,有一套自己的查询语言,对于SQL支持太差,浪费大量时间学习
4)不支持高并发,对于大促来说简直是灾难。有两年双十一,我们只能上线踢用户保证监控大盘可用。

随着暴露出的问题越来越多,我们也在寻找一款既能替代Druid解决当前问题,又能满足实时OLAP多维分析场景需求的产品。
也是在集团内其他部门沉淀的最佳实践中知道Hologres,并且了解到Hologres支持行存模式下的高并发点查和列存模式下的实时OLAP多维分析,觉得这一点很贴合我们网络监控系统的要求,于是就抱着试试的心态先去测试体验Hologres。通过全链路的测试和大量的场景数据验证,能满足我们场景需求,于是就决定上线Hologres至正式生产中。

改造后的新OLAP监控系统如下图所示,整体的数据流程大致如下:

  • Kafka实时采集网络相关的监控指标数据,并写入Flink中轻度汇总加工
  • Flink将初步加工完成的基础粒度的实时数据实时写入Hologres中,由Hologres提供统一的存储
  • Hologres直接实时对接监控大屏,大屏实时展示多种监控指标的变化情况,不符合预期的数据实时报警,相应的业务人员立即排查问题并解决。
    2.png

业务价值

今年也是Hologres第一年参与AIS网络故障监控的双11作战,作为新秀交出了令我们比较满意的答卷。整体来说对于业务的价值主要表现如下:

1)TB级数据毫秒级响应
对于实时监控来说,时间就是生命线,越快发现故障就能越快止血,如何根据用户输入的复杂组合条件,在TB级数据中,仅仅以秒级甚至是毫秒级的响应筛选出符合要求的数据(OLAP),这对很多系统来说都是很大的挑战,而实战证明,合理的利用Hologres索引功能,并通过资源的合理分配等,在OLAP实时性上完美的满足了监控业务的需要。

2)支持高并发
双11的监控大屏往往需要查询查询历史数据,并根据历史数据做报警预测,以往的系统最多只能支撑不到数十用户的查询(数10天数据),而Hologres能支撑数百用户的大规模并行查询并且依旧没有达到上限,在今年双11的0点时,面对数百倍的平时数据量冲击,监控曲线依旧平滑如旧,毫无滞涩之感

3)写入性能高
对于之前数十万/秒,数百万/秒的写入能力,Druid的表现不是很好容易出现涌塞现象,而Hologres可以轻松做到,这也就轻松解决了我们的实时写入瓶颈问题。

4)学习成本低
Hologres兼容Postgres,全SQL支持,非常方便新用户上手,无需再花费时间和精力去研究语法。同时Hologres对于BI工具的兼容性很好,无需做改造就能对接监控大屏,节约大量时间。

对每一个天猫双11剁手人来说,每一次的丝滑般购物体验都离不开阿里网络能力的支撑,而监控大盘就是阿里网络状况的眼睛。Hologres作为大盘的核心环节,给大盘持续赋能。但是,作为一个新生儿,HOLO仍然有一些不太成熟的地方,在透明升级、稳定性等环节上依存在提升空间。我们也愿意同Hologres一起成长,期待明年双11 Hologres更优秀的表现。

作者简介:唐傥,隶属网络研发事业部网络,现从事网络稳定性开发研究工作,前北邮研究生导师,拥有数个网络和算法相关专利。

 

 

原文链接
本文为阿里云原创内容,未经允许不得转载。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/514678.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

OpenKruise:阿里巴巴 双11 全链路应用的云原生部署基座

简介: Kruise 是 Cruise 的谐音,K for Kubernetes,寓意 Kubernetes 上应用的航行和自动巡行,它满载着阿里巴巴多年在大规模应用部署、发布与管理最佳实践,以及阿里云 Kubernetes 服务数千客户的需求沉淀。 来源 | 阿里…

AI 如何推动双碳目标达成?施耐德电气这么说

以当前的排放总量而言,中国是全球碳排放第一大国。如何兼顾经济转型与能源低碳转型成为国家重要的发展战略之一,因此中国提出 2030 年碳达峰以及 2060 年碳中和的目标,并被写进《政府工作报告》中,成为各行各业关注的热点话题。 …

轻松玩转全链路监控

简介: 好的产品总是能给予用户最轻松的使用体验,并在实际生产中发挥出巨大的业务价值。我们不妨从现在开始,就将所有微服务应用通过无侵入的方式接入ARMS,构建一体化的全链路监控体系,而不是等到真正遇到生产故障的那一…

深度解读 MongoDB 最全面的增强版本 4.4 新特性

MongoDB 在今年正式发布了新的 4.4 大版本,这次的发布包含众多的增强 Feature,可以称之为是一个维护性的版本,而且是一个用户期待已久的维护性版本,MongoDB 官方也把这次发布称为「User-Driven Engineering」,说明新版…

四大招让无处不在的工作空间成为可能?揭秘Ivanti 的战略布局

如今二维码已成为我们生活、工作的“必需品”,大家往往会通过简单扫码获取内容信息或进行交易。受疫情的影响,人们对非接触式交易需求增多,二维码的应用场景更无处不在。 与此同时,二维码带来的安全问题也受到人们的关注&#xf…

深度| 每秒1.4亿次!再度刷新TPS记录的PolarDB如何应对双11“尖峰时刻”?

2020年是云原生数据库PolarDB全面支撑天猫双十一的第二年,天猫交易、买家、卖家以及物流等系统在双十一期间基于PolarDB为亿万客户提供了顺滑的体验。同时,PolarDB还刷新了去年由自己创造的数据库处理峰值(TPS)纪录,今…

Hologres是如何完美支撑双11智能客服实时数仓的?

简介: 本文重点介绍Hologres如何帮助阿里巴巴客户体验部(CCO),构建集实时化、自助化、系统化于一体的用户体验实时数仓,完美助力双11场景,支持上千服务大屏,削峰30%,节约成本近30%。…

云原生与AI时代的存储该是什么样?新华三发布全NVMe智能闪存与智慧中枢数据平台

编辑 | 宋慧 出品 | CSDN云计算 7月8日,紫光股份旗下新华三集团以“智以致用速达未来”为主题,召开“2021新华三存储新品发布会”,重磅推出云智原生的新一代端到端NVMe闪存存储H3C/HPE Alletra、分布式融合存储H3C UniStor X10000&#xff0…

java客户端程序用什么自动化测试_五大Java自动化测试框架

51CTO官微技术资讯/行业精华/产品心得多年来,Java一直是服务器端应用开发的首选编程语言。随着时间的推移和自动化测试的兴起,业界出现了许多基于Java,并根据不同的业务逻辑而发展起来的开源框架。在此,我向大家介绍并比较五种用到…

微服务框架Go-Micro集成Nacos实战之服务注册与发现

简介: 本文主要介绍如何使用 Golang 生态中的微服务框架 Go-Micro(v2) 集成 Nacos 进行服务注册与发现。(Go-Micro 目前已经是 v3 版本,但由于某些原因项目已经更名为 nitro 具体原因大家可以去 github 中查看) 相关背景知识 Go-Micro Go Micro 是一个…

「深度学习知识体系总结(2021版)」开放下载了!

随着世界技术的迭代与发展,人工智能和机器学习正在超自动化领域,扮演着越来越重要的角色。2020年的冠状病毒疫情突发,整个世界都在防疫的道路上披荆斩棘。人工智能发挥了重大作用,智能测温、智能消毒、智能建设都能看到AI的影子。…

2020双11,阿里巴巴集团数万数据库系统全面上云揭秘

作者:阿里云高级技术专家 改天阿里云高级产品专家 胜通 2020年天猫双十一成交额突破4982亿,在双十一走过12个年头之际,我们的订单创建峰值达到58.3万笔/秒,再次刷新全球在线交易系统的记录。历年双十一都是对技术人的一次大考&…

以 Kubernetes 为代表的容器技术,已成为云计算的新界面

简介: 可以说,以 Kubernetes 为代表的容器技术正成为云计算新界面。容器提供了应用分发和交付标准,将应用与底层运行环境进行解耦。Kubernetes 作为资源调度和编排的标准,屏蔽底层架构差异性,帮助应用平滑运行在不同基…

2020双11养猫技术大揭秘

简介: 你养猫了没? 作者 | 淘系-珑晴 在电商领域,互动是一个重要的用户增长方案,在提升用户黏性、活跃以及拉新上都发挥着重要的作用。今年双11,淘系互动团队推出了“超级星秀猫”,我们不盖楼、不开车&…

GitHub 遭抵制!AI 代码生成神器竟成“抄袭工具”?

整理 | 郑丽媛出品 | CSDN(ID:CSDNnews)上周,微软、GitHub、OpenAI 三方联手推出的 AI 代码生成神器 GitHub Copilot 一经官宣便引起巨大关注:试问哪个开发者不想要这么一位“虚拟程序员”来解放自己的双手&#xff1f…

阿里云性能测试工具PTS介绍

简介: 性能测试 PTS(Performance Testing Service)是具备强大的分布式压测能力的 SaaS 压测平台,可模拟海量用户的真实业务场景,全方位验证业务站点的性能、容量和稳定性。 阿里云 阿里云智能GTS-平台技术部-SRE团队 1…

php微信公众号的服务器配置,微信公众号服务器配置选项PHP示例代码

最近微信公众号遇到有点奇怪的问题,使用的是tp框架,之前配置都ok的,最近有需求重新填写url选项,可配置时一直显示token失败,解决方案,参考以下php示例代码来修改,同时最好把输出注释掉。最后通过…

Dubbo 3.0 前瞻系列 | 2020双11,Dubbo3.0 在考拉的超大规模实践

很多开发者一直以来好奇:阿里自己有没有在用Dubbo,会不会用Dubbo?在刚刚结束的双11,我们了解到阿里云今年提出了“三位一体”的理念,即将“自研技术”、“开源项目”、“商业产品”形成统一的技术体系,最大…

OpenStack管理界面开源啦!

日前,木兰开源社区TOC召开了孵化项目审议会议,其项目分别覆盖数据库、大数据处理、网络、流媒体、云计算等关键领域。其中,浪潮数据纯自研产品Skyline成功入围。 自开源至今,OpenStack常被诟病的一点是原生界面不太好用&#xff…

厂商 push 不通排查指南

简介: MPS 集成多个三方渠道,保障 push 使命必达的必须知道的几件事。 为了提升「MPS 消息推送」的推送的到达率,mPaaS 集成了华为、小米等厂商的推送功能,从而有效地提高用户留存率,提升用户体验。在日常运维过程中&a…