美团OCTO万亿级数据中心计算引擎技术解析

美团点评自研的 OCTO 数据中心(简称 Watt)日均处理万亿级数据量,该系统具备较好的扩展能力及实时性,千台实例集群周运维成本低于10分钟。本文将详细阐述 Watt 计算引擎的演进历程及架构设计,同时详细介绍其全面提升计算能力、吞吐能力、降低运维成本所采用的各项技术方案。希望能给大家一些启发或者帮助。

一、OCTO数据中心简介

1.1 系统介绍

1.1.1 OCTO系统介绍

OCTO 是美团标准化的服务治理基础设施,目前几乎覆盖公司所有业务的治理与运营。OCTO 提供了服务注册发现、数据治理、负载均衡、容错、灰度发布等治理功能,致力于提升研发效率,降低运维成本,并提升应用的稳定性。OCTO 最新演进动态细节可参考《美团下一代服务治理系统 OCTO2.0 的探索与实践》一文。

1.1.2 OCTO数据中心业务介绍

OCTO 数据中心为业务提供了立体化的数字驱动服务治理能力,提供了多维度的精确时延 TP(Top Percent,分位数,最高支持6个9)、QPS、成功率等一系列核心指标,粒度方面支持秒级、分钟级、小时级、天级,检索维度支持多种复杂查询(如指定调用端 IP + 服务端各接口的指标,指定主机 + 接口的指标等)。这些功能有效地帮助开发人员在复杂的分布式调用关系拓扑内出现异常时,能快速定位到问题,也有助于研发人员全方位掌控系统的稳定性状况。

目前 Watt 承载日均超万亿条数据的10余个维度精确准实时统计。而伴随着数据量的迅猛增长,其整个系统架构也经历了全面的技术演进。

1.1.3 OCTO原架构介绍

OCTO计算引擎在重构之前,也面临诸多的问题,其原始架构设计如下:

  1. 采集层:每个业务应用实例部署一个采集代理,代理通过将采集数据用批量 RPC 的方式发送给路由节点。
  2. 路由层:每个路由节点随机收到各服务的数据后,将同一服务的所有数据,用类似 IP 直连的方式通过 RPC 发送到计算层的同一个计算节点。同服务数据汇总到同计算节点才能进行特定服务各个维度的聚合计算。
  3. 计算层:每个计算节点采用 Akka 模型,节点同时负责分钟、小时、天粒度的数据计算集。每个计算集里面又有10个子计算 actor,每个子计算 actor 对应的是一个维度。采用“先计算指标,再存储数据”的准实时模式。
  4. 存储层:准实时数据使用 HBase 存储,元数据及较大数据采用 KV 存储(美团内部系统Cellar)及 MySQL 存储。

1.2 问题、目标与挑战

1.2.1 原架构面临的问题

  1. 计算节点有状态,异常无法自动化迁移。计算层部署的每个节点平均负责200+服务的统计。一个节点 OOM 或宕机时,其管理的200个服务的数据会丢失或波动,报警等依托数据的治理功能也会异常。此外计算节点 OOM 时也不宜自动迁移受影响的服务,需人工介入处理(异常的原因可能是计算节点无法承载涌入的数据量,简单的迁移易引发“雪崩”),每周投入的运维时间近20小时。

  2. 系统不支持水平扩展。计算节点的压力由其管理的服务调用量、服务内维度复杂度等因素决定。大体量的服务需单独分配高配机器,业务数据膨胀计算节点能力不匹配时,只能替换更高性能的机器。

  3. 系统整体稳定性不高。数据传输采用 RPC,单计算节点响应慢时,易拖垮所有路由层的节点并引发系统“雪崩”。

  4. 热点及数据倾斜明显,策略管理复杂。按服务划分热点明显,存在一个服务数据量比整个计算节点200个服务总数多的情况,部分机器的 CPU 利用率不到10%,部分利用率在90%+。改变路由策略易引发新的热点机器,大体量服务数据增长时需要纵向扩容解决。旧架构时人工维护160余个大服务到计算节点的映射关系供路由层使用。

旧架构日承载数据量约3000亿,受上述缺陷影响,系统会频繁出现告警丢失、误告警、数据不准、数据延迟几小时、服务发布后10分钟后才能看到流量等多种问题。此外,数据体量大的服务也不支持部分二级维度的数据统计。

1.2.2 新架构设计的目标

基于上述问题总结与分析,我们新架构整体的目标如下:

  1. 高吞吐、高度扩展能力。具备20倍+的水平扩展能力,支持日10万亿数据的处理能力。
  2. 数据高度精确。解决节点宕机后自愈、解决数据丢失问题。
  3. 高可靠、高可用。无计算单点,所有计算节点无状态;1/3计算节点宕机无影响;具备削峰能力。
  4. 延时低。秒级指标延迟TP99<10s;分钟指标延迟TP99<2min。

1.2.3 新架构面临的挑战

在日计算量万亿级别的体量下,实现上述挑战如下:

  1. 数据倾斜明显的海量数据,数据指标的维度多、指标多、时间窗口多,服务间体量差异达百万倍。
  2. TP分位数长尾数据是衡量系统稳定性最核心的指标,所有数据要求非采样拟合,实现多维度下精确的分布式TP数据。
  3. 架构具备高稳定性,1/3节点宕机不需人工介入。
  4. 每年数据膨胀至2.4倍+,计算能力及吞吐能力必须支持水平扩展。
  5. TP 数据是衡量服务最核心的指标之一,但在万亿规模下,精确的准实时多维度分布式 TP 数据是一个难题,原因详细解释下:常规的拆分计算后聚合是无法计算精确TP数据的,如将一个服务按 IP(一般按 IP 划分数据比较均匀)划分到3个子计算节点计算后汇总,会面临如下问题:

    • 假设计算得出 IP1 的 TP99 是100ms、QPS 为50;IP2 的 TP99 是10ms、QPS 为50;IP3 的 TP99 是1ms,QPS为50。那么该服务整体 TP99 是(100ms x 50 + 10ms x 50 + 1ms x 50)/ (50 + 50 + 50) = 37ms吗? 并非如此,该服务的真实 TP99 可能是 100ms,在没有全量样本情况下无法保证准确的TP值。

    • 假设不需要服务全局精确的时延 TP 数据,也不可以忽略该问题。按上述方式拆分并合并后,服务按接口维度计算的 TP 数据也失去了准确性。进一步说,只要不包含 IP 查询条件的所有 TP 数据都失真了。分位数这类必须建立在全局样本之上才能有正确计算的统计值。

二、计算引擎技术设计解析

2.1 方案选型

大数据计算应用往往基于实时或离线计算技术体系建设,但Flink、Spark、OLAP等技术栈在日超万亿级别量级下,支持复杂维度的准实时精确 TP 计算,对资源的消耗非常较大,总结如下:

2.2 系统设计思路

  1. 解决稳定性问题,思路是(1)将计算节点无状态化(2)基于心跳机制自动剔除异常节点并由新节点承载任务(3)消息队列削峰。
  2. 解决海量数据计算问题,思路是(1)在线&离线计算隔离,两者的公共子计算前置只计算一次(2)高并发高吞吐能力设计(3)理论无上限的水平扩展能力设计。
  3. 解决热点问题,思路是(1)优化计算量分配算法,如均衡 Hash(2)理论无上限的水平扩展能力设计。
  4. 解决水平扩展问题,思路(1)是将单节点无法承载的计算模式改为局部分布式子计算并汇总,但这种方式可能会对数据准确性造成较大影响,数据统计领域精确的分布式分位数才是最难问题,另外多维条件组织对分布式改造也相当不利。(备注:其中在1.2.3第五条有详细的解释)
  5. 解决海量数据分布式多维精确 TP 计算,采用局部分布式计算,然后基于拓扑树组织数据计算流,在前置的计算结果精度不丢失的前提下,多阶段逐级降维得到所有的计算结果。

2.3 技术方案详细解析

2.3.1 数据流解析

系统根据待统计的维度构建了一棵递推拓扑树,如下图所示。其中黄色的部分代表消息队列(每个矩形代表一个 topic),绿色部分代表一个计算子集群(消费前置 topic 多个 partition,统计自己负责维度的数据指标并存储,同时聚合压缩向后继续发)。除“原始采集数据 topic 外”,其他 topic 和 consumer 所在维度对应数据的检索条件(如标红二级 topic :主机+接口,代表同时指定主机和接口的指标查询数据),红色箭头代表数据流向。

拓扑树形结构的各个子集群所对应的维度标识集合,必为其父计算集群对应维度标识集合的真子集(如下图最上面链路,“主机+接口+远程服务”3个维度一定包含“主机+接口”两个维度。“主机+接口”两个维度包含“主机”维度)。集群间数据传输,采用批量聚合压缩后在消息队列媒介上通信完成,在计算过程中实现降维。

2.3.2 计算模式解析

下面详细介绍数据拓扑树中分布式子集群的计算模式:

  1. 首先,维度值相同的所有数据会在本层级集群内落到同一计算节点。每个计算子集群中的各计算节点,从消息队列消费得到数据并按自身维度进行聚合(前置集群已经按当前集群维度指定分发,所以聚合率很高),得到若干计数卡表(计数卡表即指定维度的时延、错误数等指标与具体计数的映射 Map)。
  2. 其次,将聚合后的计数卡表与现有的相同维度合并计算,并在时间窗口存储指标。
  3. 若计算集群有后续的子计算集群,则基于后继集群的目标维度,根据目标维度属性做散列计算,并将相同散列码的计数卡表聚合压缩后发到后继 partition。
  4. 离线的天级计算复用了三级维度、二级维度的多项结果,各环节前面计算的结果为后面多个计算集群复用,任何一个服务的数据都是在分布式计算。此外,整个计算过程中维护着技术卡表的映射关系,对于 TP 数据来说就是精确计算的,不会失真。

整个计算过程中,前置计算结果会被多个直接及间接后续子计算复用(如三级聚合计算对二级和一级都是有效的),在很大程度上减少了计算量。

2.3.3 关键技术总结

1.高吞吐 & 扩展性关键设计

  • 去计算热点:组织多级散列数据流,逐级降维。
  • 降计算量:前置子计算结果复用,分布式多路归并。
  • 降网络IO,磁盘IO:优化 PB 序列化算法,自管理 MQ 批量。
  • 去存储热点:消除 HBase Rowkey 热点。
  • 无锁处理:自研线程分桶的流批处理模型,全局无锁。
  • 全环节水平扩展:计算、传输、存储均水平扩展。

2.系统高可靠、低运维、数据准确性高于5个9关键设计

  • 无状态化 + 快速自愈:节点无状态化,宕机秒级感知自愈。
  • 异常实时感知:异常节点通过心跳摘除,异常数据迁移回溯。
  • 故障隔离容灾:各维度独立隔离故障范围;多机房容灾。
  • 逐级降维过程中数据不失真,精确的 TP 计算模式。

3.提升实时性关键设计

  • 流式拓扑模型,分布式子计算结果复用,计算量逐级递减。
  • 无锁处理:自研线程分桶的流批处理模型,全局无锁。
  • 异常实时监测自愈:计算节点异常时迅速 Rebalance,及时自愈。
  • 秒级计算流独立,内存存储。

三、优化效果

  1. 目前日均处理数据量超万亿,系统可支撑日10万亿+量级并具备良好的扩展能力;秒峰值可处理5亿+数据;单服务日吞吐上限提升1000倍+,单服务可以支撑5000亿数据计算。
  2. 最大时延从4小时+降低到2min-,秒级指标时延 TP99 达到 6s;平均时延从4.7分+降低到1.5分-,秒级指标平均时延6s。
  3. 上线后集群未发生雪崩,同时宕机1/3实例2秒内自动化自愈。
  4. 支持多维度的准实时精确 TP 计算,最高支持到 TP 6个9;支持所有服务所有维度统计。
  5. 千余节点集群运维投入从周20小时+降低至10分-。

四、总结

本文提供了一种日均超万亿规模下多维度精确 TP 计算的准实时数据计算引擎方案,适用于在超大规模数字化治理体系建设中,解决扩展性、实时性、精确性、稳定性、运维成本等问题。美团基础研发平台欢迎业界同行一起交流、探讨。

五、作者简介

继东,业祥,成达,张昀,均来自基础架构服务治理团队,研发工程师。

招聘信息

美团基础架构团队诚招高级、资深技术专家,Base 北京、上海。我们致力于建设美团全公司统一的高并发高性能分布式基础架构平台,涵盖数据库、分布式监控、服务治理、高性能通信、消息中间件、基础存储、容器化、集群调度等基础架构主要的技术领域。欢迎有兴趣的同学投送简历到 tech@meituan.com(邮件标题注明:美团基础架构团队)。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/479615.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

中文实体命名识别工具使用汇总:Stanza、LAC、Ltp、Hanlp、foolnltk、NLTK、BosonNLP

实体命名识别相关知识Stanford CoreNLP 命名实体识别一、简介&#xff1a;二、java版本使用三、python版本使用NLTK 命名实体识别一、简介&#xff1a;二、搭建环境三、nltk使用1、英文实体命名初体验2、使用nltk来处理中文资料结巴分词使用foolnltk 命名实体识别一、简介二、p…

论文浅尝 | 基于知识图谱中图卷积神经网络的推荐系统

笔记整理&#xff1a;王若旭&#xff0c;浙江大学在读硕士&#xff0c;研究方向为关系抽取&#xff0c;零样本学习。本文发表于 www2019&#xff0c;参考链接&#xff1a;https://arxiv.org/pdf/1905.04413.pdf为了解决推荐系统中协同过滤方法面对的数据稀疏和冷启动的问题&…

NeurIPS 2020 | Glance and Focus: 通用、高效的神经网络自适应推理框架

文 | rainforest wang源 | 知乎本文主要介绍我们被NeurIPS 2020会议录用的一篇文章&#xff1a;Glance and Focus: a Dynamic Approach to Reducing Spatial Redundancy in Image Classification代码和预训练模型已经在Github上面放出&#xff1a;https://link.zhihu.com/?tar…

如何下载Android源码(非常详细,含自动恢复下载,编译,运行模拟器说明)

今天终于把代码下载完成&#xff0c;特此开一篇博文记录一下。上图&#xff1a; 为了下载这些源码&#xff0c;历时5天5夜&#xff0c;说为什么这么长时间&#xff0c;是因为太容易中断了&#xff0c;有时候下一晚上可能就一直没在下&#xff0c;在你入睡的时候它就自己断了&am…

NumPy快速入门-- Less 基础/线性代数

文章目录1. 广播&#xff08;Broadcasting&#xff09;规则2. 使用索引数组索引3. 使用布尔值作为数组索引4. ix_()函数5. 线性代数 简单数组操作6. 技巧和提示6.1 “自动”整形6.2 矢量堆叠1. 广播&#xff08;Broadcasting&#xff09;规则 Broadcasting允许通用函数以有意义…

Intel PAUSE指令变化影响到MySQL的性能,该如何解决?

MySQL得益于其开源属性、成熟的商业运作、良好的社区运营以及功能的不断迭代与完善&#xff0c;已经成为互联网关系型数据库的标配。可以说&#xff0c;X86服务器、Linux作为基础设施&#xff0c;跟MySQL一起构建了互联网数据存储服务的基石&#xff0c;三者相辅相成。本文将分…

会议 | CCKS 2019 全国知识图谱与语义计算大会在杭州隆重召开

本文转载自公众号&#xff1a;中国中文信息学会。2019 年全国知识图谱与语义计算大会(CCKS 2019)于 8 月 24 日至 27 日在杭州召开&#xff0c;由中国中文信息学会语言与知识计算专业委员会主办&#xff0c;浙江大学承办。本次会议主题是“知识智能”。大会吸引了来自海内外的八…

Hystrix 简介和使用

Hystrix一、概念二、使用1. 环境搭建2. 服务降级3. 异常熔断4. 自定义异常熔断器5.Hystrix仪表盘监控三、测试1. 异常熔断2. 超时熔断3. 熔断器获得异常4. 异常忽略5. 自定义异常熔断器一、概念 故障蔓延&#xff1a;由于一个服务变慢或没有响应导致大量请求堆积&#xff0c;进…

android中如何使用一张图片适配不同尺寸的APP引导页

在我们平常开发的过程中在做引导页适配的时候&#xff0c;有时候会犯难&#xff0c;怎么样作图可以将各种不同尺寸分辨率的手机都适配好也就是不变形不拉伸&#xff0c;官方给的说法也只是做多套图去适配不同的分辨率&#xff0c;遇到全屏展示引导这种问题的时候就有些力不从心…

还在用Tensorboard?机器学习实验管理平台大盘点

文 | SisyphusBJ源 | Pytorch Lightningwandb.aicomet.mlneptune.aiallegro trainsmlflowguild.aisacredtest-tubetensorboard相信很多同学看到上面这个列表的第一印象是懵的。我们先看下机器学习实验管理平台 到底是做神马滴&#xff1a;一句话概括就是&#xff1a;&#xff0…

论文浅尝 | 利用图 Transformer 实现基于知识图谱的文本生成

论文笔记整理&#xff1a;谭亦鸣&#xff0c;东南大学博士生&#xff0c;研究方向为跨语言知识图谱问答。来源&#xff1a;NAACL2019链接&#xff1a;https://arxiv.org/pdf/1904.02342.pdf本文关注如何从信息抽取结果&#xff08;特别是知识图谱&#xff09;出发&#xff0c;生…

LeetCode 230. 二叉搜索树中第K小的元素(中序遍历)

文章目录1. 题目信息2. 解题2.1 中序递归2.2 中序循环写法1. 题目信息 给定一个二叉搜索树&#xff0c;编写一个函数 kthSmallest 来查找其中第 k 个最小的元素。 说明&#xff1a; 你可以假设 k 总是有效的&#xff0c;1 ≤ k ≤ 二叉搜索树元素个数。 示例 1:输入: root …

Apache Doris在美团外卖数仓中的应用实践

序言 美团外卖数据仓库技术团队负责支撑日常业务运营及分析师的日常分析&#xff0c;由于外卖业务特点带来的数据生产成本较高和查询效率偏低的问题&#xff0c;他们通过引入Apache Doris引擎优化生产方案&#xff0c;实现了低成本生产与高效查询的平衡。并以此分析不同业务场景…

Feign 简介和使用

声明式服务消费Feign一、简介二、使用Feign实现服务消费者三、实现普通的服务提供者四、Feign服务调用测试五、Feign消费者测试负载均衡服务熔断一、简介 Feign是Netflix公司开发的一个声明式的REST调用客户端&#xff1b; Ribbon负载均衡、Hystrix服务熔断是我们Spring Cloud…

论文浅尝 | 面向自动问题生成的跨语言训练

论文笔记整理&#xff1a;谭亦鸣&#xff0c;东南大学博士生&#xff0c;研究方向为跨语言知识图谱问答。来源&#xff1a;ACL 2019链接&#xff1a;https://128.84.21.199/pdf/1906.02525.pdf动机现有问题生成方法需要大量的“文本-问题”有标注数据对作为训练数据集&#xff…

再见,Spark!Flink已成气候!

身为大数据工程师&#xff0c;你还在苦学Spark、Hadoop、Storm&#xff0c;却还没搞过Flink&#xff1f;醒醒吧&#xff01;刚过去的2020双11&#xff0c;阿里在Flink实时计算技术的驱动下全程保持了“如丝般顺滑”&#xff0c;基于Flink的阿里巴巴实时计算平台简直强无敌。最恐…

Java线程池实现原理及其在美团业务中的实践

随着计算机行业的飞速发展&#xff0c;摩尔定律逐渐失效&#xff0c;多核CPU成为主流。使用多线程并行计算逐渐成为开发人员提升服务器性能的基本武器。J.U.C提供的线程池&#xff1a;ThreadPoolExecutor类&#xff0c;帮助开发人员管理线程并方便地执行并行任务。了解并合理使…

Zuul 简介和使用

Zuul背景Zuul的作用Zuul API网关Zuul请求过滤Zuul路由规则Zuul异常处理背景 通过之前的学习&#xff0c;我们知道注册中心Eureka&#xff0c;可以讲服务注册到该注册中心&#xff0c;Ribbon和Feign可以实现服务负载均衡地调用&#xff0c;Hystrix可以实现服务熔断&#xff0c;…

技术动态 | 知识图谱上的实体链接

本文转载自公众号&#xff1a;知识工场 1、什么是实体链接实体链接&#xff08;entity linking&#xff09;就是将一段文本中的某些字符串映射到知识库中对应的实体上。比如对于文本“郑雯出任复旦大学新闻学院副院长”&#xff0c;就应当将字符串“郑雯”、“复旦大学…

卖萌屋学术站开放注册啦!寻募种子用户,超多特权放出!

文&#xff1a;夕小瑶消失一个多月的小夕又突然出现啦&#xff01;要问小夕最近业余时间在做什么&#xff0c;那就是跟小伙伴们开发学术站啦~&#xff08;等...等再肝一版&#xff0c;小夕就继续给大家写文章(&#xff61; ́︿ ̀&#xff61;)众所周知&#xff0c;卖萌屋学术…