友邦人寿可观测体系设计与落地

业务场景与挑战

友邦保险是香港联合交易所上市的人寿保险集团,覆盖 18 个市场。截至 2021 年 12 月 31 号,总资产 3400 亿美元。

友邦保险于 1992 年在上海设立分公司,是改革开放后最早一批获发个人人身保险业务营业执照的非本土保险机构之一,也是第一家将保险营销员制度引进国内的保险公司。2020 年 6 月,友邦获批将友邦保险有限公司上海分公司改建为友邦人寿保险有限公司。2020 年 7 月,友邦人寿正式成为中国内地首家外资独资人寿保险公司。友邦友享 App 在 2021 年荣获最佳保险科技平台。

业务特点和架构

为了践行友邦健康长久好生活的 slogan ,上云过程中我们对应用做了大量微服务化改造,以适应快速变化的业务要求和性能要求,并将此前在 AS400 里的 core 包程序做了微服务化改造,提高了可用时间。此外,我们采用了容器化方案,使应用运行在 K8s 上以获得弹性扩容能力和自愈能力。

上述改造导致了应用系统复杂度的提升,因此,观测微服务和 K8s 的运行成为了一大挑战。

与此同时,部分外采应用没有源码,不适合做微服务化改造,但我们仍然对这部分应用进行了容器化改造,将它们部署进 K8s;还有一部分应用由于各种原因,不适合上云改造,最终留在了 IDC 机房。因此,服务之间的调用会涉及云上到云下、云下到云上等复杂情况。

迁云之后实实在在为我们带来了 SLA 的提升,但也导致了访问链路和部署复杂度的提升,如何更好地观测应用成为了无法回避的挑战。

可观测性建设痛点和挑战

建设一个优秀的观测系统,会面临以下痛点:

  • 观测复杂度提升:云原生微服务化虽然带来了很高的 HA,但也提升了系统的复杂度,加大了可观测的难度。核保通过率、交单成功率、用户的日活/月活散落在各个业务模块里,业务需要提供全局视角,以观察整个保单生命周期里重要业务节点的运行情况,并获取研发态的具体情况。
  • 技术选型困难:由于历史原因,友邦内部应用技术选型不一,版本各异,导致可观测技术和调用链追踪面临很大的困难。
  • 统一观测困难:友邦是一家金融公司,开发系统和应用运维完全分开,日志也完全分开存储和维护,因此无法将以上数据在同一个大盘里呈现。
  • 指标治理:IaaS层、PaaS 层和应用层有很多指标,单数据库方面就可能有超过 200 多个指标。如果希望指标达到比较容易理解与追踪的数量,则需要不断地进行回顾、删减。
  • 快速故障定位:在 IDC 机房时代,没有直观的方式让应用查看自己的资源是否足够。虽然已经有商业 APM 工具,但其价格高昂,不属于经济有效的方式。问题发生时,因为只有少量应用安装了 APM ,所以调用链不完整,无法实现快速故障定位。

可观测性建设流程和规划

可观测系统的建设主要分为调研分析方案设计改造实施上线验证四个阶段。

一个优秀的可观测系统至少需要满足五个要求:

  • 服务资源追踪:可以将服务运行节点上的 CPU 内存、网络磁盘、 IO 应用指标进行聚合。问题发生时,能够轻松观察到异常指标。
  • 提供服务 Top 视图:按照服务的调用量、请求耗时、热点排名,应用可以很方便获知哪些是热点 API、哪些 API 请求量较高等,可以更好地规划自身的服务资源。
  • 调用链追踪:关联服务上下游,并且最好是无侵入式,可以很方面地从 Trace关联到日志,获取到链路问题所在。
  • 调用时长分布:观察服务的上游与下游,观察异步耗时,请求慢时可以很方便地判断是服务资源耗时还是依赖服务资源耗时。
  • 数据库关联操作:帮助应用观察到 API 的关联 SQL、慢 SQL、 Redis 的查询存在慢 key 查询 、Mongo 存在慢查询等操作。

实践与落地

可观测性整体设计思路

友邦为了满足业务发展需求,在技术层面需要做云原生技术架构的升级和改造。因此阿里云与友邦在应用容器化和可观测性上展开了深度合作。结合业务情况和监控痛点,通过几十次的讨论和推演,我们最终明确了两个重要建设思路:

首先,根据业务价值自上而下设计可观测体系。从业务监控、应用监控和资源监控一直向下推进。如果使用自下而上的设计方式,出现问题时团队会浪费大量时间和精力排查从来不会导致客户受影响的问题,或客户先于监控系统发现了问题。因此,需要最先关注和设计与用户体验、核心交易相关的业务监控。

其次,需要结合业务设计服务的链路追踪、应用性能监控。比如将某应用的 API 接口翻译成业务可读懂的语言,比如依靠保单生效的接口处理时间和处理数量以及接口还调用/依赖了其他哪些服务等来最终明确问题所在,最后结合应用诊断工具 Arthas、 JVM 的调优工具、应用日志以及资源级别的监控来确认是代码问题还是底层资源的使用问题。通过从确定事故发生再到定位引起事故的原因,进而确认问题本身来提升故障发现和问题定位能力。

确认了自上而下的可观测体系后,接下来需要明确可观测的指标范围。

全生命周期监控指标设计

可观测指标不仅是运行态,还需要包含研发态,形成应用全生命周期的监控指标体系。

系统经过云原生改造后,友邦的 CICD 流水线通过 Jenkins 进行自动化。为了提升软件的研发效率,需要抽象出可衡量的指标,比如应用每天的构建次数、构建时长、构建成功率、部署频率或部署成功率,以及形成这些指标的基础元数据信息等。

运行态分为系统层监控、应用层监控和业务层监控三层,监控重要性等级依次升高。资源监控层主要聚焦在 K8s 集群的 node 节点、磁盘网络、运行 Pod 监控、核心云产品等监控指标;应用层主要聚焦于应用的健康度、状态码、性能监控、JVM、GC 等性能指标上;业务层主要监控业务的核心指标,如 PV、UV、投保人数、投保金额、签单数等,它直接影响着监控系统设计的成败,因为这是最能够体现业务价值的部分。

可观测性架构大图

上图为友邦人寿可观测性体系的架构,总体设计思路分为三层:

第一层为采集层。因为要符合友邦的技术架构和建设需求,我们选择用 Java 编写流水线的 CICD 数据采集器。研发人员在使用 Jenkins 进行应用的 build 或 deploy 时,该采集器能将应用构建的数据和部署的数据全部存到数据库里。另外,采集数据时加上了相关联的 tag ,实现了元数据的共享。比如流水线构建的应用名称必须与 K8s 的服务名称一致,构建失败时即可快速找到出错的应用。

此外,针对应用的 APM 探针,社区一般使用字节码增强的无侵入技术。但是由于友邦架构的复杂度,Skywalking 探针无法完全覆盖友邦的场景。同时,友邦对于深度性能的诊断也有较高要求,希望能够集成阿里开源的 Arthas、 Memory dump 等能力,APM 探针也会影响应用性能,因此我们最终选择经过双 11 大规模检验的 ARMS Agent。

各类云产品中间件、集群的监控指标采集主要通过 Prometheus;应用日志主要使用 DaemonSet 的方式进行采集,相比于 Sidecar,其占用资源更少,工程上也更为简单。

第二层为存储层。研发态的元数据和 pipeline 的构建数据因其数据量不大,而且是结构化形态,因此存储在 MySQL 里。Metrics 监控指标的数据存储在阿里云的 Prometheus 产品上,日志和调用链 Tracing 数据存储在阿里云的 SLS 产品上。考虑到业务的增长,未来会产生大量的数据,这两款产品能够保证监控系统的稳定性、可扩展性和高可用性。同时,两款产品都是 Serverless 化持续按量付费,不存在磁盘或空间浪费。

第三层为统一展示层,通过 Grafana 进行汇聚和展示。当时阿里还未推出托管版的 Grafana,因此我们选择自建,推荐使用 8.0 以上的版本。为了保证运行的高可用,需要多实例部署,并将配置的数据统一传到数据库里,然后根据此前设计的监控指标,选择对应的数据源编写查询语句,最终结合 Grafana 丰富的图表进行统一展示。

业务监控的实现是通过将采集到 SLS 里的业务日志和应用日志做统计分析。SLS 的 SQL 查询功能非常丰富,语句编写也非常方便。再通过 SLS Grafana 插件集成到 Grafana 里,最终业务统计数据即可在 Grafana 大盘进行展示。

统一监控平台

上图为建设成果。通过大屏、中屏和小屏的方式形成指挥决策、研发仪表盘&应用性能展示以及告警推送、多维度的监控能力。

其中左侧大屏展示核心指标,比如容器集群的资源利用率、service Pod 健康度以及联通性等通用指标,为公司决策提供支持。

右上方中屏主要展示流水线的研发效率指标、应用性能的指标以及全局调用链,帮助研发人员提升效率和问题定位的速度。

右下方小屏通过历史数据的对比,设置了报警阀值。出现异常时,通过钉钉或短信报警的方式推送到电脑、手机终端,帮助运维人员及时发现和处理问题。

作者:沈斌、右京

原文链接

本文为阿里云原创内容,未经允许不得转载。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/510499.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

如何写出有效的单元测试

什么是单元测试 《单元测试的艺术》中对单元测试的定义: 一个单元测试是一段自动化的代码,这段代码调用被测试的工作单元,之后对这个单元的单个最终结果的某些假设进行校验。 单元测试几乎都是用单元测试框架编写的;只要产品代…

测试环境不稳定复杂的必然性及其对策

这篇文章想要讲的,的确是两件事情: 为什么测试环境的不稳定是必然的,怎么让它尽量稳定一点?为什么测试环境比生产环境更复杂,怎么让它尽量简单一点? 此外,还会谈一谈对测试环境和生产环境的区别…

【计算几何】线段相交

问题描述:已知两条线段P1P2和Q1Q2,判断P1P2和Q1Q2是否相交,若相交,求出交点。 两条线段的位置关系可以分为三类:有重合部分、无重合部分但有交点、无交点。 算法的步骤如下: 1.快速排斥实验。 设以线段…

代码圈复杂度治理小结

网上有个段子,说建筑工程师不会轻易答应会给摩天大楼增加一个地下室,但代码开发工程师却经常在干这样的事,并且总有人会对你说“这个需求很简单”。到土里埋个雷,这确实不复杂,但我们往往面临的真实场景其实是“在一片…

MSE 治理中心重磅升级-流量治理、数据库治理、同 AZ 优先

本次 MSE 治理中心在限流降级、数据库治理及同 AZ 优先方面进行了重磅升级,对微服务治理的弹性、依赖中间件的稳定性及流量调度的性能进行全面增强,致力于打造云原生时代的微服务治理平台。 前情回顾 在介绍升级能力之前,先简要回顾 MSE 产…

基于阿里云 Serverless 快速部署 Function 的极致体验

1.Serverless 前世今生 1.1 Serverless 背景介绍 云计算的不断发展,涌现出很多改变传统IT架构和运维方式的新技术,而以虚拟机、容器、微服务为代表的技术更是在各个层面不断提升云服务的技术能力,它们将应用和环境中很多通用能力变成了一种…

性能提升1倍,成本直降50%!基于龙蜥指令加速的下一代云原生网关

​ 技术背景 网络信息传输的可靠性、机密性和完整性要求日渐提升,HTTPS 协议已经广泛应用。HTTPS 的 SSL/TLS 协议涉及加解密、校验、签名等密码学计算,消耗较多 CPU 计算资源。因此 CPU 硬件厂商推出过多种加速卸载方案,如 AES-NI、QAT、KA…

TiDB、OceanBase、PolarDB-X、CockroachDB 二级索引写入性能测评

为什么要做这个测试 二级索引是关系型数据库相较于NoSQL数据库的一个关键差异。二级索引必须是强一致的,因此索引的写入需要与主键的写入放在一个事务当中,事务的性能是二级索引性能的基础。 目前市面上的分布式数据库中,从使用体验的角度看…

EMQX + PolarDB-X 一站式 IoT 数据解决方案

本文整理自 EMQX 产品经理李国伟,在PolarDB开源社区中关于EMQX与PolarDB-X构建一站式IoT数据解决方案的分享。本篇内容主要分为四个部分: 1. IoT数据特性 2. EMQX介绍 3. EMQX与PolarDB-X集成 4. EMQXPolarDB-X方案DEMO 一、IoT数据特性 物联网应用场景…

阿里 Seata 新版本终于解决了 TCC 模式的幂等、悬挂和空回滚问题

大家好,我是君哥。 今天来聊一聊阿里巴巴 Seata 新版本(1.5.1)是怎么解决 TCC 模式下的幂等、悬挂和空回滚问题的。 TCC 回顾 TCC 模式是最经典的分布式事务解决方案,它将分布式事务分为两个阶段来执行,try 阶段对每…

10分钟部署一个别人可以访问的在线网站(文末有礼

你是否幻想过拥有自己的个人网站?但是不会编程,没有任何网站搭建经验,搭建的时候也不知道怎么去选择系统…… 等等这一系列疑惑让大部分人还没开始就选择放弃,本期教大家用一个最简单的方式,在10分钟内搭建一个线上的…

菜鸟 CPaaS 平台微服务治理实践

背景 CPaaS(cainiao platform as a service)是以公有云为基座,结合先进的云原生理建设的企业级 DevOps 的 PaaS 平台,CPaaS 主要目前主要支持的场景:菜鸟生态的云上研发运维、菜鸟公有云 SaaS 化的能力透出、菜鸟商业…

RocketMQ 消息集成:多类型业务消息-普通消息

引言 Apache RocketMQ 诞生至今,历经十余年大规模业务稳定性打磨,服务了 100% 阿里集团内部业务以及阿里云数以万计的企业客户。作为金融级可靠的业务消息方案,RocketMQ 从创建之初就一直专注于业务集成领域的异步通信能力构建。本篇将从业务…

【总结】字符串匹配: KMP 和 拓展KMP

比起ac自动机,kmp就一个next数组,理解了如何初始化next后就可以搞一些模板题了,下面是还不错的学习资料,清晰易懂,自己用的模板也来自它: http://chaoswork.com/blog/2011/06/14/kmp%E7%AE%97%E6%B3%95%E5%B0%8F%E7%BB%93/ kmp模板 next[0]-1;j-1; for(i0;i<m;) {while(j>…

最小生成树(普利姆算法、克鲁斯卡尔算法)

给定一个带权的无向连通图,如何选取一棵生成树,使树上所有边上权的总和为最小,这叫最小生成树. 求最小生成树的算法 (1) 克鲁斯卡尔算法 图的存贮结构采用边集数组,且权值相等的边在数组中排列次序可以是任意的.该方法对于边相对比较多的不是很实用,浪费时间. (2) 普里姆算法 图…

《数字化与碳中和(园区篇)》报告正式发布,助力加快推进国家“双碳”战略实施

2021年10月&#xff0c;国务院印发《2030年前碳达峰行动方案》&#xff0c;明确提出要建设绿色低碳园区&#xff0c;并选择100个具有典型代表性的城市和园区开展碳达峰试点建设&#xff0c;在政策、资金、技术等方面对试点城市和园区给予支持。此后&#xff0c;碳达峰、碳中和正…

基于开放共享的自主研发—MaxCompute 持续增强生态与开放性建设

MaxCompute产品与生态架构 MaxCompute是一个具有先进架构的Serverless云数据仓库&#xff0c;自从商业化后&#xff0c;使用的用户涉及各个行业的头部客户。在生态上需要支持主流的开源产品以及阿里云云产品。其主要包括以下几个方面&#xff1a; 数据接入生态。目前官方提供…

构建数据中台的组织架构

一、中台是一种企业架构 1.TOGAF企业架构标准 TOGAF是一套企业架构标准。企业架构是指整个公司或企业的软件和其他技术的整体观点和方法。企业架构又细分为业务架构、应用架构、数据架构、技术架构几个方向。 其中业务架构的定义是“定义业务战略和组织&#xff0c;关键业务…

源于加速,不止加速——10年沉淀,破局改变

20余年技术&#xff0c;面临破局。CDN(Content Delivery Network&#xff0c;内容分发网络) 是一个超大规模的分布式系统&#xff0c;为互联网各类App和Web站点提供动 / 静态内容、实时流媒体加速以及网络安全防护等能力。在线购物、直播、音乐、游戏、社交等等一切&#xff0c…

5分钟让你在大火的多模态领域权威榜单VQA上超越人类

ModelScope上开源了达摩院众多业界最强多模态模型&#xff0c;其中就有首超人类的多模态预训练视觉问答模型mPLUG&#xff0c;小编激动的搓搓小手&#xff0c;迫不及待的体验了一下。 一探&#xff1a;浅草才能没马蹄 市面上有好多号称“用户上手简单”&#xff0c;“一步到位…