前后端、多语言、跨云部署,全链路追踪到底有多难?

简介: 完整的全链路追踪可以为业务带来三大核心价值:端到端问题诊断,系统间依赖梳理,自定义标记透传。

作者 | 涯海

全链路追踪的价值

链路追踪的价值在于“关联”,终端用户、后端应用、云端组件(数据库、消息等)共同构成了链路追踪的轨迹拓扑大图。这张拓扑覆盖的范围越广,链路追踪能够发挥的价值就越大。而全链路追踪就是覆盖全部关联 IT 系统,能够完整记录用户行为在系统间调用路径与状态的最佳实践方案。

完整的全链路追踪可以为业务带来三大核心价值:端到端问题诊断,系统间依赖梳理,自定义标记透传。

  • 端到端问题诊断:VIP 客户下单失败,内测用户请求超时,许多终端用户的体验问题,追根溯源就是由于后端应用或云端组件异常导致的。而全链路追踪是解决端到端问题最有效的手段,没有之一。
  • 系统间依赖梳理:新业务上线,老业务裁撤,机房搬迁/架构升级,IT 系统间的依赖关系错综复杂,已经超出了人工梳理的能力范畴,基于全链路追踪的拓扑发现,使得上述场景决策更加敏捷、可信。
  • 自定义标记透传:全链路压测,用户级灰度,订单追溯,流量隔离。基于自定义标记的分级处理&数据关联,已经衍生出了一个繁荣的全链路生态。然而,一旦发生数据断链、标记丢失,也将引发不可预知的逻辑灾难。

全链路追踪的挑战与方案

全链路追踪的价值与覆盖的范围成正比,它的挑战也同样如此。为了最大程度地确保链路完整性,无论是前端应用还是云端组件,无论是 Java 语言还是 Go 语言,无论是公有云还是自建机房,都需要遵循同一套链路规范,并实现数据互联互通。多语言协议栈统一、前/后/云(多)端联动、跨云数据融合是实现全链路追踪的三大挑战,如下图所示:

1.jpg

1、多语言协议栈统一

在云原生时代,多语言应用架构越来越普遍,利用不同语言特性,实现最佳的性能和研发体验成为一种趋势。但是,不同语言的成熟度差异,使得全链路追踪无法做到完全的能力一致。目前业界的主流做法是,先保证远程调用协议层格式统一,多语言应用内部自行实现调用拦截与上下文透传,这样可以确保基础的链路数据完整。

但是,绝大部分线上问题无法仅通过链路追踪的基础能力就能够有效定位并解决,线上系统的复杂性决定了一款优秀的 Trace 产品必须提供更加全面、有效的数据诊断能力,比如代码级诊断、内存分析、线程池分析、无损统计等等。充分利用不同语言提供的诊断接口,最大化的释放多语言产品能力是 Trace 能够不断向前发展的基础。

  • 透传协议标准化:全链路所有应用需要遵循同一套协议透传标准,保证链路上下文在不同语言应用间能够完整透传,不会出现断链或上下文缺失的问题。目前主流的开源透传协议包括 Jaeger、SkyWalking、ZipKin 等。
  • 最大化释放多语言产品能力:链路追踪除了最基础的调用链功能外,逐步衍生出了应用/服务监控,方法栈追踪,性能剖析等高阶能力。但是不同语言的成熟度导致产品能力差异较大,比如 Java 探针可以基于 JVMTI 实现很多高阶的边缘侧诊断。优秀的全链路追踪方案会最大化的释放每种语言的差异化技术红利,而不是一味的追求趋同平庸。

2、前后云(多)端联动

目前开源的链路追踪实现主要集中于后端业务应用层,在用户终端和云端组件(如云数据库)侧缺乏有效的埋点手段。主要原因是后两者通常由云服务商或三方厂商提供服务,依赖于厂商对于开源的兼容适配性是否友好。而业务方很难直接介入开发。

上述情况的直接影响是前端页面响应慢,很难直接定位到后端哪个应用或服务导致的,无法明确给出确定性的根因。同理,云端组件的异常也难以直接与业务应用异常划等号,特别是多个应用共享同一个数据库实例等场景下,需要更加迂回的手段进行验证,排查效率十分低下。

为了解决此类问题,首先需要云服务商更好的支持开源链路标准,添加核心方法埋点,并支持开源协议栈透传与数据回流(如阿里云 ARMS 前端监控支持 Jaeger 协议透传与方法栈追踪)。

其次,由于不同系统可能因为归属等问题,无法完成全链路协议栈统一,为了实现多端联动,需要由 Trace 系统提供异构协议栈的打通方案。

  • 异构协议栈打通

为了实现异构协议栈(Jaeger、SkyWalking、Zipkin)的打通,Trace 系统需要支持两项能力:一是协议栈转换与动态配置,比如前端向下透传了 Jaeger 协议,新接入的下游外部系统使用的则是 ZipKin B3 协议。在两者之间的 Node.js 应用可以接收 Jaeger 协议并向下透传 ZipKin 协议,保证全链路标记透传完整性。二是服务端数据格式转换,可以将上报的不同数据格式转换成统一格式进行存储,或者在查询侧进行兼容。前者维护成本相对较小,后者兼容性成本更高,但相对更灵活。

3、跨云数据融合

很多大型企业,出于稳定性或数据安全等因素考虑,选择了多云部署,比如国内系统部署在阿里云,海外系统部署在 AWS 云,涉及企业内部敏感数据的系统部署在自建机房等。多云部署已经成为了一种典型的云上部署架构,但是不同环境的网络隔离,以及基础设施的差异性,也为运维人员带来了巨大的挑战。

由于云环境间仅能通过公网通信,为了实现多云部署架构下的链路完整性,可以采用链路数据跨云上报、跨云查询等方式。无论哪种方式,目标都是实现多云数据统一可见,通过完整链路数据快速定位或分析问题。

  • 跨云上报

链路数据跨云上报的实现难度相对较低,便于维护管理,是目前云厂商采用的主流做法,比如阿里云 ARMS 就是通过跨云数据上报实现的多云数据融合。

跨云上报的优点是部署成本低,一套服务端便于维护;缺点是跨云传输会占用公网带宽,公网流量费用和稳定性是重要限制条件。跨云上报比较适合一主多从架构,绝大部分节点部署在一个云环境内,其他云/自建机房仅占少量业务流量,比如某企业 toC 业务部署在阿x云,企业内部应用部署在自建机房,就比较适合跨云上报的方式,如下图所示。

2.jpg

  • 跨云查询

跨云查询是指原始链路数据保存在当前云网络内,将一次用户查询分别下发,再将查询结果聚合进行统一处理,减少公网传输成本。

跨云查询的优点就是跨网传输数据量小,特别是链路数据的实际查询量通常不到原始数据量的万分之一,可以极大地节省公网带宽。缺点是需要部署多个数据处理终端,不支持分位数、全局 TopN 等复杂计算。比较适合多主架构,简单的链路拼接、max/min/avg 统计都可以支持。跨云查询实现有两种模式,一种是在云网络内部搭建一套集中式的数据处理终端,并通过内网专线打通用户网络,可以同时处理多个用户的数据;另一种是为每个用户单独搭建一套 VPC 内的数据处理终端。前者维护成本低,容量弹性更大;后者数据隔离性更好。

3.jpg

  • 其他方式

除了上述两种方案,在实际应用中还可以采用混合模式或仅透传模式。

混合模式是指将统计数据通过公网统一上报,进行集中处理(数据量小,精度要求高),而链路数据采用跨云查询方式进行检索(数据量大,查询频率低)。

仅透传模式是指每个云环境之间仅保证链路上下文能够完整透传,链路数据的存储与查询独立实现。这种模式的好处就是实现成本极低,每朵云之间仅需要遵循同一套透传协议,具体的实现方案可以完全独立。通过同一个 TraceId 或应用名进行人工串联,比较适合存量系统的快速融合,改造成本最小。

全链路追踪接入实践

前文详细介绍了全链路追踪在各种场景下面临的挑战与应对方案,接下来以阿里云 ARMS 为例,介绍一下如何从 0 到 1 构建一套贯穿前端、网关、服务端、容器和云组件的完整可观测系统。

4.jpg

  • Header 透传格式:统一采用 Jaeger 格式,Key 为 uber-trace-id, Value 为 {trace-id}:{span-id}:{parent-span-id}:{flags} 。
  • 前端接入:可以采用 CDN(Script 注入)或 NPM 两种低代码接入方式,支持 Web/H5、Weex 和各类小程序场景。
  • 后端接入:
  • Java 应用推荐优先使用 ARMS Agent,无侵入式埋点无需代码改造,支持边缘诊断、无损统计、精准采样等高阶功能。用户自定义方法可以通过 OpenTelemetry SDK 主动埋点。
  • 非 Java 应用推荐通过 Jaeger 接入,并将数据上报至 ARMS Endpoint,ARMS 会兼容多语言应用间的链路透传与展示。

阿里云 ARMS 目前的全链路追踪方案是基于 Jaeger 协议,正在开发 SkyWalking 协议,以便支持 SkyWalking 自建用户的无损迁移。前端、Java 应用与非 Java 应用全链路追踪的调用链效果如下图所示:

5.jpg

1、前端接入实践

ARMS 前端监控支持 Web/H5、Weex、支付宝和微信小程序等,本文以 Web 应用通过 CDN 方式接入 ARMS 前端监控为例,简要说明接入流程,详细接入指南参考 ARMS 前端监控官网文档。

  1. 登录 ARMS 控制台,在左侧导航栏中单击接入中心,点击选择前端 Web/H5 接入。
  2. 输入应用名称,点击创建;勾选SDK扩展配置项区域需要的选项,快捷生成待插入页面的BI探针代码。
  3. 选择异步加载,复制下面代码并粘贴至页面HTML中** **元素内部的第一行,然后重启应用。
<script>
!(function(c,b,d,a){c[a]||(c[a]={});c[a].config={pid:"xxx",imgUrl:"https://arms-retcode.aliyuncs.com/r.png?", 
enableLinkTrace: true, linkType: 'tracing'};
with(b)with(body)with(insertBefore(createElement("script"),firstChild))setAttribute("crossorigin","",src=d)
})(window,document,"https://retcode.alicdn.com/retcode/bl.js","__bl");
</script>

为了实现前后端链路打通,上述探针代码中必须包含以下两个参数:

  1. enableLinkTrace:true // 表示开启前端链路追踪功能
     
  2. linkType: 'tracing' // 表示生成 Jaeger 协议格式的链路数据,Hearder 允许 uber-trace-id 透传

另外,如果 API 与当前应用非同源,还需要添加 enableApiCors: true 这个参数,并且后端服务器也需要支持跨域请求及自定义header 值,详情参考前后端链路关联文档。如需验证前后端链路追踪配置是否生效,可以打开控制台查看对应 API 请求的 Request Headers 中是否有 uber-trace-id 这个标识。

2、Java 应用接入实践

Java 应用推荐接入 ARMS JavaAgent,无侵入式探针开箱即用,无需修改业务代码,详细接入指南参考 ARMS 应用监控官网文档。

  1. 登录 ARMS 控制台,在左侧导航栏中单击接入中心,点击选择后端 Java 接入。
  2. 根据需要选择手动安装、脚本安装和容器服务安装任意方式。
  3. 根据操作指南确保探针下载并解压至本地,正确配置 appName、LicenseKey 和 javaagent 启动参数后,重启应用。

3、非 Java 应用接入实践

非 Java 应用可以通过开源 SDK(比如 Jaeger)将数据上报至 ARMS 接入点,详细接入指南参考 ARMS 应用监控官网文档。

  1. 登录 ARMS 控制台,在左侧导航栏中单击接入中心,点击选择后端 Go/C++/.NET/Node.js 等接入方式。
  2. 根据操作指南替换接入点 ,配置完成后重启应用。

全链路追踪只是开始,不是结束

从 2010 年谷歌发表 Dapper 论文开始,链路追踪已经发展了十多年。但是关于链路追踪的书籍或深度文章一直都比较少,大部分博客只是简单介绍一些开源的概念或 QuickStart,一个大型企业如何建设一套真正可用、好用、易用的链路追踪系统,需要填哪些坑,避哪些雷,很难找到比较系统、全面的答案。

全链路追踪接入只是 Tracing 的起点,选择适合自身业务架构的方案,可以避免一些弯路。但链路追踪不仅仅只是看看调用链和服务监控,如何向上赋能业务,衍生至业务可观测领域辅助业务决策?如何向下与基础设施可观测联动,提前发现资源类风险?后面还有很多的工作要做,期待更多同学一起加入分享。

相关链接

1、 ARMS 前端监控官网文档:前端监控接入概述 - 应用实时监控服务ARMS - 阿里云
2、 前后端链路关联文档:使用前后端链路追踪诊断API错误原因 - 应用实时监控服务ARMS - 阿里云
3、ARMS 应用监控官网文档:开始监控Java应用 - 应用实时监控服务ARMS - 阿里云
4、ARMS 应用监控官网文档:开始监控除Java和PHP之外的应用 - 应用实时监控服务ARMS - 阿里云
5、ARMS 控制台:阿里云登录 - 欢迎登录阿里云,安全稳定的云计算服务平台

原文链接
本文为阿里云原创内容,未经允许不得转载。 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/512046.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

供应商太多,怎么才能高效比价?

本篇文章暨 CSDN《中国 101 计划》系列数字化转型场景之一。 《中国 101 计划——探索企业数字化发展新生态》为 CSDN 联合《新程序员》、GitCode.net 开源代码仓共同策划推出的系列活动&#xff0c;寻访一百零一个数字化转型场景&#xff0c;聚合呈现并开通评选通道&#xff0…

7张图揭晓RocketMQ存储设计的精髓

简介&#xff1a; RocketMQ 作为一款基于磁盘存储的中间件&#xff0c;具有无限积压能力&#xff0c;并提供高吞吐、低延迟的服务能力&#xff0c;其最核心的部分必然是它优雅的存储设计。 存储概述 RocketMQ 存储的文件主要包括 Commitlog 文件、ConsumeQueue 文件、Index 文…

庖丁解InnoDB之UNDO LOG

简介&#xff1a; Undo Log是InnoDB十分重要的组成部分&#xff0c;它的作用横贯InnoDB中两个最主要的部分&#xff0c;并发控制&#xff08;Concurrency Control&#xff09;和故障恢复&#xff08;Crash Recovery&#xff09;&#xff0c;InnoDB中Undo Log的实现亦日志亦数据…

Ampere Altra Max 对比测试数据公布,性能能效双领先

在云计算领域&#xff0c;发展创新的脚步永不停歇。十多年前&#xff0c;伴随着虚拟化及高速网络的发展和成熟&#xff0c;云计算应运而生。在将工作负载迁移到云端的过程中&#xff0c;为了更好地适应云环境&#xff0c;软件架构得以重建&#xff0c;就如同搬进新家时&#xf…

钉钉宜搭入选Forrester《中国低代码平台市场分析报告》

简介&#xff1a; &#x1f389; 最新&#xff1a;钉钉宜搭入选Forrester《中国低代码平台市场分析报告》&#xff01; 11月12日&#xff0c;全球知名研究机构Forrester发布《中国低代码平台市场分析报告&#xff08;The State Of Low-Code Platforms In China&#xff09;》&…

被自己的行为蠢哭了,意识到原因后真香!

作者 | 零一来源 | 前端印象这两天在学习 node 相关的知识时&#xff0c;做出了一些错误的行为~在做用户登录相关业务时涉及到了 cookie、session 的存取&#xff0c;一搜就找到了 express-session 这个中间件&#xff0c;真香&#xff01;配几个配置就可以自动生成 cookie、se…

一种命令行解析的新思路(Go 语言描述)

简介&#xff1a; 本文通过打破大家对命令行的固有印象&#xff0c;对命令行的概念解构后重新梳理&#xff0c;开发出一种功能强大但使用极为简单的命令行解析方法。这种方法支持任意多的子命令&#xff0c;支持可选和必选参数&#xff0c;对可选参数可提供默认值&#xff0c;支…

云原生 DevOps,模型化应用交付能力很重要

简介&#xff1a; DevOps 文化及其支撑其落地实践的自动化工具与平台能力在云原生架构渐为普及的背后&#xff0c;发挥了关键的价值。 撰稿&#xff1a;溪洋 云原生正在成为企业业务创新和解决规模化挑战的加速器。 云原生带来的变革绝不限于基础设施和应用架构等技术层面&a…

如何在 Kubernetes Pod 内进行网络抓包

作者 | Addo Zhang来源 | 云原生指北使用 Kubernetes 时&#xff0c;经常会遇到一些棘手的网络问题需要对 Pod 内的流量进行抓包分析。然而所使用的镜像一般不会带有 tcpdump 命令&#xff0c;过去常用的做法简单直接暴力&#xff1a;登录到节点所在节点&#xff0c;使用 root …

EDAS 4.0 助力企业一站式实现微服务架构转型与 K8s 容器化升级

简介&#xff1a; EDAS 正式来到 4.0 时代&#xff0c;发布多项重磅新能力&#xff1b;同时联合新产品—云原生应用设计开发平台 ADD 1.0&#xff0c;一起发布云原生应用研发&运维 PaaS 产品家族&#xff0c;助力企业应用架构现代化升级。 作者&#xff1a;安绍飞 前言 …

如何用20分钟就能获得同款企业级全链路灰度能力?

简介&#xff1a; MSE 微服务引擎将推出服务治理专业版&#xff0c;提供开箱即用且完整专业的微服务治理解决方案&#xff0c;帮助企业更好地实现微服务治理能力。如果您的系统也可以像本文描述的那样&#xff0c;快速具备完整的全链路灰度能力&#xff0c;并基于该能力进行进一…

云桌面场景化升级新作,锐捷网络发布全新远程办公“U空间”

编辑 | 宋慧 出品 | CSDN云计算 远程办公真的来了。 在硅谷的科技公司远程办公常态化之后&#xff0c;国内的科技大厂也在跟进中&#xff0c;如携程正式宣布的32混合办公模式。根据iiMedia Research艾媒咨询数据显示&#xff0c;在2020年新春期间&#xff0c;中国远程办公人员…

细说双 11 直播背后的压测保障技术

简介&#xff1a; 阿里云 PTS 站在双 11 巨人的肩膀上&#xff0c;是阿里全链路压测的延伸。PTS 通过伸缩弹性&#xff0c;轻松发起用户百万级别的流量&#xff0c;免去机器、人力成本&#xff1b;PTS 对流量的控制&#xff0c;能够实时脉冲&#xff0c;精准控制&#xff1b; 是…

【SpringCloud-Alibaba系列教程】14.一文教你入门RocketMQ

<本文已参与 RocketMQ Summit 优秀案例征文活动&#xff0c;点此了解详情> MQ简介 MQ(Message Queue)是一种跨进程的通信机制&#xff0c;用于消息传递。通俗点说&#xff0c;就是一个先进先出的数据结构。 MQ应用场景 异步解耦 很多场景不使用MQ会产生各个应用见紧密…

独家 | 2021双11背后的数据库硬核科技

简介&#xff1a; 今年双11&#xff0c;阿里云数据库技术有什么不一样&#xff1f; 2021年&#xff0c;是阿里巴巴首个100%云上双11 双11峰值计算成本 相比去年下降50% 作为全球规模最大的数字工程之一 双11无疑是对阿里技术人的“大考” 在又一次技术“严考"面前 …

前沿分享|阿里云资深技术专家 魏闯先:AnalyticDB PostgreSQL年度新版本发布

简介&#xff1a; 本篇内容为2021云栖大会-云原生数据仓库AnalyticDB技术与实践峰会分论坛中&#xff0c;阿里云资深技术专家 魏闯先关于“AnalyticDB PostgreSQL年度新版本发布”的分享。 本篇内容将通过三个部分来介绍AnalyticDB PG年度新版本发布。 一、AnalyticDB PG云原生…

Apache RocketMQ在我司的最佳实践--智慧政务场景下的分布式消息与分布式事务

<本文已参与 RocketMQ Summit 优秀案例征文活动&#xff0c;点此了解详情> 缘起 对于Apache RocketMQ的了解&#xff0c;追溯起来&#xff0c;可以说是从开源初始&#xff0c;就认识到了它。那时候的它&#xff0c;还是个幼年&#xff0c;没有成熟的社区&#xff0c;也…

前沿分享|阿里云数据库资深技术专家 姚奕玮:AnalyticDB MySQL离在线一体化技术揭秘

简介&#xff1a; 本篇内容为2021云栖大会-云原生数据仓库AnalyticDB技术与实践峰会分论坛中&#xff0c;阿里云数据库资深技术专家 姚奕玮关于“AnalyticDB MySQL离在线一体化技术揭秘”的分享。 本篇内容将通过三个部分来介绍AnalyticDB MySQL离在线一体化技术。 一、传统大…

今年双11,阿里业务100%上云

简介&#xff1a; 阿里巴巴业务的研发效率提升了20%、CPU资源利用率提升30%、应用100%云原生化、在线业务容器可达百万规模&#xff0c;同时计算效率大幅提升&#xff0c;双11整体计算成本三年下降30%。 今天&#xff0c;阿里巴巴首席技术官程立宣布——2021天猫双11是首个100…

linux unshare 命令,详解Linux Namespace之User

User namespace 是 Linux 3.8 新增的一种 namespace&#xff0c;用于隔离安全相关的资源&#xff0c;包括 user IDs and group IDs&#xff0c;keys, 和 capabilities。同样一个用户的 user ID 和 group ID 在不同的 user namespace 中可以不一样(与 PID nanespace 类似)。换句…