基于Sentry高效治理前端异常

大家好,我是若川。我持续组织了近一年的源码共读活动,感兴趣的可以 点此扫码加我微信 ruochuan12 参与,每周大家一起学习200行左右的源码,共同进步。同时极力推荐订阅我写的《学习源码整体架构系列》 包含20余篇源码文章。历史面试系列。另外:目前建有江西|湖南|湖北籍前端群,可加我微信进群。

82159b0e4be9e3a00c53d780b9f8f376.png

一个前端项目上线后的各种指标监控是极其重要的,通过各种指标数据可以知道项目存在的问题及未来优化的方向,在各种维度监控中的异常监控是必不可少的,通过异常数据可以及时发现用户遇到的问题,而异常上报中的各种数据指标可以给解决问题提供参考及方向。

文章内所有异常上报及异常分析都是基于异常处理开源平台 Sentry ,其他异常处理平台或自建平台可根据实际情况参考。本文主要分为以下几个部分:

  • 异常治理的重要性

  • 前期异常数据处理

  • 高效发现异常

  • 高效解决异常

异常治理重要性

海恩法则指出: 每一起严重事故的背后,必然有 29 次轻微事故和 300 起未遂先兆以及 1000 起事故隐患。当一件重大事故发生后,我们在处理事故本身的同时,还要及时对同类问题的 “事故征兆” 和 “事故苗头” 进行排查处理,以此防止类似问题的重复发生,及时消除再次发生重大事故的隐患,把问题解决在萌芽状态。这个法则放在前端异常治理中同样适用,通过及时发现存在隐患的异常并及时解决,避免酿成重大事故。

用户体验

前端项目的用户体验是很重要的一环,特别是公司业务面向C端的时候,一个好的用户体验可以更高的促进业务漏斗的转化。

新增异常监控后,所有收到的异常数据都是实时的,异常发生时我们可以第一时间知晓且及时处理,对所有异常数据都要积极处理,不可敷衍了事,不能等到用户反馈时才打开异常平台修复问题,当你已经从其他渠道得到反馈有异常时,说明问题已经扩散到很大的范围了,这个时候才想起去看异常平台数据时没有将平台的作用最大化,也给用户带来了不好的体验。

这里说的第一时间及时处理,并不是随时都在观察是否有新的异常产生,我们只需要在关键的节点提高警惕即可,主要是系统发布新的功能时,但这并不局限于本系统,比如 App 项目中 H5 未发布,但是App发布了新的版本;后端接口发布了新的版本;用户升级了新的系统版本等会需要及时观察是否存在异常数据波动。除此之外可能还有设备兼容性问题,复杂业务操作等产生的问题,这类问题可通过其他手段监测及时发现,后面的文章会说明。

公司成本

某些异常是不影响用户使用的过程,比如组件卸载时未及时移除定时器或绑定的事件,虽然用户是无感知的,但是异常数据会源源不断的上报,如果这是一个日均PV上百万的项目,可想而知每天会产生多少新的数据,会造成多少网络流量的浪费。所以要及时处理异常,特别是高频发生,稳定复现的问题,减少网络流量及异常平台服务器的压力,及时减轻公司的运营成本。

前期异常数据处理

在解决问题之前需保证该异常数据是我们需要解决的问题,而不是无意义或干扰性的问题等着我们去处理,此类问题会影响后续的数据分析及降低解决问题的效率,以下处理方案大都可以在异常上报SDK中统一处理。

  • 规范上报异常数据,规范上报异常标题格式,以及其他附加数据,如 sentry 中的 tagadditional 数据等,以便于在不同的项目中都可以快速参考分析问题,另外就是要规范异常上报的时机,除开被动上报异常,其他用户主动操作行为产生的异常要及时上报,如接口异常,复杂逻辑中特定时机上报异常记录分析。

  • 部分异常过滤,针对某些框架底层异常或是已知业务场景正常接口异常等,可直接过滤处理,不再显示到异常平台中再次处理。这类异常过滤的过程可以在 SDK 全局进行过滤处理,针对不同的项目可额外增加不同的过滤条件,也可在异常平台针对某些重要性较低的项目直接过滤处理。

  • 部分自动处理,自动处理分为几个情况:自动删除,自动标记解决,自动列为忽略异常。经过上面的过滤后的异常,会再一次过滤处理,这类处理的异常内容可以是某些业务场景需要上报的接口异常但不能归属于代码逻辑错误,比如提交订单时,某个新出的机型未在后台新增,触发这个异常后运营会立即处理,后续不会再发生。针对这类型的异常可以使用程序自动处理。

  • 完善健康度所需各维度数据,判断一个项目产生的异常不能单纯的以数量为依据,还要根据当前项目的用户量结合计算,所以要把当前计算健康度所需的各维度数据都要提前准备好,提高后期健康度计算结果的准确性。

高效发现异常

经过以上的前期数据处理,接下来经过 SDK 上报到异常平台显示的数据就是我们要真正处理的异常数据。以转转举例,目前已经接入 Sentry 的前端项目有 **500+**,每天上报的异常数量约 250 万次,在如此大的体量下如何快速发现哪些才是目前紧急需处理的异常呢?

异常上报后需要针对性的处理,优先处理紧急核心项目及上报数据不正常的异常,可通过以下几个方式高效发现异常,这里的异常并不是指全部的异常,而是值急需处理的异常。006c24bf1dbebe468e5ceb16c1b79645.png

项目健康度排名

通过一系列维度权重配置,给所有项目计算出一个健康度得分,通过得分排序即可得出当前项目质量的好坏程度,通知对应的负责人及时处理。相关维度项及解释如下:

  • 24小时异常/PV比例:近24小时发生异常数量与该项目PV数量占比情况

  • 14天异常数量:该项目14天发生异常数量总计数值

  • 24小时异常数量:该项目24小时发生异常数量

  • PV:统计该项目昨日所有页面PV数量

  • 是否核心项目:该项目是否标记为核心项目

健康度得分计算公式:36a06bcee7b9d5588d544564b9302c34.png每个维度权重占比可随时调整,调整后会立即重新计算得分并排名,可通过维度权重的调整来提高整体项目的质量要求。

sentry大盘异常监控

对异常平台内所有项目上报的汇总值监控,监控的指标有2个,突发异常数量过高,超出上一个区间数据的增量比例,另一个就是异常数据归零,没有收到任何异常,这种情况可能是短期异常太多导致平台崩溃或其他情况导致无法处理异常处理,针对这两个情况进行异常波动记录并触发企业微信推送。499eaa073347d938d2892590ed2f3f77.png

项目异常监控

接下来就是针对项目级别的监控,但是作为一个集团大公司下的项目太多,对于一些异常数量极低的项目需要过滤处理,减小服务器的压力以及可以提升数据处理的速度。我们可以通过 Sentry 平台 Stats 中的项目进行监控处理,这里的项目可传入查询的时间段,这里最小时间段是小时级别,返回的是当前条件下新增的异常数量排名列表,我们只针对这个列表进行监控处理,由于需要更快速更准确的监控异常波动,基于这个列表再次查询每个项目5分钟内的新增异常数量,通过定时任务处理即可得出以下走势图,可快速发现某个时间段中的哪个项目出现了项目数据不正常的情况。针对这部分异常同样的也是进行异常波动数据存储及企业微信消息推送。e6b2e4800513e47f7a96638e32e69899.png

企微消息推送

以上2种情况最终都会触发到企业微信消息推送,因为消息推送的触达更为精准和迅速,但是也存在一些特殊的项目,比如夜间会定时任务可能存在过多的超时,本身 PV 量较高的项目所触发的配置数值有所不同。所以针对推送的部分增加了相关维度的配置,推送配置有推送区间,多少时间段内触发一次推送,推送时异常起点数量,增量异常比例以及是否开启推送。1700d4def82cee25a2c5a0148b69fd1a.png最终企业微信推送效果如下:3533f2de96f9fff90bdce92fe69183e7.png

超时未处理提醒

上面的项目波动监控是针对项目整体异常情况的,除此之外还增加了针对项目内部具体异常解决情况的监控并推送,获取到项目内部所有异常,定期执行推送,在消息推送内容中标明当前存在的异常数量,针对超过3日还未处理的异常@对应负责人,以提高相关人员警觉。最终企业微笑推送效果如下:2c54c12ae472dca91756ed942f79a01f.png整体流程如下:40ba483bfa69d9475f5f851a1ec508ab.png

高效解决异常

经过上一步的发现异常,接下来将通过几个手段更加高效的解决异常,这个过程是基于公司内部现有情况处理,在不同的公司内部可能不一定适用,可参考处理。

知识库解决方案沉淀

目前各小组解决项目异常问题都没有沉淀具体的解决方案,但是大家所遇到的问题都是大同小异,很多场景下的异常问题其解决方案都是可以复用的。鉴于此,我们把解决问题的过程沉淀到内部文档知识库中,以供其他同学遇到类似的问题时,提供一定的解决思路,提高异常问题的解决效率。整体流程如下:8c365448e5daf19a2cb805aa539d391d.png

如该问题已有提交的文档记录,则进入异常问题详情页面时,右上角会有提示已解决方案参考地址,点击链接跳转到内部文档查看对应的解决方案。b987866ee477ecc6255b181c5231ecbb.png

内部文档搜索关联

研发同学都有记录文档的习惯,但是历史文档和 Sentry 并没有任何关联关系,所以在 Sentry 异常详情页面中新增按钮跳转到内部文档搜索,如有类似文档沉淀,则可以直接参考解决。357bd30d866a42258f840ddf6b988793.png

一键进入开发,内部系统打通

Sentry 本身是一套独立的开源项目,所以和公司内部其他的系统没有任何关联关系,导致无法和其他系统进行联动操作,比如创建分支,查询内部项目相关信息等。导致每次解决异常时都需要创建需求和分支才能进入到开发中,整个流程重复且繁琐。

基于这个背景在 Sentry 异常详情页面中增加一键创建需求和分支的能力,可快递进入到开发过程中。整个流程如下:7fc8f5ed99eda6f3bc5ab23a34dcc35d.png涉及调用其他系统的接口较多,细节就不过多说明。核心就是基于异常详情中的页面地址解析出项目内部相关信息,基于这个数据创建tapd需求,创建项目仓库开发分支并和当前异常信息绑定记录。

fb12c3bd91d2501d286242abac1f9450.png

自动分发接口异常责任人

现有项目中的接口异常占比约 80% ,导致需要花费大量的时间去沟通协调处理异常,处理的过程一般都是在 Sentry 监控平台发现是接口异常,再发送相应的接口请求数据及响应数据给到对应的后端处理,每次的沟通繁琐且耗费时间。基于这个背景优化整个沟通的过程,首先对异常上报的标题进行组装统一,以便后期可以检索时可以快速发现该问题属于接口层面问题。然后根据标题中获取到的接口地址从ZAPI(内部接口文档平台)平台获取到对应的后端开发人员,最后就是推送该接口异常情况到群聊@对应的开发人员。这里为了方便RD还原当前的请求场景,会再查询一次 Sentry 平台异常详情接口,在详情中获取到接口请求时的traceid,这样就不用再提供请求出入参数给后端人员了。

const = sendTitle = `${sendType}--${requestUrl}--${responseText}`

推送效果如下:6d5e2c4396dd10fb4770214de26f796f.png整体流程如下:5a1092d5a8c972776a9a1fcdf01831ca.png

总结

针对前端异常治理本文从两个方面说明了其重要性,然后在处理异常的前期增加了对异常数据的准确度的过滤处理,对过滤后的数据通过几个方式快速发现存在波动的异常情况,最后对需处理的异常增加了一些手段提高解决异常的效率。

异常治理的过程是一条漫漫长路,需要相关的同学一起努力才能有一个较好的结果,比如经过一系列手段可以发现很多不正常的异常情况,接下来就需要对应的同学快速处理且沉淀下来解决的过程以供后续其他同学参考,只有沉淀到一定的量后才会有比较显著的效果。

本文异常处理平台基于开源平台Sentry,其他平台处理逻辑类似,希望能给你带来帮助。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/274471.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

zoom 用户被锁定_重新考虑Zoom的用户体验

zoom 用户被锁定Zoom is a household name now. It’s weird, but a new reality for 2020. I’ve been able to reliably stay in touch with so many people and even throw surprise birthday parties! It has been one of the products that has kept me busy through this…

或许是我们学错了方向?

大家好,我是若川。最近来了一些新朋友,感谢大家关注~相比于原生 JS 等源码。我们或许更应该学习正在使用的组件库的源码(如:element、antd、vant、semi、arco、tdesign 等),先从简单的看起,Butt…

Android 默认Tab标签大小及间距修改

一般来说,我都是用Android默认的Tab,但此时Android会根据你增加的Tab页面平均分配Tab标签,假如你只有两个Tab,那么长度将会很长,并且其高度略微过高,并不好看,网上解决这个问题有些是自定义Tab。…

ui设计看的书_5本关于UI设计的书

ui设计看的书Want to develop a better eye and vocabulary for judging layouts, type choices and imagery?是否想开发一种更好的眼神和词汇来判断布局,类型选择和图像? According to performance experts, the best way to learn is to gain lots o…

GitHub 这8大超实用小技巧,99.9%的人都不知道!

大家好,我是若川。我持续组织了近一年的源码共读活动,感兴趣的可以 点此扫码加我微信 ruochuan12 参与,每周大家一起学习200行左右的源码,共同进步。同时极力推荐订阅我写的《学习源码整体架构系列》 包含20余篇源码文章。历史面试…

案例研究设计与方法-罗伯_旭进口重新设计-用户体验案例研究

案例研究设计与方法-罗伯Asahi Imports is a Japanese grocery store located in central Austin, Texas. It has a passionate following, over fifty years’ history, and strong business growth. But its website is showing its age, and not hitting its full potential…

Taro v3.6 代号为「Reach」,已发布 canary 版本

大家好,我是若川。我持续组织了近一年的源码共读活动,感兴趣的可以 点此扫码加我微信 lxchuan12 参与,每周大家一起学习200行左右的源码,共同进步。同时极力推荐订阅我写的《学习源码整体架构系列》 包含20余篇源码文章。历史面试…

axure rp 创建弹框_如何在Axure RP 9中创建交换机

axure rp 创建弹框Axure is a well-known prototyping tool with a lot of history, it has been around for years. You can create almost any kind of prototypes from simple ones to more complex ones with variables and logic without writing a single line of code (…

用 Vue3 手撕了个企业级项目,真香!

最近几年,随着短视频、小程序、直播带货的火爆,前端开发工程师越来越热门,薪资待遇也快接近后端开发工程师了,前端领域进化为内卷重灾区。然而伴随着 Vue 3.0 的发布,前端技术也迎来了一次大革新,像是字节跳…

界面设计语言_使用任何语言设计界面的提示

界面设计语言Designing for international audiences is challenging. I spent most of my career in Australia designing exclusively in English. Australian English is ‘unique’ in the sense that we are really into slang, puns, idioms.为国际观众设计是具有挑战性的…

托管代码和非托管代码

托管代码和非托管代码有什么区别呢?从字面上理解,只是一个是被托管的,另一个是没有被托管的。但是,被托管的托管代码是被谁管着呢?让我们先来看看它们的定义。 托管代码:由公共语言运行库环境(而…

如何实现前端新手引导功能?

大家好,我是若川。我持续组织了近一年的源码共读活动,感兴趣的可以 点此扫码加我微信 lxchuan12 参与,每周大家一起学习200行左右的源码,共同进步。同时极力推荐订阅我写的《学习源码整体架构系列》 包含20余篇源码文章。历史面试…

hp-ux锁定用户密码_UX设计101:提出正确的问题-规划和促进用户访谈

hp-ux锁定用户密码这是什么? (What is this?) This session is part of a learning curriculum that I designed to incrementally skill up and empower a team of Designers and Researchers whose skillset and ways of working needed to evolve to keep up wi…

我与掘金合作出了源码共读第一期,首发超400人报名,快来参与~

大家好,我是若川。最近有不少新朋友关注我。对我不是很了解的,或许可以读我的2021年度总结。诚邀各位新老读者朋友参加源码共读活动。同时我和掘金合作,共同出了源码共读第一期,11月25日——12月25日,奖品丰厚。我是前…

mac基本操作技巧_6个基本设计技巧

mac基本操作技巧“In everything you do, refine your skills and knowledge about fundamental concepts and simple cases. Once is never enough. As you revisit fundamentals, you will find new insights. It may appear that returning to basics is a step backward an…

如何突破技术瓶颈(适合P6以下)

大家好,我是若川。我持续组织了近一年的源码共读活动,感兴趣的可以 点此扫码加我微信 lxchuan12 参与,每周大家一起学习200行左右的源码,共同进步。同时极力推荐订阅我写的《学习源码整体架构系列》 包含20余篇源码文章。历史面试…

stack smash_扶手椅VGUX:Super Smash Bros.Ultimate

stack smashEasily far the most exciting news out of Super Smash Bros. Ultimate’s announcement was that every single character would be returning to the game.asily迄今为止最令人兴奋的消息了任天堂明星大乱斗最终宣布的是, 每一个字符会被返回到游戏中…

《Two Dozen Short Lessons in Haskell》学习(十)- Private Definitions — the where-clause

《Two Dozen Short Lessons in Haskell》(Copyright © 1995, 1996, 1997 by Rex Page,有人翻译为Haskell二十四学时教程,该书如果不用于赢利,可以任意发布,但需要保留他们的copyright)这本书是学习 Ha…

我和掘金合作的源码共读小册报名快1000人了~

众所周知,我和掘金合作出了源码共读第一期。我是前端领读员。现在报名快1000人了~奖品丰厚。也有一些小伙伴已经写了好几期笔记了~但相对1000人写的还是太少。什么?你不知道?那也很正常,毕竟我的公众号常读人数比较少。大部分人都…

【短语学习】盈余量分析(earned value analysis)

作者:gnuhpc 出处:http://www.cnblogs.com/gnuhpc/ 各种形式的盈余量分析是衡量执行时最常用的方法。它把范围、成本和进度等度量标准结合在一起以帮助项目管理小组评估项目执行。对每项活动而言,盈余量分析包括计算三个主要数值:…