在《凤凰项目——一个IT运维的传奇故事》一书中讲述运维工程师的常态:
A工程师:“是的,我们复制了你给的那个文件……是的,就是1.0.13版……你说那个版本是错的,这话是什么意思……什么?你什么时候把它改了?现在再复制一下,重新试试……可是这不起作用……我认为是网络的问题……你说我们得打开一个防火墙端口是什么意思?见鬼,两个小时前你干嘛不告诉我们?”
B工程师:“让我猜猜,前端程序无法与数据库服务器对话,是因为有人没告诉我们需要打开一个防火墙端口?”
作为“救火队队长”,你是不是还经常遇到:
研发工程师找过来说我这个接口坏了,是不是你们运维弄的?你调接口查服务,终于发现——他这个接口就从来没有好过……
用户投诉产品功能无法使用,你登录服务器,在满屏日志里艰难地试图分析错误原因。有时候还怀疑是局部网络问题,得和用户远程复现问题,检查网络……
一个数据从用户端到服务器再返回用户端的过程中,均有可能发生故障,比如客户端多样化、最后一公里、边缘计算CDN、多云性能、PaaS、代码/SQL调用等, 任何一个环节出现问题带来的都是用户体验的下降, 随之而来的用户投诉、携号转网、携款转户等。如何让 IT 运维更便捷,提高工作效率?国内“APM 监测第一股”博睿数据自研“数据链DNA”体系,打通从代码到用户路径,建立以用户为中心的“服务可达”。
01 该转变视角了:“应用可用”到“服务可达”
博睿数据COO吴静涛回顾过去 IT 运维体系:上世纪 70 年代主要以计算为中心,到了上世纪 90 年代主要以应用为中心。过去企业用“O”视角,以应用为中心,数据中心为基础,应用高可用为指标来建立自身 IT 运维体系。
随着企业数字化转型加快,Z 世代对于互联网产品的需求和体验提高,如今来到以用户为中心,如今我们应转变主视角,从企业角度改为从用户的角度,即“C视角”用户端视角,建立以“服务可达”为基础,用户体验为指标,互联网用户为第一原则的体系。
在技术上,随着云原生、微服务等技术的兴起,给 IT 运维系统带来一定的冲击,因此博睿数据打造了从代码到用户全路径打通的“数据链DNA”。
02 揭秘数据链 DNA 的技术密码
“数据链DNA”恰如其分的名字,吴静涛幽默地表示:“来自高人指点”。“数据链DNA”作为理念,其具体技术框架涵盖以下:
“D”——DEM(Digital Experience Management):
用户数字体验管理,包含客户端APP体验监控、浏览器体验监控、小程序体验监控、浏览器拨测和手机拨测等一系列技术。博睿数据的DEM基于用户会话的监控视角和分析模型,是国内DEM领域监控工具中独家具备了用户会话及全量访问事件的监控和分析能力的产品。
“N”——NPMD(Network Performance Monitoring and Diagnostics):
网络性能监测和诊断,通过网络嗅探、BigIP大数据引擎、Nginx Telemetry等技术,从业务、应用、系统、网络、硬件几个维度分析诊断,实现网络传输的路径发现,异常发现,故障发现。
“A”——APM(Application Performance Management):
应用性能管理通过字节码注入和微服务探针,无需应用代码变更的情况下实现对代码运行效率、SQL调用效率、PaaS API调用逻辑追踪,以及微服务的性能监控。
在具体的实现数据链DNA环节的可用,离不开以下“七种武器”:
·客户端拨测/SDK/反嵌JS
通过浏览器和手机真机APP拨测,客户APP的SDK嵌码, Browser/H5/Webview监控, 确保服务可达并提升用户体验;
·Edge/CDN节点主动拨测
性能监控, 得到使用过程中的实际性能表现, 延迟和丢包作为选型依据和性能排查依据;
·云服务提供月报/定制测评
通过每月对云服务商监控提供定期性能报告, 成为企业客户对多云服务的议价依据,从而提升企业客户的实际服务能力和可用性;
· 门户网页/首屏加载分析
信创环境和传统环境的灰度性能分析; 提供专业建议,来提高体验,避免劫持,从而提高可用性;
· NPMD网络性能管理
实时网络流数据捕获分析技术,实现流数据路径判断,快速发现和排除网络上的节点的通讯故障;
·ADTD应用深度追踪
调用逻辑的自动拓扑可视化,快速发现API服务异常,重载过库攻击等现网环境风险;
· APM应用性能管理
通过字节码注入,无需开发变更,在运行环境中实现对代码执行,SQL调用效率的监控,是DevOps的必备技术,也是提升信创平台应用性能的利器。
会上,吴静涛分享了一个案例:在为证券企业建立以用户为中心的服务可达指标体系时,利用“数据链DNA”构建评分体系,以统一标准管理应用系统,系统图形化地展示相关数据,使管理者可以高效地确定性能优化的重点,同时让多个部门多了沟通的桥梁,不再各自为政。
03 三大安全举措捍卫数据安全
监测系统在进行全链路监测时,需放置智能探针。 对此,吴静涛表示,在不同的场景使用不同的探针,如在网络监测上,采用硬件的智能探针;在虚拟化的环境中,就用软智能探针等,并且已做到无侵入性。
那安全性如何保证?
吴静涛表示,博睿数据从以下三方面来做:一是大客户可以做相关的代码审查;二是寻找专业安全机构做相关的安全认证;三是在部署方式上,除了提供公有云部署外,还可做私有化部署,保证企业数据不外泄。