今天的应用架构,正处在一个不可测的阶段

简介:近几年,“可观测性”这个词在国内的 IT 圈子突然走红,阿里、百度、字节、腾讯等大厂纷纷跟进可观测性建设,更有多家基于可观测技术创业的公司陆续成立,可观测性领域的融资很火爆。这把名为“可观测性”的火,甚至从后端领域,延伸到了大前端,一些移动开发团队希望通过引入“可观测性”概念解决更深层次的应用架构问题,改善性能和业务体验。

采访嘉宾 | 吴结生(Jason Wu) 阿里巴巴高级研究员

主持人 | 霍太稳 极客邦科技创始人 CEO

编辑 | 邓艳琴

近几年,“可观测性”这个词在国内的 IT 圈子突然走红,阿里、百度、字节、腾讯等大厂纷纷跟进可观测性建设,更有多家基于可观测技术创业的公司陆续成立,可观测性领域的融资很火爆。这把名为“可观测性”的火,甚至从后端领域,延伸到了大前端,一些移动开发团队希望通过引入“可观测性”概念解决更深层次的应用架构问题,改善性能和业务体验。

然而,“可观测性”并不是一个新词,为探寻它翻红背后的原因,InfoQ 采访了阿里巴巴高级研究员、阿里云智能存储负责人吴结生(Jason Wu)。在今年首期 C 位面对面中,他与 InfoQ 共同解读了存储技术的现在与未来,分享了他亲历过的一些重大抉择与成长感悟,独家专访阿里巴巴高级研究员吴结生:我经历的三个重大决策_QCon_邓艳琴_InfoQ精选文章。同时,Jason 所负责的团队,也正在为可观测性发展做一些工作。本次,针对可观测性,Jason 与 InfoQ 探讨了他的理解,以下是他的四个核心观点——

观点一:今天的应用架构,正处在一个不可测的阶段。

观点二:监控是系统具备可观测的能力之后,上层提供的一种工程能力。

观点三:可观测性一直存在,现在只是翻红。

观点四:云原生时代,产品更需要具备可观测性。

Observability,可观测性 or 可观察性?

在谈论可观测性的现在与未来之前,我们先来聊聊这个词语本身。

可观测性的概念来自于国外的 Observability 一词,但如果我们打开各种翻译软件,输入“Observability”,出来的翻译结果往往都是“可观察性”。

所以,为什么不叫“可观察性”,而要提“可观测性”?我们发现,今天有不少技术团队是混用这两个词语的,他们认为没有什么区别,甚至会觉得你们搞文字工作的真烦,在这里咬文嚼字,真是吃饱了撑的。

但翻译其实是一件非常严肃重要的事情,好的翻译可以让人一看就懂。举个经典的反例,计算机领域有一个词语叫鲁棒性,如果不去查询相关资料,你可能很难理解这到底是个什么特性。

因此,是选择“可观察性”还是“可观测性”,这件事还是有一些小小的讨论价值的。

若我们引用国内已有的文献,会发现这两个词都有相关的释义。

可观察性是 2014 年全国科学技术名词审定委员会公布的全科医学与社区卫生名词。

可观测性是 1990 年全国科学技术名词审定委员会公布的自动化科学技术名词。

看起来,沿袭可观测性的叫法,会更加贴合。那么从技术的角度来看,又是什么情况呢?对于这一个问题,Jason 表达了他的看法:“这个问题我之前还真的没有想过,但如果你去搜索,会发现可观测的频率更高一些。而我个人也会比较倾向于可观测性,为什么呢?因为,我们很多的系统,或者说,很多的应用架构,在今天其实是处在一个不可测的阶段。既然不可测,那么相对应的,可观测可能就更契合一点。”

可观测性是新概念吗?

在针对可观测性的讨论中,也夹杂着一些批判的声音:这实际上就是对监控 /Monitoring 的改头换面而已,却有人声称这是一种新技术,这都是供应商的阴谋。

这里需要探讨的有两个问题,第一,可观测性是新技术吗?第二,可观测性就是监控的包装炒作吗?

可观测性的内涵一直存在

首先,可观测性的内涵一直都存在,如果仔细回忆一下,你会发现以前大型的分布式系统,包括并行计算里面,都是强调可观测性的。再比如,Linux 里面就有很多可观测性的东西,打开一些 FLAG,它就会给你收集很多性能指标或者日志。在编译程序的时候,打开一些编译选项,你可以有很多 Debug 的信息,这些都是可观测性的体现。

Jason 认为,从某种意义上来说,可观测性就是系统或者产品的一种能力。你的产品和系统在具备了功能和性能这些基本属性之外,还需要具备可观测性,这是一种能力的体现。这样的能力会带来什么样的好处?你可以把软件、产品、服务,从黑盒变成白盒,帮助你更好地理解它们,帮助你站在更高的层次来发现问题、定位问题、解决问题。

那为什么可观测性在今天被大范围提起来了,还被提到了一个新的高度?

因为云计算的发展。容器、微服务、分布式系统的出现,让系统变得越来越复杂,在这个环境下,大家对于当下的新系统的设计、产品的设计,就衍生出了一些新的诉求,而且这个诉求在变得越来越明显。

举个例子来讲,今天,我们有非常多的业务采用的是微服务架构,有几千个容器,这些容器之间相互依赖,通信十分复杂。如果说,每个容器它自己不具备可观测的能力,你要怎么排查问题?

再举一个例子,可能你的系统用了多种技术产品,一些业务是你自己的,一些是阿里云产品的,一些是第三方提供的,这几者相互交错。如果你的系统不具备可观测性的话,你又要怎么排查问题?

总结下来,是两个原因驱动了可观测性概念的走红,一是对系统从黑盒到白盒的诉求,二是对资源到业务的可观测性的诉求。

第一点比较好理解,第二点我们需要再举个例子说明。如果你在运行一个网站服务,你发现客户的体验非常慢,那你需要想办法知道到底是慢在哪里,这时候前后端都需要排查问题。类似于这种从业务视角去解决问题的机会越来越多,对可观测性的要求也就越来越高。再比如,作为业务方,你用了非常多的容器微服务,用了很多云厂商的产品,你要关心业务的稳定性的话,你需要知道自己的系统里面发生了什么事情,那些云厂商的产品里面又发生了什么事情,这些事情怎么串联起来。这就是从资源到业务的可观测性。

可观测兴盛于云原生,它将如何作用于云原生?Jaosn 表示,它让大家意识到,不管是云原生服务也好,云原生产品也好,都需要具备可观测的能力,这是一个基本的要求。“我们要提供一些辅助的工具,去帮助客户理解和洞察他的业务里面发生的行为,所以就出现了像 APM 这样的一些工具和产品,能够自动地去插入一些代码到客户的应用里面,去帮助他们去做性能监控,或是其他事情。”

可观测性 vs 监控

第二个问题,可观测性是不是就是监控?

关于这个问题,业界存在几种观点,有认为监控就是可观测性的,有认为这两者没有区别,但是之前的监控做的不对的,也有认为监控是可观测性的子集的,还有认为这完全不是一码事的。

这里需要额外提一下第二个观点,这个观点的支持者表示:“监控不是数据采集、数据存储和数据展示,那和普通的 CRUD 有什么区别?监控应该是有 Topo 的,如果某个 Metric 下降了,告警了,你却不能告诉我为什么,是有人为变更还是机器故障了,那你叫什么监控?”

再回到我们的问题上来,Jason 认为,监控系统是系统具备可被观测的能力之后,我们在上面提供的工程能力。你首先要具备可观测性,才可被监控。当一个软件、一个模块具备可观测性之后,你就可以拿到 Traces 追踪、Loggings 日志、Metrics 性能等指标数据,再在上面去建立监控这种工程平台。得益于此,你监控的维度可能也会更多。

可观测性与存储的奇妙结合

数据是可观测性的核心,谈到数据必然离不开存储。作为阿里云智能存储负责人,Jason 如何看待存储和可观测性之间的关系呢?

Jason 以阿里云存储为例做了阐述。一方面,阿里云将大量地在系统设计和产品里面提供可观测的能力,后面将推出一系列的一些产品的功能,来强化阿里云产品的可观测能力。以存储产品为例,都会有好几个 Lens,这样一来,客户就能知道,自己发送一个请求到块存储或者 OSS 之后,这个请求在哪个地方花了多少时间,是什么样的一个状态。另一方面,他们还会帮助其他产品和客户的服务构建自身的可观测能力,例如提供一些面向 Logging、Metrics、Trace 的高效的存储系统和分析系统,或者在日志服务中提供 AI 分析能力和根因分析能力。

可观测的好处前面说了很多,但一旦涉及到数据,问题就变得十分复杂了。我们担心,系统的可观测性越强,数据安全合规的风险是否会越大?

“我觉得这是个非常好的问题。我们目前的思考是两个方面,一是说在做系统设计的时候,我们会考虑到哪些是敏感信息,哪些信息是可以透传出来的。另外一个,当我们在收集这些数据信息的时候,我们会把一些敏感字段给去掉,并且配套了类似日志审计这样的安全措施来帮助我们,保证这些可观测性的这些数据,它是合理合规的。”Jason 还告诉我们,这是一个在不断演进的过程,“我们所做的一些数据治理方面的工作,都是在围绕怎么样让数据更加合规,以及数据流动是在客户可以预期的范围内,就是说这个数据不能从这个区域流到另外一个区域。类似这样的数据安全管理,是整个产品设计和服务里面都要考虑到的。”

写在最后

当前,我们正处于一个数据量爆炸的时代,这带来了整个系统架构的演化。系统规模愈加庞大,容器与容器之间,数据与数据之间,关系错综复杂,一旦出现问题,排查起来相当棘手。打造具备可观测性的系统是应对之策,AIOps 又是另一个可行手段。接下来,我们还将联合阿里云《云桌派》栏目,带来一篇深度专访,探究可观测性与 AIOps 如何在今天的架构运维中形成合力,敬请期待。

原文链接

本文为阿里云原创内容,未经允许不得转载。 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/510900.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

淘系用户平台技术团队单元测试建设

简介:单元测试是工程交付前质量保障的第一环,也无疑是软件工程质量保障的重要基石,有效的单元测试能够提前发现90%以上的代码Bug问题,同时也能防止代码的腐化,在工程重构演进时起到至关重要的作用。 作者 | 问元 来源 …

阿里云弹性计算对视觉计算的思考与实践

简介:利用人类已有和将有的技术加之商业手段,实现对人类感官体验进行全方位升级。 4月21日,“2022英伟达数字孪生技术应用论坛”上,阿里云弹性计算产品专家张新涛为大家带来了题为《阿里云弹性计算在XR业务上的应用实践》的主题分…

腾讯云入选Gartner CPaaS市场指南“代表厂商”,数实融合和全球化布局受认可

腾讯云凭借丰富的数实融合场景,以及全球化布局,被Gartner评选为CPaaS代表厂商。 CPaaS(通信平台即服务)作为实现即时通信、音视频通话等功能的云解决方案,已经成为企业对内提高运行效率、对外优化客户体验的重要数字化…

游戏行业弹性计算最佳实践

简介:本篇主要介绍三大游戏场景:游戏服务、大数据运营、云游戏的架构特点,以及基于这些场景下的阿里云游戏行业计算基础设施选型与部署方案。 文丨寻野,阿里云弹性计算产品解决方案架构师 摘要:游戏一直以来是互联网…

三大特性,多个场景,Serverless 应用引擎 SAE 全面升级

简介:Serverless 应用引擎 SAE 凭借着天然技术优势,已经帮助成千上万家企业实现容器和微服务技术转型。近日,SAE不仅进一步提供了全套微服务能力,更为传统 Job 和 PHP 用户提供了全新的,更高效、更经济且可平滑迁移的解…

代码覆盖率在性能优化上的一种可行应用

简介:JavaScript 是前端应用主要语言,相较于其他平台编程语言,JS资源多数情况下要通过网络进行加载,那么代码的体积直接影响了页面加载执行时间。“无效的代码”的多寡直接影响到了我们的代码质量,所以度量代码的执行覆…

MaxCompute湖仓一体介绍

简介:本篇内容分享了MaxCompute湖仓一体介绍。 分享人:孟硕 阿里云 MaxCompute产品专家 视频链接:数据智能实战营-北京站 专题回顾 正文: 本篇内容将通过两个部分来介绍MaxCompute湖仓一体。 一、什么是 MaxCompute 湖仓一体…

云原生离线实时一体化数仓建设与实践

简介:本篇内容分享了云原生离线实时一体化数仓建设与实践。 分享人:刘一鸣 Hologres 产品经理 视频链接:数据智能实战营-北京站 专题回顾 正文: 本篇内容将通过五个部分来介绍云原生离线实时一体化数仓建设与实践。 一、离线实…

议题征集|Flink Forward Asia 2022 正式启动

在这数据量爆炸性增长的时代,开源软件如雨后春笋般出现在开发者的视野中,数据的价值被重新定义。同时,越来越多的企业开启实时化道路,数据的实时分析与计算需求与日俱增。作为主打流处理的计算引擎 Apache Flink 于 2014 年正式开…

龙蜥正式开源 SysOM:百万级实战经验打造,一站式运维管理平台 | 龙蜥技术

简介:SysOM集监控、告警、诊断、修复、安全能力于一体的操作系统运维平台。 文/系统运维 SIG 如果你被突如其来的 OOPS 和满屏奇怪的函数弄得满头问号?机器内存明明很大,却申请不出来内存?业务周期抖动,ping 命令偶尔…

微软在华商业应用战略全面升级,首次推出面向医疗和生命科学的云行业套件

2022年9月29日,微软宣布进一步升级在华商业应用战略,落地一系列智能商业应用(Biz App)功能的同时,以Dynamics 365和Power Platform为基础,进一步完善商业应用战略与价值定位,助力更多客户和合作…

使用Databricks进行零售业需求预测的应用实践

简介:本文从零售业需求预测痛点、商店商品模型预测的实践演示,介绍Databricks如何助力零售商进行需求、库存预测,实现成本把控和营收增长。 作者:李锦桂 阿里云开源大数据平台开发工程师 本文从零售业需求预测痛点、商店商品模型…

龙蜥开源内核追踪利器 Surftrace:协议包解析效率提升 10 倍 | 龙蜥技术

简介:如何将网络报文与内核协议栈清晰关联起来精准追踪到关注的报文行进路径呢? 文/系统运维 SIG Surftrace 是由系统运维 SIG 推出的一个 ftrace 封装器和开发编译平台,让用户既能基于 libbpf 快速构建工程进行开发,也能作为 ft…

开源要正式写进法律了?

作者 | 何苗 出品 | CSDN(ID:CSDNnews)去年,当大家还在为开源的快速发展而欢呼之际,影响了全球数百万台计算机Log4j 漏洞事件给开源软件开发者与使用者敲响了一记警钟。因而今年,开源软件及其供应链安全…

阿里云软著申请|这项保护,让我得到了10万赔偿

简介:对于企业来说,申请软件著作权是证明自己和保护自己的强力护盾。除此之外,它还有着很多不可忽视的意义与价值。阿里云软著申请,一站式智能服务,助力企业和开发者高效发展,省时省力更省心。 前几日&…

宜搭小技巧|海量数据管理难?这招帮你事半功倍

简介:一键生成数据管理页,海量数据随心管理! 话接上回,宜小搭组织大家团建,当收集完大家的报名信息后,有小伙伴想要修改已提交的信息,面对海量的数据,整理查找太费时间。 如何快速…

1024 程序员节官方剧透:重磅大咖再聚,共话中国技术新生态

在二进制垒起的计算机世界里,1024 对于程序员而言,早已不再是单纯的一串数字,不断演进的开发时代赋予了它特殊的意义。 伴随着一份份热衷与期盼,10 月 22-24 日,由湖南湘江新区管委会主办,长沙工业与信息化…

前端性能优化实战

简介:引用彼得德鲁克的一句话,“You cant manage what you cant measure。一件事如果你无法衡量它、你就无法管理它”,性能同样如此。如果没有一个准确的方案来对性能进行度量,那优化就无从谈起。那么对于我们来说,哪些…

Elastic与阿里云助力汽车及出行产业数字化转型

简介:目前,阿里云和Elastic在全国已经有很多的项目正在开展合作,而在移动出行领域与享道出行的合作案例,则是代表性的。 在汽车产业变革逐步深入的当下,云计算、大数据等信息技术成为了汽车企业经历数字化转型时的“刚…

企业版Spark Databricks + 企业版Kafka Confluent 联合高效挖掘数据价值

简介:本文介绍了如何使用阿里云的Confluent Cloud和Databricks构建数据流和LakeHouse,并介绍了如何使用Databricks提供的能力来挖掘数据价值,使用Spark MLlib构建您的机器学习模型。 前提条件 已注册阿里云账号,详情请参见阿里云…