关于运维,阿里云、字节、华科的专家如是说

只有今天周密的“运”筹帷幄,才有将来持续的“维”护稳定。不久前,阿里云联合中国计算机行业协会信息存储与安全专业委员会,邀请到了来自阿里云、字节跳动、华中科技大学的多位专家,共同探讨数字经济时代存储系统的运维之道。

一、降低延迟,避免系统性能急剧变化

运维的本质是对网络、服务器、服务的生命周期各个阶段的运营与维护,在成本、稳定性、效率上达成一致可接受的状态。在 ICT 行业里,运维人常常调侃“运维是对应用的承诺,不离不弃一辈子”。他们就像是数据中心和公司里IT资源的管家、保安、救火员。

阿里云智能资深技术专家、对象存储研发负责人罗庆超对此深有体会。他回忆起了阿里云大客户请求延时抖动保障的过往,指出云存储服务请求的延时抖动厉害的时候,应用整体性能会产生过山车式的变化。

而云上的请求延时包含网络延时和存储延时,云服务的网络非常复杂,包含BGP(Border Gateway Protocol)和静态的公网以及数据中心内的网络。找出影响延时的拥塞点和合理调度,对避免造成拥堵至关重要。

存储服务还要处理好介质访问的延迟问题,机械/固态盘也是个复杂的系统,压力越大延迟越高。特别是在分布式存储系统中,还会带来病毒式的传染效应。对象存储OSS为了降低延时的抖动,从快速监控、准确告警、根因分析、优化调度入手,将延时抖动控制在合理的方差范围内,保证了良好的客户体验。

华中科技大学研究员、博士生导师吴非笑言,由于自己来自高校,并未亲身感受到运维人的压力,但能理解堪比永动机的7*24待命之不易。当前云存储的可靠性要求是11个9,固态硬盘和传统机械硬盘是云存储中最基础的数据存储单元,维护起来并不简单。前者的存储介质由闪存构成,从原理上讲,闪存就像一道门,每开一次就有一次磨损,在使用过程中不可避免会出现老化,逐渐吱呀作响,故障也接踵而至;后者像机械机器一样不停摆动,但终有停转之时。在由成千上万的固态盘或硬盘所构成的存储系统里,要保证如此高的可靠性,运维人的压力可见一斑。

二、因时而变,智能化运维大势所趋

“欲善新基建,必先利运维”。在企业数字化进程中,运维则是浓墨重彩的一笔。

字节跳动数据库存储技术负责人张雷表示,从传统的手动运维,到DevOps的自动化运维,再到AIOps的智能化运维,运维技术在近十几年实现了跨越式发展。字节云数据库云存储整个运维体系的发展历程,也大致分为三个阶段。

第一个阶段在2016年以前,整体的数据库和存储的体量都不是特别大,团队运维还处于“刀工石斧”的状态,也就是基本上靠人工就能搞定。

第二个阶段是2017到2021年,业务的规模飞速发展,云存储的系统也达到了EB量级,数据库的规模都是几千甚至上万套库,人工运维天花板已显现,因此运维团队转而构建一些自动化的运维平台,依托这些平台去搞定运营问题。

第三个阶段是自2021年年中,依托AI等技术的第三代运维体系开始构建。将运维人员的知识和运维经验与大数据、机器学习技术相结合,融入到运维系统中代替人力,从而解决更大规模上的运营效率问题。

在这三个阶段中,整个业务体系的发展,呈现出两方面的能力跃迁:一方面是运维的文化、组织、能力的提升,通俗的理解就是大家摸黑前行,从做个体运维到成体系、成建制地构建了专职的运维的SRE的团队去运维;另一方面,整个运维体系和服务化的一些技术体系也都在前进,比如从最早期的管理几十台服务器到现在管理几十万台服务器,就是技术体系不断演进去支持的。总而言之,运维的文化和组织、以及运维的技术体系,这两条路是齐头并进的。

三、快速定位,诊断问题根因所在

随着业务走上云端,运维也逐步“云化”。资源监控、终端管控、安全支持等运维服务转化为云端应用,企业可以根据需求实现订阅。

张雷表示通常会关注服务的黄金指标,尤其是跟稳定性相关的一些黄金指标,因为对于大型在线服务而言,稳定性可能是第一位的。此外,他更关注长期的所依赖服务的一些技术演进路径,以便未雨绸缪,保证在技术或者产品形态上发生巨变时,运维/运营体系不会掉队。

罗庆超指出阿里云对象存储OSS作为服务的提供商,要做到服务承诺的SLA(服务级别协议)和 SLO(服务级别目标)这两个关键指标。细而言之,OSS官网承诺了可用性的SLA为业界领先的99.995%,那作为服务商就一定会按指标准来度量请求的成功率,想尽千方百计来保证该指标。SLO则是更详细的服务项承诺,例如保障客户的请求整体的带宽要能够达到稳定的Tbps级量级,同时一些典型的请求时延能够保证在100ms这个量级,不能有太大的波动。

近期阿里云还会发布一个可观测服务CloudLens,会为客户提供主流云产品的运维知识。CloudLens为对象存储OSS提供了用量分析、性能监控、安全分析、数据保护、异常检测、访问情况分析等功能,从而在成本、性能、安全、数据保护、稳定性、访问分析6大维度支撑客户的管理能力。

吴非认为,为了支撑应用的快速发展,存储技术也在不断演进。从传统的磁盘阵列到集中式存储,再到现在系统里可能有几十或者上万台服务器的分布式存储。在技术上首先需要考虑怎样保证成千上万台服务器能够可靠运行。从运维的角度看,就是要不出故障或者少出故障,或者快速检测出故障,达到快速修复、快速恢复、快速检测等指标。

近年来AI发展得如火如荼,高校科研人员也在做用AI提前预测系统故障的相关研究,希望在系统故障发生前完成数据迁移,从而有效减轻运维的压力。

四、产学研用,打造成长共同体

运维为业务系统提供的保障,既离不开阿里云这样的服务提供商的布局,又离不开字节这样的产品使用方的努力。而高校及科研院所作为基础理论技术与前沿技术研究的主体,在较多关键前沿技术方面拥有深厚的基础技术储备和丰富的理论研究基础。因此,产学研合作创新是产业发展需要重视的一个板块。

吴非表示,用“共同成长体”去定义这样的合作关系较为妥帖,这个链条包含了创新链、产业链以及用户链。正是因为有这样的联盟将用户方、研发方链接在一起,促进彼此的发展。用通俗的说法就是产、学、研、用为一体,各方共同成长、促进技术的发展与落地。

比如高校研究云存储的可靠性问题时,提出一种新算法,在推进算法落地应用过程中,可能需要跟字节跳动、阿里云等企业合作,在实际系统上部署算法,推动产业发展。

吴非还提到,在产学研界跨界创新也成为高校专家学者自身职业发展规划中的重要一环。不少专家学者在产业界致力于推动技术落地之后再次选择回归学术界,这个叫做“学术休假”。她相信,未来学术界和产业界之间会进一步深入融合。

张雷认为,产学研一体化是技术从诞生到广泛应用的重要背后推手。最近几年,云存储系统的一些技术已然固化,他首先希望学术界、研究界能够在基础设施领域里带来更多突破:无论是存储的介质、还是整个云存储体系结构的突破,亦或是一些体系、运维思路、方法上的突破,都可以为行业带来新生机。其次,产业界也要精益求精,大胆尝试新技术、新方法、新思想,并将其融入到合适的场景中。因为产业界的大型企业如字节跳动,整个技术体量、服务器、数量存储量规模都比较大,其实有一个非常好的技术杠杆效应。即使看起来一个非常小的一个技术优化,但放到体量大的场景下就能产生非常大的价值。所以,产学研各方的互相支撑是十分必要的。

罗庆超指出,阿里云作为服务供应商,共同成长核心有两点:一是为共同的运维能力提供底座的服务,二是吸收客户和业界、学界提供的一些输入以及先进思想,从而帮助底座成长。

针对两位嘉宾提到的产学研结合,罗庆超表示,在共同成长的演进上有两个阶段可能会非常重要。第一个阶段中,CCIA这样组织提供了一个共同成长的土壤和生态,把这个CCIA运作好,可以为运维、技术的共同成长打下坚实的基础。第二阶段,共同成长体一定要结出成果,比如通过CCIA这个组织,搭建交流桥梁,孵化出一些在业界颇具影响力的标准白皮书或者技术上的创新点子。

结语:随着高校功能从人才培育、科学研究延伸到社会服务,企业、协会与高校合作将进一步深化,这无疑有利于形成良性发展的循环圈,推动存储科技成果加速市场化,而在这个过程中,不管是用户还是厂商都将受益匪浅。

原文链接

本文为阿里云原创内容,未经允许不得转载。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/510579.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

行业 SaaS 微服务稳定性保障实战

很多研发人员在日常工作中经常回遇到以下两个问题:竟然不可以运行,为什么?竟然可以运行,为什么? 因此,他们非常期望可观测能够提供解决问题的思路。 引言 2017 年,推特工程师 Cindy 发表了一篇…

阿里云全站加速 DCDN 重磅发布!打造新一代加速引擎

在数字化转型变革逐步深入的当下,安全高效成为企业上云、全球化部署的关键需求。 随着应用场景复杂度不断提升、业务需求差异化发展,为了给企业提供更完善的安全加速服务,阿里云对全站加速DCDN产品进行了全面升级,针对边缘安全防…

阿里云云原生一体化数仓 - 数据安全能力解读

MaxCompute产品简介 MaxCompute是一款多功能、低成本、高性能、高可靠、易于使用的数据仓库和支持全部数据湖能力的大数据平台,支持超大规模、serverless和完善的多租户能力,内建企业级安全能力和管理功能,支持数据保护和安全共享&#xff0…

EMT4J——让 Java 应用升级更轻松

前言 JDK 升级对于 Java 应用来说是不得不面对的事情,一方面 Java 生态系统希望 Java 应用能跟上最新 JDK 版本: Oracle 建议将 JDK 的 LTS 版本的发布周期从 3 年调整为 2 年,对于只使用 LTS 版本的应用来说,可以在更短时间内使用最新的技术&#xff…

多年锤炼,迈向Kata 3.0 !走进开箱即用的安全容器体验之旅

一、Kata 的过去 让我们将时钟拨回 2015 年 5 月,Hyper.sh 和 Intel 开源技术中心的工程师们分别独立发布了runV 和 Clear Containers 的虚拟化容器项目,而这两个项目便是 Kata Containers1 的前身。这两个项目互相有很多交流,在分别独立发展…

从函数计算到 Serverless 架构

前言 随着 Serverless 架构的不断发展,各云厂商和开源社区都已经在布局 Serverless 领域,一方面表现在云厂商推出传统服务/业务的 Serverless 化版本,或者 Serverless 计算平台,另一方面表现在开源社区中 Serverless 相关项目逐渐…

PolarDB B-tree 并发控制优化

InnoDB 索引 InnoDB 引擎使用索引组织表,每个表的数据都放在一个对应的索引中,该索引称为聚集索引(clustered index),使用索引组织表的目的是: 动态地组织磁盘文件结构,维护数据记录有序&…

几种常见的 MySQL/PolarDB-MySQL 回收表空间方法对比

背景 为什么需要回收表空间?任何一个存储或您购买的实例规格都有容量限制,并且根据存储介质不同,保存方式不同,相应地成本也会不同。在线数据库的存储成本是比较高的,所以架构师和DBA在系统设计之初就要考虑满足未来几…

Lindorm-Operator云原生实践

背景介绍: 随着 Kubernetes 使用的越来越广泛,k8s管理的native的对象资源有时并不能满足用户的需求,为了提高可扩展性,自 v1.7 以来,Kubernetes 引入了 CRD 机制(CustomResourceDefinition)&am…

客户端单元测试实践 — C++篇

背景 我们团队在手淘中主要负责BehaviX模块,代码主要是一些逻辑功能,很少涉及到UI,为了减少双端不一致问题、提高性能,我们采用了将核心代码C化的策略。 由于团队项目偏底层,测试同学难以完全覆盖,回归成…

基于 RTS 超低延时直播优化强互动场景体验

RTS 在阿里云视频直播的基础上进行底层技术优化,通过集成阿里云播放器 SDK,支持在千万级并发场景下节点间毫秒级延时直播的能力,弥补了传统直播存在 3~6 秒延时的问题,确保了超低延时、低卡顿、秒开流畅的直播观看体验。本文介绍了…

一文详解用 eBPF 观测 HTTP

前言 随着eBPF推出,由于具有高性能、高扩展、安全性等优势,目前已经在网络、安全、可观察等领域广泛应用,同时也诞生了许多优秀的开源项目,如Cilium、Pixie等,而iLogtail 作为阿里内外千万实例可观测数据的采集器&…

面向云时代的龙蜥操作系统,是 CentOS 替代的最佳选择

2022 开放原子全球开源峰会 OpenAnolis 分论坛上,阿里云智能基础软件产品经理张鹏程做了《面向云时代的龙蜥操作系统,应对 CentOS 停服的最佳选择》的主题分享,介绍了操作系统产业迎来新发展格局,龙蜥致力于成为 CentOS 迁移的最佳…

数据库治理利器:动态读写分离

背景 在分布式系统架构中,业务的流量都是端到端的。每个请求都会经过很多层处理,比如从入口网关再到 Web Server 再到服务之间的调用,再到服务访问缓存或 DB 等存储。 对于我们的系统来说,数据库是非常重要的一块。因此无论是在稳…

为什么我要迁移 SpringBoot 到函数计算

为什么要迁移? 我们的业务有很多对外提供服务的 RESTful API,并且要执行很多不同的任务,例如同步连锁 ERP 中的商品信息到美团/饿了么等平台,在线开发票等。由于各种 API 和任务执行的不确定性,经常会因为资源不足导致…

Ingress Nginx 接连披露高危安全漏洞,是否有更好的选择?

今年 K8s Ingress Nginx 项目接连披露了三个高危安全漏洞(CVE-2021-25745[1], CVE-2021-25746[2], CVE-2021-25748[3]),该项目也在近期宣布将停止接收新功能 PR,专注修复并提升稳定性。Ingress Nginx 作为 K8s 项目自带的网关组件…

浅谈数据仓库架构设计

1. 数据中台与DW/BI/DSS 个人认为数据中台本质上是一种新的适配大数据技术发展的新的“数据仓库-决策支持(商业智能)”架构。这个架构是构建在传统的架构基础之上,对传统架构的一种新的发展。 数据中台从企业的视角出发,要求企业…

RocketMQ 消息集成:多类型业务消息 - 定时消息

引言 Apache RocketMQ 诞生至今,历经十余年大规模业务稳定性打磨,服务了 100% 阿里集团内部业务以及阿里云数以万计的企业客户。作为金融级可靠的业务消息方案,RocketMQ 从创建之初就一直专注于业务集成领域的异步通信能力构建。 本篇将继续…

一文读懂 BizDevOps:数字化转型下的技术破局

我们正迈向数字经济时代,数字化转型成为普遍行动。未来绝大多数业务都将运行在数字基座之上,软件系统成为业务创新和发展的核心引擎。在这一趋势下,产品研发的交付能力面临巨大挑战,产品研发的交付实践和方法亟待变革。 BizDevOp…

地址标准化服务AI深度学习模型推理优化实践

导读 深度学习已在面向自然语言处理等领域的实际业务场景中广泛落地,对它的推理性能优化成为了部署环节中重要的一环。推理性能的提升:一方面,可以充分发挥部署硬件的能力,降低用户响应时间,同时节省成本;…