云上如何实现 Autoscaling: AutoMQ 的实战经验与教训

01 背景

弹性是云原生、Serverless 的基础。AutoMQ 从软件设计之初即考虑将弹性作为产品的核心特质。对于 Apache Kafka 而言,由于其存储架构诞生于 IDC 时代,针对物理硬件设计,存储层强依赖本地存储,已不能很好地适应现在云的时代了。当然,这并不意味着我们要放弃 Kafka。Kafka 凭借极其优异的生态已经塑造了其在流处理领域不可撼动的地位,Kafka API 俨然已经成为流处理协议的事实标准。正是因为看到了这一点,AutoMQ 积极拥抱 Kafka 生态,在完全兼容其计算层的基础上,对底层存储做了云原生的改造,充分兑现云的规模化成本、技术红利。
AutoMQ 利用对象存储、云盘构建了一个拥有极速弹性能力的内核底座,使得我们在云上实现自动弹性(下文均称 Autoscaling)成为可能。本文将介绍 AutoMQ 是如何在云上实现 Autoscaling 的,并且分享我们在实践过程中的经验与教训。

02 什么是 AutoMQ 追求的 Autoscaling

对于流处理系统来说,Autoscaling 的关键在于其可以动态调整其容量来满足不同的写入工作负载。当写入流量变多时,集群可以快速扩容拓展集群性能用于承载突增的流量;当写入流量变少甚至为零时,集群可以缩小规模,减少资源开销,甚至做到 scale to zero 的目标,没有任何资源的使用。

我们认为,具备最佳 Autoscaling 能力的产品一定是具备如下特质的:

ꔷ 构建于公有云上或者具备一定规模的私有云上:云的本质是资源的整合和复用带来的技术、成本红利。在这一点上具备最大使用规模的公有云一定是最有优势的。自动弹性的价值在于当你不再使用某一项资源时,你可以尽快释放它,从而避免额外的成本开销;而当你重新需要资源时,通过资源池的预留资源你可以以最快的速度获取到所需的资源。在这一点上来说,公有云的大规模则最具优势。虽然私有云也可以做到类似的效果,但是同样预留 10%的限制资源,在私有云环境可能是 100 台机器,在 aws 上可能是 10000 台机器,大家弹性的上限是不同的。

Tips: 当前以及未来一定仍然会有一些场景需要在非云环境上进行部署。但是按照近年来的趋势,例如 Kubernetes 的兴起,我们可以预见的是,私有环境的技术底座未来和公有云是趋同的。在私有环境也可以提供类似云盘(openebs)、对象存储(minio)这样的能力。

ꔷ 可以充分发挥云服务的能力:AutoMQ 的核心理念是充分利用云上成熟、具备规模优势和技术红利的云服务来构筑自身领先的产品力。对于弹性方面,我们对多云经过了充分的调研,观察到计算实例的弹性伸缩组(或称节点组)已经成为一项标准功能。因此,AutoMQ 在实现自动弹性时充分利用了云端弹性伸缩组服务,以帮助实现快速部署生产级弹性能力。

Tips: 由于弹性伸缩组包括其配套的弹性能力在各个云上都是趋同的,下文即直接以 AWS 的云服务为例来阐述。

从技术指标上来说,AutoMQ 追求的 Autoscaling 一定是:

ꔷ 弹得快:这里弹得快,我们主要是指的扩容。对于生产级系统来说,我们往往遵循“快弹慢缩”的最佳实践来保证整个弹性伸缩对业务是无感的。 从 AutoMQ 集群开始接收突增的写入流量开始到集群完成扩容,并且最终写入吞吐流量提升到目标吞吐值的耗时越短,则我们认为弹得越快。

ꔷ 弹得准:弹得准主要包含两层含义。一层含义是容量的调整需要尽快稳定在目标容量,而不要因为一些弹性策略的设置导致一些容量抖动。另外一层含义是弹的目标容量要尽量接近实际的需求,不要多弹或者少弹。多弹过多的容量会造成资源浪费,少弹容量则会影响消息端到端的延迟。

ꔷ 弹得省:自动弹性主要依赖监控信息来确定何时进行扩容或者缩容。存储、管理和应用 metric 都会产生一些额外的成本。

03 Autoscaling 技术架构

由于充分利用了云的能力,AutoMQ 完成自动弹性的架构变得十分的简单。主要涉及如下组件:

ꔷ Auto Scaling Group (缩写为 ASG): AWS 提供的弹性伸缩组可以将一组 EC2 计算实例作为一个逻辑分组。以计算实例组为单位进行容量管理,并且提供了配套的机器监控、弹性、生命周期钩子等能力。该服务在各个云上均是免费使用的能力。

ꔷ Cloud Watch: AWS  云监控,可以配置监控与报警,用于触发 ASG 的容量调整。AWS 对 EC2 提供了免费的机器监控(粒度为 5 分钟)。在一些弹性速度要求低的场景,可以充分利用云厂商提供的这种免费能力来降低成本。

ꔷ AutoMQ Control Panel: AutoMQ 的控制面,负责与云的 API 进行交互,创建 ASG 弹性策略以及将 Cloud Watch 中的报警模块关联 ASG 的弹性策略。这样可以保证满足报警阈值时,可以触发 ASG 容量的调整。对于 ASG 来说,只要将弹性策略和对应的 metric 阈值关联好,满足阈值后的容量调整是自动进行的。

04 云上 Autoscaling 的挑战

4.1 理解云提供的不同弹性策略的特征以及组合效果

云厂商基本都提供了几种标准化的弹性策略,通过利用这些现成的弹性策略 AutoMQ 可以快速构建起自身的 Autoscaling 能力。然而,在我们的实践过程中我们发现事情并没有那么简单。如果对云提供的这些弹性策略没有一个充分的理解的话,会导致一些弹性策略的错误使用,并且无法达到预期的效果。
下面分享下 AutoMQ 对 AWS ASG 提供的几种弹性策略(其他云也是近似的)应用的心得。

4.1.1 简单策略

简单策略[1]是基于 metric 来报警触发的。报警触发时可以选择的行为包括扩、缩 x 台计算实例。其优点是简单,缺点是不能精细化控制针对不同的情况,动态设置不同的步长,不太灵活。此外,值得注意的是,简单扩缩在扩缩活动开始后,该策略必须等待扩缩活动或运行状况检查替换完成并且冷却时间到期,然后才会响应其他警报。冷却时间有助于防止在先前活动产生明显影响前启动其他扩展活动。

弹性策略的步长(step): 当弹性策略被满足,触发容量调整需要扩或者缩 x 台实例时,x 的大小即为步长。

冷却时间(cooldown): 在上一个扩缩容行为完成后需要等待的时间即为冷却时间。主要是为了预留时间让应用在机器扩缩容后进入稳态,才继续容量调整,使得扩缩容对应用来说感知更少,变化更加平滑。

4.1.2 步进策略

步进策略[1]可以理解成简单策略的优化版本。可以允许不同档位的监控阈值来配置不同的步长。例如,如果 CPU 使用率 75%-85%之间,增加 2 个实例;如果在 85%-95%之间,增加 3 个实例;如果超过 95%,增加 4 个实例。相比简单策略,可以有更加精细化的容量控制,从而避免容量弹多或者弹少。

4.1.3 目标跟踪策略

一般而言,我们是希望负载能够将容量充分利用以避免资源浪费。目标跟踪策略[2]的实现方式就是设置一个目标值,例如 CPU 使用率,然后由 AWS 自己去调节增加、减少机器,扩缩的步长可以自己的定义。那么到底怎样才算维持在目标值附近呢?AWS 默认采用的是容量优先的策略。例如,假设您将 CPU 使用率的目标值设置为 50%,然后 Auto Scaling 组超过了该目标。我们可以确定,添加 1.5 个实例会将 CPU 使用率降低到接近 50%。由于不可能添加 1.5 个实例,我们将该值向上取整,添加两个实例。这可能会将 CPU 使用率降至 50% 以下,但可确保应用程序具有充足的支持资源。同样,如果我们确定删除 1.5 个实例可使 CPU 使用率提高到 50% 以上,我们将只删除一个实例。

AutoMQ 最早实践目标跟踪策略时,实际是希望其可以动态调整步长,更快、更准的帮助我们弹到目标容量。但是实际应用中发现,其效果根本没有那么智能。自己通过组合简单策略反而可以实现比目标跟踪策略有更好的灵活性。例如,目标跟踪策略不允许你自定义扩缩容的步长调整。

4.1.4 预测试扩展

适用于周期性负载(至少需要 24 小时数据),AWS 自己会用机器学习去尽量拟合负载。可以配合其他扩展策略一起执行。AutoMQ 一开始就没有尝试该弹性策略。一方面,AutoMQ 作为通用的流处理系统,不仅仅会应用在周期性负载的场景,二来我们也没法预测用户到底会采用怎样的工作负载。

4.1.5 计划扩展

本质就是定时扩展,可以设置定时任务设置容量,适合大促这类对目标容量有明确感知的场景。

4.1.6 多个弹性策略冲突时如何工作

不同云厂商之间弹性策略冲突时的处理方式不同,正确使用弹性策略需要充分理解弹性策略冲突时的表现。例如阿里云上弹性策略冲突时候会叠加两个弹性策略执行最终的结果。例如一个弹性策略需要扩容4台,另外一个需要缩容2台则最终结果为扩容2台。而 AWS 提供的弹性策略则主要是优先保证容量从而保证可用性。当多个弹性策略冲突时候,云会优先选择执行后具有更大容量的弹性策略。

4.2 寻找触发弹性执行的金指标

弹性策略只是一个执行的逻辑计划。何时触发弹性策略的执行是实践中的重要挑战。弹性策略执行的触发条件是基于监控数据来触发的。寻找一个触发弹性的金指标是自动弹性弹得准的关键。然而实际生产应用中,部署机型、工作负载等都会影响到金指标的选择。
理想情况下,我们希望应用内核可以提供一个金指标。任何外部环境的瓶颈例如 CPU Load 过高、网络流量瓶颈等最终都可以反应到这个唯一金指标。可惜的是, Kafka 本身在内核侧并没有提供这样的一个指标。当前 AutoMQ 提供的自动弹性默认是根据网络流量来确定触发的时机的。根据我们的判断,弹性金指标必然不是一个单一指标,而是一个组合多个因子和权重的综合指标。包含的关键因子可以包括 broker 机器的网络上下行流量、CPU 使用率、内存使用率、磁盘 IOPS 和带宽等。在不同负载和硬件环境下,这些因子的权重也会有所不同。未来理想的情况是 AutoMQ 提供一个默认的多因子指标来指导弹性的触发,用户同时可以自定义参与组合指标的因子及其权重。

4.3 AutoMQ 最终应用的弹性策略

4.3.1 定时弹性

AutoMQ 实际采用的弹性策略本质是一个基于简单策略自己实现的目标跟踪策略再配合一个可选的定时弹性策略。默认的目标跟踪策略的扩缩行为为了保证平滑地执行弹性和避免资源过于浪费,没有设置采用很大的步长。但是,实际很多业务场景例如电商大促或者外卖行业在特定时段都会有突增的流量,这个仅仅依靠默认的弹性策略来扩是来不及扩容的。因此提供可选的定时弹性策略对于弹性的生产应用是十分重要的。定时弹性,本质是人提前做了容量规划,属于一种启发式弹性,当流量峰值过去以后,集群又会自动缩容到指定容量。定时弹性策略利用云底座提供的能力基于 cron 表达式配置定时执行的时间并且配置目标容量信息即可。例如下图的定时弹性策略比较符合餐饮行业,每天上午 11 点时执行扩容,扩容到指定容量 20;当下午 2 点时再重新缩容会一个较小的目标容量。

4.3.2 自定义目标跟踪策略

AutoMQ 基于简单策略实现了自定义的目标跟踪策略。该策略当前默认使用的是基于网络流量来触发弹性的执行的,在通用场景下可以满足绝大部分要求。相比云默认提供的目标跟踪策略具备更好的灵活性,可以做快扩慢缩,在实际生产应用中具有更加稳健的弹性效果。自定义目标跟踪策略主要由一个负责扩的简单弹性策略和一个负责缩的简单弹性策略构成。自定目标跟踪策略中,针对扩、缩的步长我们采用了按比例的调整,这样可以保证在不同集群规模下都有相同的扩缩容效率。在 AWS 上 ASG 上展现的弹性策略内容如下。

由于大部分云都有提供这种默认机器指标的采集,AutoMQ 默认的弹性策略不需要自己采集和管理这些 metric 指标。我们可以最大化利用这些云的能力来降低我们自身实现的复杂度。首先定义下弹性策略中参与表达式计算的变量:

ꔷ network-in byts(nin): 每个 metric 上报间隔内累计的网络流入字节数;

ꔷ network-in bytes per second(nins): aws 计算每秒字节数可以用表达式 nins=nin/DIFF_TIME(nin)来得到每秒网络流入字节数;

ꔷ network-out(nout): 每个 metric 上报间隔内累计的网络流出字节数;

ꔷ network-out bytes per seconds(nouts):aws 计算每秒字节数可以用表达式 nouts=nin/DIFF_TIME(nout)来得到每秒网络流出字节数;

ꔷ active instance count in asg(acount): asg 中活跃的实例数,因为 aws 默认采集的是 group 合计的指标,计算单台 broker 的流量时需要除一下 asg 内 broker 机器的个数;

ꔷ upper: 扩容网络流量阈值,默认值为机型网络带宽上限的 80%,用户也可以自定义该值;

ꔷ lower:  缩容网络流量阈值,默认值为机型网络带宽下限的 50%,用户也可以自定义该值;

负责扩容的简单弹性策略公式如下,该公式含义表示:入或者出的 broker 平均网络流量较大值超过设定的平均网络带宽时,则按照我们设定的步长(默认为扩容当前容量的 10%,且至少为 1 台)来进行扩容。这里值得注意的是,云厂商提供的计算实例,假设网络带宽是 100MB/s,意味着其入和出分别为 100MB/s。

max(nins/acount,nouts/acount) > upper

负责缩容的简单弹性策略公式为如下,该公式含义表示:同时满足以下三个条件时才进行缩容:

ꔷ 当前存活的 broker 数至少为 1,不允许缩至 0 台

ꔷ 入或出的 broker 平均网络流量较大值低于设定的阈值下限时才允许缩容

ꔷ 第三部分计算的实际就是假设当前 broker 数量减少 1 台,然后按照扩容的公式去计算值,需要确保其小于我们设定的阈值 upper。

这种方式主要是为了避免小规模集群时候缩容一台以后马上扩容的行为出现。在小规模集群上,这种频繁的扩缩容对集群的影响就会比较大。

acount>1 、( max(nins/acount,nouts/acount)  < lower )  && ( max(nins/acount-1,nouts/acount-1) < upper )

05 自动弹性效果展示

下图展示了 AutoMQ 在一个流量有变化的负载下,集群规模和集群网络流量的变化关系,可以看到 Broker 数量很好的拟合了流量曲线的变化,达到了自动弹性的效果。对于经常有变化的负载,开启自动弹性可以大大节约成本,达到 pay-as-you-go 的效果。关于具体的实验测试,可以参考我们的成本报告[4]。

06 展望 AutoMQ Autoscaling 的未来

当前提供的自动弹性能力仍然有很多值得优化的地方,他们包括:

ꔷ 更加有效的弹性策略触发金指标:提供用于弹性策略的默认组合指标及其配套的产品化能力。默认的组合指标可以使得默认弹性策略可以去适配更多的场景。提供产品化能力则可以让用户根据自己的场景灵活调整指标的构成和权重,从而带来更加精准的弹性效果。

ꔷ 多云自动弹性的适配:当前我们仍然有一些云平台尚未支持自动弹性。不同云厂商提供的云监控、报警以及机器监控自动采集能力上会存在差异。让自动弹性能力适配更多的云有利于我们构建多云一致的自动弹性能力。

ꔷ 自定义监控采集和发布:在我们实践过程中发现不同云厂商提供的云监控提供的能力和 SLA 都有所不同。在一些比较严苛的场景,云厂商默认提供的监控采集与发布可能是不够的。例如 AWS 默认机器监控的最小粒度为 1 分钟。如果需要更加极速的弹性,提供一种 AutoMQ 自行采集和上报监控数据的模式也是有必要的。一方面可以使用更加灵活可控的监控数据,另外一方面也可以在监控指标的采集、存储上持续优化降低这块基础设施的成本。

ꔷ K8S 上自动弹性:关于 k8s,我们初期其实已经使用 AutoScaler [5]做过了一些探索。k8s 作为当前云原生领域的重要力量,具有大量的用户基础。AutoMQ 也会及时跟进,让大家在 k8s 上一样可以使用到 AutoMQ 自动弹性的能力。

参考资料

[1] Step and simple scaling policies for Amazon EC2 Auto Scaling: https://docs.aws.amazon.com/autoscaling/ec2/userguide/as-scaling-simple-step.html

[2] Target tracking scaling policies for Amazon EC2 Auto Scaling: https://docs.aws.amazon.com/autoscaling/ec2/userguide/as-scaling-target-tracking.html

[3] Basic monitoring and detailed monitoring: https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/cloudwatch-metrics-basic-detailed.html

[4] AutoMQ 成本分析报告:https://docs.automq.com/zh/docs/automq-s3kafka/EJBvwM3dNic6uYkZAWwc7nmrnae

[5] AutoScaler:  https://github.com/kubernetes/autoscaler

关于我们

我们是来自 Apache RocketMQ 和 Linux LVS 项目的核心团队,曾经见证并应对过消息队列基础设施在大型互联网公司和云计算公司的挑战。现在我们基于对象存储优先、存算分离、多云原生等技术理念,重新设计并实现了 Apache Kafka 和 Apache RocketMQ,带来高达 10 倍的成本优势和百倍的弹性效率提升。

🌟 GitHub 地址:https://github.com/AutoMQ/automq

💻 官网:https://www.automq.com

👀 B站:AutoMQ官方账号

🔍 视频号:AutoMQ

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/2621.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Linux:Centos7.x系统,无效的密码问题处理

一、情景说明 我新创建了Centos7系统&#xff0c;在使用的过程中&#xff0c;我需要创建一个test账号 那么&#xff0c;同时我就要给这个账号设置一个密码 为了方便&#xff0c;我设置成123456 就报错了 二、解决办法 其实这个问题很容易处理&#xff0c;不需要像其他帖子说…

项目报错com.mall.common.domain.request那么就说明你的项目里面是找不到导入类的包名或者路径

当你的项目里面一直报错是找不到导入类的包名或者路径的时候&#xff1a;com.mall.common.domain.request 这个问题我们阔以分为几个角度来想 1、包路径错误&#xff1a;确保com.mall.common.domain.request这个包路径在项目中是正确的。可能的情况是包名写错了&#xff0c;或…

识别有效的IP地址和掩码并进行分类统计

问题概要 请解析IP地址和对应的掩码&#xff0c;进行分类识别。要求按照A/B/C/D/E类地址归类&#xff0c;不合法的地址和掩码单独归类。 所有的IP地址划分为 A,B,C,D,E五类 A类地址从1.0.0.0到126.255.255.255; B类地址从128.0.0.0到191.255.255.255; C类地址从192.0.0.0到223.…

大模型检索召回系统:RAG技术的全面调查与未来展望

随着人工智能技术的飞速发展&#xff0c;大型语言模型&#xff08;LLMs&#xff09;在自然语言处理&#xff08;NLP&#xff09;领域取得了显著成就。然而&#xff0c;这些模型在处理特定领域或知识密集型任务时仍面临挑战&#xff0c;如产生错误信息或“幻觉”。为了克服这些难…

MC33665 + MC33774 控制流程及 TPL3 帧结构介绍

一. 概述&#xff1a; MC33665A&#xff1a;通用电池管理通信网关和变压器物理层 (TPL) 收发器。该设备通过标准通信协议转发来自不同 TPL&#xff08;NXP 的隔离菊花链协议&#xff09;端口的消息&#xff0c;标准通信协议可确保与市场上可用的微控制器兼容。 MC33774&…

Fork for Mac v2.42 激活版 Git客户端

Fork for Mac是一款运行在Mac平台上的Git客户端&#xff0c;Fork Mac版具备基本的取、推、提交、修改、创建和删除分支和标签、创建和删除远程备份等功能&#xff0c;还有实用的差异查看器&#xff0c;你可以通过清晰的视图快速发现源代码中的更改。 Fork for Mac v2.42 激活版…

Golang | Leetcode Golang题解之第42题接雨水

题目&#xff1a; 题解: func trap(height []int) (ans int) {n : len(height)if n 0 {return}leftMax : make([]int, n)leftMax[0] height[0]for i : 1; i < n; i {leftMax[i] max(leftMax[i-1], height[i])}rightMax : make([]int, n)rightMax[n-1] height[n-1]for i…

git提交注释规范插件

1、前言 为什么要注重代码提交规范&#xff1f; 在团队协作开发时&#xff0c;每个人提交代码时都会写 commit message。 每个人都有自己的书写风格&#xff0c;翻看我们组的git log, 可以说是五花八门&#xff0c;十分不利于阅读和维护。 一般项目开发都是多分支共存&#x…

Seal^_^【送书活动第2期】——《Flink入门与实战》

Seal^_^【送书活动第2期】——《Flink入门与实战》 一、参与方式二、本期推荐图书2.1 作者简介2.2 编辑推荐2.3 前 言2.4 本书特点2.5 内容简介2.6 本书适用读者2.7 书籍目录 三、正版购买 一、参与方式 评论&#xff1a;"掌握Flink&#xff0c;驭大数据&#xff0c;实战…

Ubuntu下部署gerrit+报错分析(超详细)

Ubuntu下部署gerrit代码平台 之前安装过几次 最后都在Apache代理这里失败了&#xff0c;如下图&#xff0c;总是gerrit.config与Apache2.config配置有问题&#xff0c;后面换了使用ngnix代理&#xff0c;简单多了 安装Mysql、gerrit、jdk、git 这一步也是非必须得&#xff0…

【c++】list类接口函数介绍与深度剖析模拟实现

&#x1f525;个人主页&#xff1a;Quitecoder &#x1f525;专栏&#xff1a;c笔记仓 朋友们大家好&#xff0c;本篇文章来到list有关部分&#xff0c;这一部分函数与前面的类似&#xff0c;我们简单讲解&#xff0c;重难点在模拟实现时的迭代器有关实现 目录 1.List介绍2.接…

转向敏捷财务规划,实现更快更自信的决策

随着数字化的到来&#xff0c;原本基于电子表格的时代正逐渐拉下帷幕&#xff0c;大部分企业开始摆脱依赖于电子表格进行计划、预算和预测的传统规划系统&#xff0c;寻求更符合当今市场要求的敏捷财务规划。但不得不承认&#xff0c;当下电子表格仍然是多数企业使用最广泛的工…

Wireshark数据包分析入门

Wireshark数据包分析 1. 网络协议基础1.1. 应传网数物&#xff08;应表会传网数物&#xff09; 2. 三次握手2.1. 第一次握手2.2. 第二次握手2.3. 第三次握手2.4. 三次握手后流量特征 3. 第一层---物理层&#xff08;以太网&#xff09;4. 第二层---数据链路层&#xff08;PPP L…

ele pls 表格行内样式超出隐藏

使用 模板实现方案&#xff1a; 实现效果&#xff1a; 相关样式&#xff1a;

【网络技术】【Kali Linux】Wireshark嗅探(十)IPv4和IPv6

往期 Kali Linux 上的 Wireshark 嗅探实验见博客&#xff1a; 【网络技术】【Kali Linux】Wireshark嗅探&#xff08;一&#xff09;ping 和 ICMP 【网络技术】【Kali Linux】Wireshark嗅探&#xff08;二&#xff09;TCP 协议 【网络技术】【Kali Linux】Wireshark嗅探&…

Jenkins CI/CD 持续集成专题四 Jenkins服务器IP更换

一、查看brew 的 services brew services list 二、编辑 homebrew.mxcl.jenkins-lts.plist 将下面的httpListenAddress值修改为自己的ip 服务器&#xff0c;这里我是用的本机的ip 三 、重新启动 jenkins-lts brew services restart jenkins-lts 四 浏览器访问 http://10.85…

redis7安装与配置

一、下载 通过 redis官网 或者 redis中文网 下载。 以下是 redis 相关文档资料链接&#xff1a; redis源码地址 redis在线测试 redis命令参考 redis中文文档 历史发布版本的源码地址 二、版本命名规则 Redis从发布到现在&#xff0c;已经有十余年的时光了&#xff0c;…

云原生Service Mesh服务网格简单介绍

serviceMesh是什么 Service Mesh是一个用于处理服务间通信的基础设施层&#xff0c;旨在实现云原生应用复杂服务拓扑中的可靠请求传递。其基本构成是一组与应用一起部署的轻量级网络代理&#xff0c;这些代理对应用来说是透明的。Service Mesh通过统一的方式来控制和处理服务间…

双筒水封式防爆器使用方法要记好

双筒水封式防爆器使用方法要记好 型号&#xff08;YC-STFB型&#xff09; 双筒水封式防爆器属于双罐结构的水封式防爆器&#xff0c;安装在抽放瓦斯泵吸气侧和排气端的 管路上靠防爆器底部的水封保护井上井下、抽放泵站设备及用户按全&#xff1b;当瓦斯抽放时气体经由 进气…

【深度学习实战(24)】如何实现“断点续训”?

一、什么是断点续训&#xff1a; 中断的地方&#xff0c;继续训练。与加载预训练权重有什么区别呢&#xff1f;区别在于优化器参数和学习率变了。 二、如何实现“断点续训” 我们需要使用checkpoint方法保存&#xff0c;模型权重&#xff0c;优化器权重&#xff0c;训练轮数…