弹性架构_实践中的弹性基础架构

弹性架构

几周前,我获得了一个难得的机会,可以在基础设施领域中沾沾自喜。 在JVM内部的深入了解下,我每天的工作经历发生了有趣的变化,我想与您分享动机和成果。 希望它可以启发类似的问题类别。

背景

我将从解释需要解决方案的上下文开始。 如果您知道Plumbr性能监控的全部内容,则可以跳过此部分。 对于其他所有人,我们Plumbr都在构建性能监控解决方案。 我们的方法是独特的,因为我们旨在使所有性能问题都具有源代码的根本原因。

这种问题的较复杂类别之一是其根源隐藏在Java内存分配和管理中。 此类别中的问题包括:

  • 内存不足;
  • 面临太频繁/太长时间的GC暂停;
  • 尝试减少应用程序的内存占用。

我们对此类问题的解决方案是建立在对对象图进行快照并从那里公开最需要内存的数据结构的基础上的。 结果,您将获得运行时透明性,以了解JVM堆中实际发生的情况:

垂直记忆快照示例

上面是我们监视自己的服务时发现的示例。 我们可以看到,在重大GC暂停后的某个时刻,我们占据了70%以上的旧一代。 老一代的高占用率通常会导致长时间的GC暂停,因此Plumbr捕获了快照以显示其中的实际内容。

在这种特殊情况下,我们发现包含ProbeDataProcessingTasks的处理队列的大小已增长到近千兆字节。 了解应归咎于哪些数据结构使解决该问题变得微不足道。 结果,GC暂停的频率和持续时间保持不变。

但是,拍摄这些快照有些昂贵。 捕获快照所需的时间取决于堆中对象的数量以及它们之间的引用。 我们的代理商会仔细安排快照的时间,以避免自己成为性能瓶颈。

综上所述:在我们的基础架构中,此特殊功能导致不可预测的内存快照流入。 更糟糕的是,快照的大小也是不可预测的。 有时我们每小时可能只收到一个微小的快照,然后突然间,我们在很短的时间内被许多10 + G快照轰炸:

记忆快照容量

我们最初的解决方案存在问题

我们构建的第一个解决方案是专用的微服务,用于处理快照的传入流。 我们立即开始面临问题。 首先,我们还无法估算这些快照的大小。 最初配置的4G内存还远远不足以处理流向我们的较大快照。 要分析快照,我们需要将对象图加载到内存中,因此快照越大,分析所需的RAM越多。

因此,我们需要从亚马逊购买更大的计算机。 突然之间,微服务不再是微服务了。 正如我们很快发现的那样,在您的每月账单中实际上可以看到保持m4.10xlarge实例嗡嗡作响的24×7。 除了非常昂贵外,机器有99%的时间几乎处于空闲状态–发生的巨大堆快照很少见,因此经常会超额配置10倍来处理偶尔出现的峰值。

此外,分析持续时间很快就成为瓶颈。 快照需要10秒钟到数十分钟的时间来分析每个快照,因此当在短时间内到达多个大型快照时,队列等待时间成为一个问题:

弹性基础设施的动力

解决方案要求

了解了问题之后,下一步就是将问题简化为解决方案的要求:

  • 分析任务不应在队列中等待数小时。 我们应该能够并行处理它们。 每当一个巨大的快照到达并且需要很长时间进行分析时,其他快照就不应等待它完成。
  • 对于每个快照,我们可以估计执行分析所需的堆空间。 我们希望使用尽可能多的资源,而不会过度配置基础架构。

对于以前建立过弹性环境的人来说,解决方案的要求可能会很明显。 对于那些还没有的人,我将在下一部分中介绍解决方案体系结构和实现的关键案例。

建立解决方案

这些要求有效地指示我们,我们应该维护一个弹性的基础架构,而不是一个单独的专用实例。 实例应按需生成,实例类型应与接收到的快照的大小相对应。

因此,我们继续将快照分析代码包装到docker容器中,并利用AWS ECS将此类容器用作集群中的任务。 这样做之后,我们偶然发现了第一个问题:向外扩展并不像预期的那么琐碎。

仅仅为每个分析生成一个适当大小的新实例并随后立即终止的天真的方法被证明是一个坏主意。 启动实例最多可能需要五分钟,具体取决于实例类型。 此外,AWS每小时执行一次计费,因此,让一个实例运行60分钟比运行十个实例每6分钟便宜十倍。

在这种情况下,典型的方法是使用AWS 自动扩展组。 显然,这不适合我们,因为AWS无法根据ECS任务所需的内存量自动生成实例。 您无法将任务提交给ECS集群,除非该集群已经有足够的资源来容纳它。

我们的解决方案是根据分析任务所需的内存量将其划分为多个存储桶,并为每个存储桶分配一个单独的群集。 收到新快照后,我们检查目标群集是否有足够的可用资源来运行任务。 如果没有,我们将在其自动扩展组中增加所需的实例数。 然后,AWS自动启动一个适当大小的新实例。 因此,从本质上讲,我们最终得到了六个存储桶,每个存储桶包含适当大小的实例,可以根据需求进行扩展:

亚马逊EC2实例大小

第二个问题是通过扩展来解决自身问题。用于扩展的标准CloudWatch警报基于集群利用不足的情况。 如果集群闲置了足够长的时间,我们会减少所需实例的数量。 “空闲”是根据群集中消耗的内存计算的,如果在45分钟内内存使用率一直低于指定的阈值,则立即扩展并终止额外的实例。

这里也有一个警告:在自动扩展组中进行扩展时,AWS选择一种特殊的方式来终止实例。 例如,如果一个群集有两个实例,其中一个实例处于空闲状态,而另一个实例正在运行分析,则完全有可能该活动实例将被杀死而不是空转一个实例。

放大问题的解决方案是,在分析期间,我们为执行该扩展的特定实例设置了放大保护 。 开始分析时,我们设置标志,并在完成后将其删除。 自动缩放不会终止受保护而无法放大的实例。 最后一点就足够了,从那以后我们就开始平稳运行。

找到了两个问题的解决方案,我们得到了预期的结果。 更改后,队列中等待的时间现在如下所示:

弹性基础设施的好处

带走

这是少数情况下的一种,您可以提高应用程序的性能,并减少容量需求以降低成本。 在大多数情况下,您必须为提高性能付出很大的代价,因此人们可以欣赏这些时刻。 现在,按需计算比以往任何时候都容易,因此也许您可以以类似的方式优化应用程序。

而且,如果除了弹性基础架构的有趣案例之外,该帖子还引发了人们对如何获得应用程序内存使用透明性的兴趣,那就继续免费试用Plumbr试用一下。

翻译自: https://www.javacodegeeks.com/2016/05/elastic-infrastructure-practice.html

弹性架构

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/336319.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

linux的ctrl alt f6的作用,Linux(Centous6.4)操作系统中,快捷键Alt+Ctrl+F10是什么作用?...

满意答案John_05152017.07.16一些常用快捷键切换到第一个文本终端。在Linux 下你可以有多达六个不同的终端。这个命令的意思是:“同时按住键和键,然后按键,再释放所有的键”。(n1..6):切换到第n个文本终端。(你也可以使用不是很经…

【TCP丢包重传】

TCP丢包重传机制如果在网络状况最糟糕的情况下就会造成极大的延迟。或者超过2min断开连接。如果这种场景下可以采用UDP。UDP需要解决包的重新排序,丢包等问题。

前端H5怎么切换语言_「自学系列一」HTML5大前端学习路线+视频教程完整版

全新Java、HTML5前端、大数据、Python爬虫、全链UI设计、软件测试、Unity 3D、Go语言等多个技术方向的全套视频。面对这么多的知识点,有的盆友就麻爪了……我是谁?我该从哪里开始看?我该怎么看?我该看多少?这&#xff…

cuba 平台_CUBA平台正在开源

cuba 平台期待已久的时刻已经到来,现在我们很高兴地宣布, CUBA平台终于加入了自由软件社区! 从现在开始,平台的所有运行时部分都是开源的,并根据Apache 2.0许可进行分发。 这意味着您将完全可以免费创建和分发应用程序…

r语言在linux下取数据,菜鸟第一步,跪在数据处:R语言读取数据

1. 温故知坑实践是学习知识的最好途径。之前我讲的内容都非常非常基础,包括:(1)什么是R语言?R语言和Rstudio软件的安装,Rstudio的界面介绍;(2)R语言的基本逻辑,基本数据类型;(3)ggplot基础绘图&…

【音视频安卓开发 (五)】Android中获取音视频原始数据的方法

一般取得原始数据的方法使用的camera setPreviewCallback

c语言 桌面程序_C语言编程工具:Dev - C++ 简单安装和使用!新手福利!

工欲善其事,必先利其器。——《论语》# 写在前面有关编译器和开发工具可以查看历史文章。# 下载Dev-C操作系统建议Windows 7或10,直接搜索Dev-C下载,或者sourceforge官网下载链接:https://sourceforge.net/projects/orwelldevcpp/…

stub_AccuREST Stub Runner发布

stub最近发布时间不错! 我在Too Much Coding博客上的博客更多是关于发布,然后是关于任何具体主题;) 在作为Brixton RC1的一部分发布Spring Cloud Sleuth之后,我们刚刚发布了AccuREST 1.0.4版本。 我们修复了一些错误,…

kali linux wifi监听模式,无线渗透教程1:监听无线网络

第一:配置管理无线网卡1.1这里,我们使用tplink wn722n, kali linux插上即用,无需安装驱动。1.2Vmare虚拟机配置如下:如网卡插入到电脑后,先将虚拟机设置成桥接模式之后对虚拟机进行配置之后呢,我们在终端窗…

matlab的7.3版本是什么_王者荣耀:玩不好元歌的3大原因,无论什么版本,元歌起码T1.5_电竞...

很多高段位元歌并不是以秀为核心的,而是他们就像一个冷静的杀手,在一闪即逝却又最合适的时机里,他能正确的选择进场的方式,以及击杀的方式。说白了,元歌的进场手段并没有多少,什么时候用傀儡433上去锁人&am…

【WebRTC---入门篇】(一)WebRTC整体架构

1.绿色部分是WebRTC核心部分(核心库) 2.紫色部分是JS提供的API(应用层) 整体是应用层调用核心层。 核心层,第一层 C++ API 提供给外面的接口。最主要的是(PeerConnedtion 对等连接)。 核心层,第二层 Session 上下文管理层(音视频)。 核心层,第三层[最重要的…

aws sqs_AWS SQS和Spring JMS集成

aws sqsAmazon WEB服务为我们提供了SQS消息传递服务。 sqs的java sdk与JMS兼容。 因此,可以将SQS与spring提供的JMS集成框架集成在一起,而不是将SQS用作简单的spring bean。 我将使用spring-boot和gradle。 gradle文件: group com.gkatzi…

linux ntfs 新建,Linux在NTFS中创建的文件的权限

我正在尝试使用以下设置在Linux中挂载NTFS文件系统:>在Linux中,NTFS中的所有文件和目录都应归root所有并获得团体胜利.权限应设置为775.> Linux在NTFS文件系统中创建的所有文件和目录都应该在Windows中具有与目录相同的所有权和权限包含新创建的文件或目录.为…

python 创建空的numpy数组_数据分析-NumPy内置函数创建数组

微信公众号:yale记关注可了解更多的教程问题或建议,请公众号留言。背景介绍今天学习使用numpy的内置函数arange()、ones()、zeros()、linspace() 等内置函数创建数组,对于使用数据结构和多维列表非常有用,可以节省大量的时间。入门…

c语言课全部由字母,C语言程序设计课程期末练习试题.doc

C语言程序设计课程期末练习题一、单项选择题。把合适的选项编号填写在括号内。1.不符合C语言规定的复合语句是( )。DA.{} B.{;} C.{x0;} D.{y10}2.C语言中的选择类语句有两条,它们是( )。AA&…

java8返回单个号码_如何在单个API中支持Java 6、8、9

java8返回单个号码借助jOOQ 3.7&#xff0c;我们终于添加了对Java 8功能的正式支持。 这为许多不错的改进打开了大门&#xff0c;例如&#xff1a; 创建结果流 try (Stream<Record2<String, String>> stream DSL.using(configuration).select(FIRST_NAME, LAST_N…

使用t-sql语句修改表中的某些数据及数据类型。_数据库基本理论详细介绍

1、数据库范式第一范式&#xff1a;列不可分&#xff0c;eg:【联系人】(姓名&#xff0c;性别&#xff0c;电话)&#xff0c;一个联系人有家庭电话和公司电话&#xff0c;那么这种表结构设计就没有达到 1NF&#xff1b;第二范式&#xff1a;有主键&#xff0c;保证完全依赖。eg…

spring-retry_使用Spring-Retry重试处理

spring-retry每当软件组件相互通信时&#xff0c;就有可能出现暂时的自我纠正错误。 这些故障包括服务的暂时不可用&#xff0c;网络连接的瞬时丢失或服务繁忙时出现的超时。 在这种情况下&#xff0c;适当的重试处理可以减少这些故障可能引起的问题。 在这篇文章中&#xff0…

【WebRTC---入门篇】(三)WebRTC运行机制

轨和流 Track 轨&#xff1a;音频轨和视频轨是不相交的 MediaStream 媒体流&#xff1a;中包含多个音视频轨 WebRTC重要类 MediaStream 负责添加N个轨&#xff0c;加入到RTCPeerConnection RTCPeerConnection 核心 RTCDataChannel 非音视频数据&#xff0c;通过RTCP…