云计算之路-阿里云上:拔云见日的那一刻,热泪盈眶

当用路过秋天的压力测试工具重现问题的那一刻,热泪盈眶!这段时间所承受的一切一涌而出。。。

下面这张图是首次压力测试重现问题时的Windows性能监视器截图,我们对这样的图太熟悉了,当它一出现,就知道问题重现了。红色的直线表示的是100%的CPU占用率,蓝色如栅栏的线条是ASP.NET请求执行时间(Request Execution Time)。这时如果用浏览器访问站点,会奇慢无比。

我们是这样进行压力测试的,将一台Web服务器从阿里云SLB(负载均衡)中摘下来,其他运行环境(Web程序、Memcached、NoSQL、RDS)没有任何变化,然后用压力测试直接向这台Web服务发出请求。压力测试工具造成这台云服务器的TCPv4->Connections Established(性能监视器的一个监测指标)超过2000,问题立即重现。

TCPv4->Connections Established这个指标在我们之前的博文中从没提过,而它就是今天取得突破的关键所在。简单来说,它表示的是这台服务器的当前TCP连接负载。今天下午我们发现,正常期间Connections Established的数值都在1000以内,而故障期间这个值都会超过1000。在出现故障的时候,只要我们以某种方式将Connections Established的数值降到1000以下,故障就会消失,比如重启IIS、禁用网卡,甚至重启Memached/NoSQL服务器(它们与Web服务器之间进行频繁的TCP连接)也能解决问题。

我们的压力测试就是针对TCPv4->Connections Established,只要压到1000以上,问题就会重现;降到1000以下,问题就会消失。(另一张压测截图)

为了进一步验证是这台云服务器本身的问题,与周边环境无关。在压测时这台云服务器CPU 100%、访问奇慢无比期间,我们访问处于同样环境的其他云服务器,速度飞快。

根据压测情况,我们的猜测是:在某种特定的条件下,当云服务器(Xen虚拟机)的并发TCP连接数超过一定的数值(目前我们的估计是1000~2000),云服务器的CPU占用率会飙升或大幅波动,某些处理能力会急剧下降,比如ASP.NET的请求处理时间由“几十毫秒”狂飚至“几十秒”。(仅是我们单方面的猜测,并不代表阿里云云服务器的真实情况)

那我们是如何找到TCPv4->Connections Established的呢?

这要从今天凌晨4点多路过秋天对我们的站点进行短暂的压测说起。压测之后,我们发现不仅4台8核的Web服务器的CPU没撑住,竟然连8核的Memcached服务器的CPU也没撑住。这说明问题与应用程序没有关系,如果是应用程序的原因,那不应该出现Memcached服务器CPU撑不住的情况。应用程序与Memcached软件(Couchbase)都会引起这个问题的可能性估计一万看才会遇到一次。所以从这个压测,我们进一步排除ASP.NET应用程序引起这个问题的可能性。

今天上午故障期间,我们特地禁用Memcached/NoSQL进行观察,问题仍旧。进一步排除了Memcached/NoSQL引起这个问题的可能性。问题与虚拟机的CPU占用高有关,这是板上钉钉的事实,但是究竟什么触发了CPU占用高比这个事实更重要。CPU不会喝酒喝多了,不会发羊癫疯。。。肯定是某个因素造成的。

IIS并发连接数是一个嫌疑对象,但很难确定是因为CPU占用高造成IIS并发连接数上升,还是因为IIS并发连接数上升造成CPU占用高。在下午的故障期间,我们发现重启Memcached/NoSQL竟然也能解决问题,说明问题即使与IIS并发连接数有关,但也不是仅与IIS并发连接数有关。

后来,我们在网上找到了一些说Xen虚拟机TCP处理能力可能存在问题的线索(这只是启发我们思考问题的线索,不代表现在的Xen虚拟机还存在这个问题)。于是,我们把虚拟机的TCP处理能力作为一个怀疑对象,并在Windows性能监视器中找到一个监测指标——TCPv4->Connections Established,在下午故障期间特地监测了这个指标,才发现前面所说的Connections Established在1000以下一切正常,1000以上就出故障。然后在压力测试中专门针对这项指标进行测试,才重现了问题。

那如何解决这个问题?

从我们自身角度,我们会想办法尽量减少单台云服务器的TCPv4->Connections Established,究竟什么办法是有效的,需要经过明天访问高峰期的验证。

。。。

热泪盈眶的不仅仅是因为在煎熬中看到了曙光,更是因为给大家带来这么多这么大的麻烦,总算有了一点交代。

彻底解决这个问题后,我们会以更好的产品、更好的服务去弥补!

转载于:https://www.cnblogs.com/cmt/archive/2013/05/22/3093337.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/474365.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

科润酒吧点单系统服务器配置,那些牛逼的酒吧都用什么管理系统?

原标题:那些牛逼的酒吧都用什么管理系统?关于酒吧你是熟悉还是陌生?对酒吧的管理系统?你接触的都有哪些?今天分享一个超大型酒吧的系统解决方案。宁波最大酒吧S86正式营业,视易娱加管理系统助力场所运营&am…

LeetCode 第 32 场双周赛(983/2957,前33.2%)

文章目录1. 比赛结果2. 题目1. LeetCode 5468. 第 k 个缺失的正整数 easy2. LeetCode 5469. K 次操作转变字符串 medium3. LeetCode 5470. 平衡括号字符串的最少插入次数 medium4. LeetCode 5485. 找出最长的超赞子字符串 hard1. 比赛结果 两题选手报道,继续加油&a…

python中的类属性和实例属性

类属性和实例属性,一般我们接触到的就是实例属性(对象属性),顾名思义, # 实例属性是对象持有的,不是共享的属性 # 实例属性只有对象能够访问 类属性就是类对象所拥有的属性,它被所有类对象的实…

图片网站用什么服务器好,网站图片与框架放在不同服务器有哪些优缺点

如今很多企业线上发展迅速,对网站的要求也越来越高,因此出现分离式网站架构。怎样理解分离式网站架构呢?理解最简单的一种,即将图片与网站架构分开存放。的确,现在很多企业都采取这样的操作模式,也有可能成…

迭代器是神马东西

一、迭代器用来干嘛的? 本质是指针,用来遍历访问容器中元素的。 STL实现了容器和算法的分离,如何实现的呢,答曰用类模板和函数模板,也可理解为所谓的泛化。那么容器和算法又是怎样结合在一起的呢,答曰迭代器…

python中的类方法和静态方法

类可以有类属性,也可以有类方法,类方法主要是对类属性的封装。是类对象所拥有的方法,需要用修饰器classmethod来标识其为类方法,对于类方法,第一个参数必须是类对象,一般以cls作为第一个参数(当…

LeetCode 第 201 场周赛(304/5614,前5.42%)

文章目录1. 比赛结果2. 题目1. LeetCode 5483. 整理字符串 easy2. LeetCode 5484. 找出第 N 个二进制字符串中的第 K 位 medium3. LeetCode 5471. 和为目标值的最大数目不重叠非空子数组数目 medium4. LeetCode 5486. 切棍子的最小成本 hard1. 比赛结果 做出来3题,…

洛克王国进不去 不显示服务器,《洛克王国》FAQ:注册和登陆问题

《洛克王国》FAQ:注册和登陆问题Q:如何登录洛克王国A: 1、 用户在洛克王国首页登录框中,输入自己的QQ号和密码后,点击“登录”按钮即可进入选择服务器界面。2、 洛克王国为用户提供了方便的选择服务器设定,…

出现一次的数字

看了何海涛的日志 他分别解决了一个 两个 三个 出现一次的数字的思路 给人的感觉有一生二 二生三 三生万物的思维 现把自己的感悟写下来 一个 思路很简单 所有数字异或的结果 两个 关键是区别 所有的数字异或的结果同时也是两个出现一次数字异或的结果 记为XORresult<>0 …

python中的__new__概念(工厂

__new__方法实际上在__init__方法之前执行&#xff0c;用于创建类的实例。然而__init__方法负责实例创建后对其进行自定义&#xff0c;__new__方法才是实际上创建并返回实例的方法。 __new__方法的第一个也是最重要的参数是创建实例所需的要的类(按照惯例&#xff0c;命名为cl…

LeetCode 723. 粉碎糖果(模拟)

文章目录1. 题目2. 解题1. 题目 这个问题是实现一个简单的消除算法。 给定一个二维整数数组 board 代表糖果所在的方格&#xff0c;不同的正整数 board[i][j] 代表不同种类的糖果&#xff0c;如果 board[i][j] 0 代表 (i, j) 这个位置是空的。 给定的方格是玩家移动后的游戏…

css动画放大延迟,css3延时动画

不太理解属性都是什么意思&#xff0c;但是有动画效果&#xff0c;我也是惊呆了#animated_div{animation:animated_div 4s 1;-moz-animation:animated_div 4s 1;-webkit-animation:animated_div 4s 1;-o-animation:animated_div 4s 1; width:800px; height:500px; position:rel…

Hibernate 异常org.hibernate.LazyInitializationException: could not initialize proxy - no Session

最近代写毕业设计中小网站&#xff0c;SSH架构&#xff0c;三年没搞过这个&#xff0c;忘记了&#xff0c;今天遇到这个问题就记录下&#xff1a; 错误页面提示 could not initialize proxy - no Session 控制台 org.hibernate.LazyInitializationException: could not initial…

python中的异常

异常处理就是处理程序中的错误。谓错误是指在程序运行的过程中发生的一些异常事件&#xff08;如&#xff1a;除0溢出&#xff0c;数组下标越界&#xff0c;所要读取的文件不存在等等&#xff09;。 在python中提供专门用于处理程序中错误的一种机制&#xff0c;异常机制&#…

css3案例分析,CSS3动画/动画库以及案例分析(上)

在这html5遍天下的年代&#xff0c;越来越多的网页也用到了css3的动画效果&#xff0c;这让原本我们静态的页面有了更多的活力。最近也一直在做这方面的页面&#xff0c;有些小小的心得&#xff0c;和诸位分享下。CSS3的动画绝对是很赞的&#xff0c;不仅支持PC还支持移动端&am…

python中获取异常描述与else用法

获取异常描述 异常本身是一个对象&#xff0c;所携带了关于错误的比较详细描述&#xff0c;如何获取异常详细描述信息呢&#xff1f; try: f open("log.txt","r") a 10 b 0 ret a / b #捕获多个类型的异常 except IOError as ex: …

LeetCode 418. 屏幕可显示句子的数量(DP)*

文章目录1. 题目2. 解题1. 题目 给你一个 rows x cols 的屏幕和一个用 非空 的单词列表组成的句子&#xff0c;请你计算出给定句子可以在屏幕上完整显示的次数。 注意&#xff1a; 一个单词不能拆分成两行。 单词在句子中的顺序必须保持不变。 在一行中 的两个连续单词必须用…

网站服务器令牌获取,adobe - 获取Adobe Sign访问令牌以进行服务器到服务器身份验证 - 堆栈内存溢出...

_bananabread有正确的想法。 按照本网站上的步骤操作&#xff1a;直到您使用refresh_token获得JSON响应&#xff0c;这就是您所需要的。接下来&#xff0c;您需要制作刷新令牌请求&#xff0c;以便在每次需要使用它时刷新令牌&#xff0c;并返回一个全新的OAuth令牌。这是一个J…

try…finally与嵌套及自定义异常抛出

try...finally... try...finally...语句用来表达这样的情况&#xff1a;在程序中&#xff0c;如果一个段代码必须要执行&#xff0c;即无论异常是否产生都要执行&#xff0c;那么此时就需要使用finally。 比如文件关闭&#xff0c;释放锁&#xff0c;把数据库连接返还给连接池…

LeetCode 568. 最大休假天数(DP)

文章目录1. 题目2. 解题1. 题目 力扣想让一个最优秀的员工在 N 个城市间旅行来收集算法问题。 但只工作不玩耍&#xff0c;聪明的孩子也会变傻&#xff0c;所以您可以在某些特定的城市和星期休假。 您的工作就是安排旅行使得最大化你可以休假的天数&#xff0c;但是您需要遵守…