如何“神还原”数据中心? 阿里联合NTU打造了工业级精度的仿真沙盘!

如何保障数据中心的稳定运行,是多年来一直困扰业界的难题。机房环境如果发生未预期变化,可能造成难以估计的损失。所以我们希望能构建一个“变更沙盘”,在真实变更之前,操作人员可以先在沙盘中进行试变更,若变更效果在预期内,再对真实环境进行变更,从而尽可能减少变更导致的机房故障。

近期,阿里巴巴-南大联合研究院联合实现并上线完成了一个高精度,可连接实时监控系统、基于CFD的变更沙盘系统。本系统在off-the-shelf CFD软件上实现了工业级精度的变更沙盘测试和验证。今天,我们就来观摩这个从零到一的尝试。

项目背景

随着阿里巴巴业务不断拓展,其数据中心规模也越来越大。相应地,数据中心内的日常演练、运营优化等变更操作越来越频繁;而规模增加导致环境的复杂程度呈指数增长,变更是否可能导致故障,仅凭专家经验,已经越来越难以判断。同时,数据中心变更故障可能造成的业务影响也越来越大,可能造成的损失已难以估计。所以,机房运营人员急需一个标准化的、可靠的机房变更安全验证系统,帮助他们获知变更产生的具体效果会是如何,是否影响生产安全,是否有更合理的变更建议。

对于电力变更,可以从电力拓扑图着手构建变更沙盘。但暖通变更,涉及到气流组织变化、热力变化,这些东西看不见也摸不着,传统的方式难以模拟出现实世界中的变化。IDC运营优化团队对此进行了一系列调研工作,认为利用计算流体力学(ComputationalFluid Dynamics,简称CFD)进行机房仿真是较为可能达到生产标准的一种方式。

现有的类似的解决方案

利用计算流体力学(Computational Fluid Dynamics,简称CFD)进行机房仿真是检查不同变更对机房的热力学影响的通用解决方案。CFD建模可以通过搭建物理模型,载入现实中的热力学设置(冷热量,空调server风速等)来计算一个包间内部的气流分布和温度情况。CFD模拟有较为成熟的技术积累,并被广泛应用与热力学和空气动力学领域。在数据中心领域,也有从包间到芯片级的CFD模拟应用。但由于其精度限制,一般只用于前期设计和规划。


应用CFD建立沙盘系统的挑战:

1)现有商业CFD软件可以根据对包间进行仿真,得到机房的热力分布、气流动向。但该软件通常应用于设计阶段,采用设计阶段的粗略数据进行模拟,对真实操作情况的还原度较低,温度预测精度仅能达到3度或以上,不能满足用于变更沙盘的精度需求。

2)当前CFD软件以人工交互为主,缺少对自动化操作的支持,不能满足自动获取数据和返回结果的需求。大量的操作只能通过人机交互进行,效率低下。

3)建模所需要的数据真实性问题。由于模型的准确性与其所采用的模拟设置与实际是否一致息息相关,因此获取的模拟设置信息(如功耗,空调设置信息等)准确性非常关键。通常这些信息是在设计阶段确定的,也有部分是运行时获得的。这些数据只有进行精细的核实才能保证建模的精度(反过来建模的过程可以反推设计实施情况和数据的标准化过程)。

我们的解决方案

阿里巴巴联合新加坡南洋理工大学(NTU)计算机科学与工程学院文勇刚教授团队,依托阿里巴巴-南大联合研究院平台,通过接近1年的研究,开发和测试,实现并上线完成了一个高精度,可连接实时监控系统的基于CFD的变更沙盘系统。本系统在off-the-shelf CFD软件上实现了工业级精度的变更沙盘测试和验证。

本次项目选定了某个机房包间作为技术试点,并在对该机房的物理建模,模型校准和工程落地上进行了紧密合作。

1)物理建模:

该过程主要将包间内各物理结构设置到模型,提供仿真基础。以达到最好还原度为准则,我们实现了下面所述方面的建模操作:

结构建模:对机房结构、墙、通风口、天花板、管道进行设置

IT部署建模:机列、机柜、机位设置

环境建模:空调设备、传感器设置

设备建模:按厂商型号导入服务器模型

2)模型校准

模型校准的主要原则需要达到下述3个方面的真实还原:

机房冷热温度来源:校准中需要确认模型中冷热量与实际一致。

机房气流变化原因:校准中需要保证冷热风气流与实际一致。

温度测量数据:校准中需要保证模型预测温度与实际一致。

为了保证模型可以到工业级精度,项目团队进行了大量的数据核准和模型调整工作。这些工作全方位地对整个机房的相关信息和设置进行了梳理和核实,并形成了完整的标准化校准文档,为以后建模推广打下了坚实的基础。这些校准操作可以分为2类:

第1类:数据核准

服务器核准(包含:少数服务器U位冲突、服务器功耗校准)

传感器核准(包含:空调供风温度、转速和冷热通道传感器位置、数据)

第2类:模型调整

热气泄露设置调整,热气泄露会导致冷通道温度升高。

机柜模拟模式调整,设置为细粒度模拟模式。

Server风量设置调整,精确设置server风速以符合实际需求。

依托大量的传感器数据,通过上述校准操作,最终模型达到了设计阶段CFD使用未有过的精度。这些精度来源于我们精确地还原各项硬件的布置,各个操作的数据核准和细粒度的server风速校准。

3)工程落地

如图所示为沙盘系统的流程图。在模型达到预期精度后,团队进一步解决了CFD模拟的自动化问题。通过接入阿里巴巴自研的数据中心实时监控系统(DCIM),我们获取到实时的服务器功耗、空调出风温度和风机转速等数据,通过6Sigma开放SDK将数据写入CFD模型,从而使得模型能够实时模拟包间内真实情况。此外,一旦仿真计算完成后,我们将计算结果从模型中导出,回传到监控系统,从而完成一次仿真计算的闭环。

如此,我们实现了将沙盘系统整合进入DCIM系统,并且全程操作可以自动化进行,为将来沙盘系统的应用和推广打下了坚实基础。

最终成果:

1)精度达标:模型采用真实的监控数据作为输入,并计算模拟的目标传感器测温与实际的传感器测温之间的平均绝对误差(MAE)来作为模型的准确性的测量依据。经过长时间观察(采用不同时刻的数据进行验证),模型模拟精度均能达到阿里巴巴数据中心建设标准要求。理论上可以替代冷热通道传感器,进行数据中心生产包间环境监控。

2)成功落地:目前该模型已经成功接入DCIM系统,可以自动从DCIM中抓取数据,返回结果。当前模拟的时耗为大约1小时,通过升级6Sigma License规格未来有希望提升到10分钟。接入该实时CFD模拟系统意味着阿里自研DCIM系统成为世界上唯一有高精度实时CFD模拟模块的数据中心云维管理系统。

变更沙盘系统的价值

包间可视化:由原来的2D、数字的方式,升级为3D、图形数字结合的展现方式,包括实际布局、热力情况、气流情况,从而可以让机房经理与设施专家能更直观、全面、迅速地了解机房的整体情况,更快发现包间暖通环境问题,辅助优化现场供冷分配与气流组织。

故障发现:可以厘米级别监测包间内的温度,快速发现温升(局部热点),从而具备更快、更强的风险识别能力,防止出现大范围的机房温升事件。

设计验证:建模过程所需要的物理设置信息通常决定于设计阶段。建模过程中得到的误差反馈信息可以直接验证设计与实施的差别。

设计优化(变更指引):沙盘系统可以模拟不同设计下数据中心的操作情况,从而可以用于设计上的优化和数据中心变更的先验平台。

暖通控制推荐:可以通过尝试不同空调设置应用到当前环境,得到温度控制最佳、能耗最低的空调设置,实现包间内供冷可靠、智能的控制。

业务调度推荐:根据详细的机房温度分布情况,结合功耗水位数据,可以向业务调度系统提供调度参考,使得业务分布更均匀,机房温度分布也更加均匀,降低制冷能耗,提升服务器健康度。

未来展望

未来合作的方向之一是对变更沙盘系统进行产业级推广和验证,目标是做出业界标准。使得变更沙盘系统可以应用与阿里数据中心的更多机房,去验证设计和优化管理控制。

未来,我们希望将系统沙盘推广到整个暖通系统,覆盖到机房外的制冷设备,实现全链条模拟。从而实现整个制冷系统的设计验证和控制优化。

综上,变更沙盘系统将可以显著促进数据中心设计到运维的自动化水平,为实现更稳定更高效的数据中心运维提供支撑。这是一次从零到一的尝试,我们构建了第一个可实时的、高精度的暖通变更系统,帮助数据中心运维人员能够判断一次变更是否可能造成故障,从而减少由变更导致的故障。进一步,我们可以给出具体的变更后环境变化,给出变更建议,甚至能够实现自动变更。如此,我们将离机房无人值守的目标越来越近。

 

原文链接
本文为云栖社区原创内容,未经允许不得转载。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/519981.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

RabbitMQ 手动签收

下面这基础地方都必须设置,不然无效 // 同一时刻服务器只会发一条消息给消费者channel.basicQos(1); // 消息的标识,false只确认当前一个消息收到,true确认所有consumer获得的消息 channel.basicAck(message.getMessageProperties().getDeli…

把16进制转换为ascii字符c语言,ASCII转16进制C语言

满意答案u2gseftj278推荐于 2016.03.01采纳率:56% 等级:11已帮助:14340人以前引别人的,自己懒得再写了呵呵。原理就是这样的,你可以直接用的//函 数 名:AscToHex()//功能描述:把ASCII转换为1…

四大维度全景揭秘阿里巴巴智能对话开发平台

在阿里巴巴智能服务事业部的X蜂会上,小蜜北京团队的高级算法专家李永彬(水德)分享了小蜜智能对话开发平台的构建,围绕平台来源、设计理念、核心技术、业务落地情况四大维度讲述了一个较为完整的智能任务型对话开发平台的全景。以下…

2019年技术盘点云数据库篇(二):阿里云携手MongoDB率先上线4.2数据库 云上数据库已是大势所趋...

戳蓝字“CSDN云计算”关注我们哦!作者 | 刘丹出品 | CSDN云计算(ID:CSDNcloud)随着技术的飞速发展,云数据库在云计算的大背景下,作为一种新兴的共享基础架构方法逐渐发展起来,它极大地增强了数据…

Oracle 查看表空间的大小及使用情况sql语句

SELECT a.tablespace_name "表空间名称", total / (1024 * 1024) "表空间大小(M)", free / (1024 * 1024) "表空间剩余大小(M)", (total - free) / (1024 * 1024 ) "表空间使用大小(M)", total / (1024 * 1024 * 1024) "表空…

高可用、弹性动态的金融级移动架构在蚂蚁金服的演进之路

本文基于重岳在 2018 年 Arch Summit 北京站的分享内容进行总结,希望通过本篇文章介绍近些年来支付宝在移动端架构的上演进和思考,期冀能给读者们带来些许帮助。 支付宝作为国民级应用,当前全球用户已经超过 10 亿,提供了超过 200…

Android代码混淆方法,Android 代码混淆零基础入门

内容提要本篇文章主要有三个部分,让读者读完后能自己写规则混淆项目对Android代码怎么开启混淆做一个简单的介绍。对混淆规则做一个简单介绍;在混淆过后Crash日志反推代码工具retrace.bat、可视化反推工具GUI说明。对混淆的一个简单介绍:Andr…

oracle查询当前用户名下所有表

--SONARQUBE为用户名,用户名必须是大写 SELECT * from all_tables where ownerSONARQUBE;--查看当前登录的用户的表: SELECT table_name from user_tables;

JUC包中的分而治之策略-为提高性能而生

一、前言 本次分享我们来共同探讨JUC包中一些有意思的类,包含AtomicLong & LongAdder,ThreadLocalRandom原理。 二、AtomicLong & LongAdder 2.1 AtomicLong 类 AtomicLong是JUC包提供的原子性操作类,其内部通过CAS保证了对计数的原子性更新…

galaxy s8 android pc,手机秒变PC!三星Galaxy S8桌面模式曝光

据外媒报道,三星旗舰手机Galaxy S8/S8 Plus在外观上以及硬件配置上已经没有了悬念。不过一些小的改进或者是新功能还是让人对Galaxy S8充满期待。日前,传闻中的Galaxy S8桌面模式终于被曝光。三星Galaxy S8桌面模式曝光(图片来自kkj)报道称,G…

2020年进军 AI,想年薪 40 万,没这个能力不行

前几天,《百度沸点:2019年度科技热词》来了!百度沸点:2019年度科技热词 AI排名第一2019年可以说是AI全面落地和商用的一年,产业智能化成为各个行业重点关注的发展方向,交通、工业、农业、医疗等主流行业无一…

重磅公开!阿里语音识别模型端核心技术,让你“听”见未来

语音识别技术作为人工智能技术中的重要组成部分,成为影响人机交互的核心组件之一,从各种智能家用IoT设备的语音交互能力,到公共服务、智慧政务等场合的应用,语音识别技术正在影响着人们生活的方方面面。 本文将全面介绍阿里云语音…

linux搭建SonarQube代码质量平台_Oracle 最新详细版本

文章目录一、最低配置要求1. JDK版本要求2. 数据库版本要求3. 支持浏览器版本二、软件下载安装2.1. 软件列表总览2.2. jdk11下载2.3. sonarqube下载2.4. sonar-scanner-cli2.5. Oracle 驱动三、安装实战3.1. JDK sonar-scanner3.2. sonarqube3.3. oracle驱动3.4. 启动sonar3.4.…

2018年AI和ML(NLP、计算机视觉、强化学习)技术总结和2019年趋势(上)

1、简介: 过去几年一直是人工智能爱好者和机器学习专业人士最幸福的时光。因为这些技术已经发展成为主流,并且正在影响着数百万人的生活。各国现在都有专门的人工智能规划和预算,以确保在这场比赛中保持优势。 数据科学从业人员也是如此&am…

2018最佳GAN论文回顾(下)

继上一篇《2018最佳GAN论文回顾(上)》,我又继续介绍了一个对于GAN的基于样式的生成器体系结构的新论文,提出了一个新的模型来应对这种挑战。 一种用于生成式对抗网络的基于生成器体系结构的方式(A Style-Based Genera…

云+X案例展 | 民生类:浪潮云打卡人间仙境张家界

本案例由浪潮投递并参与评选,CSDN云计算独家全网首发;更多关于【云X 案例征集】的相关信息,点击了解详情丨挖掘展现更多优秀案例,为不同行业领域带来启迪,进而推动整个“云行业”的健康发展。“仙凡共界武陵门&#xf…

云栖专辑 | 阿里开发者们的第19个感悟:Simple is better.

2015年12月20日,云栖社区上线。2018年12月20日,云栖社区3岁。 阿里巴巴常说“晴天修屋顶”。 在我们看来,寒冬中,最值得投资的是学习,是增厚的知识储备。 所以社区特别制作了这个专辑——分享给开发者们20个弥足珍贵的…

使html表格可编辑状态,js+Html实现表格可编辑操作

本文实例为大家分享了jsHtml实现表格可编辑操作的具体代码,供大家参考,具体内容如下功能描述:单击页面使单元格td变成可编辑状态,输入内容后,当单元格失去焦点时,保存输入的内容。点击增加行,在…

深度学习为图片人物换装【python代码教程】

在观看本文之前,请答应我要善良。昨天预告了下,发现很多同学对这个模型都表示出兴趣,甚至有好多同学后台发来照片让我帮他们脱裤子。授人以鱼不如授人以渔,请这些同学好自为之~ 01效果演示 本文案例使用的是开源项目instagan&am…

java通过HTTPS协议POST提交接收JSON格式数据

文章目录一、客户端实现1. HttpsApiUtils 测试方法2. 返回报文监控二、服务端实现2.1. 配置SSL 实现HTTPS2.2. 添加post接口方法2.3. 服务端监控三、进阶测试3.1. 客户端发送对象3.2. 服务端监控3.3. 客户端解析返回报文一、客户端实现 声明:不用引入任何第三方jar…