作者 | 马超
责编 | 伍杏玲
出品 | CSDN(ID:CSDNnews)
今年的新冠疫情让不少人认识到云计算的战略意义:今年5月,IBM 新 CEO 克里希纳在上任伊始就表示,IBM将专注于AI和混合云,将它们视为未来的关键技术。谷歌云计算部门负责人托马斯·库里安表示将全力追赶云计算领头羊亚马逊和微软。
在我国,随着新基建政策的下发,国内各科技巨头开始强势布局:阿里云宣布3年 2000 亿入局,腾讯清远数据中心开服。今天,阿里云宣布位于南通、杭州和乌兰察布的三座超级数据中心正式落成,陆续开服。
相比于传统的数据中心,超级数据中心是面向未来设计打造的,比拼的是技术能力。因此我们经常听到有关数据中心的黑科技,比如微软和脸书的海底数据中心,华为和AWS推出基于ARM的服务器,阿里云本次发布的超级数据中心更是应用达摩院、平头哥等最新研究成果,在各方面都有技术升级。
下面笔者带大家揭开超级数据中心神秘的面纱。
揭秘超级数据中心背后的黑科技
云计算边际成本随着规模增大而快速降低的效应愈发明显,比如一个数据中心的土地、电力、制冷等是成本的大头,增加一台服务器或者计算节点新增投入的边际成本很低,超级数据中心恰恰是这种规模集约化运营模式的终极产物,堪称是算力之源,服务底座。
与传统数据中心不同,超级数据中心想通过规模提高效益,必须要解决大规模供电、高带宽数据传输以及高效率制冷这三大难题,以往这些技术的透明度不太高,各厂商往往都对这些黑科技讳莫如深。
阿里云本次揭开了这些黑科技的面纱,着实让笔者对于超级数据中心的认识更进了一步。
巴拿马电源:一般的数据中心尤其是超级数据中心,其供电一般是通过高压电进行配送的,如何将10kV的AC供电转为240V的DC供电,并且控制相应损耗一直都是摆在数据中心强电工程师面前的难题。
阿里重新定义10kV---240V供电链路,对磁路和电路进行联合设计,提出最高2.5MW、一体化、模块化、高效、高可靠直流不间断电源,省去传统低压配电环节,采用第三代半导体技术大幅度优化电源内部结构,实现了高可靠和低成本的目标。
只需一台巴拿马电源,可以从中压10kV AC直转240V DC(或336V DC),让供电传输一步到位,更加高效而可靠。正如1914年开凿完成的巴拿马运河极大地缩短了太平洋和大西洋之间的航程,巴拿巴电源大幅降低了供电系统的转换损耗。
400G光模块:内部网络高速稳定的数据传输,是业界对于新一代数据中心的基本要求,这依赖于光模块的技术水准。
去年末阿里推出了基于硅光技术的400G DR4光模块,其带宽密度提高4倍,网速提升4倍,设备体积与成本基本没有增加,目前400G光模块已在阿里的各大超级数据中心全面投入使用。
液冷服务器集群:说实话液冷技术的确令笔者非常震撼,阿里将这种液冷技术命名为“麒麟”,这是一种将服务器被浸泡在特殊的绝缘冷却液里的制冷方案,由于运算产生热量可被直接吸收进入外循环冷却,全程用于散热的能耗几乎为零,因此这种形式的热传导效率比传统的风冷要高百倍,节能效果超过70%。
“麒麟”系统真正推广开却不容易,如果全部使用液冷,那么服务器硬件故障该如何快速维修,如何快速布线等等,这都是革命性变化,目前全球范围内仅有阿里的一个数据中心大规模采用了“麒麟”技术。
未来3到5年,阿里计划将所有数据中心全面使用液冷。想想看,如果全国的数据中心都采用液冷技术,一年可节省上千亿度电,逐步实现低碳数据中心的目标。
分散布署的逻辑:不把鸡蛋放在一个篮子里
云计算市场最大的特点是胜者通吃,谁占据市场第一的位置,谁降低成本,以更低的价格形成挤出效应。因此各大科技巨头都有强烈的规模化、集中化的诉求。
各巨头的数据中心选址却并不集中,比如阿里本次的数据中心布署在了南通、杭州和乌兰察布三地,每个地域都采用了3AZ设计。笔者认为这种情况的出现关键在于“不能把鸡蛋放在同一个篮子里”。这种数据中心布署,一般要满足以下原则。
就近原则:分别接近京津冀、长三角、珠三角经济带
3AZ设计:每个数据中心都采用3AZ设计,一份数据会在一个数据中心的三个AZ里做备份,防止数据丢失。
全球性广泛布署数据中心有一些就近服务规划方面的优势,是集中布署的数据中心所不具备的。
今年年初,联合国在纽约总部宣布腾讯成为全球合作伙伴,为联合国成立75周年提供全面技术方案,其中腾讯会议、企业微信和腾讯同传为这场有史以来最大规模的全球对话提供远程会议服务,支持疫情期间的在线会议活动。
腾讯能脱颖而出,正因为腾讯会议依托腾讯全球的数据中心,实现了在复杂网络环境的高抗性自适应。同时腾讯会议的调度系统综合考虑用户所在位置、运营商、网络和链路质量情况,动态选择最佳接入点,有效地保障“最后一公里”的接入质量。从而支撑全球不同国家不同地点的同时接入服务,这是集中布署的数据中心所不能具备的优点。
异地数据中心:灾备体系之根
前不久,微盟因人为恶意删库,使得其业务自发生中断,直到一周多以后才全面找回数据。纵然业界普遍一般公司有5%左右的概率发生重大信息系统灾难,一旦故障发生,企业损失巨大。异地数据中心的灾备体系建设可以将这类事故的影响降到最低。
在讲灾备体系之前,我们先来明确评价业务连续性的两个重要指标:
RTO(Recovery Time Objective):RTO是指灾难发生后,从IT系统崩溃导致业务停顿开始,到IT系统完全恢复,业务恢复运营为止的这段时间长度。RTO用于衡量业务从停顿到恢复的所需时间。
RPO(Recovery Point Objective):IT系统崩溃后,可以恢复到某个历史时间点,从历史时间点到灾难发生的时间点的这段时间长度就称为RPO。RPO用于衡量业务恢复所允许丢失的数据量。
简单来讲RTO是灾难发生后业务中断的时间,RPO是灾难发生后数据丢失的数量。
一般来说目前比较流行的灾备体系是至少建设三个数据中心:
主中心:正常情况下全面提供业务服务。
同城中心:一般使用同步复制的方式来向同城灾备中心传输数据,保证同城中心数据复本为最新,随时可以接管业务,以保证RTO的指标。但是同城中心无法应对此类删库事件。
异地中心:一般使用延时异步复制(延时时间一般为30分钟左右)的方式向异地灾备中心传输数据,其中同步复制的好处是一旦主中心被人工破坏,那么不会立刻涉及异地中心。以保证RPO的指标。
一句话总结灾备体系的最佳实践就是两地三中心;同城保证业务连续性,优先负责用户体验;异地保证数据连续性,确保企业生存底线。
不少企业尤其是创业型企业在异地中心的建设上投入还不够,一旦发生删库事件就影响是致命的。所以当企业发展到一定规模以后,必须考虑建设跨异地数据中心的灾备体系,以此来应对风险。
十年前,IT界普遍流传着一句话叫做“代码正在吞没世界”,现在人们才真正醒悟原来云计算才是背后的那个大BOSS。如今,随着云原生和无服务器计算模式的普遍应用,云服务模式正在被重新定义。数据中心作为云的底座越来越有成为IT行业的C位的趋势,未来值得期待。
更多推荐阅读
没想到!!Unicode 字符还能这样玩?
程序员必备基础:Git 命令全方位学习
MongoDB 计划从“Data Sprawl”中逃脱
V神演讲内容曝光!Defi、挖矿、行业应用更多主题大揭秘!
Python 还能实现图片去雾?FFA 去雾算法、暗通道去雾算法用起来! | 附代码