IT 实力较量:决战超级数据中心之巅

作者 | 马超

责编 | 伍杏玲

出品 | CSDN(ID:CSDNnews)

今年的新冠疫情让不少人认识到云计算的战略意义:今年5月,IBM 新 CEO 克里希纳在上任伊始就表示,IBM将专注于AI和混合云,将它们视为未来的关键技术。谷歌云计算部门负责人托马斯·库里安表示将全力追赶云计算领头羊亚马逊和微软。

在我国,随着新基建政策的下发,国内各科技巨头开始强势布局:阿里云宣布3年 2000 亿入局,腾讯清远数据中心开服。今天,阿里云宣布位于南通、杭州和乌兰察布的三座超级数据中心正式落成,陆续开服。

相比于传统的数据中心,超级数据中心是面向未来设计打造的,比拼的是技术能力。因此我们经常听到有关数据中心的黑科技,比如微软和脸书的海底数据中心,华为和AWS推出基于ARM的服务器,阿里云本次发布的超级数据中心更是应用达摩院、平头哥等最新研究成果,在各方面都有技术升级。

下面笔者带大家揭开超级数据中心神秘的面纱。

 

揭秘超级数据中心背后的黑科技

云计算边际成本随着规模增大而快速降低的效应愈发明显,比如一个数据中心的土地、电力、制冷等是成本的大头,增加一台服务器或者计算节点新增投入的边际成本很低,超级数据中心恰恰是这种规模集约化运营模式的终极产物,堪称是算力之源,服务底座。

与传统数据中心不同,超级数据中心想通过规模提高效益,必须要解决大规模供电、高带宽数据传输以及高效率制冷这三大难题,以往这些技术的透明度不太高,各厂商往往都对这些黑科技讳莫如深。

阿里云本次揭开了这些黑科技的面纱,着实让笔者对于超级数据中心的认识更进了一步。

巴拿马电源:一般的数据中心尤其是超级数据中心,其供电一般是通过高压电进行配送的,如何将10kV的AC供电转为240V的DC供电,并且控制相应损耗一直都是摆在数据中心强电工程师面前的难题。

阿里重新定义10kV---240V供电链路,对磁路和电路进行联合设计,提出最高2.5MW、一体化、模块化、高效、高可靠直流不间断电源,省去传统低压配电环节,采用第三代半导体技术大幅度优化电源内部结构,实现了高可靠和低成本的目标。

只需一台巴拿马电源,可以从中压10kV AC直转240V DC(或336V DC),让供电传输一步到位,更加高效而可靠。正如1914年开凿完成的巴拿马运河极大地缩短了太平洋和大西洋之间的航程,巴拿巴电源大幅降低了供电系统的转换损耗。

400G光模块:内部网络高速稳定的数据传输,是业界对于新一代数据中心的基本要求,这依赖于光模块的技术水准。

去年末阿里推出了基于硅光技术的400G DR4光模块,其带宽密度提高4倍,网速提升4倍,设备体积与成本基本没有增加,目前400G光模块已在阿里的各大超级数据中心全面投入使用。

液冷服务器集群:说实话液冷技术的确令笔者非常震撼,阿里将这种液冷技术命名为“麒麟”,这是一种将服务器被浸泡在特殊的绝缘冷却液里的制冷方案,由于运算产生热量可被直接吸收进入外循环冷却,全程用于散热的能耗几乎为零,因此这种形式的热传导效率比传统的风冷要高百倍,节能效果超过70%。

“麒麟”系统真正推广开却不容易,如果全部使用液冷,那么服务器硬件故障该如何快速维修,如何快速布线等等,这都是革命性变化,目前全球范围内仅有阿里的一个数据中心大规模采用了“麒麟”技术。

未来3到5年,阿里计划将所有数据中心全面使用液冷。想想看,如果全国的数据中心都采用液冷技术,一年可节省上千亿度电,逐步实现低碳数据中心的目标。

 

分散布署的逻辑:不把鸡蛋放在一个篮子里

云计算市场最大的特点是胜者通吃,谁占据市场第一的位置,谁降低成本,以更低的价格形成挤出效应。因此各大科技巨头都有强烈的规模化、集中化的诉求。

各巨头的数据中心选址却并不集中,比如阿里本次的数据中心布署在了南通、杭州和乌兰察布三地,每个地域都采用了3AZ设计。笔者认为这种情况的出现关键在于“不能把鸡蛋放在同一个篮子里”。这种数据中心布署,一般要满足以下原则。

就近原则:分别接近京津冀、长三角、珠三角经济带

3AZ设计:每个数据中心都采用3AZ设计,一份数据会在一个数据中心的三个AZ里做备份,防止数据丢失。

全球性广泛布署数据中心有一些就近服务规划方面的优势,是集中布署的数据中心所不具备的。

今年年初,联合国在纽约总部宣布腾讯成为全球合作伙伴,为联合国成立75周年提供全面技术方案,其中腾讯会议、企业微信和腾讯同传为这场有史以来最大规模的全球对话提供远程会议服务,支持疫情期间的在线会议活动。

腾讯能脱颖而出,正因为腾讯会议依托腾讯全球的数据中心,实现了在复杂网络环境的高抗性自适应。同时腾讯会议的调度系统综合考虑用户所在位置、运营商、网络和链路质量情况,动态选择最佳接入点,有效地保障“最后一公里”的接入质量。从而支撑全球不同国家不同地点的同时接入服务,这是集中布署的数据中心所不能具备的优点。

 

异地数据中心:灾备体系之根

前不久,微盟因人为恶意删库,使得其业务自发生中断,直到一周多以后才全面找回数据。纵然业界普遍一般公司有5%左右的概率发生重大信息系统灾难,一旦故障发生,企业损失巨大。异地数据中心的灾备体系建设可以将这类事故的影响降到最低。

在讲灾备体系之前,我们先来明确评价业务连续性的两个重要指标:

RTO(Recovery Time Objective):RTO是指灾难发生后,从IT系统崩溃导致业务停顿开始,到IT系统完全恢复,业务恢复运营为止的这段时间长度。RTO用于衡量业务从停顿到恢复的所需时间。

RPO(Recovery Point Objective):IT系统崩溃后,可以恢复到某个历史时间点,从历史时间点到灾难发生的时间点的这段时间长度就称为RPO。RPO用于衡量业务恢复所允许丢失的数据量。

简单来讲RTO是灾难发生后业务中断的时间,RPO是灾难发生后数据丢失的数量。

一般来说目前比较流行的灾备体系是至少建设三个数据中心:

主中心:正常情况下全面提供业务服务。

同城中心:一般使用同步复制的方式来向同城灾备中心传输数据,保证同城中心数据复本为最新,随时可以接管业务,以保证RTO的指标。但是同城中心无法应对此类删库事件。

异地中心:一般使用延时异步复制(延时时间一般为30分钟左右)的方式向异地灾备中心传输数据,其中同步复制的好处是一旦主中心被人工破坏,那么不会立刻涉及异地中心。以保证RPO的指标。

一句话总结灾备体系的最佳实践就是两地三中心;同城保证业务连续性,优先负责用户体验;异地保证数据连续性,确保企业生存底线。

不少企业尤其是创业型企业在异地中心的建设上投入还不够,一旦发生删库事件就影响是致命的。所以当企业发展到一定规模以后,必须考虑建设跨异地数据中心的灾备体系,以此来应对风险。

十年前,IT界普遍流传着一句话叫做“代码正在吞没世界”,现在人们才真正醒悟原来云计算才是背后的那个大BOSS。如今,随着云原生和无服务器计算模式的普遍应用,云服务模式正在被重新定义。数据中心作为云的底座越来越有成为IT行业的C位的趋势,未来值得期待。

更多推荐阅读

  • 没想到!!Unicode 字符还能这样玩?

  • 程序员必备基础:Git 命令全方位学习

  • MongoDB 计划从“Data Sprawl”中逃脱

  • V神演讲内容曝光!Defi、挖矿、行业应用更多主题大揭秘!

  • Python 还能实现图片去雾?FFA 去雾算法、暗通道去雾算法用起来! | 附代码

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/516984.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

自建Hive数据仓库跨版本迁移到阿里云E-MapReduce

最佳实践概述 应用场景 客户在IDC或者公有云环境自建Hadoop集群,数据集中保存在HDFS文件系统,同时借助Hive进行常见的ETL任务。客户在决策上云之后,会将自建Hadoop集群的数据迁移到阿里云自建Hadoop或者EMR。 技术架构 本实践方案基于如下…

fastjson 序列化时指定json的key值

json字符串中的key是下划线例如:foot_dist,而实际实体类中的属性是footDist,添加 JSONField(name "foot_dist")即可 package com.gblfy;import com.alibaba.fastjson.annotation.JSONField; import lombok.AllArgsConstructor; i…

vue搭建脚手架

1.必须安装node.js 打开dos窗口 查看安装版本 运行命令 node -v npm -v 2.搭建vue的开发环境,安装vue的脚手架 npm install --global vue-cli 或 cnpm install --global vue-cli 注释: 1)用npm安装(国际开源库生态系统&#xff09…

秒级启动万个容器,探秘阿里云容器镜像加速黑科技

阿里云容器与存储团队展开合作,利用DADI加速器支持镜像按需读取和P2P分发,实现3.01秒启动10000个容器,完美杜绝容器冷启动的数分钟漫长等待,以及镜像仓库大规模并行分发场景下的网络拥堵。 年关将至,各种年货节、秒杀…

官宣丨中国移动云能力中心新增5项可信云认证,斩获2项大奖!

近日,由中国信息通信研究院、中国通信标准化协会联合主办的“2020可信云大会”圆满落幕。 围绕“数字新基建可信新生态”话题,会上探讨了新基建与云计算的发展未来,披露了2020年可信云上半年最新评估结果,并揭晓了2020年可信云多项…

跟我学-域名解析故障排查技巧

天苍苍,野茫茫,网站一瘫,唯有泪两行!! 客户跳,老板叫,解析故障,心惊又肉跳!! 对企业网站来说,很怕出现网站打不开的情况,一旦发生&…

axios安装使用

1.进入项目运行命令,原因同v-resource安装 cnpm install axios --save 2.在需要使用时引入 如: 使用按照gitubs上提供的示例做就可以了

首次曝光 | 阿里数万名开发者都在使用的数据库开发工具到底长什么样?

除了基础的数据查询开发功能,DMS还内置SQL审核、性能诊断优化、测试数据自动生成、多环境数据对比同步、数据库日志追踪回滚、不锁表变更、访问控制、敏感数据脱敏、安全审计等高端功能。 1、丰富的数据源 🔸丰富的数据库类型支持(当前已超…

MySQL5.7.x 安装 Linux7环境

文章目录一、软件安装1. 下载2. 解压3.安装4. 跳过权限5. 启动mysql服务端6. 设置密码7. 允许远程连接8.开发3306端口二、安装报错方案一、软件安装 1. 下载 wget https://downloads.mysql.com/archives/get/p/23/file/mysql-5.7.33-1.el7.x86_64.rpm-bundle.tarhttps://dev.…

使用ant design vue 中table组件运行时not found: Error: Can't resolve 'reqwest' in 'D:\vue\antd-demo01\src\com

最近使用table时按照官网api使用table报了上面这个错误 1.只需要安装无法找到文件就可以正常运行了 2.命令行cd进入项目文件 3.运行npm install --save reqwest table就出来了

Serverless Kubernetes 入门:对 Kubernetes 做减法

导读:Serverless Kubernetes 是阿里云容器服务团队对未来 Kubernetes 演进方向的一种探索,通过对 Kubernetes 做减法,降低运维管理负担,简化集群管理,让 Kubernetes 从复杂到简单。 背景 Kubernetes 作为通用的容器编…

硬核“毕业证”:5 位本科生带自研处理器芯片毕业,包云岗解读“一生一芯”计划...

作者 | 包云岗责编 | 伍杏玲本文经作者授权转载自包云岗知乎【编者按】近日,中国科学院大学五位本科生的硬核“毕业证”引发IT圈热议,在“一生一芯”培养计划下,由五位2016级本科生主导完成一款64位RISC-V处理器SoC芯片设计并实现流片&#x…

如何打造“智能助理”?阿里对话开发平台这样做

阿里妹导读:一个合格的智能助理能够帮你预约开会时间,处理日常办公需求,还能打电话提醒你要还信用卡了,作为用户或者消费者,我们已经越来越习惯对话机器人提供的各色服务。但对于企业来讲,搭建提供这些服务…

关于vue中使用iconfont

1.进入iconfont图标库 2.点击下载 3.将下载文件解压拷贝至项目assets文件夹下 4.在main.js中全局引入 import ./assets/iconfont/iconfont.css5.在App.vue中使用 <span class"icon iconfont icon-****"></span>今天使用过程中按照这个导入还是一直会…

openoffice 安装 linux环境

文章目录一、安装配置启动1. 下载软件2. 上传文件3. 解压4. 安装rpm文件5. 安装openoffice6. 前台启动7. 后台启动8. 查看启动状态二、openoffice卸载与异常2.1. 删除openoffice2.2. 启动异常2.2. 解决方案2.3. 启动异常22.3. 解决方案2一、安装配置启动 1. 下载软件 https:/…

阿里巴巴大规模应用Flink的踩坑经验:如何大幅降低 HDFS 压力?

众所周知 Flink 是当前广泛使用的计算引擎&#xff0c;Flink 使用 checkpoint 机制进行容错处理[1]&#xff0c;Flink 的 checkpoint 会将状态快照备份到分布式存储系统&#xff0c;供后续恢复使用。在 Alibaba 内部我们使用的存储主要是 HDFS&#xff0c;当同一个集群的 Job 到…

云原生领域首本架构白皮书,你Get到了吗?

来源 | 《云原生架构白皮书》【导读】近日&#xff0c;由阿里云 20 位云原生技术专家共同编撰的《云原生架构白皮书》正式对外发布。作为业界第一本全方位构建云原生架构规划与实践全景图的白皮书&#xff0c;本书在详细阐述云原生架构定义的同时&#xff0c;完整展示云原生架构…

让机器读懂视频:亿级淘宝视频背后的多模态AI算法揭秘

背景 随着4G的普及和5G的推出&#xff0c;内容消费的诉求越来越受到人们的重视。2019年互联网趋势报告指出在移动互联网行业整体增速放缓的大背景下&#xff0c;短视频行业异军突起&#xff0c;成为“行业黑洞”抢夺用户时间&#xff0c;尽管移动互联网人口红利见顶&#xff0…

“崩溃!我再也不搞 AI 了”谷歌 AI 专家:别让你的方法打败你!

今天&#xff0c;想跟大家聊聊 Python 人工智能。最近几年&#xff0c;我看过市面上很多 Python和人工智能的教程&#xff0c;基本都是先介绍Python基本语法、dict、tuple 等基本库的使用&#xff0c;最后学习机器学习、深度学习的常用算法......但我与 Google 人工智能开发专家…

解决jodconverter 2.2.1 版本不支持docx、xlsx、pptx 转换成PDF格式异常

文章目录一、基础对比1.版本对比2.异常现象二、分析定位2.1. 找异常输出处2.2. 找异常源头2.3. api源头三、实现流程3.1. 思路3.2. 新建包重写类3.3. 完整类一、基础对比 1.版本对比 03版本office07版本及高版本office.doc.docx.xls.xlsx.ppt.pptx 2.异常现象 搭建好 Spring…