“东数西算”之五大热点问题探讨

1fdd3f3f9b6aa159ec8aea72a903750f.gif

"

“东数西算”无疑是2022年一大热词,产业界和学术界就该话题进行了深入的研究探讨。

"

整体上来看,“东数西算”的实施,一方面是为了更好地利用西部相对优惠的电力资源和优异的气候条件,推动数据中心的优化布局和产业整体的绿色低碳发展;另一方面希望借此带动西部的算力基础设施建设,促进当地信息化水平的提高和数字经济的发展。

4089cc96ccc192518ec0b2b14f2d74dd.jpeg

算力和数据是数字经济的核心驱动力

在数字经济时代,数据以几何级数增长,随之而来的是对强大算力的需求。“东数西算”从字面上看,是将东部的数据拿到西部计算。

数据来源于各种应用,当数据积累到一定的程度,且具有快速流转、多样类型和价值密度低等特征后,便成了大数据。从内容格式来看,大数据分成结构化数据、非结构化数据和半结构化数据,其中结构化数据主要是指关系型数据,非结构化数据主要是音视频文件等数据。从数据的使用频率来看,大数据主要分为热数据、温数据和冷数据。从存储角度来看,数据可采用文件存储、块存储和对象存储等方式。从数字世界的角度来看,以上所有的数据最终都会转变成0和1的二进制数字,在网络上传输并在芯片上计算、存储。

《中国算力白皮书(2022年)》显示,算力是数据中心的服务器通过对数据进行处理后实现结果输出的一种能力,最常用的计量单位是每秒执行的浮点运算次数(FLOPS)。算力由计算、存储和网络共同支撑实现,缺一不可。

从类型上分,算力主要包括通用算力、智能算力、超算算力。其中为人们所熟知的是CPU所提供的算力,例如网页浏览;普通人接触不多但是能享受到其服务结果的是GPU算力,例如电影渲染;更尖端的则是主要用于科研创新的超算算力,例如天气预报。日渐兴起的边缘算力是对基于计算所在位置维度的特定算力的统称,它可能包括通用算力和智能算力。由于应用和规模的关系,边缘超算算力存在的可能性几乎为零。

由于具有不可移动性,各类数据中心就是数据计算和存储的中心,存进去的是数据,传出来的还是各类数据。业界对是否所有大数据都适合拿到西部去计算的讨论也颇为热烈。总的原则是要根据大数据处理对时延的要求进行分类判断,对处理时延要求极高的大数据(例如金融交易、游戏等),应该就近进行计算,这也是“北上广”等地区数据中心供不应求的重要原因;对处理时延要求不高的大数据(如渲染、训练等),则可以拿到西部进行计算和存储。通过“东数西训”“东数西存”等方式,实现数据的差异化处理。

cc4fe9fc703c916522db8b09a547da72.jpeg

算力网络赋能“东数西算”

“东数西算”工程启动后,算力和网络这两个原本独立的词组成了“算力网络”这一新词,成为业界特别是电信运营商重点关注和研究的方向。

随着宽带通信和移动通信的发展,我国数据流量日益增长。据工信部统计,2015年,DOU(Dataflow of usage,每户每月上网流量)为200M左右;2021年DOU达13.36GB,暴涨60多倍。数据的大幅增长带动了对数据中心的庞大需求。据中国信息通信研究院统计,我国数据中心的在用机架数量从2011年的不到30万架,增长到2021年的520万架,10年期间增长近20倍。

数量如此之大的数据中心,使得原本主要为通信服务的网络,需要承担数据中心间的流量传输,于是数网协同被提上了议事日程。在此过程中,电信运营商通过第二平面的建设,重点保障高QoS的业务,满足了部分需求。例如中国电信的CN2,支持数据、语音、视频等多种业务融合的应用。

同一服务商的不同数据中心之间可以通过租用裸纤的方式建立DCI通道,但是随着数据流量的增大以及各类应用的发展,跨区域、跨服务商的数据中心网络互联需求日益强烈,算网协同就此进入专家的研究视野。通过网络的支撑,高效地调度不同服务商间的算力,形成算网协同的解决方案,是目前阶段业界努力的方向。算力和网络的协同程度如图1所示。

8d78c8fcc6c645f658944e53e4a9f6ee.png

图1 算力和网络的协同程度

集群间的网络联接主要是通过骨干网,其建设运营相对简单。我国的5G网络覆盖和千兆光网接入的能力已经进入全球前列,网络基础设施较为完善。“东数西算”工程的实施,将为算网一体的服务提供更多的应用场景,促进算力和网络的一体化发展。

8782893f2f1cb415062e4c64e07bd032.jpeg

算力资源不同于水电资源,传输的是数据

有人说“算力随处可取,像自来水一样拧开龙头就可以得到”,这个比喻很形象但不严谨。

水、电、气,其属性各不相同。水是物理存在的自然资源,通过管道运输,可以利用某些器皿进行储存;气也是物理存在的自然资源,通过管道运输,但是看不见摸不着,可以通过器具储存;电属于二次产品,需要风、光、水、煤等自然资源经过转换才能得到,通过电线传输。虽然近年来储能技术发展迅速,但总体看储存难度较大,性价比不高。

算力与水、电、气的特征比较如表1所示,通过对比不难发现,算力与水电、气、均不相同。算力是由数据中心产生,服务器在哪里,算力就在哪里。在服务器不换位置的情况下,它不可能移动也不能被传输。而且算力无法储存,如果某段时间内服务器没有使用,那么这段时间的算力也不可能存储起来供以后使用。

表1 算力与水、电、气的特征比较

abac64e3f10a30132a714d4286f5b09c.jpeg

因此,拧开龙头算力并不会流出来,流动的只能是数据,而算力更像是一个水池。数据源源不断地流进水池,一些数据留下了,另一些数据被处理后流出去,边缘数据中心的作用也是如此。由此可见网络在算力时代的重要性,没有网络,数据就无法流动,数据中心也就发挥不了作用,成为“没有生机的沙漠”。

8e6cc98771b09786bd0d368f1a9e5c23.jpeg

算力调度是高效利用算力资源的关键

众所周知,电网是可以调度的,“拉闸限电”是一种最直接的调度方式。这是由于电网发电机不能满足用电负荷需求,或输变电设备已无法承载更多的负荷,为保证电网或输变电设备安全,人为采取了去除负荷措施。与电力不同,算力无法移动、传输和存储,那么算力如何调度?

算力调度更多是指调用合理的算力去处理相应的数据,数据中心拥有多种算力,每种算力针对不同类型的数据。从计算类型来看,算力主要分为整型和浮点计算。整型计算适用于深度学习模型的推理运算;半精度计算适用于深度学习模型的训练运算;单精度计算多用于图形应用程序、图像处理和机器学习等;双精度浮点运算主要用于超算领域。这里的分类维度和通用算力、智能算力、超算算力不是一一对应的关系。一般来说,通用算力主要用来处理整型和半精度计算;智算算力更合适进行单精度计算;超算算力特别擅长双精度计算。各类算力中心重点处理的数据类型如表2所示。

表2 各类算力中心重点处理的数据类型

4f4ad17310cec4d48b1d0af70583367e.jpeg

基于智算算力的数据中心即为智算中心。现在业界对智算中心算力的宣传多集中于多少FLOPS或者OPS等。需要注意的是,在单位不统一、精度不统一的情况下,不同智算中心的性能指标是没有可比性的。

算力无法储存和传输,如果此时此刻的算力不能被利用,那么也就过期作废了。因此,如果要高效全面地利用好所有的算力资源(包括不同类型的算力、不同数据中心的算力、不同集群的算力),就需要通过统一的调度平台来实现统一的算力编排,并能在具有一定预期性的前提下,基于统一的算力定价机制完成算力的供给和使用,使得所有类型的算力都能“算”尽其用,所有的算力需求都能得到满足,使“数据”和“算力”达到一种理想的平衡状态。

cb750d366731e6db37558b8e77659826.jpeg

算力和能效

一直以来,大家只要聊起数据中心,必然会与高能耗结合起来看。从技术的角度看,数据中心的高能耗是由芯片带来的,因此除非芯片制程(如5nm)或者计算物质(如量子)有根本性变化,否则高算力对应高能耗是一个无法避免的事实。但是相比高能耗,大家更应该看到的是,基于数据中心的各种数字化应用给我们的工作和生活带来的便利,为企业数字化转型和国家数字经济发展贡献的发动机作用。

我国数据中心10年间增长近20倍,数据中心所消耗的能源绝对值一定是相应增长的,但是经研究,单位算力的能耗却是一直在下降的。2020年初《Science》刊登的《重新校准全球数据中心能耗估算》一文披露,从单计算实例来看,全球数据中心能耗强度自2010年以来每年下降20%。

PUE(电能利用效率)是业界公认的评判数据中心能效高低的指标。2022年11月,国家强制标准GB40879—2021《数据中心能效限定值及能效等级》正式实施,其中很重要的一条就是对PUE的要求。绿色低碳的深入发展,使得CUE(碳利用效率)也逐渐成为大家关注的焦点。

从数据中心整体的碳排放深入到IT设备的碳效指标,近期开放数据中心委员会(ODCC)发布的ODCC-2022-0500A《数据中心算力碳效白皮书》提出了一种服务器的算力碳效模型,定义如下:CEPS=C/S,其中C是碳排放量;S是服务器算力性能。通过测试和研究发现,随着算力的提升,不同芯片的碳排放增长曲线各不相同。

6eb4fc6fbef5344d5a13cca8ae833054.png

图2 服务器使用阶段内算力碳效实测值

服务器使用阶段内算力碳效实测值如图2所示,测试结果显示,在服务器使用周期为5年的情况下,单位算力性能的碳排放量在20kg~60kg之间。由于IT设备特别是服务器在数据中心能耗中占比极大,数据中心的碳排放将在很大程度上取决于服务器和芯片,这逐渐成为数据中心绿色低碳发展的关键。

算力日渐成为新时代的新型生产力,成为数字经济发展的引擎。在算力的发展过程,可能会遇到各种各样的问题。通过对这些问题的分析和研究,能让我们对算力有更清晰的认识,也能更好地推进产业发展和“东数西算”落地。

*本文首发于《通信世界》

2022年12月10日  第23期  总第909期

END

作者:中国信息通信研究院云计算与大数据研究所 郭亮

责编/版式:沈新竹

审核:申晴

监制:刘启诚

98c70d38fb1c637e973a0f33237261f8.png

9ee1a785307f436e0e5db0e5e534bce3.png

我就知道你“在看”

218e0b959e265da4ceefdd3962410d4f.gif

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/481322.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

科普一下人工智能领域的研究方向

路人甲:“你是学什么的?” 小夕:“学计算机嗒~” 路人甲:“哦哦,那你ps肯定很厉害!” 小夕:“我不会,我是做人工智能的。” 路人甲:“哦哦,做机器人的啊&…

编程神器Copilot被官司搞怕了?月收费19美元的商业版将提供辩护服务,最高索赔50万美元...

来源:AI前线作者:凌敏、核子可乐Copilot 的商业化“虽迟但到”。GitHub 推出商业版 Copilot据外媒 theRegister 报道,GitHub 旗下的 AI 编程神器 Copilot 现已推出商业版本,每月收费 19 美元(约合 133 元人民币&#x…

【激萌】人工智能大地图-生存能力篇

小屋的喵喵们,讨论室的投票明天就要截止了,还没有投票的喵喵快来啦。通过口令[d]或者主界面下方“喵了个咪”菜单即可进入讨论室哦。本文的封面图还是小夕设计的哦~喜欢吗(⁎⁍̴̛ᴗ⁍̴̛⁎)路人甲:“你是学什么的?”小夕&#…

Nature经典回顾:大脑中统一的物体空间模型

导语大脑能够轻而易举的完成物体识别,这一过程主要在大脑的下颞叶皮层进行。研究已经发现下颞叶皮层存在面孔、身体、场景等类别选择性区域,然而,仍有大部分下颞叶皮层未发现已知的功能特异性。这就带来一系列问题:未被理解的大片…

小夕说,不了解动态空间增长的程序喵都是假喵(下)

小夕在本系列前两篇文章中为大家介绍了各类数据结构的扩容策略,且在上篇文末,小夕提到了加倍式扩容中,倍率采用2并不是最优的,为什么呢?有没有最优倍率呢?内存复用如果倍率采用2甚至更大的数,那…

ChatGPT 与AI大模型发展简要综述

来源:数据观综合编辑:蒲蒲"日前,美国硅谷的初创公司OpenAI推出了一款新的人工智能对话模型ChatGPT,模型中首次采用RLHF(从人类反馈中强化学习)方式。目前,模型处于测试阶段,用户…

Nature Reviews Physics:人工智能怎样促进科学理解

导语一个能正确预测每个粒子物理实验结果、每个可能的化学反应产物或每个蛋白质的功能的先知将彻底改变科学和技术。然而,科学家们不会完全满意,因为他们想了解先知是如何做出这些预测的。这就是科学理解(scientific understanding&#xff0…

史上最萌最认真的机器学习/深度学习/模式识别入门指导手册(一)

喵喵喵~大家元宵节快乐噢。有没有要陪小夕出去看烟花的吖...小夕借此给热爱学习的喵喵们献上这篇拙文,希望不要嫌弃哦~还有,小夕画的封面图是不是很棒呀( ̄∇ ̄)小夕发现现在想进军人工智能领域的程序yuan甚至少年少女喵好多呀&…

OpenAI ChatGPT走红,DeepMind不甘示弱,推出剧本写作AI,一句话生成一个剧本

来源:机器学习研究组订阅Dramatron似乎在一定程度上克服了AI大模型写长剧本前后不连贯的问题。你是否有过这种体验:某一天逛街的时候,脑子里突然冒出来一个好玩的故事,但你一时想不到更多的细节,也没有一块完整的时间去…

[完结]以C++与Java为例,详解数据结构的动态增长策略

前言 本文改编自小夕的订阅号文章《【萌味】小夕说,不了解动态空间增长的程序喵都是假喵(上)》、《【萌味】小夕说,不了解动态空间增长的程序喵都是假喵(中)》、《【萌味】小夕说,不了解动态空间增长的程序喵都是假喵(…

量子计算机创造了虫洞吗?不完全是,但揭示了量子模拟的未来

来源:光子盒研究院最近,科学家们因据称产生了一个虫洞而成为头条新闻。发表在《自然》杂志上的这项研究使用量子计算机在简化的物理模型中模拟虫洞。消息传出后不久,物理学家和量子计算专家对虫洞是否真的存在表示怀疑。这是怎么回事&#xf…

复旦大学邱锡鹏教授:语言模型即服务,走向大模型的未来

来源:智源社区作者:智源社区整理:周致毅人类一直期待AI能在处理自然语言方面大放异彩,语言大模型在近些年已逐渐成为NLP领域的标配。随着模型的扩张,当前大模型的调用已变成上游厂商开放API供下游使用的模式。这一模式…

史上最萌最认真的机器学习/深度学习/模式识别入门指导手册(二)

谢谢你们。小夕昨晚又熬夜被发现了,谢谢对小夕的关心...有你们陪着,小夕很幸运。路人乙:“小夕,别人都说上完coursera上的那门机器学习课就已经入门机器学习了,可你又不这样认为。那你认为上完那门课,或者说…

计算机史上首篇教你从算法问题提炼算法思想的文章

路人丙:“小夕,你说学算法有什么用呢?”小夕:“好玩呀。”路人丙:“算法问题那么多,现查现用不就好了?”小夕:“好咯,既然你诚心诚意的问了~小夕就大发慈悲的震惊你(&…

美国能源部正式宣布核聚变里程碑式突破,专家点评商业化还需数10年

来源:澎拜责任编辑:郑洁图片编辑:张同泽校对:施鋆耗资35亿美元的美国国家点火装置用了10多年时间不断冲击点火目标,过程一波三折。成功点火后有两条路可走。一是冲刺更高的能量增益,未来或将再建更大能量的…

Science:找到杀死癌细胞的“单词”

来源:生物通利用新的机器学习技术,加州大学旧金山分校(UCSF)的研究人员与IBM研究院的一个团队合作,开发了一个包含数千个细胞“命令句”的虚拟分子库,基于引导工程免疫细胞寻找并不知疲倦地杀死癌细胞的“单词”组合。预测模型允许…

拼写校正与动态规划的小故事

喵喵喵,细心的你有没有发现小夕已经将卧室和书房精装修了呢~可以输入口令【ho】,或者点击主页的“旧的故事”标签进入哦。一个小现象小夕今天给大家讲一个自然语言处理/信息检索领域的小现象~细心的同学可能发现啦,每当你在使用某度进行搜索时…

《物理世界》公布2022年度十大突破

来源:科技日报近日,英国《物理世界》杂志公布了2022年度十大突破,涵盖从量子、医学物理学、天文学到凝聚态物质等各个方面。这十项突破是由《物理世界》编辑小组从今年在该杂志网站上发布的涵盖物理学所有领域的数百项研究中精选出来的。开创…

飞行器真的是计算机!

小夕在一边默默的玩弄心爱的小四轴(飞行器)。路人丁:“小夕,你不是学计算机的吗?怎么玩起飞机来了?”小夕:“对呀,小四轴也是计算机呀”。路人丁:诶?会不会有…

谷歌员工担心自家 AI 敌不过 ChatGPT,高管回应:其过快发展可能损害公司

来源:AI前线整理:冬梅、核子可乐谷歌的 Jeff Dean 表示,一旦提供错误信息、大企业所面临的“声誉风险”要比小公司更严重,所以谷歌自然“比小型初创公司更加保守”。自 11 月底以来,AI 聊天机器人 ChatGPT 正式向公众发…