2020年11月7日,以“5G·边缘计算“为主题的全球边缘计算大会在北京新世界大酒店成功召开,作为业内首个专门为边缘计算人打造的行业盛会,此次活动现场共有超过600+来自政、产、学、研、用各界的企业负责人、权威技术专家、通信科技从业者、边缘计算研究者、边缘计算投资机构等参会,共话5G·边缘计算议题及真知见解,反响十分热烈。
阿里云资深技术专家李克受邀参与大会,与现场嘉宾一起探讨边缘计算的技术趋势以及未来的挑战,并分享了阿里云在5G边缘云层面,是如何结合运营商的优势资源,为行业提供广覆盖、低成本、高可靠的边缘云计算基础设施。
边缘计算的发展趋势
边缘计算在过去的二十年经历了一个轮回,最开始大家可能没有感知到,其实早在1999年互联网爆发的时候,我们就使用了边缘节点资源,因为当时大量租用各种IDC机房。应用部署在这种机房时,在覆盖全国访问上是存在问题的,所以在这个时代出现了最早的边缘计算的产品,就是CDN内容分发网络,CDN通过缓存的技术能够把内容快速推到距离客户最近的节点,这就是第一代的边缘计算形态。
后来随着云计算的兴起,2009年阿里云成立,自建超大规模的数据中心成为趋势,通过资源的池化提供标准的虚机、存储、网络、数据库等基础云计算的技术服务和中间件产品,通过集中式资源建设,能够实现复用和稳定性的提升。
最近两三年,边缘计算又一次兴起,阿里云在2018年就提出边缘云计算的白皮书,2019年针对边缘云计算做了技术标准行业制定,并对外提供了边缘云计算的产品,所以回过头来看整个发展是一个轮回的过程。
分析最近几年边缘计算的出现的原因,主要有两方面:一个是场景的需要,另一个是成本的需要。
在场景层面,5G商用在即,60多万基站已经建设好了,未来5G的接入和各种应用都会雨后春笋般地出现。而5G的特点就是大流量、低延迟、大连接,这些特征传统的数据中心是不能满足的。大流量方面,在数据爆炸的年代,所有数据都涌向数据中心的话,会把中心机房的入口打爆。因为数据中心和端之间物理距离的存在,很难做到10毫秒以内的低延时。大连接方面,随着IoT智能设备的普及,未来终端的规模量级暴增,需要分而治之,借助更多的边缘节点提供大连接的解决方案。5G和边缘云计算两个场景合在一起,需要在中心云和设备端之间打造边缘云的平台,能够起到承上启下的作用,实现上下传输和能力互通。
在成本方面,云计算客户看重的就是成本、效率和稳定性,成本是边缘计算一个非常大的优势,自建数据中心需要投入大量的硬件,后续的运维和升级都要较高的成本。而边缘节点就会比较灵活,节点可以是小规模的,机器或者网络的SLA可以降低,这个过程中边缘云计算在成本方面就存在优势。用某城市大脑项目举例,分析成本构成时,超过一半都是带宽成本,去数据中心机房的话成本是非常高的,另外计算也是可以进行下沉的,在边缘进行原始数据处理,处理以后再回到云中心,我们测算过,当数据量降低到百分之五,就可以节省一半的总体成本。
李克认为,中心计算和边缘云计算需要融合起来,面向5G时代,提供新应用场景和垂直化业务场景的解决方案。中心云计算依然会存在,也有非常超强的计算、存储以及弹性能力,但边缘云计算作为中心的延伸可以把计算和存储能力下沉,屏蔽掉资源的异构化和地理差异,提供透明化的、一致的服务体验。
边缘云技术面临的核心挑战
因为边缘云计算的机房分布在距离用户近的省市级或者更下沉的MEC节点之中,这些资源本身SLA不如数据中心那么稳定,要在不稳定的资源上面构建稳定的服务,技术上就会有非常多的挑战。
首先是资源管理,一方面资源形态是不统一的,各个节点的网络环境、机型以及稳定性都是不一致的,需要针对不同的资源统一建模提供服务。比如要统一管理CPU、 GPU资源,也需要有针对ARM的解决方案。另外一方面资源规模也会飞速增长,随着资源的进一步下沉,要在基站附近的MEC节点或者更多的合作节点运行边缘云的操作系统,这些资源都要纳入起来,预计会达到百万的量级,所以针对资源管理是一个非常大的挑战。
其次,资源的高效使用,这时候就需要统一的融合计算的平台,在这个平台上把资源进行池化,提供不同的服务形态,比如虚机、容器和Serverless,这些都是需要对外提供服务的。
第三是云边协同,单个节点能力是有限的,需要把节点能力和其它节点整合起来,和中心联动,形成统一的管控,所以云边协同是一个非常重要的技术点,边缘协同也包含边缘的自治能力,就是边缘出了问题之后怎样跨节点迁移,边缘上的伸缩应该怎样去做。
最后是,统一的底层网络,所有的边缘节点之间,以及边缘和中心之间需要一个统一的传输网络,能够提供稳定可靠、质量成本最优的的体验,这里会涉及到协议栈优化、私有协议以及动态选路和组网技术。
“在资源管理上,我们充分拥抱云原生,阿里云在边缘已经落地云原生的能力,就是利用云原生实现资源的抽象和纳管,以容器作为主要的服务载体,并在上面进行内外部业务的交付。”
容器可以很方便地实现多个用户之间的隔离,资源的弹性伸缩以及应用的注册、发现、编排、发布,节省了大量的开发、运维的成本。因为云原生也是一个比较标准的生态,所以客户的接受程度是非常高的。图中就是云原生大致的分层,底下是边缘云,包括节点的基础能力以及对资源的切片能力,上面是基于容器平台管理这些资源,容器平台本身也是分层的,单一的k8s是很难管理这么多节点的,多层体系需要把控制指令和调度指令非常好地进行统一调度和生产。
在云-边-端协同网络上,需要实现分层设计,如果不对流量做控制的话,整个流量在网络当中是非常复杂的,很容易出现雪球效应,所以需要依据节点的位置、端到节点的延迟分成不同的层次,不同的层次的节点需要承载的流量体量是不一样的,需要提供的能力和技术点也是不太一样的。
最靠近客户的就近的节点,需要解决的是终端准确找到接入点,确保安全和最佳质量。上层的ENS节点需要做好广覆盖,确保资源能够下沉到省市、地区粒度,再往上的核心节点需要能够做好全局的流量调控和网络加速。通过对于整个流量的分层切分,边缘云计算可以实现公共云、边缘云和终端之间类似于高速公路的效果。
有了云、边、端的网络,阿里云打造了一张基于分布式节点之间的统一网络。该网络在使用上是透明的,在传输上是安全的,在协议上是多样的,在质量上是加速的,在成本也是可控的。
为什么阿里云做边缘云计算有一定的优势?
李克认为,首先,阿里云有比较好的资源覆盖,2800+边缘节点和130T带宽储备已经在那里,基于已有的资源再做边缘云计算不需要太大的成本投入。其次,可以将阿里云本身多年的云计算技术做下沉,继续拓展到边缘。第三,在业务驱动维度,阿里巴巴集团有丰富的生态体系以及海量外部客户,会产生大量的边缘诉求。以上三点结合起来,阿里云在边缘计算方面是有比较好的先发优势。
“实际上边缘云计算要做的一方面是把中心云的计算资源下沉,另一方面是把边缘端上的计算需求上移。我们希望计算发生在应该去的那个地方,能够以最低的成本、最好的效能来提供。"
云端算力的下沉最典型的例子就是转码,可以利用边缘上的空闲时间和CPU来做大量的转码服务,数据分析也可以在边缘上做大量的数据卸载。终端算力上云前面也有嘉宾介绍过,类似于云游戏、云应用,这些场景都是实现终端算力的上移,端上的芯片可以不用那么强,只要有流化显示能力就可以了,应用的启动、运行、视频渲染这些事情都可以交给边缘计算资源。
阿里云在2017年,就开始进行边缘云节点预研,2018年和2019年进行大规模部署,从覆盖省的维度慢慢下沉到覆盖市的维度,未来也会有大量的运营商MEC节点之上的合作。在2019年,阿里云边缘计算提出城市计算的概念,基于城市中的新零售、智能交通、新制造等各个场景来打造平台能力,包含:容器平台云原生的能力、偏视频计算的平台、GRTN全球实时通信的能力等等。
边缘节点服务(ENS)
边缘节点产品能力从计算上来讲就是多阶计算服务,支持虚机、容器、Serverless三种计算形态;存储方面提供块存储、对象存储、文件存储等等形态,以及基于CDN抽象出来的KV存储的能力;在网络上支持节点之间的跨网组网以及数据交换的能力,包括节点之间不同的网络切分能力;安全上提供内容安全、主机安全等等能力;最终,整个自动化纳管程度也非常高,资源可以快速进入到库存当中,资源能够比较快地生产出来,基于应用管理系统来做全网的统一部署。
下图是阿里云边缘节点服务(ENS)整个平台化的结构,最下面的是设备的基础设施,上面的是对接基础设施做抽象,提供计算能力的IaaS的服务,再往上是基于PaaS平台基于客户提供复合场景的接口和能力。整个发展基调就是向下希望纳管更多的资源,向上更加贴近客户的场景,然后在整个体系当中做到统一的纳管、统一的调度、和统一的生产。
未来,随着场景和生态越来越丰富,大家对于云边端之间能力的要求是越来越高的。边缘云计算处在上下之间,是需要坚持标准、开放的原则,以此促进整个生态健康快速地发展。
在分享的最后,空见表示:阿里云底层的算力是希望能够开放合作,容纳更多的合作资源。中间通过边缘云操作系统,能够实现统一的分布式融合计算的平台。上层能够开放API,提供符合业务需要的通用能力。其实云计算也好、边缘云计算也好,永远都是为业务场景服务的。就像3G出现的时候移动互联网开始发展,4G出现的时候视频行业就开始爆炸式增长,5G出现在低延时、大连接、大流量的场景一定会有颠覆性的应用出现,现在还是在探索的阶段,到了那个时候,我们希望边缘云计算技术能够做好准备,迎接风口的到来。
原文链接
本文为阿里云原创内容,未经允许不得转载。