云未来、新可能 - 绿色、无处不在、可信的计算

简介:阿里云资深技术专家、容器服务研发负责人易立在大会主论坛进行了主题为 “云未来,新可能” 的演讲,分享了阿里云基于大规模云原生实践下的技术趋势判断和技术创新进展。

2021 年 12 月 9 日至 10 日,KubeCon + CloudNativeCon + OpenSourceSummit China 2021 在线上举办。阿里云资深技术专家、容器服务研发负责人易立在大会主论坛进行了主题为 “云未来,新可能” 的演讲,分享了阿里云基于大规模云原生实践下的技术趋势判断和技术创新进展。
以下为分享全文实录。

图片 1.png

易立,阿里云资深技术专家、容器服务研发负责人

大家好,我是阿里云易立,目前负责容器服务产品线,也是 CNCF governing board 的成员。这是第二次在 KubeCon 与大家在线上交流。今天,我会分享阿里云在云原生领域的实践和思考,以及我们对未来的一些判断。

云原生 - 数字经济技术创新基石

2020 年以来,新冠疫情改变了全球经济的运行与人们的生活。数字化的生产与生活方式成为后疫情时代的新常态。今天,云计算已经成为社会的数字经济基础设施,而云原生技术正在深刻地改变企业上云和用云的方式。

阿里云对云原生的定义是应云而生的软件、硬件和架构,帮助企业最大化获得云价值。具体来说,云原生技术给企业带来 3 个核心的业务价值:

1. 敏捷高效 - 更好支持 DevOps 提升应用研发和交付效率,提升弹性和资源利用率。帮助企业可以更好应对环境变化,降低计算成本。

2. 加强韧性 - 利用容器技术可以简化业务上云,更好支撑微服务应用架构;进一步加强 IT 企业基础设施和应用架构韧性,保障企业业务连续性。

3. 融合创新 - 5G,AIoT,AR/VR 等新技术快速发展,云原生技术让计算无处不在,可以更好地支持的新的融合计算形态。

如果说云原生代表了云计算的今天,那么云计算的未来会是什么样?

云未来,新可能

数据中心作为数字经济的动力引擎,其能耗增长已成为云计算发展中不可忽略的问题。据报道,2020 年数据中心耗电量超过国内总用电量的 2.3%。而且占比将逐年增加。阿里云在身体力行地推动绿色计算,比如利用浸没式液冷服务器来降低数据中心 PUE。除此之外,我们看到数据中心的计算效率也有很大提升空间,据统计,全球数据中心的平均资源利用率不到 20%,这是巨大资源和能源浪费。

而云计算的本质,就是把离散的算力,聚合成更大的资源池,通过优化的资源调度,充分削峰填谷,提供极致的能效比。

新一代统一资源调度助力绿色计算

在阿里集团实现了全面上云之后,我们启动了一个新的计划——利用云原生技术,对阿里集团分布在全球数十个地域的数千万核的服务器资源,进行统一资源调度,全面提升利用率。通过阿里集团、阿里云众多团队的努力,今年双 11,统一调度项目交出了一份闪亮的答卷!

图片 2.png

基于 Kubernetes 和阿里自研的统一调度器 Cybernetes,通过一套调度协议、一套系统架构,对底层的计算资源进行智能化调度,向上支撑多种工作负载的混合部署,在保障应用 SLO 的前提下,提升资源利用率。让电商的微服务、中间件等应用,搜推广、MaxCompute 的大数据和 AI 业务,全部运行在统一的容器平台基础之上。为阿里集团每年可以减少数万台服务器算力的采购,带来数以亿计的资源成本优化。

其中单集群规模超过上万节点、百万核。任务调度效率达到每秒 2 万个,满足搜索、大数据、AI 等高吞吐、低延迟业务调度编排需求,性能卓越。统一调度帮助阿里双 11 大促成本降低 50%,生产环境常态化 CPU 利用率 65%。

云原生 “Green AI” 应对 AI 大模型训练的挑战

多模态预训练 AI 大模型被广泛认为是迈向通用人工智能的关键路径。

大家熟知的 GPT-3,拥有千亿级参数,在某些自然语言理解领域可以实现比肩人类的处理能力。阿里巴巴达摩院最新发布的超大规模预训练模型 M6 已经进入了 10 万亿参数时代。M6 拥有多模态的中文任务处理能力,尤其擅长设计、写作、问答,在电商、服装、科学研究等领域有广泛应用前景。

Kubernetes 对深度学习任务的支持已经逐渐成熟。然而,超大规模模型训练依然面临着严峻的挑战。万亿级参数模型训练,动辄需要数千张 GPU、数十 T 显存的计算资源,花费数十天才能完成训练。

为了应对这些挑战,Cybernetes 在原生 Kubernetes 基础之扩展了面向大规模 AI 任务调度能力。通过高效的异构算力调度,数据感知和访问加速,有效提升了 GPU 计算效率;通过错峰调度,充分利用集群空闲资源。支撑了云原生的 PAI-Whale 框架高效的并行模型训练。

图片 3.png

M6 最终实现了仅用 512 张 GPU,在 10 天内可训练出十万亿规模的超大模型。极大提升模型训练的效率和资源利用率。与国际同等规模模型相比,能耗降低超过八成,真正实现了绿色 AI。

云边端协同实现无处不在的计算

随着 5G、物联网、AR/VR 等新技术的不断成熟,数字世界与物理世界在进一步融合。

OpenYurt 是业界首个开源的“零侵入的”云原生边缘计算项目,去年 11 月成为 CNCF Sandbox 项目。

图片 4.png

边缘计算面临着算力分散、资源异构以及弱网连接等技术挑战。Openyurt 基于 Kubernetes 构建了云边协同计算框架。在过去两年已在视频直播、云游戏、物流交通、智能制造、城市大脑等众多行业落地。

今年,我们希望以云原生的方式来实现设备孪生,高效地解决物联网场景下海量分布式设备的管理和运维挑战。经历了 OpenYurt 与 EdgeX Foundry 社区, VMWare、Intel 等工程师的合作,实现对端设备和应用管理的统一建模和统一管理。下面我将为大家介绍一个利用 OpenYurt 实现无处不在计算的案例。

图片 5.png

机场运营效率对满足日益增长的客流物流需求至关重要,与此同时机场安全性方面的挑战也愈发突出。在智慧机场项目中,通过 OpenYurt 构建的云边端一体化架构,完成摄像头、传感器、边缘 AI 一体机等构筑的机场感知层,和基于云平台搭建全局统一管理和大数据平台,从而实现机场全局数据共享和分析,进而实现机场全景视频拼接、安全的全域监控、物理可视全视野等能力。

隐私增强计算护航数据安全

随着移动互联网、物联网的快速发展,无处不在的计算时刻产生着海量信息。如何让基础设施更加可信,保障隐私数据不被窃取、篡改、滥用成为重要的挑战。随着国家《数据安全法》的施行,隐私增强计算业务得到了业界越来越多的重视。

据 Gartner 预测,到 2025 年,60% 的大型机构将采用 “隐私增强计算技术” 来处理不可信环境或多方数据分析用例中的数据。

隐私增强型计算中一个重要的技术分支,是通过基于硬件的可信执行环境 TEE 实现数据保护。TEE 的安全性是基于边界的安全模型,它的安全边界非常小并且存在于硬件芯片本身,使 TEE 内执行的应用,不再担心来自其他应用、其他租户或者平台方的威胁。 

图片 6.png

将容器与可信执行环境相结合的机密容器技术,进一步提升了对敏感信息的保护。一方面容器与完整的 OS 相比,攻击面更小,另一方面基于容器的安全软件供应链可以保障应用来源的可信、可追溯。

Inclavare Containers 是阿里开源的,业界第一个面向机密计算的容器运行时项目。今年 9 月成为 CNCF 沙箱项目。机密容器可以将机密计算底层系统的全部复杂性都隐藏起来,遵循既有的云原生标准化接口和规范,兼容现有的生态。这将加速这项技术的普及。在社区中协作中,我们看到来自 Kata Container 社区的工程师也在探索相关方向。

图片 7.png

正如图中所示,由 Inclavare Containers 项目支持的 SGX 机密容器和由 Kata Confidential Container 项目支持的基于 MicroVM 的机密容器,在技术形态上具有高度的相似性。为此,两个项目的开发者在积极进行合作,通过互相复用彼此的技术组件,最大化了技术价值,并为不同的 TEE 实现实现统一的开发者体验。这也正体现了开源社区的力量。

从技术角度来看,相比于 runC 和 Kata 容器运行时,包含了敏感数据的容器镜像需要事先进行加密和数字签名;镜像的下载过程在 TEE 内进行,来确保镜像解密过程的安全性;相关密钥会通过机密计算特有的远程证明机制所建立的安全可信信道传递到 TEE 中,以确保其内容不会被泄露和篡改;最后,整个机密容器在运行时都运行在硬件防护的 TEE 中,其计算过程中的数据在内存中是加密的,并受完整性保护。

通过云原生技术普及数字化信任,还是一个新兴的技术领域,非常期待大家一起共建!

加速云原生人才梯队培养

我们相信任何一项新技术的发展和普及,都要依靠专业的人才去驱动。作为云原生领域的实践者和先行者,阿里云非常重视通过自身的经验沉淀,为开发者赋能。
今年 8 月,阿里云与 Linux 开源软件学园、CNCF 共同发布 “云原生人才培养计划 2.0” ,在生态的合力下,通过开放技能图谱、专业课程、认证福利等方式,共同培养云原生专业人才。我们也欢迎更多的开发者小伙伴们一起踏上云原生的学习之路。

图片 8.png

再次感谢大家的观看,我们相信绿色、无处不在、可信的云计算将进一步推动产业发展,帮助我们实现更加美好的明天。

原文链接
本文为阿里云原创内容,未经允许不得转载。 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/511768.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

线上教育核心竞争力是什么?声网发布在线素质、职业教育解决方案

5月11日,声网在线上举办了主题为“聚焦场景力,释放生态力”的在线教育发布会,正式发布了新生态下在线教育多场景教学解决方案,包括在线音乐、在线美术、在线职业教育、在线编程、Stem在线教学解决方案。同时为兼顾降低教学场景研发…

ClickHouse Keeper 源码解析

简介:ClickHouse 社区在21.8版本中引入了 ClickHouse Keeper。ClickHouse Keeper 是完全兼容 Zookeeper 协议的分布式协调服务。本文对开源版本 ClickHouse v21.8.10.19-lts 源码进行了解析。 作者简介:范振(花名辰繁)&#xff0c…

pidof -x 不管用_专业摄影师最佳助手富士X-T200评测

作为X-T100的升级款,X-T200可谓是一经发布就受到了众多关注。相对来说,前作X-T100我们认为已经足够出色,而这次的富士X-T200又有多方面的提升,尤其是视频及视频对焦性能。关于这款机器实际的表现究竟如何我们接下去看。富士X-T200…

Oracle数据到MaxCompute乱码问题详解

简介:集成Oracle数据到MaxCompute,乱码问题分析; 为什么,在oracle数据不乱码,集成到MaxCompute就乱码了? 问题在哪里? 1.1 乱码现象 DataWorks的数据离线集成(DataX)集成Oracle数据到MaxCompute的数据有…

Gartner:2022年全球半导体收入预计将增长13.6%

半导体元件供应链所受到的限制预计将在2022年逐步缓解 根据Gartner的预测,2022年全球半导体收入预计将达到6760亿美元,相比2021年增长13.6%。 Gartner研究副总裁Alan Priestley表示: “由于芯片短缺而引发的半导体平均销售价格(AS…

V8 编译浅谈

简介:本文是一个 V8 编译原理知识的介绍文章,旨在让大家感性的了解 JavaScript 在 V8 中的解析过程。 作者 | 子弈 来源 | 阿里技术公众号 一 简介 本文是一个 V8 编译原理知识的介绍文章,旨在让大家感性的了解 JavaScript 在 V8 中的解析过…

rabbitmq接收不到消息 防火墙_用PHP+RabbitMQ实现消息的发送和接收

消费者&#xff1a;接收消息逻辑&#xff1a;创建连接-->创建channel-->创建交换机-->创建队列-->绑定交换机/队列/路由键-->接收消息<?php /************************************* * PHP amqp(RabbitMQ) Demo - consumer * Author: Linvo * Date: 2018/7/…

斩获大奖|阿里云PolarDB-X引领云原生分布式数据库新时代

简介&#xff1a;阿里云原生分布式数据库PolarDB-X荣获“2021年度最佳分布式数据库”。 12月15-16日&#xff0c;以“引领分布式云变革 助力湾区数字经济”为主题的全球分布式云大会在深圳隆重召开&#xff0c;本届大会由全球分布式云联盟、深圳科技交流服务中心、深圳市通信学…

Gartner:2022年中国IT支出预计将突破5.5亿美元

2022年全球IT支出预计将达到4.4万亿美元&#xff0c;2022年中国IT支出预计将突破5.5亿美元&#xff0c;相比2021年增长7.76% 分析、云计算、无缝客户体验和安全等领域将成为首席信息官的重点采购和投资领域 根据Gartner的最新预测&#xff0c;2022年全球IT支出预计将达到4.4万亿…

深度 | 从DevOps到BizDevOps, 研发效能提升的系统方法

简介&#xff1a;研发效能提升不知从何下手、一头雾水&#xff1f;阿里资深技术专家一文为你揭秘研发效能提升的系统方法。 注&#xff1a;本文是对云栖大会何勉分享内容的整理 这几年“研发效能”一直是热词&#xff0c;很多组织都会启动研发效能提升专项。我与其中的很多有过…

mac mysql 链接_mac上搭建mysql环境配置和Navicat连接mysql

mac上搭建mysql环境配置注意&#xff1a;mysql版本要和你的MAC版本保持一致2、一路傻瓜式点击下一步此处选择“Use Legacy Password Encryption”&#xff0c;否则使用navicat连接mysql的时候&#xff0c;会报无法加载身份验证的错误。3、环境配置打开终端&#xff0c;输入&…

io_uring vs epoll ,谁在网络编程领域更胜一筹?

简介&#xff1a;从定量分析的角度&#xff0c;通过量化 io_uring 和 epoll 两种编程框架下的相关操作的耗时&#xff0c;来分析二者的性能差异。 本文作者&#xff1a;王小光&#xff0c;「高性能存储技术SIG」核心成员。 背景 io_uring 在传统存储 io 场景已经证明其价值&a…

Redis 为何使用近似 LRU 算法淘汰数据,而不是真实 LRU?

作者 | 码哥呀来源 | CSDN博客在《Redis 数据缓存满了怎么办&#xff1f;》我们知道 Redis 缓存满了之后能通过淘汰策略删除数据腾出空间给新数据。淘汰策略如下所示&#xff1a;redis内存淘汰设置过期时间的 keyvolatile-ttl、volatile-random、volatile-lru、volatile-lfu 这…

量化感知训练实践:实现精度无损的模型压缩和推理加速

简介&#xff1a;本文以近期流行的YOLOX[8]目标检测模型为例&#xff0c;介绍量化感知训练的原理流程&#xff0c;讨论如何实现精度无损的实践经验&#xff0c;并展示了量化后的模型能够做到精度不低于原始浮点模型&#xff0c;模型压缩4X、推理加速最高2.3X的优化效果。 1. 概…

此表单只能填写一次_暴雪战网国服账号修改邮箱只能填写表单申请

暴雪战网国服账号只认身份信息&#xff0c;注册必须实名&#xff0c;而且实名信息千万不要乱填&#xff0c;不然账号出现问题&#xff0c;需要上传证件图片的&#xff0c;客服会核实与注册实名内容是否一致&#xff0c;不然无法帮助玩家解决一些问题。国服账号邮箱没有什么权限…

贾扬清演讲实录:一个AI开发者的奇幻漂流

简介&#xff1a;2021阿里灵杰AI工程化峰会&#xff0c;贾扬清深度解读阿里灵杰大数据和AI一体化平台。 演讲人&#xff1a;贾扬清 演讲主题&#xff1a;一个AI开发者的奇幻漂流 活动&#xff1a;2021阿里灵杰AI工程化峰会 对于绝大多数人来说&#xff0c;这一波AI浪潮兴许…

上云避坑指南100篇|「云」上玩法虽多,小心水土不服

商业智能BI发展至今&#xff0c;从市场增速来看&#xff0c;我国已进入 BI 及 DA&#xff08;数据分析&#xff09;领域的第一方阵&#xff0c;并成为发展最快的国家之一。 IDC 数据显示&#xff0c;2020 年中国商业智能软件市场规模为 5.8 亿美元&#xff0c;同比增长 17.1%&a…

如何基于LSM-tree架构实现一写多读

简介&#xff1a;传统MySQL基于binlog复制的主备架构有它的局限性&#xff0c;包括存储空间有限&#xff0c;备份恢复慢&#xff0c;主备复制延迟等问题&#xff0c;为了解决用户对于云上RDS(X-Engine)大容量存储&#xff0c;以及弹性伸缩的诉求&#xff0c;PolarDB推出了历史库…

Dubbo-go v3.0 正式发布 ——打造国内一流开源 Go 服务框架

简介&#xff1a;Dubbo-go 是常新的&#xff0c;每年都在不断进化。介绍 Dubbo-go 3.0 工作之前&#xff0c;先回顾其过往 6 年的发展历程&#xff0c;以明晰未来的方向。 作者 | 李志信 来源 | 阿里技术公众号 作者介绍&#xff1a; 李志信&#xff08;github laurencelizhix…

谁还没经历过死锁呢?

作者 | 敖丙来源 | 敖丙之前刚学习多线程时&#xff0c;由于各种锁的操作不当&#xff0c;经常不经意间程序写了代码就发生了死锁&#xff0c;不是在灰度测试的时候被测出来&#xff0c;就是在代码review的时候被提前发现。这种死锁的经历不知道大家有没有&#xff0c;不过怎么…