阿里云ECI如何6秒扩容3000容器实例?

简介: 2021年云栖大会现场,阿里云工程师演示了在6秒时间内成功启动3000个ECI,并全部进入到Running状态。本文将为你揭开阿里云ECI是如何做到极速扩容的。

引言

根据最新CNCF报告,有超过90%的用户在生产环境使用容器,并且有超过80%的用户通过Kubernetes管理容器。是不是我们的生产环境上了K8s就完美解决了应用部署的问题?IT界有句俗语,没有什么是万能的,K8s也不是万能的,K8s解决了应用的编排和调度,但没有解决资源容量的限制、没有解决容器的安全隔离,以及高昂的运维成本。

传统K8s的问题和困境

  • 资源效率低

图1.png

这个资源柱状图来自阿里云一个客户,业务的流量高峰期CPU大概在7000-8000核,在流量低谷期只有几百核CPU的使用。如果在做IT规划或者购买资源时,按照峰值流量去规划资源,会导致严重的资源浪费。但如果按照使用量去实时规划ECS资源,又会导致在面对一些突发流量时无法及时扩容,影响服务的稳定性。

  • 资源隔离弱

容器使用系统内核的namespace进行资源隔离,但内核仅支持UTS、IPS等6种namespace隔离。我们遇到过一个客户,需要在测试环境修改某个业务Docker的时间,结果导致一台机器上所有的容器时间都被修改。还有定制内核参数、IO公平分享等场景,也有相同的问题。

同时,容器安全也一直被大家诟病,例如特权容器直接可以看到机器上所有的磁盘数据。

  • 运维成本高

云原生为IT带来了很多便利,但同时云原生也让整个IT运维变得越来越复杂。一个K8S容器集群,至少需要部署高可用Master、网络插件、镜像仓库、日志服务,以及监控组件。即便辛苦把这些组件安装完成,也要面对后续每天各种运维、告警的处理,运维每天是各种的救火。

阿里云弹性容器实例ECI应运而生

有没有一种免运维、并且能够按需使用的安全的容器解决方案呢?阿里云弹性容器实例应运而生了。

阿里云弹性容器实例(简称ECI,Elastic Container Instance)是阿里云结合容器和Serverless技术提供的容器运行服务。通过使用ECI,在阿里云上部署容器时,无需购买和管理云服务器ECS,可以直接在阿里云上运行Pod和容器,省去了底层服务器的运维和管理工作。简单来说,一个ECI就是一个Pod,可以被K8s编排和调度。

2-架构图.jpg

阿里云弹性容器实例特别适用于突发的业务流量,或者短周期的任务运行。那么ECI和客户自己去购买ECS,在ECS里运行Docker有什么区别呢?最大的区别在于如果使用ECI,整个容器的运行时会将由阿里云来运维。

3-架构图.jpg

ECI有以下优点

  • 底层资源由阿里云托管,用户不再需要管理底层VM(虚拟机)。
  • 复用整个阿里云的弹性计算资源池,保证充足的库存。
  • 低成本,按秒计费,从Pod开始创建时收费。
  • 启动快,秒级启动底层安全沙箱。
  • 兼容性强,完全兼容K8s。
     

阿里云弹性容器实例采用社区的Virtual Kubelet方案与K8s集成,当集群内有Pod创建并调度到Virtual Kubelet时,Kubelet就会调用ECI接口,启动ECI。

ECI与业务系统的对接方式包括

  • (推荐)通过阿里云容器服务Serverless Kubernetes(ASK)部署业务,提供无需运维的Kubernetes集群能力,底层Pod资源全部使用ECI承载。
  • (推荐)通过阿里云容器服务Kubernetes(ACK)部署业务,为ACK集群提供额外的海量弹性能力。
  • 通过Virtual Node对接用户在ECS上自建的Kubernetes集群,提供方便快捷的弹性计算资源。
  • 通过Virtual Node对接用户在线下IDC自建的Kubernetes集群,提供云上的无限弹性计算能力。
  • 通过OpenAPI直接对接业务系统,低成本的随时创建或释放ECI业务容器。

图4.png

ECI极速启动实例:6秒钟3000个容器实例

在2021年云栖大会现场,阿里云Serverless容器服务弹性容器实例发布了极速启动实例新特性。弹性容器实例在解决上述应用部署问题的基础上,创新的提供极速启动的产品特性。现场演示了在6秒时间内成功启动3000个ECI,并全部进入到Running状态。

阿里云是如何做到6秒钟启动3000个容器实例?

一方面,通过大量用户级别的创建历史数据,应用机器学习找出用户创建Pod的规律,通过预测预调度、资源复用等手段,节省ECI的调度、创建时间,同时使用了阿里云袋鼠沙箱容器作为引擎,辅以overlay网络、存储方案,将单ECI实例冷启动时间压缩到了3秒以下,针对袋鼠引擎后续会有专门文章进行详细的介绍,也敬请大家期待。

另一方面,在镜像拉取维度,通过镜像缓存把容器镜像做成快照,免去每次启动Pod拉取容器镜像的动作,例如阿里云的达摩院AI团队部分镜像可以达到几百G,如果按照传统方式拉取需要十几分钟,通过ECI的镜像缓存方案可以实现Pod秒级启动。

5-架构图.jpg

展望未来

阿里云弹性容器实例提供了从Runtime、GuestOS、底层计算、网络、存储资源的免运维全托管服务,并在2021年云栖大会上发布了极速的实例启动速度,帮助客户快捷的完成业务系统扩缩容。

随着云厂商服务边界的进一步上移,ECI期望通过规模化、集约化的资源调度和端到端的Runtime设计,提供相比客户自建容器资源池更好的弹性、性能和成本能力,这将是未来1-2年阿里云弹性容器实例持续探索的方向。

原文链接
本文为阿里云原创内容,未经允许不得转载。 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/512070.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

matlab 轴承 压力分布 绘图,数值计算绘制动压轴承压力场分布图

动压轴承的压力场分布,要求求解雷诺方程的简化形式为:!!xh3!!px!"!!zh3!!pz!"6U"!h!x公式中参数的含义参见流体动力学。1编程求解雷诺方程采用有限差分的五点差分格式,120120网格点计算。采用C语言编写求解轴承压力分布的程序,可以大大提高运行速度,节省计算时间…

巧用友盟+U-APM 实现移动端性能优化—启动速度

简介: 移动端性能对用户体验、留存有着至关重要的影响,作为开发者是不是被这样吐槽过,“这个 APP 怎么这么大?”、“怎么一直在 APP 封面图转悠,点不进去”、“进入详情效果有些卡”、“用 4G 使用你们的 APP&#xff…

第25版 OpenStack Yoga 已发布

OpenStack社区今日正式发布第25版-Yoga,该版本通过支持先进的硬件技术如SmartNIC DPUs,优化与云原生软件如Kubernetes、Prometheus等的集成以及减少技术债等方式来保持OpenStack内核的稳定性与可靠性。 OpenStack作为开源基础设施即服务(Iaa…

项目实战总结以及接入U-APM

简介: 导致 App 性能低下的原因有很多,除去设备硬件和软件的外部因素,其中大部分是开发者错误地使用线、系统函数、编程范式、数据结构等导致的。即便是较有经验的程序员,也很难在开发时就能避免所有导致性能低下的“坑”&#xf…

oracle redo 200mb,Oracle的redo log在各场景下的恢复

Oracle的redo log非常重要,redo log损坏将导致数据库开法开启或数据丢失,针对redo log在各种场景下如何打开或恢复数据库,特别模拟测试说明:各场景包括如下(共6个场景):场景一.非归档下inactive状态的redo 恢复场景二.非归档下act…

站在原地就是退步——除了死磕通道,云通讯服务商还该做些什么?

受访嘉宾:吴佳钊,杭州云片网络科技有限公司联合创始人、CTO 当前,全球通信云已经步入2.0时代,最大的变化在于通信形式的变革:传统短信语音的通信形式将逐步向包括即时通讯IM实时音视频RTC的互联网通信转变。尤其在5G时…

Cube 技术解读 | 详解「支付宝」全新的卡片技术栈

简介: 魔方卡片(Cube),让 App 首页实现敏捷更新。 CodeHub#7 正式落幕,来自蚂蚁集团的技术专家「京君」与掘金社区的开发者们分享了「支付宝」全新的卡片技术栈——魔方卡片(Cube)。 京君围绕 C…

庖丁解InnoDB之REDO LOG

简介: 数据库故障恢复机制的前世今生一文中提到,今生磁盘数据库为了在保证数据库的原子性(A, Atomic) 和持久性(D, Durability)的同时,还能以灵活的刷盘策略来充分利用磁盘顺序写的性能,会记录REDO和UNDO日志,即ARIES方…

oracle 取整点的数据,Oracle SQL语句操作数字:取整、四舍五入及格式化

用oracle sql对数字进行操作: 取上取整、向下取整、保留N位小数、四舍五入、数字格式化取整(向下取整):select floor(5.534) from dual;select trunc(5.534) from dual;上面两种用法都可以对数字5.534向下取整,结果为5.如果要向上取整 ,得到结…

Web 自动化神器,批量下载美图,可直接导入使用

‍‍作者 | 小碗汤来源 | 进击云原生今天为大家分享一款前端自动化操作神器: Automa。Automa介绍它是一款 Chrome 插件,即使你不会写代码,也能按照自己的需求,完成一系列自动化操作。利用它,你可以将一些重复性的任务实现自动化、…

RocketMQ 5.0 POP 消费模式探秘

简介: POP Consumer—使客户端无状态,更轻量! 作者:凯易&耘田 前言:随着 RocketMQ 5.0 preview 的发布,5.0 的重大特性逐步与大家见面。POP Consumer 作为 5.0 的一大特性,POP 消费模式展现…

oracle排列组合,sql实现排列组合

employe 表中的数据EMPNO ENAME JOB DEPTNO SAL101 实施一部员工1 部门领导 10 1205.775102 实施一部员工2 普通员工 10 1341.174103 实施一部员工3 普通员工 10 1195.74104 实施一部员工4 普通员工 10 1529.176105 实施一部员工5 普通员工 10 1901.084106 实施一部员工6 普通…

【ESSD技术解读-01】 云原生时代,阿里云块存储 ESSD 快照服务如何被企业级数据保护所集成?

简介: 本文描述了阿里云块存储快照服务基于高性能 ESSD 云盘提升快照服务性能,提供轻量、实时的用户体验及揭秘背后的技术原理。依据行业发展及云上数据保护场景,为企业用户及备份厂商提供基于快照高级特性的数据保护的技术方案,满…

一把王者的时间,我就学会了Nginx

作者 | 步尔斯特来源 | CSDN博客Nginx 简介Nginx("engine x")是一个高性能的 HTTP 和反向代理服务器,特点是占有内存少,并发能力强,事实上 nginx 的并发能力确实在同类型的网页服务器中表现较好,中国大陆使用 nginx 网站用户有&…

【ESSD技术解读-02】企业级利器,阿里云 NVMe 盘和共享存储

简介: 当前 NVMe 云盘结合了业界最先进的软硬件技术,在云存储市场,首创性同时实现了 NVMe 协议 共享访问 IO Fencing 技术。它在 ESSD 之上获得了高可靠、高可用、高性能,同时基于 NVMe 协议实现了丰富的企业特性,如…

php数组json函数,php数组转json的函数是什么

php数组转json的函数是json_encode()。json_encode()函数可以对变量进行JSON编码,将其转换为json字符串数据,语法格式“json_encode (value)”。本教程操作环境:windows7系统、PHP7.1版,DELL G3电脑php数组如何转为json&#xff1…

使用友盟+的APM服务实现对移动端APP的性能监控

简介: 对于信息系统服务,一般我们的重点监控对象都是核心的后端服务,通常会采用一些主流的APM(Application Performance Management)框架进行监控、告警、分析。那么对于移动端的APP、小程序的运行时状态如何进行实时监控与分析呢&#xff1f…

首届“中国物联网数据基础设施最佳案例评选”结果出炉

供稿 | 映云科技 出品 | CSDN云计算 随着物联网技术的成熟与普及,如今的世界早已进入万物互联的时代,全球年活跃连接的物联网设备已达数百亿规模 (IoT Analytics, 2021)。海量物联设备产生的数据,需要通过统一汇聚和…

Serverless 工程实践 | 快速搭建 Kubeless 平台

简介: Kubeless 是基于 Kubernetes 的原生无服务器框架。其允许用户部署少量的代码(函数),而无须担心底层架构。 快速搭建 Kubeless 平台 Kubeless 简介 Kubeless 是基于 Kubernetes 的原生无服务器框架。其允许用户部署少量的…

并发编程实践之公平有界阻塞队列实现

简介: JUC 工具包是 JAVA 并发编程的利器。本文讲述在没有 JUC 工具包帮助下,借助原生的 JAVA 同步原语, 如何实现一个公平有界的阻塞队列。希望你也能在文后体会到并发编程的复杂之处,以及 JUC 工具包的强。 作者 | 李新然 来源 | 阿里技术公…