阿里云易立:云原生如何破解企业降本提效难题?

2020年以来,新冠疫情改变了全球经济的运行与人们的生活。数字化的生产与生活方式成为后疫情时代的新常态。今天,云计算已经成为全社会的数字经济基础设施,而云原生技术正在深刻地改变企业上云和用云的方式。如何利用云原生技术帮助企业实现降本增效是很多IT负责人关注的话题。 阿里巴巴一直是云原生领域的的探索者和实践者。阿里集团的云原生之路有几条主线:

  1. 第一个阶段是应用架构的互联网化。2007年起,随着互联网流量大爆发,阿里开始构建互联网规模分布式应用架构,自研微服务、消息、分布式数据库等核心中间件。
  2. 第二个阶段是基础设施云化。阿里云2009年开始自研飞天云操作系统,集团业务开始逐渐上云。同时,2011年阿里集团开始探索落地容器技术,加速应用迁云,最大化利用云的弹性,通过离在线混部优化计算成本,到了2019年实现了核心系统全面上云。

在这个基础上,阿里集团开始实现全面的云原生升级。我们坚持开源技术、阿里云产品和集团应用的 三位一体。到2021年,实现了业务100%上云,应用100%云原生化。

云原生技术已经为阿里带来了巨大的价值红利。目前阿里集团已经拥有全球最大的K8s集群,单集群过万节点,可以统一支持电商、搜索、大数据、AI等多样化应用。2021年阿里年双 11 大促峰值的计算成本相较去年下降了 50%。Serverless也在大量场景落地,研发效能提升 40%。

得益于阿里的云原生大规模实践,阿里云为企业构建了先进、普惠的云原生产品家族,同时服务阿里集团和各行业客户。2022年1季度,在权威咨询机构 Forrester 发布的公共云容器平台分析师报告中,阿里云容器服务ACK成为比肩Google的全球领导者,这也是首次有中国科技公司进入容器服务领导者象限。

企业降本增效之路上面临的难题

过去几年,以容器为代表的的云原生技术快速发展,在最新CNCF开发者调查中,在2021 三季度年全球已经有超过700万云原生开发者。使用云原生技术可以驱动企业实现降本增效是当下大多数开发者的共识。但我们同样可以看到的是,在2021年CNCF《FinOps Kubernetes Report》的调研报告中显示,68%的受访者表示所在企业过去一年在 Kubernetes 环境的计算资源成本有所增加。这背后的原因是什么?

通过与企业的沟通和分析,我们发现企业目前面临五大难题:

  • 规划难。当业务迁移到容器场景后,需要对应用进行容量规划,过度分配资源会导致资源浪费,资源超售过度则会导致稳定性问题。
  • 计费难。容器应用与传统应用相比具备更高的弹性和动态性,可以按需创建和释放资源,这也对费用估算带来更大的挑战。
  • 分账难。与传统应用部署与资源绑定的方式不同。现在多个容器应用共享一个K8s集群。一个计算节点上可以运行多个Pod,而且Pod可以弹性伸缩,在节点间动态迁移。应用层与资源层计量计费在空间、时间等多个维度都无法做到一对一对应,造成成本治理的复杂性。
  • 优化难。云原生技术中例如:弹性、混部、Serverless、超卖等技术都有各自适合的典型场景。如果使用不当,比如弹性配置错误,可能带来意想不到的资源浪费甚至稳定性问题。
  • 管理难。混合云已经成为企业IT架构的新常态。Kubernetes可以帮助企业屏蔽基础差异。而不同环境财资管理能力参差不一,缺乏统一开放的用量数据模型进行管理,使得企业难以从全局的视角进行整体的成本分析与优化。

近些年,随着企业上云的加速,云财务管理(FinOps)的概念被越来越多的企业提及与采纳,FinOps 是一种云的运营模式,它将系统、最佳实践和文化结合在一起,以提高组织了解云成本的能力。这是一种为云支出带来财务责任的做法,使团队能够做出明智的业务决策。FinOps 增强了 IT、工程、财务、采购和企业之间的协作。它使 IT 能够发展成为专注于利用云技术为业务增值的服务组织。当云原生技术与 FinOps 概念交织在一起,就孕育出了云原生IT成本治理(Cloud Native FinOps)的理念,它是 FinOps 概念在云原生场景下的一种演进与进化。

为了解决云架构和云原生技术带来的新挑战,企业开始关注新的成本治理方法。通过IT、财务、业务等团队协同,在保障业务发展的同时帮助企业获得更好财务控制和可预测性。

云原生企业IT成本治理方案:加速企业 FinOps 进程

阿里云结合业财一体化实践和FinOps理念,提供了原生的产品能力,为企业提供了云上全链路财务经营管理保障。阿里云容器服务推出了企业云原生 IT 成本治理方案,助力企业在云原生云上的场景下,提供企业 IT 成本管理、企业 IT 成本可视化、企业 IT 成本优化等功能。

5月19日,由中国信息通信研究院(以下简称“中国信通院”)和中国通信标准化协会联合主办的“2022 云管和云网大会”成功召开。会上发布了《可信云•云成本优化工具能力要求 - 第1部分 原生工具》标准及首批评测结果。阿里云凭借在云上成本管理的产品能力,以满分的成绩通过了全部 33 个能力指标,成为国内首家通过该项评估的云服务商。

阿里云企业云原生 IT 成本治理方案拥有五大核心功能:

核心功能一:独有的云原生容器场景成本分摊与估算模型。为了解决容器场景下业务单元与计费单元生命周期不一致的问题,容器服务提出了独有的计费与计量相结合的成本估算模型,并加入费用策略(付费类型、节省计划、代金券、用户折扣、竞价波动)、分摊因子(CPU、内存、GPU 卡、GPU 显存等)、资源形态(ECS\ECI\HPC)等因素的考量,实现针对Pod维度的成本估算以及集群占比的成本分摊。通过账单分析将集群在一个阶段内的所有资源成本进行聚合,再配合 Pod 维度的成本分摊能力实现了完整的云原生容器场景成本分摊与估算模型。

核心功能二:多维度的成本洞察、趋势预测、根因下钻。支持集群、命名空间、节点池、应用(label 通配符匹配)四个维度的成本洞察,集群维度侧重在云资源的分布、资源成本的趋势变化、集群水位与浪费的比率以及集群成本费用的趋势与预测,可以协助IT管理员准确判断成本消费的趋势,防止超过预算的场景;命名空间侧重在费用的分摊,支持短周期的费用预估以及长周期的成本分摊,支持调度水位、资源用量、成本趋势的相关性分析,协助部门管理员进行成本估算,下钻分析成本浪费,提升部门资源利用率;节点池维度侧重在资源成本规划与治理,通过实例类型、单位核时、调度水位、利用率水位的相关性分析,协助 IT 资产管理员优化资源组合和付费策略。应用(label 通配符匹配)维度侧重在领域场景成本优化,例如:大数据、AI、离线作业、在线应用等各种上层应用场景,都可以通过应用维度的成本洞察进行实时费用预估以及任务级别的成本核算。

通过四个维度的成本洞察,可以让全场景的成本优化功能与解决方案都有数据可以支撑,有理有据的进行降本增效。

核心功能三:全场景的成本优化能力、解决方案的覆盖。针对于不同企业的实际业务场景,阿里云容器服务提供了全场景的资源画像建立、成本优化能力与解决方案。此外,企业针对成本的优化策略,大部分是需要业务场景支撑的,很多场景下还会存在定制化和二次开发。因此,阿里云容器服务的企业云原生 IT 成本治理方案提供的成本洞察能力与上层优化方案完全解耦的,可以通过四个维度的成本洞察能力,覆盖全场景的成本优化手段的衡量与评估。

核心功能四:多集群/多云/混合云全类型云成本管理能力。多云是目前企业上云的新趋势,不同的云厂商的计费模型存在比较大的差异,例如:国内云服务商常见的包年包月付费方式、国际云服务商常见的信用卡预扣/后付、部分云服务商支持的节省计划以及预留实例等等。这些都对多云云管平面的成本分析能力提供了更多的挑战。阿里云容器服务的企业云原生 IT 成本治理方案通过提供统一的云服务厂商的账单与询价接入与默认实现,支持主流的云服务厂商、IDC 自建机房的费用数据的接入。并通过一致的云原生容器场景成本分摊与估算模型进行成本管理。配合企业级云原生分布式云容器平台 ACK One,不仅提供了多集群、多环境的统一集群管理、统一资源调度、统一数据容灾和统一应用交付能力,也提供了统一的财资治理能力。

核心功能五:企业云原生IT成本治理的专家服务。企业云原生 IT 成本治理不仅仅是一个产品能力或者解决方案,更是一种云原生时代的企业IT管理、组织流程、文化的演进。阿里云容器服务团队联合阿里云天基团队,通过阿里云云资管家提供完整的 FinOps 理念覆盖的产品及专家服务。

比如,我们可以通过多维度的成本分析、洞察功能,了解应用的成本和资源利用率。并能提供趋势预测。为企业财资管理提供决策依据。为了满足企业多样化的治理需求,我们还提供了开放的数据模型,可以通过 Prometheus、OpenAPI等方式集成到企业自己的治理流程中。有了成本洞察能力,我们看看可以利用什么样的手段实现成本优化。

多样化弹性能力:弹性容器实例可以在 30 秒内扩容 3000 Pod

弹性是云最核心的能力之一,可以有效降低计算成本。ACK在资源层和应用层提供了丰富的弹性策略。

在资源层,当集群资源不足时,ACK集群可以利用 cluster-autoscaler 在节点池中自动创建新的节点实例。我们可以根据应用负载,选择ECS虚拟机,神龙裸金属实例,进行扩容。基于阿里云强大的弹性计算能力,我们可以在分钟级实现千节点扩容。

在ACK集群中一个更加简化的方案是利用ECI弹性容器实例来实现弹性。ECI基于轻量虚拟机提供了 Serverless 化的容器运行环境,具备强隔离、高弹性,免运维、免容量规划的特性。弹性容器实例可以在 30 秒内扩容 3000 Pod,可以轻松应对突发的新闻事件,或者支持自动驾驶模拟仿真这样的批量计算业务。

值得一提的是,我们可以使用ECS或者ECI的竞价实例,它可以利用阿里云的空闲计算资源,成本折扣可以低至按量付费实例的 90%。竞价实例非常适合无状态和容错性好的应用,比如批量数据处理或者视频渲染等。在应用层,Kubernetes提供了HPA 的方式进行 Pod 的水平伸缩,和 VPA 进行 Pod 的垂直伸缩。ACK 内建了基于机器学习的AHPA方案、来进一步简化弹性体验,提升弹性的 SLA。

K8s内建的水平 Pod 自动伸缩(HPA)有两个不足:

第一个是弹性的滞后性,弹性策略基于对监控指标的被动响应,此外由于应用本身启动、预热也需要一定时间,在扩容的过程中,业务稳定性可能会受到影响;

第二个是配置的复杂性,HPA的运行效果取决于弹性阈值的配置。配置过于激进可能导致应用稳定性受影响,配置过于保守,成本优化的效果就大打折扣。需要反复尝试才能达到一个合理的水平。而且随着业务的变化,也会需要重新调整弹性策略。

阿里云和达摩院团队合作,推出了AHPA,可以根据历史资源画像,对弹性周期和用量进行预测,提前扩容来保障服务质量,已经在菜鸟PAAS平台、阿里云智能语音服务多种场景经过验证。帮助智能语义交互产品实现90% 的实例在业务来临之前 Ready,CPU 利用率提升 10% 节省 20% 的资源成本。

混部能力升级:在K8s上提供对编排调度能力的增强

随着云原生技术的广泛应用,Kubernetes 之上计算类型的工作负载越来越丰富,我们可以通过合理的编排调度,充分利用负载之间的削峰填谷效应,让工作负载以更稳定、更高效、更低成本的方式去使用资源。这也就是业界时常提及的 “混部”概念。

阿里巴巴在 2011 年开始探索容器技术,并在 2016 年启动混部技术研发,至今经过了多轮技术架构升级,最终演进到今天的云原生混部系统架构,实现了全业务规模超千万核的云原生混部,混部天平均 CPU 利用率超 50%,帮助阿里巴巴节省了大量的资源成本。

混部是在互联网企业内部重金打造的成本控制内核,凝聚了众多的业务抽象和资源管理的思考优化经验,因此混部通常都需要数年的打磨实践才能逐渐稳定并产生生产价值。但是,每家企业是否都需要很高的门槛才能使用混部,都需要大量的投入才能产生价值?

基于阿里集团内部超大规模生产实践经验,阿里云近期开源了云原生混部项目 Koordinator,旨在为用户打造云原生场景下接入成本最低、混部效率最佳的解决方案,帮助用户企业实现云原生后持续的红利释放。它在K8s之上提供了对编排调度能力的增强,包含三大核心能力:

  • 差异化 SLO保障:在 Kubernetes 之上抽象一套面向QoS的资源调度机制,比如延迟敏感型的在线类任务,和Best effort类型可抢占的计算任务。在提升资源利用率的通俗,让低优先级的任务,对延迟敏感型任务的影响 < 5%;
  • 资源精细化调度:包括 CPU、GPU 拓扑感知、资源预留、交互式抢占、碎片整理、资源画像、热点打散等精细调度能力;
  • 任务调度:大数据与 AI 相关的任务调度,比如 Gang、批量、优先级抢占以及弹性 Quota(队列间借用)等,从而更好地去应用整个集群资源。

Koordinator 项目完全兼容上游标准的 K8s,无需做任何侵入式修改。阿里云容器服务提供了产品化支持,用户也可以基于开源项目应用在自己的场景中。可以说,Koordinator 的开源,可以让更多的企业看见并用上云原生混部的能力,帮助企业加速云原生化的过程。在技术上,Koordinator 能够帮助企业实现更多的负载接入到 Kubernetes 平台,丰富容器调度的工作负载类型,继而发挥出工作负载错峰分时的特征,从而实现效率、成本上的收益,保持长期可持续发展的健康形态。Koordinator 项目还在快速发展的过程中,欢迎大家一起共建。

作者 | 易立

原文链接

本文为阿里云原创内容,未经允许不得转载。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/510736.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Alibaba/IOC-golang 正式开源 ——打造服务于go开发者的IOC框架

IOC&#xff08;inversion of control&#xff09;即控制反转&#xff0c;是面向对象编程中的一种设计原则&#xff0c;可以用来减低计算机代码之间的耦合度。IOC-golang 是一款服务于Go语言开发者的依赖注入框架&#xff0c;基于控制反转思路&#xff0c;方便开发人员搭建任何…

开启安全测试评估赛道,永信至诚发布“数字风洞”产品体系

11月19日&#xff0c;永信至诚产品战略发布会上&#xff0c;面向安全测试评估领域的“数字风洞”产品体系战略发布&#xff0c;标志着永信至诚作为网络靶场和人才建设领军企业&#xff0c;再次以“产品乘服务”的价值体系&#xff0c;开启网络安全测试评估专业赛道。 数字化时代…

云上弹性高性能计算,支持生命科学产业高速发展、降本增效

随着云计算技术服务及实践的日趋成熟&#xff0c;越来越多的行业通过上云实现了整个产业的转型升级&#xff0c;正处于黄金时期的生命科学行业也不例外。 作为拥有高数据量和高计算量的行业&#xff0c;生命科学的研究也早已离不开高性能计算&#xff08;High Performance Comp…

为什么生命科学企业都在陆续上云?

生命科学行业正迎来发展的黄金时期。医学的发展和人们对健康的追求&#xff0c;正快速转换为生命科学整个产业链发展的新动能&#xff0c;高性能计算HPC在生命科学研究中扮演着十分重要的角色。同时&#xff0c;随着生命科学行业的快速发展&#xff0c;我们可以看到&#xff0c…

VMware Explore 2022 China,赋能中国企业加速实现云智能

全球领先的企业软件创新者VMware&#xff08;NYSE: VMW&#xff09;的年度技术盛会—— VMware Explore 2022 China于11月8日正式举行。本届大会以“探索多云宇宙”为主题&#xff0c;汇聚云计算领域的顶尖技术专家和创新者&#xff0c;通过150多场解决方案演讲、围绕云基础架构…

政企混合云技术架构的演进和发展

云计算经历十几年的发展&#xff0c;从被认为是“新瓶装旧洒”受到很多怀疑&#xff0c;到在消费互联网领域得到广泛应用&#xff0c;再到传统政企客户普遍认同&#xff0c;并在政务互联网业务领域快速推广&#xff0c;当下已进入到全面替换政企客户传统IT基础架构的攻坚阶段。…

多云管理产品组合VMware Aria,开启多云管理新篇章

今年8月份&#xff0c;VMware Explore美国大会上宣布了多云管理产品组合VMware Aria&#xff0c;宣布之后&#xff0c;市场上关注度非常高&#xff0c;而且受到了热捧。Aria这个名字动听且贴切&#xff0c;中文意思是 “咏叹调”&#xff0c;也就是说要用统一的、一致的曲调来歌…

DataWorks开发ODPS SQL开发生产环境自动补全ProjectName

一、场景描述 DataWorks标准模式下&#xff0c;支持开发环境和生产环境隔离&#xff0c;开发环境和生产环境的数据库表命名有所区别&#xff0c;如果需要在开发环境访问生产环境的数据库表或者跨项目空间A访问项目空间B的表&#xff0c;需要根据以下命名规范严格区分数据库表名…

送外卖也要“黑科技”?阿里移动感知技术应用揭秘

一 背景 作为本地生活的一个重要组成部分&#xff0c;外卖已经进入千千万万的家庭。相信很多小伙伴已经注意到&#xff0c;饿了么的每一个订单&#xff0c;我们都会及时向用户通知这一单现在所处的状态&#xff0c;比如“商户接单”&#xff0c;“骑手到店”&#xff0c;“骑手…

视频需求超平常数 10 倍,却节省了 60% 的 IT 成本投入是一种什么样的体验?

近年来&#xff0c;Serverless 一直在高速发展&#xff0c;并呈现出越来越大的影响力。主流的云服务商也在不断地丰富云产品体系&#xff0c;提供更好的开发工具&#xff0c;更高效的应用交付流水线&#xff0c;更好的可观测性&#xff0c;更细腻的产品间集成&#xff0c;但一切…

打好“三场仗”,数据库新晋厂商石原子胜券在握

纵观数字经济时代&#xff0c;数据规模呈爆发式增长&#xff0c;国产化替代加速发展。据中国信通院《数据库发展研究报告(2021年)》预测&#xff0c;预计到2025年&#xff0c;全球数据库市场规模将达到798亿美元&#xff0c;其中&#xff0c;中国数据库市场总规模将达到688亿元…

基于信通院 Serverless 工具链模型的实践:Serverless Devs

前言 2022 年 6 月 15 日&#xff0c;信通院在中国信通院云原生产业大会上发布《基于无服务器架构的工具链能力要求》标准&#xff0c;至此全球首个云原生 Serverless 开放工具链模型正式发布&#xff01;Serverless Devs [1]作为开源开放的开发者工具积极参与工具链模型建设&…

Serverless 架构落地实践及案例解析

互联网软件架构演进 我们先简单回顾下互联网软件架构的演进之路。 单机部署 在单机部署中&#xff0c;将所有的业务和数据库都部署在一台主机中。 此架构的优点是&#xff1a;开发、部署以及运维都非常简单。缺点是&#xff1a;一旦遇到流量过大或者机器故障&#xff0c;整个…

十年 Python 程序员,初次尝试 Rust:“非常优秀!”

摘要&#xff1a;Python 和 Rust&#xff0c;都是近几年深受开发者喜爱的编程语言&#xff0c;那么作为一个拥有十年 Python 编程经验的开发者来说&#xff0c;初次尝试 Rust 会有怎样的感受呢&#xff1f;链接&#xff1a;https://karimjedda.com/carefully-exploring-rust/声…

让阿根廷队“告吹”的三个球背后,2022 年世界杯暗藏哪些技术玄机?

整理 | 苏宓出品 | CSDN&#xff08;ID&#xff1a;CSDNnews&#xff09;「足球反着买&#xff0c;别墅靠大海」&#xff0c;昨晚 2022 年卡塔尔世界杯的一场小组赛上&#xff0c;最有看头的阿根廷球队出现惊天冷门&#xff0c;以 1:2 败北沙特阿拉伯队&#xff0c;为此&#x…

科学地花钱:基于端智能的在线红包分配方案

一、前言 本文是作者在1688进行新人红包发放的技术方案总结&#xff0c;基于该技术方案的论文《Spending Money Wisely: Online Electronic Coupon Allocation based on Real-Time User Intent Detection》已经被CIKM2020接收&#xff0c;欢迎交流指正&#xff01; 关于作者 …

为 Serverless Devs 插上 Terraform 的翅膀,实现企业级多环境部署(上)

前言 随着现代化应用的普及和企业上云的深入&#xff0c;项目中会涉及越来越多的云资源使用。企业上云过程中&#xff0c;往往会有平台&#xff08;Platform&#xff09;团队和基础设施&#xff08;Infra&#xff09;团队&#xff1a;平台团队关注业务&#xff0c;根据业务场景…

达摩院打破权威榜单纪录,中文语言理解表现首超人类

11月25日消息&#xff0c;在最新的中文语言理解领域权威榜单CLUE中&#xff0c;阿里AI以86.685的总分成绩创造了新纪录&#xff0c;这是该榜单诞生近三年以来&#xff0c;AI首次超越人类成绩&#xff08;86.678&#xff09;&#xff0c;意味着AI模型的中文语言理解水平达到了新…

阿里云云原生一体化数仓 — 离线实时一体化新能力解读

实时离线一体化概述 在讲实时离线一体化概述前&#xff0c;可以先回顾一下之前两位阿里同学的精彩演讲。 离线实时一体化数仓与湖仓一体--云原生大数据平台的持续演讲 https://developer.aliyun.com/article/804337 云原生离线实时一体化数仓建设与实践&#xff1a; https:/…

50 万开发者不愿付费使用,Python 代码补全神器 Kite 失败!

作者 | 苏宓出品 | CSDN&#xff08;ID&#xff1a;CSDNnews&#xff09;AI 编程距离程序员还有多远&#xff1f;如果说 GitHub Copilot 的到来&#xff0c;让众多开发者看到了希望&#xff0c;那么初创公司 Kite 的倒闭&#xff0c;也让我们认清了现实。Kite 是一家使用 AI 帮…