应对 Job 场景,Serverless 如何帮助企业便捷上云

简介:函数计算作为事件驱动的全托管计算服务,其执行模式天生就与这类 Job 场景非常契合,对上述痛点进行了全方面的支持,助力“任务”的无服务器上云。

作者:冯一博

任务(Jobs),是互联网服务的一种常见场景。在诸如 AI 训练、直播(视频转码)、数据清洗(ETL)、定时巡检等场景下,任务平台能否支持快速的高并发任务启动性能、提供较高的离线计算资源利用率以及丰富的上下游生态是这类场景的核心痛点。函数计算作为事件驱动的全托管计算服务,其执行模式天生就与这类 Job 场景非常契合,对上述痛点进行了全方面的支持,助力“任务”的无服务器上云。

函数计算和 Serverless Jobs

“Job”系统应具备什么能力?

在上述的“Job”场景中,一个任务处理系统应该具有以下能力:

  1. 任务触发:支持灵活的任务触发方式。如支持客户端手动触发,支持事件源触发,支持定时触发等;
  2. 任务编排:能够编排复杂任务流程,管理子任务之间关系,如分支、并行、循环等逻辑;
  3. 任务调度及状态管理:调度任务优先级,多租隔离及任务状态管理,支持多种任务并发度、限流;能够管理任务状态,控制任务的执行等;
  4. 资源调度:解决任务的运行资源问题。这里面包括多种运行时支持,计算资源冷启动延迟控制,在/离线任务混部,最终目标是使得系统具有较高的资源利用率;
  5. 任务可观测性:任务执行历史的查看、审计;任务的执行日志;
  6. 任务调度系统上下游生态:任务调度系统可以自然接入上下游系统。比如与 Kafka/ETL 生态、消息生态等集成的能力。

阿里云函数计算 Serverless Job

函数计算 Jobs 能力全景图如下图所示:

1.png

图一:函数计算 Jobs 能力全景图

业界常见任务调度系统 Job 能力对比

2.png

表一:常见任务调度系统能力对比

在普遍情况下,像诸如一些云厂商的批量计算产品、开源的 K8s Jobs 等任务调度系统支持的最小粒度一般是按实例级别扩缩容,并且不具有大规模任务(编排)管理的能力,因此比较适用于低并发、重负载、超长时运行的业务(如基因计算、大规模机器学习训练)等;而一些开源流程执行引擎、大数据处理系统的任务调度往往缺少弹性、多租隔离、高并发管理及可视化等一系列能力。函数计算作为免运维的 Serverless 平台,很好的结合了上述不同系统的优点,另外 Serverless 先天的弹性能力很好的支持了任务中普遍存在的高并发波峰波谷场景的需求。

推荐最佳实践 & 客户案例

AI 训练 & 推理

场景的核心诉求:

  1. 同时支持实时推理 + 离线训练,实时推理对冷启动有要求;
  2. 有明显的波峰波谷,计算量大,需要高并发,计算实例间基本不需要协同;
  3. 一般需要容器镜像运行自定义库进行训练。

案例 1:网易云音乐 - 音视频处理平台

网易云音乐的音乐“发现”和“分享”功能依赖对音乐进行基础特征分析及提取。在运行这类推荐算法及数据分析时,需要依赖非常大的算力对音乐原始文件进行处理。网易云音乐音视频离线处理平台在经历了 异步处理模式- 优先及队列优化 - 算法集群虚拟化 - 算法镜像框架化 - 云原生化 这一系列演进后,选择了函数计算作为视频平台的基础设施,有效解决了不断扩大的计算规模所带来的的难以运维、弹性差等问题。

3.png

案例 2:数据库自治服务 - 数据库巡检平台

阿里云集团内部的数据库巡检平台主要用于对 sql 语句的查询、日志等进行优化分析。整个平台任务分为离线训练及在线分析两类主要任务,其中在线分析业务的的计算规模达到了上万核,离线业务的每日执行时长也在 百万h。由于在线分析、离线训练时间上的不确定性,很难提高集群整体资源利用率,并且在业务高峰来时需要极大的弹性算力支持。业务最后使用函数计算构建了数据库巡检平台,满足日常的 AI 在线推理及模型的离线训练任务。

4.png

案例3:分众传媒 - Serverless 图片处理业务

在广告业务中,运行深度学习算法进行图片处理、比对、识别是比较常见的业务,这类业务往往具有数据来源多样、单实例处理时间不确定、波峰波谷明显、任务可观测要求高等特性。采用自购机器运行服务不但需要考虑机器的运维及资源利用率问题,还比较难以适配多种多样的图片源,难以做到服务的快速上线。

函数计算的多种事件源触发支持为这类业务提供了极大的便利。分众传媒采用 OSS/MNS 触发器触发函数计算,解决数据源多样的问题。用户的图片数据可以上传至 OSS 或者 MNS,对应的触发器则会直接触发函数计算来完成图片处理任务,函数计算的弹性及按量付费模式解决了资源使用率及机器运维的烦恼。在可观测性方面,任务处理实例使用了有状态异步调用模式,对于任何已触发的任务做到了可追溯的能力,方便业务对于执行失败的任务进行排查及重试。

5.png

视频转码 & 直播推流 & 录播转直播

直播转录/录播转直播业务往往同时具有业务的实时性、业务的不定时不定量的特点:

  1. 要求直播同时能够随时拉起处理实例,随时停止转录实例;
  2. 业务高峰的时间段集中在日间的几个小时,夜间几乎没有业务请求。因此资源的利用率和成本是主要考虑的因素。

对于视频转码场景除一般的弹性诉求外,往往还对资源规格(CPU)的灵活性有要求,以期待获取更高的资源利用率。如:

  1. 资源规格:由于转码输出码率的不同,出于成本考虑,希望能够灵活弹起不同规格的资源;
  2. 运行时间随机性。由于需要提高转码效率,往往会对视频进行分片处理,因此任务来的瞬间可能需要很高的实例数;
  3. 为了提高转码效率,可能进行分片后分别处理,涉及到多函数间共享数据;
  4. 需要容器镜像方式来运行一些自身的库,并且往往对快速启动;
  5. 由于转码的离线业务属性,任务结束后还需要留存一定的任务记录以便后续审计、问题排查等需求。

案例 1:新东方 - 云教室系统 Serverless 视频处理平台

新东方云教室系统支持了视频直播、转码、点播等新东方所有在线教育场景。随着业务量的增大,由于直播转录及视频转码任务处理平台具有明显的波峰波谷特性,自建机房较低的资源利用率成为了业务的核心痛点。为了提高整体的资源利用率,云教室系统上述功能使用了函数计算,可以根据业务特点灵活选择计算资源的规格,毫秒级冷启动性能以及 "pay as you go" 的付费模式也使得整体的计算资源的利用率非常高,在满足波峰算力的同时让整个系统拥有最低的成本。

在进行业务场景的 serverless 化的过程中,云教室系统使用了阿里云函数计算有状态调用模式。这种模式也是专为 Job 场景打造,能够进行历史记录查询及优雅停止任务的功能。在存储方面,视频临时文件采用了函数计算 - NAS 方案。新东方通过视频平台的函数调度器能够轮询多个函数服务来进行负载均衡,每个服务通过挂载不同的 NAS,在做到了文件共享的同时提高了函数内部 NAS 临时存储的使用率,进一步降低了资源的使用成本。

6.png

案例 2:米连 - 直播视频实时合规审核平台

米连的直播相亲业务涉及视频处理的主要任务为视频截帧,在拉流的同时进行视频截帧并上传到目标存储中。这类直播场景由于具有波峰波谷的特性,因此除资源利用率要求外还具有一定的实时性及长时执行的要求。审核平台最终使用了函数计算支持高弹性及长时算力的能力,有效的支撑了业务场景。

7.png

数据处理 & ETL

场景的核心诉求:

  1. 弹性,高并发的支持。资源按需付费,种类多样,利用率高,免运维;
  2. 复杂流程的编排支持;
  3. 任务的可观测性能力。

案例:图森未来 - 自动化数据处理平台, 让一切简单可靠

图森未来的无人驾驶技术研发依赖大量的路测试验数据积累,而高效进行路测、快速对路测数据进行处理来指导模型的更新迭代是这类场景的核心诉求。而路测不定时运行,数据入库的流程较长,涉及多个系统交互,算力不确定等特性为流程编排任务为数据处理平台带来了较大挑战。

针对上述情况,图森未来探索数据处理平台的自动化。数据处理平台使用了 Serverless 工作流进行了整体流程的编排,并通过原生支持的消息服务 MNS 解决了云上云下的数据打通问题。

除调度外,图森未来通过使用任务的输入输出映射及状态汇报机制,高效的管理流程中各任务的生命周期及相互间的数据传递,对流程中任务的状态及执行过程中数据更新进行维护,解决了长时不确定长流程的数据处理需求。

总结

结合上述案例及分析,函数计算的弹性、可观测性、队列隔离能力及完整的事件生态极好的支持了这类任务场景。简单总结主要体现在以下几个方面:

  1. 任务的触发
    函数计算支持定时触发器、OSS 触发器、各类消息队列触发器,这为 EDA 架构的应用程序、多种数据来源的数据处理场景提供了丰富的能力;
  2. 任务编排&任务调度
    函数计算原生被阿里云 Serverless 工作流服务无缝集成,Serverless 工作流支持顺序、分支、并行等方式来编排分布式任务,跟踪每个任务的状态转换,并在必要时执行事先定义的重试逻辑。Serverless 工作流 + 函数计算的组合可以很好的支持复杂长流程的运行;
  3. 在资源层面,Serverless 更能体现出其核心优势:开发免运维,并提供高弹性和高可用性保障。
    对比自建,使用无服务器架构后,仅需要按实际任务执行的使用量付费,即节省了成本,也省去了运维的烦恼。函数计算支持多种运行时语言,也支持了运行自定义容器镜像,极大方便了开发调试流程。
  4. 在可观测方面,Serverless 工作流和函数计算对多任务流程、单任务流程提供了丰富的可观测性指标和查询方式,能够便捷的查找历史、观测执行中等任务的指标及日志,方便调试及问题追踪。

在未来,函数计算 - Serverless Jobs 将精耕垂直领域的任务处理场景,包括提供更长的实例执行时间、更丰富的可观测性指标、更强大的任务调度策略及端对端集成能力,致力于为您提供垂直场景下的“最短路径”,助力业务腾飞。

原文链接
本文为阿里云原创内容,未经允许不得转载。 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/511926.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Gartner发布新兴技术研究:深入洞悉元宇宙

供稿 | Gartner 出品 | CSDN云计算 根据Gartner预测,2026年全球30%的企业机构将拥有元宇宙产品和服务。 元宇宙是一个由独立但相互连接的网络所组成的持久、沉浸式数字环境,但目前尚未确定这些网络将使用的通信协议。元宇宙能够实现持久、去中心化、可…

双11实时物流订单实践

简介:随着双11的开启,物流业也迎来了年度大考。2021年双11期间,递四方作为物流仓储服务方,布局仓库和分拣点超40个,50w平米作业场地,单日订单峰值达千万级别,海量购物订单由递四方配送到家&…

阿里云徐立:面向容器和 Serverless Computing 的存储创新

简介:以上为大家分享了阿里云容器存储的技术创新,包括 DADI 镜像加速技术,为容器规模化启动奠定了很好的基础,ESSD 云盘提供极致性能,CNFS 容器网络文件系统提供极致的用户体验。 作者:徐立 云原生的创新…

鸿蒙2.0beta报名,鸿蒙OS 2.0 Beta版系统在哪报名-报名方法介绍

鸿蒙OS系统一直以来深受大家的关注,最近全新推出了鸿蒙OS 2.0 Beta版,那么鸿蒙OS 2.0 Beta版在哪报名呢?小编为大家分享一下关于鸿蒙OS 2.0 Beta版的报名方法介绍,对鸿蒙OS 2.0 Beta版感兴趣的不要错过了。鸿蒙OS 2.0 Beta版系统报…

不改一行代码,轻松拥有企业级微服务治理|MSE微服务治理专业版发布

简介:随着业务的发展,微服务拆分越来越复杂,微服务的治理也成了一个比较令人头疼的问题。有没有更加简单且高效的方法来解决微服务治理的难题? 作者:十眠 随着业务的发展,微服务拆分越来越复杂&#xff0…

曦智科技沈亦晨入选2022达沃斯世界经济论坛“全球青年领袖”

日前,达沃斯世界经济论坛公布了2022年“全球青年领袖”名单,曦智科技创始人兼首席执行官沈亦晨博士获选,他将与来自全球42个国家的其他109位青年领袖一起,加入到为期三年的领导力培训项目中,从不同领域为全球发展发挥更…

如何利用 “集群流控” 保障微服务的稳定性?

简介:应用高可用服务 AHAS (Application High Availability Service) 是经阿里巴巴内部多年高可用体系沉淀下来的云产品,以流量与容错为切入点,从流量控制、不稳定调用隔离、熔断降级、热点流量防护、系统自适应保护、集群流控等多个维度来帮…

阿里巴巴服务网格技术三位一体战略背后的思考与实践

简介:本文分享了阿里巴巴服务网格技术三位一体战略背后的思考和实践,关于阿里云服务网格 ASM 的一些产品功能,包括最近发布的一些功能。 作者:宗泉、宇曾 阿里巴巴三位一体战略 阿里云内部很早就提出了开源、自研、商业化三位一…

antd的tooltip如何调整间距_Word字符间距不会调?那就试试这些技巧

Word字符间距,你会调整吗?本期Word妹与大家分享4种字符间距调整技巧。1、取消数字或字母之间的距离数字或字母间距太大了主要是因为在全角状态下输入的,这时可以点击开始——字体——更改大小写——半角即可。2、取消汉字与英文字母之间的距离…

如何使用 Kubernetes 监测定位慢调用

简介:本次课程主要分为三大部分,首先将介绍慢调用的危害以及常见的原因;其次介绍慢调用的分析方法以及最佳实践;最后将通过几个案例来去演示一下慢调用的分析过程。 作者:李煌东 大家好,我是阿里云的李煌…

12个可能你没见过,但非常实用的 HTML 标签

作者 | 零一来源 | 前端印象今天给大家推荐几个冷门但非常实用的 HTML 标签&#xff0c;不只是语义化&#xff0c;它们都有自己的应用场景和特殊自带功能。一、center让你实现水平居中&#xff0c;用这个标签就对了&#xff0c;标签名也非常得语义化<center>零一</cen…

双11特刊 | 全面云原生化,数据库实例独共享混部 最高降低30%成本

简介&#xff1a;2021年双十一是阿里巴巴集团的核心应用全面云化的第二年。今年在保证稳定性的前提下&#xff0c;主要探索如何利用云原生的技术优势&#xff0c;降低成本&#xff0c;提升资源利用率。在今年大促中&#xff0c;针对核心集群采用独享共享实例混部&#xff0c;统…

IPv6时代,中小企业该如何布局?

简介&#xff1a;IPv6要为全世界的每一粒沙子都分配一个IP&#xff0c;你的企业跟上了吗&#xff1f; 11月中旬&#xff0c;中央网信办等部门联合印发了《关于开展IPv6技术创新和融合应用试点工作的通知》&#xff0c;联合组织开展IPv6技术创新和融合应用试点工作&#xff0c;…

Gartner 发布新兴技术研究:深入洞悉元宇宙

供稿 | Gartner出品 | CSDN云计算根据Gartner预测&#xff0c;2026年全球30%的企业机构将拥有元宇宙产品和服务。元宇宙是一个由独立但相互连接的网络所组成的持久、沉浸式数字环境&#xff0c;但目前尚未确定这些网络将使用的通信协议。元宇宙能够实现持久、去中心化、可互操作…

并发场景下的幂等问题——分布式锁详解

简介&#xff1a;本文从钉钉实人认证场景的一例数据重复问题出发&#xff0c;分析了其原因是因为并发导致幂等失效&#xff0c;引出幂等的概念。针对并发场景下的幂等问题&#xff0c;提出了一种实现幂等可行的方法论&#xff0c;结合通讯录加人业务场景对数据库幂等问题进行了…

双11特刊|十年磨一剑,云原生多模数据库Lindorm 2021双11总结

前言 2021 年&#xff0c;转眼 Lindorm 已经在阿里发展了十年的时间&#xff0c;从基于 HBase 深度改造的 Lindorm 1.0 版本&#xff0c;到全面重构&#xff0c;架构大幅升级的 Lindorm 2.0 版本&#xff1b;从单一的宽表引擎&#xff0c;到支持搜索、时序、文件等多种结构化数…

怎么样升级成为鸿蒙系统,手机升级成为鸿蒙系统第一手体验怎么样?-电脑自学网...

自从华为鸿蒙系统上线以来&#xff0c;除了6月2日发布会爆料出鸿蒙细节、功能之外&#xff0c;还给部分华为手机提供了鸿蒙系统的升级包。不知道大家有没有升级&#xff1f;其实很多小伙伴处于观望状态&#xff0c;因为新系统的缺点不可避免&#xff0c;升级了系统就再也回不去…

换个姿势看 hooks,灵感来源组合和 HOC 模式下逻辑视图分离新创意

作者 | &#x1f47d;来源 | 前端Sharing前言懂得 JSX 本质的同学都知道它只不过是一种语法糖&#xff0c;会被 babel 处理成 createElement 的形式&#xff0c;最后再变成常规的 js 对象。所以&#xff0c;我们就可以在 js 逻辑层面对 element 对象做处理&#xff0c;自定义 …

双11特刊 | 云数据库RDS如何顺滑应对流量洪峰

简介&#xff1a;从绿色低碳到硬核科技&#xff0c;看RDS如何用绿色科技助力2021“双11”&#xff1f; 双十一回顾 从平台到商家&#xff0c;再从物流到客户手中&#xff0c;云数据库RDS支撑着双11集团电商的在线业务。RDS首次对集团核心业务进行国产化技术演进试点&#xff…

双11专刊|云原生数据仓库AnalyticDB支撑双11,大幅提升分析实时性和用户体验

简介&#xff1a;2021年双十一刚刚落幕&#xff0c;已连续多年稳定支持双十一大促的云原生数据仓库AnalyticDB&#xff0c;今年双十一期间仍然一如既往的稳定。除了稳定顺滑的基本盘之外&#xff0c;AnalyticDB还有什么亮点呢&#xff1f;下面我们来一一揭秘。 一 前言 2021年…