Fluid: 让大数据和 AI 拥抱云原生的一块重要拼图

简介: 如何驱动大数据、AI 应用在云原生场景下高效运行是一个既有理论意义又具应用价值的重要挑战性问题,为系统化解决相关问题,学术界和工业界密切合作,南京大学 PASALab 副研究员顾荣博士、阿里云容器服务高级技术专家车漾、Alluxio 项目创始成员范斌博士联合推动发起了 Fluid开源合作项目。

1.png

作者 | 顾荣、车漾、范斌

得益于容器化带来的高效部署、敏捷迭代,以及云计算在资源成本和弹性扩展方面的天然优势,以 Kubernetes 为代表的云原生编排框架吸引着越来越多的 AI 与大数据应用在其上部署和运行。然而,云原生计算基金会(CNCF)全景图中一直缺失一款原生组件,以帮助这些数据密集型应用在云原生场景下高效、安全、便捷地访问数据。

如何驱动大数据、AI 应用在云原生场景下高效运行是一个既有理论意义又具应用价值的重要挑战性问题:

  • 一方面,解决该问题需考虑复杂场景下应用协同编排、调度优化、数据缓存等一系列理论与技术难题;
  • 另一方面,该问题的解决能够有力地推动广阔云服务场景下的大数据、AI 落地应用。

为系统化解决相关问题,学术界和工业界密切合作,南京大学 PASALab 副研究员顾荣博士、阿里云容器服务高级技术专家车漾、Alluxio 项目创始成员范斌博士联合推动发起了 Fluid开源合作项目

Fluid 是什么?

Fluid 是一款开源的云原生基础架构项目。在计算和存储分离的大背景驱动下,Fluid 的目标是为 AI 与大数据云原生应用提供一层高效便捷的数据抽象,将数据从存储抽象出来,以便达到:

  • 通过数据亲和性调度分布式缓存引擎加速,实现数据和计算之间的融合,从而加速计算对数据的访问;
  • 将数据独立于存储进行管理,并且通过Kubernetes的命名空间进行资源隔离,实现数据的安全隔离;
  • 将来自不同存储的数据联合起来进行运算,从而有机会打破不同存储的差异性带来的数据孤岛效应。

通过 Kubernetes 服务提供的数据层抽象,可以让数据像流体一样在诸如 HDFS、OSS、Ceph 等存储源和 Kubernetes 上层云原生应用计算之间灵活高效地移动、复制、驱逐、转换和管理。而具体数据操作对用户透明,用户不必再担心访问远端数据的效率、管理数据源的便捷性,以及如何帮助 Kuberntes 做出运维调度决策等问题。用户只需以最自然的 Kubernetes 原生数据卷方式直接访问抽象出来的数据,剩余任务和底层细节全部交给 Fluid 处理。

Fluid 项目当前主要关注数据集编排和应用编排这两个重要场景。数据集编排可以将指定数据集的数据缓存到指定特性的 Kubernetes 节点;而应用编排将指定该应用调度到可以或已经存储了指定数据集的节点上。这两者还可以组合形成协同编排场景,即协同考虑数据集和应用需求进行节点资源调度。

为什么云原生需要 Fluid?

云原生环境与更早出现的大数据处理框架在设计理念和机制上存在天然分歧。深受 Google 三篇论文 GFS、MapReduce、BigTable 影响的 Hadoop 大数据生态,从诞生之初即信奉和实践“移动计算而不是数据”的理念。因此以 Spark,Hive,MapReduce 为代表的数据密集型计算框架及其应用为减少数据传输,其设计更多地考虑数据本地化架构。但随着时代的变迁,为兼顾资源扩展的灵活性与使用成本,计算和存储分离的架构在更新兴的云原生环境中大行其道。因此云原生环境里需要类似 Fluid 这样的一款组件来补充大数据框架拥抱云原生带来的数据本地性缺失。

此外,在云原生环境中,应用通常以无状态(Stateless)微服务化方式部署,并不以数据处理为中心;而数据密集型框架和应用通常以数据抽象为中心,开展相关计算作业和任务的分配执行。当数据密集型框架融入云原生环境后,也需要像 Fluid 这样以数据抽象为中心的调度和分配框架来协同工作。

针对 Kubernetes 缺乏对应用数据的智能感知和调度优化的问题,及以 Alluxio 为例的数据编排引擎存在难以直接管控云原生基础架构层的局限,Fluid 提出数据应用协同编排、智能感知、联合优化等一系列创新方法,并且形成一套云原生场景下数据密集型应用的高效支撑平台。

具体的架构参见下图:

2.png

演示

我们提供了视频的 Demo,为您展示如何通过 Fluid 提升云上 AI 模型训练的速度。在这个 Demo 中,使用同样的 ResNet50 测试代码,Fluid 加速和原生的 ossfs 直接访问相比,不论在每秒钟的训练速度,和训练总时长相比都有明显的优势,训练耗时缩短了 69%。

3.png

点击链接,即可查看视频 Demo:https://v.qq.com/x/page/t31488r2p2q.html

快速体验 Fluid

Fluid 需要运行在 Kubernetes v1.14 及以上版本,并且需要支持 CSI 存储。Fluid Operator 的部署和管理是通过 Kubernetes 平台上的包管理工具 Helm v3 实现的。运行 Fluid 前请确保 Helm 已经正确安装在 Kubernetes 集群里。你可以参照文档,安装和使用 Fluid。

欢迎加入与反馈

Fluid 让 Kubernetes 真正具有分布式数据缓存的基础能力,开源只是一个起点,需要大家的共同参与。大家在使用过程发现 bug 或需要的 feature,都可以直接在 GitHub 上面提 issue 或 PR,一起参与讨论。

另外我们有一个钉钉群,手机端钉钉点击超链即可加入,欢迎您的参与和讨论!

作者简介

顾荣  南京大学计算机系副研究员,研究方向大数据处理系统,已在 TPDS、ICDE、Parallel Computing、JPDC、IPDPS、ICPP 等领域前沿期刊会议发表论文20余篇,成果落地应用于中国石化、百度、字节跳动等公司和开源项目Apache Spark,获 2018 年度江苏省科学技术一等奖、2019 年度江苏省计算机学会青年科技奖,当选中国计算机学会系统软件专委会委员/大数据专委会通讯委员、江苏省计算机学会大数据专委会秘书长;

车漾  阿里云高级技术专家,从事 Kubernetes 和容器相关产品的开发。尤其关注利用云原生技术构建机器学习平台系统,是 GPU 共享调度的主要作者和维护者;

范斌 Alluxio 开源项目的管理委员会成员(PMC Member)和源码维护者(Maintianer)。加入 Alluxio 项目之前, 范斌就职于谷歌, 从事下一代大规模分布式存储系统的研究与开发。他于 2013 年获得卡内基梅隆大学(Carnegie Mellon University)计算机系博士学位,博士期间从事分布式系统的设计与实现,是 Cuckoo Filter 的作者。

 

原文链接
本文为阿里云原创内容,未经允许不得转载。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/515096.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

java 携带SSL证书 请求https 接口对接

文章目录1. 核心依赖2. 辅助依赖3.工具类1. 核心依赖 <!--JSON依赖--><dependency><groupId>com.alibaba</groupId><artifactId>fastjson</artifactId><version>2.0.7</version></dependency><!--httpClient Start--…

估值百亿独角兽爱学习教育集团:通过云原生实践与时间赛跑

简介&#xff1a; iiMedia Research&#xff08;艾媒咨询&#xff09;数据显示&#xff0c;在线教育市场规模保持逐年增长的态势&#xff0c;2019年在线教育市场规模已突破4000亿元。在疫情的助推下&#xff0c;在线教育加速渗透&#xff0c;市场空间有望进一步打开&#xff0c…

亚马逊云科技张文翊:引领企业可持续发展的绿色云端之旅

亚马逊全球副总裁、亚马逊云科技大中华区执行董事张文翊 “未来十年将是可持续发展决定性的十年&#xff0c;2030年的经济需求将与今天大不相同。”这是前不久亚马逊创始人杰夫贝索斯在他作为CEO最后一封致股东信中的一句话&#xff0c;我深以为然。 《巴黎协定》制定了一个全…

腾讯云~安装ActiveMQ

文章目录1. docker 构建2. 腾讯云防火墙策略3. 效果图1. docker 构建 docker pull webcenter/activemq mkdir /app/activemq/log -p docker run --nameactivemq \-itd \-p 8161:8161 \-p 61616:61616 \-e ACTIVEMQ_ADMIN_LOGINadmin \-e ACTIVEMQ_ADMIN_PASSWORD123456 \--res…

如何实现一个跨库连表SQL生成器?

简介&#xff1a; 用户只需在前端简单配置下指标&#xff0c;系统即可自动生成大宽表&#xff0c;让用户查询到他所需要的实时数据&#xff0c;数据源支持跨库并支持多种目标介质。这样的数据全局实时可视化如何实现&#xff1f;本文从需求分析开始&#xff0c;分享自动生成SQL…

mybatis的example.createCriteria()方法学习记录

文章目录一、mapper的crud方法:1. selectByPrimaryKey(id)2. selectByExample(example)3. selectCountByExample(example)4. updateByPrimaryKey(User user)5. updateByPrimaryKeySelective(User user) (建议使用)6. updateByExample(User user,Example example)7. updateByExa…

解密Arm Neoverse V1 和 Neoverse N2 平台 为下一代基础设施带来计算变革

在去年 9 月更新的产品路线图基础上&#xff0c;Arm 近日公开了Arm Neoverse™ V1 和 N2 平台的产品细节。为满足基础设施应用的各种需求&#xff0c;这两个平台的设计旨在解决当前正在运行的各种工作负载和应用问题&#xff0c;并分别带来 50%和 40%的性能提升。此外&#xff…

plsql 设置字体+工具栏图标大小调整

文章目录1. 字体设置2. 工具图标大小1. 字体设置 字体&#xff08;微软雅黑&#xff09;大小&#xff08;10号&#xff09;就可以 各种字体调整 2. 工具图标大小

云原生时代老牌IDC巨头谋求转型,世纪互联成立新品牌“互联科技(NEOLINK)”

编辑 | 宋慧 出品 | CSDN云计算 头图 | 世纪互联全新子品牌战略发布会现场图 4月28日&#xff0c;世纪互联举行2021新品牌战略发布会&#xff0c;正式发布全新子品牌“互联科技”&#xff08;NEOLINK&#xff09;。此次世纪互联整合集团内新零售及第一线事业群、成立新基建IDC…

中国开源持续燃烧,给开发者的两点思考

从“软件吞噬世界”再到“开源吞噬世界”&#xff0c;国际开源已步入 30 而立之年的进程中&#xff0c;越来越多开发者参与到开源中&#xff1a;据《2020 年 GitHub Octoverse 报告》显示&#xff0c;GitHub 上开发者数量达到 5600万&#xff0c;新增 6000 万个存储库以及 19 亿…

No binding operation info while invoking unknown method with params unknown 异常解决

浏览器中访问WebService&#xff0c;返回异常&#xff0c; 是由于访问地址缺少wsdl后缀

如何管理越来越多的 operator?OLM 给你答案

简介&#xff1a; OLM(Operator Lifecycle Manager) 作为 Operator Framework 的一部分&#xff0c;可以帮助用户进行 Operator 的自动安装&#xff0c;升级及其生命周期的管理。同时 OLM 自身也是以 Operator 的形式进行安装部署。本文我们将来了解一下 OLM 的基本架构和安装使…

兴趣标签体系告诉我,闲鱼的95后是这样的...

作者&#xff1a;闲鱼技术-兆晗 背景与挑战 — — "水果糖小椿 M39 暂挂" — — "列表科幻&#xff1f;" 不知大家能否读懂上面的对话&#xff0c;但在闲鱼&#xff0c;这样的对话每天都在发生。数据显示&#xff0c;闲鱼约30%的用户年龄不满25岁。了解这…

搭建Redis集群遇到的问题:Waiting for the cluster to join~~~

问题&#xff1a; 搭建Redis集群的过程中&#xff0c;执行到cluster create : … 的时候&#xff0c;发现程序发生阻塞&#xff0c;显示&#xff1a;Waiting for the cluster to join 的字样&#xff0c;然后就无休无尽的等待… 遇到这种情况大部分是因为集群总线的端口没有开…

英特尔助力完善AI人才培养,携手微软共促地球可持续发展

2021年4月22日&#xff0c;英特尔于第52个世界地球日期间举办了主题为“为企业寻良将&#xff0c;为人才筑舞台”的网络研讨会&#xff0c;旨在探讨高科技企业如何聚焦AI技术&#xff0c;赋能人才发展&#xff0c;为企业引荐人才&#xff0c;为人才提供机会&#xff0c;来共建美…

云原生除了K8S、微服务,还有...?

来源 | 无敌码农责编 | 寇雪芹头图 | 下载于视觉中国云原生(Cloud Native)是最近技术圈一个比较火的名词&#xff0c;相信大家或多或少都听说过。不过对于大多数普通研发朋友来说&#xff0c;"云原生"这个词多少可能还是有些陌生&#xff0c;以至于刚开始听到这个词时…

Service Mesh 在超大规模场景下的落地挑战

简介&#xff1a; 在实际落地方面&#xff0c;众多企业都在积极探索 Service Mesh 在大规模场景下的应用。 作者 | 至简&#xff0c;阿里云高级技术专家 随着微服务软件架构在互联网企业的广泛实践&#xff0c;新一代微服务软件架构技术悄然兴起&#xff0c; Service Mesh 便是…

一针一线皆关“云” 报喜鸟以匠心融合科技

简介&#xff1a; 为了持续增强品牌竞争力&#xff0c;更好地实现数据有效管理&#xff0c;在数据爆发式增长时能够弹性、及时扩容&#xff0c;作为行业领军者的报喜鸟决定融入云计算的大潮中&#xff0c;而将原有业务高效、平滑地迁移至云端就理所当然地成为整个环节中非常关键…

“一云多芯、三V一体” 麒麟信安云融合虚拟化方案助力信创轻松上云

“上云是常态&#xff0c;不上云是例外”。国际上IT架构已从“计算机网络”向“云端”演进&#xff0c;云计算技术的蓬勃发展为整个IT行业带来了巨大变革。据专家观点&#xff0c;到2023年&#xff0c;中国政府和大型企业上云率将超过60%&#xff0c;全栈自主可控云将成为政府和…

海量结构化数据解决方案-表格存储场景解读

简介&#xff1a; 数据是驱动业务创新的最核心的资产。不同类型的数据如非结构化数据&#xff08;视频、图片等&#xff09;、结构化数据&#xff08;订单、轨迹&#xff09;&#xff0c;面向不同业务的使用要求需要选择适合的存储引擎&#xff0c;能够真正发挥数据的价值。针对…