Fluid 0.5 版本发布:开启数据集缓存在线弹性扩缩容之路

简介: 为了解决大数据、AI 等数据密集型应用在云原生场景下,面临的异构数据源访问复杂、存算分离 I/O 速度慢、场景感知弱调度低效等痛点问题,南京大学PASALab、阿里巴巴、Alluxio 在 2020 年 6 月份联合发起了开源项目 Fluid。

头图.png

作者 | 顾荣  南京大学PASALab, Fluid项目co-founder
来源 | 阿里巴巴云原生公众号

导读:为了解决大数据、AI 等数据密集型应用在云原生场景下,面临的异构数据源访问复杂、存算分离 I/O 速度慢、场景感知弱调度低效等痛点问题,南京大学PASALab、阿里巴巴、Alluxio 在 2020 年 6 月份联合发起了开源项目 Fluid。

Fluid 是云原生环境下数据密集型应用的高效支撑平台,项目自开源发布以来吸引了众多相关方向领域专家和工程师的关注,在大家的积极反馈下社区不断演进。近期 Fluid 0.5 版本正式发布,在该版本中,Fluid 主要新增改善以下三个方面内容:

  • 丰富数据集的操作功能,支持在线弹性扩缩容、元数据备份和恢复。
  • 支持多样环境配置部署,满足用户的个性化部署配置需求。
  • 新增数据缓存引擎实现,增加用户在公有云上的引擎选择。

Fluid 开源项目地址:https://github.com/fluid-cloudnative/fluid

这三大主要功能的开发需求来自众多社区用户的实际生产反馈,此外 Fluid v0.5 还进行了一些 bug 修复和文档更新,欢迎使用体验 Fluid v0.5!

Fluidv0.5 下载链接:https://github.com/fluid-cloudnative/fluid/releases

下文是本次新版本发布功能的进一步介绍。

丰富数据集的操作功能

在本版本中 Fluid 重点丰富了核心抽象对象 —— Dataset(数据集)的相关操作功能,从而使数据密集型应用能够更好地利用云原生提供的弹性、可观测性等基础功能,并增强了用户对数据集管理的灵活性。

1. 数据集在线弹性缓存扩缩容

这是社区用户一直期待的功能!在 Fluid v0.5 之前,如果用户想要调整数据集的缓存能力,需要以全部卸载缓存引擎再重部署的方式完成。这种方式耗时耗力,还必须考虑数据缓存全部丢失的高昂代价。因此,在新版本中,我们为数据集提供了对缓存弹性扩缩容的支持,用户可以根据自己的场景需求,以不停机方式 on-the-fly 地按需增加某数据集的缓存容量以加速数据访问(扩容)或减少某个不频繁使用的数据集的缓存容量(缩容),从而实现更加精细的弹性资源分配,提高资源利用率。Fluid 内置的控制器会根据策略选择合适的扩缩容节点,例如在缩容时会结合节点上运行任务情况和节点缓存比例作为筛选条件。

执行弹性数据集的缓存能力弹性扩缩容,用户只需运行如下命令:

kubectl scale alluxioruntimes.data.fluid.io {datasetName}  --replicas={num}

其中 datasetName 对应于数据集的名称,replicas 指定缓存节点的数目。

有关数据集手动扩缩容及其效果的演示视频:http://cloud.video.taobao.com/play/u/2987821887/p/1/e/6/t/1/302459823704.mp4

更多关于数据集手动扩缩容的操作细节,请参考 Github 上的示例文档。

2. 元数据的备份与恢复

该功能增强了 Fluid 数据集元数据管理的灵活性。先前的 Fluid v0.4 已经支持将数据集的元数据(例如,文件系统 inode tree)加载至本地,并且会记录数据集的一些关键统计信息(例如,数据量大小和文件数量)。然而,一旦用户销毁本地数据集,这些元数据信息也都将丢失,重新构建数据集时需再次从底层存储系统获取。

因此,在 Fluid v0.5 中,我们新增了一个 K8s 自定义资源对象 —— DataBackup,为用户提供了声明式的 API 接口,以控制数据备份的相关行为。DataBackup 自定义资源对象构建的一个简单示例如下所示:

apiVersion: data.fluid.io/v1alpha1
kind: DataBackup
metadata:name: hbase-backup
spec:dataset: hbasebackupPath: pvc://<pvcName>/subpath1/subpath2/

再次创建数据集时,只需新增一个指定备份文件位置的字段:

apiVersion: data.fluid.io/v1alpha1
kind: Dataset
metadata:name: hbase
spec:dataRestoreLocation:path: pvc://pvc-local/subpath1/mounts:- mountPoint:  https://mirrors.tuna.tsinghua.edu.cn/apache/hbase/2.2.6/

此时,Fluid 将首先从备份文件加载元数据和数据集统计信息,从而很大地提高元数据加载速度。
 
更多关于进行数据集元数据备份与恢复的操作细节,请参考 Github 上的示例文档。

3. 数据集的可观测性优化

Fluid v0.5 还进一步增强了数据集的可观测性能力,具体包括两个部分:

1)与 Prometheus 相结合1.jpg

该特性能够支持数据集的可用性和性能指标收集,并且通过 Grafana 进行可视化展示。目前已支持 AlluxioRuntime 的实现,使用者可以方便地了解当前可缓存节点、缓存空间、现有缓存比例、远程读、短路读等性能指标。整个配置过程非常简单,达到了对于数据集监控系统“开箱即用"的效果。

具体的使用方法,请参考 Github 上的示例文档。

2)新增数据集缓存命中率指标

该功能可以标识过去 1 分钟内对该数据集的全部访问中有多少访问命中了分布式缓存。该指标一方面能够帮助用户分析他们数据密集型应用中的性能瓶颈,量化查看 Fluid 在整个应用运行的工作流中起到的效果;另一方面能够帮助用户在应用性能提升和缓存资源占用间进行行权衡,做出合理的扩缩容决策。

这一指标被添加在 Fuild v0.5 的 Dataset.Status.CacheStates 的 Dataset CRD 资源状态中,具体来说包括:

  • Cache Hit Ratio:过去一分钟分布式缓存命中的访问百分比。
  • Local Hit Ratio:过去一分钟本地缓存命中的访问百分比。
  • Remote Hit Ratio:过去一分钟远程缓存命中的访问百分比。
注: 对于分布式缓存而言,数据命中有两种不同的缓存命中情况。本地缓存命中指的是访问发起者可直接在同结点访问到缓存数据。远程缓存命中指的是访问发起者需要通过网络访问其他结点上的缓存数据。

在 Fluid v0.5 中,用户可以使用以下命令方便地查看缓存命中率指标:

kubectl get dataset <dataset-name> -o wide
NAME        ...  CACHE HIT RATIO   AGE
<dataset-name> ...  86.2%           16m

支持多样环境配置部署

自 Fluid 0.4 版本发布以来,我们根据社区用户实际部署反馈的问题和需求,对 Fluid 在多样环境下的部署配置增加了更多支持。

1. 支持 Fuse 的 global 模式

在 Fluid 中,Dataset 资源对象中所定义的远程文件是可被调度的,这意味着你能够像管理 Pod 一样管理远程文件缓存到 Kubernetes 集群上的位置。执行计算的 Pod 可以通过 Fuse 客户端访问数据文件。在先前版本的 Fluid 中,Fuse 客户端总是会调度到缓存所在的节点上,但是用户不能自由控制 Fuse 的调度。

在 Fluid v0.5 中,我们为 Fuse 新增了 global 部署模式。在该模式下,Fuse 默认会全局部署到所有节点上。用户也可以通过指定 Fuse 的 nodeSelector 来影响 Fuse 的调度结果。同时,缓存会优先调度部署在执行计算 Pod 数量较多的节点上。

具体使用非常简单,可以参考 Github 上的示例文档。

2. 支持 HDFS 的用户级配置

很多社区用户使用分布式缓存系统 Alluxio 作为 Fluid 数据集的缓存引擎。在数据集持久化存储于 HDFS 文件系统的情况下,要使得 Alluxio 能够正常访问底层 HDFS,Alluxio 集群需要提前获取该 HDFS 的各类配置信息。

在 Fluid v0.5 中,我们使用 Kubernetes 的原生资源为上述场景提供支持。用户首先需要将 HDFS 的相关配置文件(e.g. hdfs-site.xml 和 core-site.xml)以 ConfigMap 方式创建到 Kubernetes 环境中,接着在创建的 AlluxioRuntime 资源对象中引用上述创建的 ConfigMap 从而实现上述功能。

AlluxioRuntime 资源对象的一个示例如下所示:

apiVersion: data.fluid.io/v1alpha1
kind: AlluxioRuntime
metadata:name: my-hdfs
spec:...hadoopConfig: <configmap-name>...

至此,创建出的 Alluxio 集群将能够正常地访问 HDFS 集群中的数据。更多内容可参考 Github 上的示例文档。

新增数据缓存引擎实现

Fluid 默认使用的分布式缓存 Runtime 是 AlluxioRuntime,为了支持不同环境用户对缓存系统的需求,在之前的版本中 Fluid 已经将分布式缓存 Runtime 接入框架做成了可插拔的架构。在 Fluid v0.5 中,来自阿里云的社区贡献者基于该框架开发了 JindoRuntime,新增了一种支撑 Fluid Dataset 数据管理和缓存的执行引擎实现。用户可以在 Fluid 中通过 JindoRuntime 使用 JindoFS 的 Cache 模式进行远端文件的访问和缓存。在 Fluid 上使用和部署 JindoRuntime 流程简单、兼容原生 K8s 环境、开箱即用。

总结

在 Fluid v0.5 中,我们对 Fluid 的功能特性与用户体验都进行了丰富和增强。

首先,Fluid v0.5 进一步增加了数据集的功能操作:

  • 提供数据集在线弹性扩缩容能力,实现更灵活、更精细的集群资源分配控制。
  • 新增 DataBackup CRD,实现了数据集文件元数据等信息的备份与恢复,帮助完成数据集缓存系统的快速重启。
  • 新增缓存命中率指标,帮助用户更好量化分析 Fluid 提供的加速效果。

其次,Fluid 支持更多环境模式和配置,满足更多真实场景的部署需求。

最后,Fluid 新增了基于 JindoFS 的分布式缓存 Runtime —— JindoRuntime,为用户在多样化部署环境中提供不同的缓存引擎选择。

 

鸣谢

感谢为此版本做出贡献的社区小伙伴们,他们包括来自阿里云的王涛、腾讯云的谢远东、中国电信的仇伶玮、南京大学 PASALab 的徐之浩、候浩军、陈国旺、陈雨铨等同学。

作者简介

顾荣 博士,南京大学计算机系副研究员,Fluid 开源项目 co-founder、Alluxio 开源项目 PMC 成员,研究方向大数据处理系统,已在 TPDS、ICDE、JPDC、IPDPS、ICPP 等领域前沿期刊会议发表论文30余篇,主持国家自然科学基金面上项目/青年项目、中国博士后科学基金特别资助项目多项,研究成果落地应用于阿里巴巴、百度、字节跳动、中国石化、华泰证券等公司和开源项目 Apache Spark、Alluxio,获 2018 年度江苏省科学技术一等奖、2019 年度江苏省计算机学会青年科技奖,担任中国计算机学会系统软件专委会委员/大数据专委会通讯委员、江苏省计算机学会大数据专委会秘书长。

原文链接

本文为阿里云原创内容,未经允许不得转载。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/513977.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

php生成cookie在哪,php程序中cookie的使用方法

Cookie 可以翻译为“小甜品&#xff0c;小饼干” &#xff0c;Cookie 在网络系统中几乎无处不在&#xff0c;当我们浏览以前访问过的网站时&#xff0c;网页中可能会出现 &#xff1a;你好 XXX&#xff0c;这会让我们感觉很亲切&#xff0c;就好像吃了一个小甜品一样。这其实是…

c#类属性和实例属性_Visual C#类和对象的创建方式,定义类,实例化对象,实例讲解...

定义类类由class member类成员组成&#xff0c;包含字段、属性、方法和事件。其中字段和属性为类的数据成员&#xff0c;用来存储数据&#xff1b;方法负责数据的传递和运算。使用类之前&#xff0c;要进行声明&#xff0c;声明的语法如下&#xff1a;Class 类名称{访问权限 数…

面对不可避免的故障,我们造了一个“上帝视角”的控制台

简介&#xff1a; 混沌工程随着云原生的发展逐渐进入大家的视野&#xff0c;通过混沌工程可以很好地发现和解决在云原生化过程中的高可用问题。阿里巴巴在 2019 年开源了底层的混沌工程工具 - chaosblade&#xff0c;今年年初再次开源混沌工程控制台 chaosblade-box&#xff0c…

腾讯云鼎实验室发布云安全攻防矩阵,绘制九大攻防路径全景图

随着云计算技术和产业的蓬勃发展&#xff0c;企业上云已是数字化转型的必然趋势。但云上千般好&#xff0c;却也给企业带来了全新的安全挑战。云平台不仅要应对传统网络架构中存有的DDoS、入侵、病毒等常态问题&#xff0c;还要高度重视技术架构中虚拟机逃逸、资源滥用、横向穿…

Knativa 基于流量的灰度发布和自动弹性实践

简介&#xff1a; Knative 提供了基于流量的自动扩缩容能力&#xff0c;可以根据应用的请求量&#xff0c;在高峰时自动扩容实例数&#xff1b;当请求量减少以后&#xff0c;自动缩容实例&#xff0c;做到自动化地节省资源成本。此外&#xff0c;Knative 还提供了基于流量的灰度…

nginx 部署_部署 hexo 到 nginx

本来博客是使用 GitHub pages &#xff0c;但近些日子访问贼慢&#xff0c;刚好手里有一台小机器&#xff0c;当然是要用起来&#xff08;折腾就对了 &#xff09;。前置条件&#xff1a;已购买 vps 和域名&#xff0c;按需备案。ssh 登录远程服务器&#xff0c;以 CentOS 为例…

阿里云云效技术专家:一文详解kubernetes下5种常见发布模式如何选择

简介&#xff1a; Kubernetes下5场场景应用发布方式的选择&#xff0c;每种发布模式适合什么样的场景&#xff0c;以及如何在阿里云云效上高效落地。 作者&#xff1a;郑云龙&#xff0c;阿里云云效技术专家 Kubernetes面向通用场景提供了非常灵活的应用管理和运维方式&#…

“西部云安全优才计划”落地西安,为云安全高质量发展夯实才智支撑

9月26日&#xff0c;2021首届-西部云安全峰会在西安顺利召开。聚焦西部云安全发展和人才培养需求&#xff0c;在本次峰会上&#xff0c;腾讯安全云鼎实验室、陕西省计算机学会联合西安多所高校发布了“西部云安全优才计划”&#xff0c;凝聚西安以及西部的安全力量&#xff0c;…

如何做一场高质量的分享?

简介&#xff1a; 最近我发现一些同学的分享越来越趋于“念稿”式。我一边看着分享的同学在上面念稿&#xff0c;另一边看着几十号人在下面看电脑看手机&#xff0c;我心里就特别着急。恨不得我自己上去讲&#xff0c;也恨不得没收了大家的电脑手机。但这种粗暴的方法肯定是不解…

matlab knn实现,Matlab之KNN实现

1. 算法流程1) 通过Matlab产生高斯分布产生两类数据&#xff0c;并标明类别2) 数据初始化&#xff1a;设置K某个常数(一般为奇数)3) 对于每个测试数据&#xff0c;计算其到两类数据的所有点的距离对于上述求得的距离&#xff0c;选出K个最小的&#xff0c;检…

matlab 计算 工程,matlab工程计算.doc

您所在位置&#xff1a;网站首页 > 海量文档&nbsp>&nbsp计算机&nbsp>&nbspmatlabmatlab工程计算.doc167页本文档一共被下载&#xff1a;次,您可全文免费在线阅读后下载本文档。下载提示1.本站不保证该用户上传的文档完整性&#xff0c;不预览、不比…

matlab制作打地鼠游戏,scratch编程制作打地鼠的游戏教程

scratch编程制作打地鼠的游戏教程Sk1少儿编程网-https://www.pxcodes.comSk1少儿编程网-https://www.pxcodes.com首先&#xff0c;新建背景和角色&#xff0c;从背景库/角色库中分别选择森林和地鼠、锤子Sk1少儿编程网-https://www.pxcodes.com1.角色&#xff1a;洞Sk1少儿编程…

php301重定向跳转,php如何设置301重定向跳转

php设置301重定向跳转的方法&#xff1a;在跳转前设置状态码【header( "HTTP/1.1 301 Moved Permanently" );header("Location:your_dest_url")】。本教程操作环境&#xff1a;windows7系统、PHP5.6版&#xff0c;DELL G3电脑&#xff0c;该方法适用于所有…

华为发布《大交通时代》:开启未来数字交通宏图

9月24日&#xff0c;在华为全联接2021大会期间&#xff0c;华为携手电子工业出版社及行业专家、共同举办了业内首部交通行业数字化转型系统性专著《大交通时代&#xff1a;行业数字化转型之道》&#xff08;以下简称《大交通时代》&#xff09;新书发布媒体沟通会。本书理论结合…

树莓派 摄像头 php,树莓派3 之 USB摄像头安装和使用

需求如果你想在树莓上拍照或者录影&#xff0c;你可以安装树莓派的摄像头(有点贵)。如果你不想要为摄像头模块花费额外的金钱&#xff0c;那有另外一个方法&#xff0c;就是你常见的USB 摄像头。你可能已经在PC上安装过了。我买的如图的这款本篇文章讲解的就是 在树莓派上使用U…

Gartner发布2021年低代码魔力象限,Mendix名列前位

到2025年&#xff0c;企业所开发的新应用中有70%将使用低代码或无代码技术&#xff0c;而2020年的这一比例还不到25%。低代码应用平台在其技术采用曲线上已从"早期采用者"进入到"早期多数人"阶段&#xff1b;而且低代码是“适合主流业务用例的强大的最佳应…

python爬虫入门心得体会,python爬虫入门和实例

爬虫不外乎是为了获取网络上的信息&#xff0c;要取得信息&#xff0c;你就得给给服务器发请求&#xff0c;然后服务器把信息发给你&#xff0c;这一步一般较为简单。服务器发给你的一般是一个html文件&#xff0c;拿到文件后&#xff0c;你可能会觉得这是什么乱七八糟的东西&a…

python的整数类型_Python int 数字整型类型 定义int()范围大小转换

本文主题是讲python数字类型python int整型使用方法及技巧。它是不可变数据类型中的一种&#xff0c;它的一些性质和字符串是一样的&#xff0c;注意是整型不是整形哦。 Python int有多种数字类型&#xff1a;整型int、长整型、布尔型bool、浮点数float、复数complex&#xff0…

Gartner发布2021年人工智能技术成熟度曲线

编辑 | 宋慧 供稿 | Gartner 全球信息技术研究和顾问公司Gartner 2021年人工智能技术成熟度曲线&#xff08;Hype Cycle for Artificial Intelligence, 2021&#xff09;中的四个趋势正在推动近期人工智能创新。这四个趋势是&#xff1a;负责任的人工智能、小而宽数据策略、人…