分布式虚拟文件系统,如何实现多种存储系统的融合

随着大数据技术和人工智能技术的发展,各种框架应运而生,比如大数据领域中的MapReduce和Spark,人工智能领域中的TensorFlow和PyTorch等。为了给不同的计算框架提供存储服务,存储的服务类型也是很多,常见的如AWS的S3存储、NFS文件系统和Ceph分布式系统等。

业务的多样化和存储系统的多样化导致计算与存储之间的关系异常复杂,如下是一个计算存储关系的示意图。企业为了维护这种复杂的关系会消耗大流量的精力。有人可能会想,有没有一种方法屏蔽存储之间的差异,为计算提供统一的接口?

想到这里,大家可能会想到我们前面介绍的Linux虚拟文件系统的概念。虚拟文件系统是应用程序和具体文件系统(如Ext4)之间的一个抽象层,为应用程序提供了统一的接口。我们是不是可以在计算和存储系统之间也构建一个这样的抽象层,为不同的计算平台提供统一的接口呢?

Alluxio就是这样一种实现,它实现了多多种存储平台的聚合,为计算平台提供统一的接口。如下是Alluxio在计算和存储系统中的关系图,可以看到Alluxio以存储系统为后端,可以管理S3、HDFS和文件系统等多种类型的存储系统,进而为计算平台提供目前市面上常见协议的接口。

其实Alluxio的功能可不仅仅是实现存储的整合和提供统一的接口,还有很多其他的功能特性。这些特性包括无拷贝的数据管理、基于缓存的数据移动和加速以及基于云的多层数据策略。

Alluxio的基本原理非常简单,首先是Alluxio节点会对后端多种存储系统的资源进行聚合,提供统一的命名空间;其次是其利用Alluxio节点的本地内存和持久化存储将计算平台需要访问的数据缓存起来,提供数据访问加速。

由于Alluxio节点处于计算与存储系统中间,很容想到Alluxio节点可能会成为性能瓶颈。为了避免Alluxio成为性能瓶颈,Alluxio设计时就采用了分布式架构,通过节点的横向扩展可以实现近似线性的性能扩展。

如下图所示是Alluxio的整体架构示意图,Alluxio的节点分为两中不同的角色,一种称为master节点,负责管理元数据和工作流;另外一种称为worker节点,负责本地数据缓存和后端数据交互。可以看出这个架构与HDFS的架构非常类似。这里Master节点采用主从架构,并借助ZooKeeper实现选主。

Alluxio的使用也比较简单,我们可以通过虚拟机部署一个单Master,单Worker的环境。在使用Alluxio需要安装JDK,大家可以自行安装,本文不再赘述这部分的内容。

二进制的安装非常简单,我们只需要从官网下载二级制包,然后解压到本地就可以。具体可以通过如下命令完成。

$tar-xzf alluxio-2.9.2-bin.tar.gz
$cd alluxio-2.9.2

下一步可以进行一些基本的配置。压缩包里面有个配置文件的模板,我们可以先拷贝到conf目录下,具体执行如下命令。

$cp conf/alluxio-site.properties.template conf/alluxio-site.properties

设置hostname项,具体方法如下。需要知道的是,这里的localhost也可以替换为本机的IP地址,这样访问会更加方便。

$echo"alluxio.master.hostname=localhost">> conf/alluxio-site.properties

到这里配置就算完成了,是不是很简单!可以运行一下下面的命令,检查一下是否具备了运行Alluxio的条件。

$./bin/alluxio validateEnv local

一切就绪后我们就可以启动Alluxio了。在启动Alluxio服务之前需要先进行格式化,具体命令如下所示。

$./bin/alluxio format

格式化主要是格式化日志目录和Worker的存储目录。完成上述格式化后就可以运行Alluxio服务了。Alluxio提供了一个脚本来启动服务,如下命令可以启动一个Master服务和一个Worker服务。

$./bin/alluxio-start.sh local SudoMount

执行上述命令后可以到如下所示的启动过程。可以看到启动的服务包括Master、Worker、job_master和Proxy等服务。

服务启动成功后可以通过http://localhost:19999查看 Alluxio master 的运行状态,通过访问http://localhost:30000查看 Alluxio worker 的运行状态。如果在配置时localhost是具体的IP地址,那么可以通过具体的IP地址访问上述服务。

如下图所示是登录Master后的控制面板,里面包含服务的状态、日志和配置信息等内容。同时,我们可以通过该GUI浏览存储系统中的资源。

服务起来后我们就能访问其中的存储资源。当然,目前Alluxio并没有任何资源,因此如果想浏览其中的内容,其实什么也看不到。可以通过如下命令浏览其中的内容。

$./bin/alluxio fs ls /

执行上述命令后可以看到什么也没有。我们可以向其中拷贝一些文件,然后再观察一下其中的内容有什么变化。通过如下命令可以将本地文件拷贝到Alluxio中。

$./bin/alluxio fs copyFromLocal /root/test.conf /test.conf_remote

再次执行一下ls命令可以看到我们拷贝的内容。

在上述配置中,我们并没有配置后端存储。Alluxio利用的是本地存储空间,我们可以在Alluxio目录下找到一个名称为underFSStorage的目录,刚才我们拷贝的文件都在这里。

前文我们说了,Alluxio可以是对S3、HDFS、Ceph和Minio等市面上大多数存储系统的对接。实际上Alluxio对接后端存储也非常简单,以对接Minio为例,在配置文件alluxio-site.properties中添加如下内容就可以实现对Minio的对接。

alluxio.master.mount.table.root.ufs=s3://<MINIO_BUCKET>/<MINIO_DIRECTORY>
alluxio.underfs.s3.endpoint=http://<MINIO_ENDPOINT>/
alluxio.underfs.s3.disable.dns.buckets=true
alluxio.underfs.s3.inherit.acl=false
s3a.accessKeyId=<MINIO_ACCESS_KEY_ID>
s3a.secretKey=<MINIO_SECRET_KEY_ID>

上面有些配置项需要根据实际情况做更改。比如MINIO_ENDPOINT是IP地址加端口号,比如http://192.168.2.100:9000。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/655815.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

winform工具报错处理

winform工具报错处理 如图&#xff1a; 出现这种错误&#xff0c;工具打不开就是没有这个&#xff08;.NET&#xff09;环境&#xff0c;需要根据工具的使用开发环境安装配置插件 解决方案 需要安装如图的插件&#xff1a; 选择文件导入报错 1.如果之前已安装过AccessDat…

【c++】日期类的实现-Class Date

代码实现 #define _CRT_SECURE_NO_WARNINGS 1 #include <iostream> using namespace std; class Date { public:// 获取某年某月的天数int GetMonthDay(int year, int month){static int monteDays[13] { 0,31,28,31,30,31,30,31,31,30,31,30,31 };if (month 2 &&…

[React源码解析] Fiber (二)

在React15及以前, Reconciler采用递归的方式创建虚拟Dom, 但是递归过程不可以中断, 如果组件的层级比较深的话, 递归会占用线程很多时间, 那么会造成卡顿。 为了解决这个问题, React16将递归的无法中断的更新重构为异步的可中断更新, Fiber架构诞生。 文章目录 1.Fiber的结构2…

Android Studio项目——TCP客户端

目录 一、TCP客户端UI 1、UI展示 2、xml代码 二、TCP客户端数据发送 三、TCP客户端数据接收 一、TCP客户端UI 1、UI展示 2、xml代码 <?xml version"1.0" encoding"utf-8"?> <RelativeLayout xmlns:android"http://schemas.android.…

开始一个vue项目

一、新建项目 用cmd命令创建项目 1.1创建文件 以管理员身份打开命令行界面&#xff0c;进入任意一个想要创建项目的文件夹 输入&#xff1a;vue create vue01 1.2创建成功 Successfully created project vue01出现这个说明创建成功1.3项目目录 二、 vue-router 安装和配置的…

C语言-动态内存申请

一、动态分配内存的概述 在数组一章中&#xff0c;介绍过数组的长度是预先定义好的&#xff0c;在整个程序中固定不变&#xff0c;但是在实际的编程中&#xff0c;往往会发生这种情况&#xff0c;即所需的内存空间取决于实际输入的数据&#xff0c;而无法预先确定 。为了解决…

ChatGPT PLUS升级步骤--支付宝、微信

AI伴随着我们已经有一年多了&#xff0c;这一年多里我使用ChatGPT做ppt、生成绘画、写文案、做旅游攻略&#xff0c;还有一些医学知识&#xff0c;医学知识我感觉没有回答的很好&#xff0c;对比于医生给的建议我个人觉得还是医生的比较好&#xff0c;Chat GPT回答的比较官方 …

AWS免费套餐——云存储S3详解

文章目录 前言一、为什么选择S3二、费用估算三、创建S3云存储注册账户登录账户创建存储桶关于官网相关文档 总结 前言 不论个人还是企业&#xff0c;日常开发中经常碰到需要将文档、安装包、日志等文件数据存储到服务器的需求。往常最常用的是云服务器&#xff0c;但是仅仅承担…

leetcode hot100跳跃游戏Ⅱ

本题和上一题还是有不一样的地方&#xff0c;这个题中&#xff0c;我们需要记录我们跳跃的步数并尽可能的满足最小的跳跃步数到达终点。 那么我们还是采用覆盖范围的概念&#xff0c;但是我们需要两个&#xff0c;一个是在当前位置的覆盖范围&#xff0c;另一个是下一步的覆盖…

分布式系统面试的秘籍:深入探讨事务、幂等性和补偿事务,掌握二/三阶段提交,了解Sagas事务模型和分布式ID的实战应用!

1、分布式幂等性如何设计&#xff1f;并举例说明 设计分布式系统的幂等性是确保在面对重复请求或操作时系统能够产生相同结果的重要方面。以下是一些设计方法&#xff0c;并结合一个简单的例子说明&#xff1a; 设计方法&#xff1a; 唯一标识符&#xff08;ID&#xff09;:…

这么复杂的刻度标签怎么绘制?超简单~~

今天我们开始「粉丝要求绘图系列」的第一篇推文 &#xff0c;这个系列我会筛选出需求较多的一类图进行绘制讲解&#xff0c;当然&#xff0c;绘图的数据我们尽可能的全部分享出来(即使涉及一些论文数据&#xff0c;我们也会根据情况进行虚构处理的)&#xff0c;本期的推文重要涉…

dfs专题 P1255 数楼梯——洛谷(疑问)

题目描述 楼梯有 &#xfffd;N 阶&#xff0c;上楼可以一步上一阶&#xff0c;也可以一步上二阶。 编一个程序&#xff0c;计算共有多少种不同的走法。 输入格式 一个数字&#xff0c;楼梯数。 输出格式 输出走的方式总数。 输入输出样例 输入 #1复制 4 输出 #1复制…

H5 嵌套iframe并设置全屏

H5 嵌套iframe并设置全屏 上图上代码 <template><view class"mp-large-screen-box"><view class"mp-large-screen-count">// 返回按钮<view class"mp-mini-btn-color mp-box-count" hover-class"mp-mini-btn-hover…

如何在群晖中本地部署WPS Office并实现公网远程访问

文章目录 1. 拉取WPS Office镜像2. 运行WPS Office镜像容器3. 本地访问WPS Office4. 群晖安装Cpolar5. 配置WPS Office远程地址6. 远程访问WPS Office小结 7. 固定公网地址 wps-office是一个在Linux服务器上部署WPS Office的镜像。它基于WPS Office的Linux版本&#xff0c;通过…

Pandas--安装(2)

安装 pandas 需要基础环境是 Python&#xff0c;Pandas 是一个基于 Python 的库&#xff0c;因此你需要先安装 Python&#xff0c;然后再通过 Python 的包管理工具 pip 安装 Pandas。 使用 pip 安装 pandas: pip install pandas安装成功后&#xff0c;我们就可以导入 pandas …

12.1 关键点提取------Harris原理及代码

一、原理 该原理看了Harris角点检测原理详解-CSDN博客的博文&#xff0c;在这里写一遍是作为笔记&#xff0c;以供后参考。 1.什么是角点 角点就是图片中的一些突变的点&#xff0c;如下图所示。图中的点都是菱角分明的一些凸出来或凹进去的点。 我们可以直观的概括下角点所具…

复杂SQL治理实践 | 京东物流技术团队

一、前言 软件在持续的开发和维护过程中&#xff0c;会不断添加新功能和修复旧的缺陷&#xff0c;这往往伴随着代码的快速增长和复杂性的提升。若代码库没有得到良好的管理和重构&#xff0c;就可能积累大量的技术债务&#xff0c;包括不一致的设计、冗余代码、过时的库和框架…

Go语言中HTTP代理的请求和响应过程

在Go语言中&#xff0c;HTTP代理的实现涉及对请求和响应的拦截、转发和处理。下面将详细介绍这个过程。 请求过程&#xff1a; 客户端发起请求&#xff1a;客户端&#xff08;例如浏览器或其他应用程序&#xff09;发送HTTP请求到代理服务器。建立连接&#xff1a;代理服务器…

C++核心编程:类和对象 笔记

4.类和对象 C面向对象的三大特性为:封装,继承,多态C认为万事万物都皆为对象&#xff0c;对象上有其属性和行为 例如&#xff1a; 人可以作为对象&#xff0c;属性有姓名、年龄、身高、体重...,行为有走、跑、跳、说话...车可以作为对象&#xff0c;属性有轮胎、方向盘、车灯…

Django配置websocket时的错误解决

基于移动群智感知的网络图谱构建系统需要手机app不断上传数据到服务器并把数据推到前端标记在百度地图上&#xff0c;由于众多手机向同一服务器发送数据&#xff0c;如果使用长轮询&#xff0c;则实时性差、延迟高且服务器的负载过大&#xff0c;而使用websocket则有更好的性能…