多云架构,JuiceFS 如何实现一致性与低延迟的数据分发

随着大模型的普及,GPU 算力成为稀缺资源,单一数据中心或云区域的 GPU 资源常常难以满足用户的全面需求。同时,跨地域团队的协作需求也推动了企业在不同云平台之间调度数据和计算任务。多云架构正逐渐成为一种趋势,然而该架构下的数据分发面临一系列挑战。

01 多云架构下的存储挑战

在实际操作中,不少企业在各个云平台自行构建计算 Pod,来处理特定的计算任务并进行数据分发。然而,如何确保这一分发过程的持续性,并将训练结果及时归并,成为了亟待解决的难题。尤其是当数据需要跨地域传输时,性能瓶颈和数据一致性问题尤为突出。

以一个具体场景为例,图中左侧为训练集群,部署于腾讯云,而右侧则为推理集群,位于阿里云。如何将训练集群所生成的模型数据高效地分发至推理集群呢?

首要问题在于,数据的分发与异地计算难度较大,需用户自行将数据从文件系统层面拷贝至异地,并设定定时定量的策略。

其次,当数据量庞大时,若需全面同步,将耗费大量资源。而热数据往往仅占少数,企业往往难以预知哪些数据为热数据,需在读取后才能确定。因此,按需拷贝而非全面拷贝,并在异地设立本地缓存,既能提升性能,又能兼顾成本。

再者,网络带宽、出错重试等问题可能导致数据不一致。此外,云厂商通常倾向于构建封闭的生态,不愿提供跨云功能,如腾讯云便不会提供工具协助用户将数据拷贝至其他云进行分发。因此,作为云中立的第三方文件系统,我们需提供整体的解决方案,以打破单一云厂商的束缚,满足客户的跨云与多云需求。

02 JuiceFS 跨云、多云解决方案

JuiceFS 企业版是基于对象存储的分布式文件系统,相比社区版它提供了更强的元数据引擎和缓存管理能力。针对用户在多云架构中对数据访问性能的不同需求,juiceFS 提供跨区和跨地域的多种方案。

方案 1:同地域、跨云数据分发

该方案是指在同区域的不同云之间进行数据分发,常被应用于数据双活与灾备场景。通过在源区域(下图左上角)与目标区域之间建立异步数据同步关系,系统能够自动将数据从一个区域复制到另一个区域,并保证数据的一致性。

该方案采用共享元数据服务的方式,使得不同区域的客户端可以在挂载文件系统时进行就近写入,优化数据存取效率。异步复制和元数据一致性保证了在不同区域间的数据一致性和稳定性。

数据一致性方面,JuiceFS 的强一致性由元数据保证,文件有变更会在对象存储上追加新的数据块,然后元数据会指向新的数据块,所以只要元数据一致,就能确保整个文件的一致性。因此,当目标客户端访问同一元数据服务时,不存在数据不一致的情况。期间若数据已同步至目标区域存储桶,则直接从该桶读取;若尚未同步,则会回源至源存储桶读取,以确保数据的完整性和一致性。

此方案广泛适用于数据双活和灾备场景。对于数据双活应用,企业可以通过跨区数据复制在多个区域之间共享数据,实现高可用性和负载均衡。

在灾备场景中,该方案通过异步将数据备份到目标区域,避免了因源云平台出现问题(如账号封禁、访问限制等)导致的数据不可用情况。即便源区域发生故障,客户端只需挂载并切换到目标区域即可继续正常工作,数据可以无缝恢复。

方案 2:跨地域数据访问,适用于大规模 AI 训练场景

针对跨地域数据访问的性能挑战,我们提供了多种解决方案以满足不同场景下的需求。

元数据和数据同步

当两地享有共同地域的元数据服务时,数据访问通常不会受到显著延迟影响。然而,当数据需要跨国或跨大洲传输,如从新加坡或美国节点访问时,性能问题可能变得尤为突出,尤其是当涉及大量小文件时。此时,远程数据访问若未命中缓存,可能需要回源区域读取,这将严重影响性能。

为解决这一问题,我们设计了镜像文件系统功能,该功能通过同步源区域和目标区域(镜像区域)中的数据和元数据,确保两地数据一致性,从而实现跨地域数据的低延迟访问。虽然我们期望实现实时同步,但由于地域间的网络限制,实际上无法做到完全的实时性。

镜像文件系统中的操作流程如下:当源区域的客户端对源区域的存储桶发起读写操作时,会异步地将数据写入镜像区域的存储桶。当镜像区域的客户端在进行训练或推理时,系统将就近从镜像区域读取数据,以减少访问延迟从而提高性能。若数据尚未同步至镜像区域,系统将回源读取。

值得注意的是,在 JuiceFS 5.0 版本之前,镜像区域仅支持读操作;5.0 及之后版本则加入了写操作功能。在进行写操作时,系统先将数据写入镜像区域桶里,再将元数据更新到源区域的元数据服务中(注意:元数据不会直接写入镜像区域)。然后,元数据再按正常流程同步到镜像区域。

这个镜像写入流程看起来有些复杂,但为了确保在各种网络波动情况下同步不会出现错误,我们采用了单向同步的设计,虽然在写入时会承受一定的延迟,但这是为了一致性做出必要的妥协。

仅元数据同步

此外,为了应对大数据量同步时的成本和时间挑战,我们提供了按需同步的方案。用户可以选择仅同步元数据。这与上一种方式的差别就在于避免的全桶复制,虽然缺乏一定数据本地性,但如果分布式缓存有足够命中率,性能仍能得到保障。最为关键的是,这种方式省去了大量时间、复制流量及重复存储的成本。在写入数据时,系统同样将数据写回源区域的存储桶和元数据区域,并同步至镜像区域。通过这样的方式,我们实现了安全、高效的跨地域数据同步和访问。

03 某 LLM 企业腾讯云到阿里云跨云案例(仅元数据同步)

该企业在阿里云上拥有大量闲置的训练 GPU 资源,希望能够将这些资源与腾讯云的训练任务协同使用。因此,企业需要将数据从腾讯云分发到阿里云。然而,由于两者之间网络波动频繁,数据分发受阻,进而影响了训练效率,尤其是在处理大量小文件时,卡顿现象更为明显

为解决这一问题,企业选择使用 JuiceFS 来支持跨地域的数据分发场景。通过同步元数据, JuiceFS 有效降低了网络波动带来的影响。同时,为了控制成本,企业并未将所有数据同步到阿里云,而是采用分布式缓存,仅按需预热并同步需要的数据,从而在保证性能的同时优化了成本。

目前,镜像文件系统的大小约为 256TB,文件数量达到 1300 万个,平均文件大小约为18.6MB。阿里云客户端在镜像区域的数量达到 540 个,有大量的训练容器协助腾讯云进行训练。阿里云端元数据的 QPS 已达到 5.81 万次。尽管分布式缓存节点数量为 138 个,缓存容量仅为 8.8TB,但通过足够的节点数量和网卡数量,系统能够聚合出较大的带宽,缓存的最大读取吞吐量为 37GB/s,写入吞吐量为 4GB/s,能够满足该场景的性能要求

03 小结

针对用户在多云架构中对数据访问性能的不同需求,JuiceFS 从第三方云中立的角度提供完整的解决方案,不捆绑任何特定云平台。

  • 方案 1:同地域跨云数据分发
    • 适用于两地距离相对较近、数据通信稳定的场景,同时也适用于跨云桶数据灾备的解决方案。
  • 方案 2:跨地域数据访问
    • 数据与元数据均同步。此方案支持多份数据同步,尤其适用于地域相隔较远的场景。其优势在于读取性能最佳,因为元数据和数据均可从本地读取。然而,这也带来了最高的成本。
    • 仅元数据同步:兼顾成本与性能的折衷方案。元数据从本地读取,而数据则按需从缓存中读取;若缓存未命中,则回源读取。然而,其写入性能相对一般,因为无论是数据还是元数据,均需回源写入。此方案尤其适用于对成本敏感且镜像区域大量数据为只读的场景。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/66865.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【Git原理和使用】Git 分支管理(创建、切换、合并、删除、bug分支)

一、理解分支 我们可以把分支理解为一个分身,这个分身是与我们的主身是相互独立的,比如我们的主身在这个月学C,而分身在这个月学java,在一个月以后我们让分身与主身融合,这样主身在一个月内既学会了C,也学…

静态路由配置与调试——计算机网络实训day1

文章目录 操作前准备一、实验目的二、实验要求三、实验过程1、在R1和R2上配置设备名称。基本配置设备命名 2、在R1和R2上配置接口IP地址,并查看IP地址的配置情况。3、在R1和R2上配置静态路由,并查看路由表。静态路由缺省路由(默认路由&#x…

农产品直播带货方案拆解

作为一名经验丰富的营销策划人道叔,今天我来拆解一下咱们4A营销广告圈的这份《直播天府川农好物带货方案》,让你能学到很多实用的策略和技巧,直接应用到你的策划工作中去。 首先,咱们看看背景分析。 助农直播现在可是个大热门&a…

【Qt】控件概述和QWidget核心属性1(enabled、geometry、windowTitle、windowIcon、QRC机制)

一、控件概念 界面上各种元素、各种部分的统称(如按钮、输入框、下拉框、单选复选框...) Qt作为GUI开发框架,内置了各种的常用控件,并支持自定义控件。 二、控件体系发展 1.没有完全的控件,需要使用绘图API手动绘制…

怎么理解编码器与解码器?

编码器和解码器是在信息处理、通信、多媒体等众多领域中广泛应用的两个概念,它们的作用相反但又紧密相关。下面从多个角度来帮助你理解这两个概念: 定义 编码器:编码器是一种将输入信息(如模拟信号、文本、图像、声音等&#xf…

从 0 开始上手 Solana 智能合约

Solana CLI 基础知识 Solana CLI 是一个命令行界面工具,提供了一系列用于与 Solana Cluster 交互的命令。 我们将介绍一些最常见的命令,但你始终可以通过运行 solana --help 查看所有可能的 Solana CLI 命令列表。 Solana CLI 配置 Solana CLI 存储了…

【杂谈】-50+个生成式人工智能面试问题(四)

7、生成式AI面试问题与微调相关 Q23. LLMs中的微调是什么? 答案:虽然预训练语言模型非常强大,但它们并不是任何特定任务的专家。它们可能对语言有惊人的理解能力,但仍需要一些LLMs微调过程,开发者通过这个过程提升它…

spring boot 多数据源集成mysql、postgresql、phoenix、doris等

如何搭建多数据源项目只要以下简单几步; 一. 创建核心在config.datasource文件夹里 二. 引入相对应的jar包 三. 创建数据库连接配置 四. 写逻辑代码进行验证 1.DataSource package com.irootech.config.datasource;import java.lang.annotation.*;Target({ElementType.MET…

01-51单片机LED与独立按键

一、单片机概述 注意:个人学习笔记,里面涉及到的C语言和进程转换相关的知识在C语言部分已经写了,这里是默认都会的状态学习单片机。 1.什么是单片机 单片机,英文Micro Controller Unit,简称MCU。其内部集成了CPU、R…

音视频入门基础:MPEG2-PS专题(6)——FFmpeg源码中,获取PS流的视频信息的实现

音视频入门基础:MPEG2-PS专题系列文章: 音视频入门基础:MPEG2-PS专题(1)——MPEG2-PS官方文档下载 音视频入门基础:MPEG2-PS专题(2)——使用FFmpeg命令生成ps文件 音视频入门基础…

对当前日期进行按年、按月、按日的取值

对当前日期进行按年、按月、按日的取值。 其规则为: 按年 为当前日期到来年同一日期的前一天(2024-12-01到2025-11-30)。 按月 为当前日期到下个月的同一日期的前一天 (2024-12-01 到 2024-12-31)。 按日 为当前日…

.NET体系架构

引言 .NET是由微软开发的一个广泛应用的开发平台,旨在帮助开发者构建各种类型的应用程序,包括桌面应用、Web应用、移动应用和云服务。最初,.NET平台的构建主要集中在Windows环境上,但随着.NET Core和随后.NET 5及以上版本的推出&…

HTML5 加载动画(Loading Animation)

加载动画(Loading Animation)详解 概述 加载动画是指在数据加载过程中,向用户展示的一种视觉效果,旨在提升用户体验,告知用户系统正在处理请求。它可以减少用户的等待焦虑感,提高界面的互动性。 常见的加…

【Apache Paimon】-- 13 -- 利用 paimon-flink-action 同步 mysql 表数据

利用 Paimon Schema Evolution 核心特性同步变更的 mysql 表结构和数据 1、背景信息 在Paimon 诞生以前,若 mysql/pg 等数据源的表结构发生变化时,我们有几种处理方式 (1)人工通知(比如常规的使用邮件),然后运维人员手动同步到数据仓库中 (2)使用 flink 消费 DDL bi…

【网络协议】静态路由详解

网络中的路由器通过以下两种方式之一发现远程网络: 静态配置路由动态路由协议 在本文,我们将学习关于静态路由的各种概念,例如如何配置静态路由、路由表如何进行决策、路由接口等相关知识。 文章目录 引言直连网络静态路由路由表原则原则1原…

华为C语言编程规范总结

1.头文件更改会导致所有直接或间接包含该头文件的的C文件重新编译,会增加大量编译工作量,延长编译时间,因此: 1.1 头文件里尽量少包含头文件 1.2 头文件应向稳定的方向包含 2.每一个.c文件应有一个同名.h文件&#xff0c…

python 生成24bit音频数据实例解析

一 概念 24 bit 是指音频文件的 采样深度 (bit depth)。 它代表了每个采样点的数据精度,也就是音频每个样本所使用的比特数。 24 bit 的采样深度相较于 16 bit 提供了更高的动态范围和更精确的音频信息表示。 动态范围:24 bit 的…

PyTorch:.max(1)和.max(0)的使用

目录 1).max(1)的使用: 2).max(0)的使用: 1).max(1)的使用: 假设有一个形状为 ( m , n ) 的 Tensor x ,其中m表示行数,n表示列数。 x.max(1) ,相当于x.max(dim1) 。作…

Vue 3 Diff 算法过程及基本实现方式

Vue 3 的 Diff 算法 Vue 3 使用的是一种高效的 DOM Diff 算法,主要用于在虚拟 DOM 树发生变化时,计算最小的操作以更新真实 DOM。相比 Vue 2,Vue 3 的 Diff 算法做了很多优化。 Diff 算法的背景与目的 虚拟 DOM 树的对比:在 Vue…

任务调度系统Quartz.net详解2-Scheduler、Calendar及Listener

任务调度系统Quartz.net详解2-Scheduler、Calendar及Listener Scheduler 调度器scheduler是Quartz中的独立工作容器,所有的Trigger和Job都需要注册到scheduler中才能工作。我们可以通过SchedulerFactory来获取scheduler实例。如下: //1.获取默认的标准…