大数据平台需要存算分离吗?某保险集团:以 ZBS 优化资源利用率,缩短业务用时超一半

金融机构普遍采用“存算一体”架构支撑基于 Hadoop 框架的大数据平台。而随着金融业务的多元化发展,不同业务对计算和存储的需求差异较大,由于“存算一体”架构共享存储与计算资源,经常会出现资源需求不均衡、资源利用率低下、难以灵活调度等问题,不仅难以满足大数据平台的业务需求,还可能增加用户的资源投入与运行成本。

近期,SmartX 与某头部保险集团开展合作,探索基于 SmartX 分布式存储 SMTX ZBS 构建“存算分离”架构,搭配 NVMe-oF(RDMA)接入协议,支撑 HDP 发行版的大数据平台性能表现。测试结果显示,相比基于裸金属和本地盘的“存算一体”架构,基于 SMTX ZBS(开启 RDMA)的“存算分离”架构,可有效缩短 HDP 大数据平台导出与查询表用时约 70%,同时提升资源使用率和资源扩展灵活性

下载阅读金融核心生产业务场景探索合集系列电子书,了解更多金融业务系统在分布式存储“存算分离”架构下的性能表现。

【核心业务篇】金融核心生产业务场景探索文章合集

【信创转型与架构升级篇】金融核心生产业务场景探索文章合集

【数据库与数据仓库篇】金融核心生产业务场景探索文章合集

实践背景

某保险集团原使用基于服务器和本地硬盘的“存算一体”架构支撑大数据平台,在生产环境运行期间,随着数据量的增加,存储和计算的资源使用逐渐变得不均衡,在算力足够的情况下出现了存储 I/O 瓶颈。由于采用“存算一体”架构,用户选择增加节点数量的方式来分担 I/O 负载,而扩展节点后整套系统的存储资源利用率仅为 30%,不仅浪费了资源,还增加了非必要的硬件成本。同时,由于本地硬盘不具备容灾机制,如果磁盘出现故障,为了保证数据的可靠性,大数据平台会占用业务带宽进行数据恢复,进而影响整个集群的性能和稳定性。

经过细致评估,用户希望尝试“存算分离”架构,来改善上述资源分配和可靠性的问题——存算分离架构将存储层和计算层分开部署,允许独立地扩展存储和计算资源,并根据实际需求动态地调整资源配置,从而提高系统的灵活性和可扩展性。同时,结合企业级分布式存储的数据保护机制,当存储磁盘故障时可实现大数据平台无感知的自动数据恢复(不占用业务带宽流量),进一步增强架构的可靠性和稳定性。

不过,选择哪一款分布式存储支持大数据平台?存储性能能否满足大数据平台日常需求?“存算分离”架构是否会因为网络远程传输 I/O 带来性能下降?多种数据冗余机制是否会造成额外的存储消耗?……针对这些顾虑,用户对 SmartX 分布式存储 SMTX ZBS 基于多种接入协议支持大数据平台的性能表现进行了测试验证。

SMTX ZBS 支持金融大数据平台的性能评测

ZBS 是 SmartX 自主研发的分布式存储,既可以与 SmartX 原生虚拟化 ELF/ VMware 虚拟化软件融合部署为超融合架构,也可作为分布式存储软件进行独立部署。SMTX ZBS 支持多种计算平台,具备多种企业级高可用特性和端到端的性能优化,同时支持 NVMe over RDMA(RoCE)技术以降低网络传输带来的延迟。欲深入了解 ZBS 功能特性,请阅读:

  • 分布式块存储 ZBS 的自主研发之旅 | 架构篇
  • 分布式块存储 ZBS 的自主研发之旅|接入协议之 NVMe-oF
  • 分布式块存储 ZBS 的自主研发之旅|数据同步协议 RDMA
  • 分布式块存储 ZBS 的自主研发之旅|元数据管理

测试目标

大数据平台数据流
大数据平台数据流

通过 SMTX ZBS 分布式存储对接裸金属服务器基础架构,用于承载上图中的 HDFS 和 HBase 等相关服务。对比 SMTX ZBS 和本地硬盘环境下大数据平台在备份场景和业务场景中的性能表现,同时针对 SMTX ZBS 基于 iSCSI 和 NVMe over RDMA(RoCE)两种接入协议的性能表现进行对比验证。

测试项目

  • 场景一 – 从 HBase 写入 HDFS(备份场景):分别从生产环境 12 台计算节点和 POC 环境 3 台计算节点中的 HBase 数据库中,导出 3 个(共 80GB)、14个(共 1.5TB)相同数据表写入到 HDFS,记录用时时间。
  • 场景二 – Phoenix 查询 HBase 数据表(业务场景):通过 Phoenix 程序直接查询 HBase 数据库,观察查询数据表的响应时间(响应延迟)。

环境配置

生产环境

生产环境有配置 1 和配置 2 两种服务器配置,具体如下:

配置 1:

配置2:

测试环境

说明:因为 NVMe over RDMA 技术对计算平台操作系统版本存在兼容性要求,故 Anolis OS 用于 NVMe Over RDMA 协议的测试。

测试结果

场景一:从 HBase 写入 HDFS

表导出场景下的性能对比

从 HBase 3/14 个表导出的用时对比来看,基于 NVMe over RDMA 接入协议的 SmartX 分布式存储相比生产物理机环境,导表时间分别缩短 72% 和 68%;3 个表导出场景下,相比 iSCSI 接入协议,采用 NVMe over RDMA 接入协议的 SMTX ZBS 导表时间缩短约 60%。

场景二:Phoenix 查询 HBase 数据表

为了更真实反映出存储性能差异对于该场景的性能影响,通过使用 Phoenix 本地直接查询 HBase 方式进行测试(消除接口服务器自身影响和网络环境差异)。结果显示,SmartX 分布式存储(使用 NVMe over RDMA 接入协议)相比生产物理机环境,查询时间缩短 71%,相比 SmartX 分布式存储(使用 iSCSI 接入协议),查询时间缩短约 60%

测试总结

总体而言,在大数据应用场景下,基于不同存储架构与存储接入协议的存储系统,其性能表现有较大差异,其中开启 NVMe over RDMA(RoCE)的 SMTX ZBS 可大幅提升应用运行效率,满足大数据应用对高性能与低时延的需求,同时不会因为“存算分离”架构带来额外的性能开销影响。

这一测试也充分证明了 SmartX 分布式存储和超融合对 NVMe over RDMA(RoCE)技术的支持能力。欲深入了解,请阅读:

  • 解决 SAN 交换机“卡脖子”并升级存储架构?一文解析 RoCE 与相关存储方案趋势
  • ZBS 的 RoCE 技术支持与业务场景性能评测

后续部署实践

经过测试,保险用户对基于 SMTX ZBS “存算分离”架构支持大数据平台的性能表现非常满意,3 个 ZBS 分布式存储节点即可提供远高于生产环境 12 个物理节点的性能,同时提升扩展灵活性、资源利用率、数据可靠保障,并降低硬件投入成本,为大数据平台 IT 基础设施带来整体优化。

目前,该保险用户已基于存储端 5 节点 SMTX ZBS 和计算端 16 节点信创操作系统服务器,搭配某商用大数据平台,构建了新一代生产大数据平台架构。

更多金融行业基于超融合和分布式存储支持金融核心应用系统的探索和实践,欢迎下载阅读
《 SmartX 金融核心生产业务场景探索文章合集系列电子书。

【核心业务篇】金融核心生产业务场景探索文章合集

【信创转型与架构升级篇】金融核心生产业务场景探索文章合集

【数据库与数据仓库篇】金融核心生产业务场景探索文章合集

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/35538.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

c++网络通信

TCP/IP协议 OSI参考模型采用分层划分原则,将网络中的数据传输划分为7层,其中,物理层居于最下层,是最基础、核心的网络硬件层;应用层居于最上层,负责应用资源的管理。每一层使用下层的服务,并向…

程序设计语言前言

1.机器语言及特点 2.编译语言及特点 3.高级语言及特点 4.编译和解释 5.IPO编程方式 一、机器语言 机器语言,也被称为二进制代码语言,是计算机硬件能够直接识别的程序语言或指令代码。它是由一系列由0和1组成的二进制指令码构成,每一条指令码…

【JavaScript脚本宇宙】轻松搞定代码调试和日志记录,你需要的都在这里!

掌握这几个JavaScript调试和日志库,让你的开发事半功倍! 前言 在软件开发过程中,调试和日志记录是必不可少的环节。本文将介绍几个常用的JavaScript调试和日志记录库,包括debug、loglevel、Winston、Bunyan、Pino和Morgan&#…

drozer中文乱码解决方法

drozer简介 drozer 是 Android 的安全测试框架。 drozer 允许您通过扮演应用的角色并与 Android 运行时、其他应用的 IPC 端点和底层操作系统进行交互来搜索应用和设备中的安全漏洞。 drozer 提供了一些工具来帮助您使用、分享和理解公共 Android 漏洞。 drozer 是开源软件…

ESP32-C2模组数据透传模式配置详细教程

文章目录 1. 背景2. 关键步骤2.1 烧录AT指令固件2.2 配置透传模式2.3 如何退出透传模式重新配置3. 思考1. 背景 最近做的项目中,有蓝牙+WIFI的数据透传的需求,即系统A和系统B之间的通讯通过无线的方式,其实在实际项目中有很多这种场景比如无线调试手柄、无线数据终端、无线…

虚拟机热迁移详解:概念、架构、原理、搭建过程、常用命令与实战案例

一、虚拟机热迁移概述 1.1 虚拟机热迁移的定义 虚拟机热迁移(Live Migration)是指在不停止虚拟机运行的情况下,将其从一台物理主机迁移到另一台物理主机的过程。这一过程对用户和应用透明,几乎不会造成服务中断。热迁移技术在数…

状态压缩动态规划(State Compression DP)算法详解

状态压缩动态规划(State Compression DP)是一种高效解决组合优化问题的技术,特别适用于那些状态空间较大且可以用二进制表示的情况。本文将详细讲解状态压缩DP的原理、常用的位运算技巧、以及具体的例题分析。 原理概述 状态压缩DP的核心思…

【D3.js in Action 3 精译】1.2 D3 生态系统——入门须知

1.2 D3 生态系统——入门须知 D3.js 从不单打独斗,而是作为 D3 生态系统的一员,与生态内的一系列技术和工具相结合来创建丰富的 Web 界面。与其他网页一样,D3 项目也是充分利用 HTML5 的强大功能在 DOM 内构建出来的。尽管 D3 也可以创建并操…

大数据面试题之MapReduce(3)

reduce任务什么时候开始? 在Hadoop MapReduce中,Reduce任务的开始时间取决于几个关键因素:1、Map任务的完成情况: Reduce任务不能在所有相关的Map任务完成之前开始处理。但是,Hadoop允许在Map任务完成一定比例后就开始 执行Redu…

ElementUI搭建

概述 Element,一套为开发者、设计师和产品经理准备的基于 Vue 2.0 的桌面端组 件库. 安装 ElementUI npm 安装 推荐使用 npm 的方式安装,它能更好地和 webpack 打包工具配合使用。 npm i element-ui -S 在控制台输入此命令来安装ElementUI 在 main.j…

Leetcode 力扣 125. 验证回文串 (抖音号:708231408)

如果在将所有大写字符转换为小写字符、并移除所有非字母数字字符之后,短语正着读和反着读都一样。则可以认为该短语是一个 回文串 。 字母和数字都属于字母数字字符。 给你一个字符串 s,如果它是 回文串 ,返回 true ;否则&#…

MyPostMan:按照项目管理接口,基于迭代生成接口文档、执行接口自动化联合测试

MyPostMan 是一款类似 PostMan 的接口请求软件,不同于 PostMan 的是,它按照 项目(微服务)、目录来管理我们的接口,基于迭代来管理我们的接口文档,可导出或者在局域网内共享,按照迭代编写自动化测…

netmiko_ssh_华为防火墙

from netmiko import ConnectHandlerip 防火墙ip地址hw_fw {device_type: huawei,host: ip, # 使用 host 字段同时指定 IP 和端口号username: 用户名,password: 密码,port: 50022 # 直接设置 port 字段 }net_connect ConnectHandler(**hw_fw)ou net_connect.send_command…

西安国际医学中心医院 多学科联合创新白癜风治疗法取得进展

近日,西安国际医学中心医院“自体头皮毛囊裂解物混悬液移植治疗白癜风”项目,备受瞩目。据悉,在白癜风和白发的研究及治疗上,均有望取得显著进展。 卢涛主任高分通过医院新技术新业务立项 “白癜风”——是由于皮肤黑素细胞被破坏…

mybatis-plus sql拼接加括号

场景: 在代码中使用mybatis-plus进行sql的查询,条件略微复杂,需要拼接多个or的情况下,如 and...or...or... / (and...or)...or... / (and...(or...or) ) 举例1: (and...(or...or))的格式 若简单的使用lambda表达式进行wrapper的添加,最后造成的结果是…

【el-cascader 多级多选限制条数】

<el-cascaderref"cascaderJob"v-if"categoryjobOptions.length > 0"class"el_input_widht"v-model"categoryjobValue"placeholder"职位分类":options"categoryjobOptions":props"{multiple: true, che…

autoware.universe源码略读(3.3)--perception:tensorrt_yolo

autoware.universe源码略读3.3--perception&#xff1a;tensorrt_yolo 模块组成cuda_utils&#xff08;CUDA接口&#xff09;calibrator&#xff08;校准器&#xff09;ImageStreamInt8EntropyCalibrator mish&#xff08;mish激活函数&#xff0c;基于CUDA&#xff09;mish_p…

Python22 Pandas库

Pandas 是一个Python数据分析库&#xff0c;它提供了高性能、易于使用的数据结构和数据分析工具。这个库适用于处理和分析输入数据&#xff0c;常见于统计分析、金融分析、社会科学研究等领域。 1.Pandas的核心功能 Pandas 库的核心功能包括&#xff1a; 1.数据结构&#xff…

ODYSSEE加速电机仿真优化

由于对低碳社会的强烈需求&#xff0c;电动汽车(EV)和混合动力汽车(HEV)的数量正在迅速增长。新能源汽车的主要部件是电池、逆变器和电机。电机市场的规模也将不断扩大。为了提高EV的性能&#xff0c;对电机设计工程师的要求越来越高。 除了EV市场&#xff0c;协作机器人市场也…

【Linux】gdb调试器

一、gdb调试器背景 程序的发布方式有两种&#xff0c;debug模式和release模式 Linux gcc/g出来的二进制程序&#xff0c;默认是release模式 要使用gdb调试&#xff0c;必须在源代码生成二进制程序的时候, 加上 -g 选项 二、安装gdb yum install gdb三、使用gdb 在Linux当中g…