RDMA QP数量和RDMA性能

 QP数量上升性能下降

​​​​​​https://icnp21.cs.ucr.edu/papers/icnp21camera-paper30.pdf

    在现代云数据中心中,大规模分布式应用通常构建在许多机器上,需要使用大量并发连接进行频繁的网络通信[4]–[6]。但是,RDMA的性能会随着连接数的增加而降低。我们的测试台测量(图1)表明,即使是最新的RNIC(NIC=Network Interface Card ,网络接口卡、网卡,RNIC即 RDMA Network Interface Card)要保持峰值性能最多能支持450个并发连接,(详细设置见§II-B)

从本质上讲,RDMA可扩展性以上的问题是CPU减负的副作用。为了在不涉及主机CPU的情况下完成网络传输和数据DMA,RNIC必须维护一系列与连接相关的状态(DMA相关、网络相关和安全相关)。因此,当并发连接过多时,RNIC有限的板载内存会被耗尽,它必须频繁地通过慢速PCIe总线从主机内存获取连接状态,这会严重影响性能。

即使认识到这个问题,以前基于软件的方案不论是缓解方案(例如,使用大内存页面 [7] 或连接分组 [8]),或解决方案(例如,使用不可靠的数据报 [9]),始终无法解决 RNIC 可伸缩性问题。

   在本文中,我们问,我们能否完全消除RNIC的可伸缩性约束?为了解决这个问题,我们提出了无状态RNIC(StaR)。特别是,需要高并发性的应用程序通常具有非对称通信模式,即网络通信中只有一方(称为服务器)有许多连接,而另一方(称为客户端)只有少数[5],[9]–[11]。观察到这一点,StaR的关键见解是将所有连接状态移动到客户端,并在服务器RNIC上保持零连接相关状态。具体来说,客户端RNIC跟踪服务器的所有状态,并引导服务器的RNIC完成其所有数据传输,包括接收或发送数据包、通知应用程序和生成ACK包等。。因此,由于RNIC内存不再限制其可扩展性,StaR可以显著提高服务器端具有大量扇入/扇出功能的应用程序的性能。

虽然直觉很简单,但在实现上面临两大挑战:

1)如何在NIC上无状态的情况下完成RDMA功能?

2) 如何确保NIC上无状态的安全性?

我们根据以下见解应对StaR中的上述挑战:
•在数据包中携带必要的状态。具体来说,客户机跟踪服务器的传输状态,并生成向服务器传送必要状态的数据包。
然后,服务器的无状态RNIC依赖于接收到的数据包中携带的连接状态来完成其RDMA处理。


•确保客户的安全。由于StaR针对的是数据中心场景,即所有物理机器都由一家运营商管理,因此我们可以通过控制客户端NIC发送的数据包来确保安全性。

特别是,我们向每个NIC添加一个安全模块,它实际上是一个检查所有出站数据包的匹配操作表,只允许合法数据包进入服务器的无状态RNIC。


我们已经在基于FPGA的10Gbps NIC原型上实现了StaR,并构建了一个由9台机器组成的测试平台,每台机器都配备了一个StaR RNIC。测试台评估结果表明,随着连接数的增加,StaR能够保持最大带宽,与原始RNIC和最新基于软件的应用相比,上层应用的性能提高了4.14倍和1.35倍

……

B.RDMA的伸缩性较差

1) 实验结果:之前的许多工作已经测量了RNIC[7]–[9],[18],[19]中的可伸缩性问题。

然而,他们的结果基于几年前发布的RNIC,目前尚不清楚此类问题是否仍然存在,以及对当前高端RNIC的严重程度。因此,我们进行以下实验,以评估Mellanox ConnectX-6(CX6)Dx EN上的RDMA可伸缩性NIC,这是最新的RNIC(于2019年发布,写这篇论文的时间。)

具体来说,我们使用带有100Gbps端口的CX6 NIC,通过华为100Gbps交换机,将1台服务器计算机与3台客户端计算机(多个客户端以避免客户端NIC出现瓶颈)连接起来。服务器同时发出RDMA读取请求,通过多个RC连接从所有三个客户端获取32字节的数据,在每个连接上保持一个外部读取3。为了避免CPU瓶颈(双插槽Intel Xeon E5-2650 CPU),我们在服务器上使用多个线程以足够快的速度发出读取请求。为了评估RNIC的可伸缩性,我们改变并发连接的数量,并测量服务器的总体吞吐量(每秒完成的读取操作)。图1显示了结果。

当并发性较低时,总体吞吐量会随着并发连接数量的增加而增加,因为在连接上有更多的外部读取请求。然而,当并发连接的数量超过450个时,总吞吐量开始快速下降,并且低于450个的。

当连接数超过3000个时,性能峰值的70%,而CPU利用率仍然很低。正如我们所看到的,尽管CX6比以前的CX5或CX4 NIC具有更高的端口速度和更多的片上资源,但RNIC的可扩展性问题仍然存在。

2) 基本问题:由于成本问题,RNIC片上存储器非常小,通常仅用作部分连接的缓存,所有连接的全部状态都存储在主机存储器(4)中。

当并发性很高,在处理  状态 未存储在NIC上的连接时,NIC必须暂停,并通过慢速PCIe总线从主机内存获取状态,这会严重影响性能。

如图2所示,

        RNIC上通常有一个小的数据包缓冲区,用于临时保存数据包,从而分摊每个数据包的硬件处理延迟,以便RNIC可以饱和带宽。当带宽延迟积(BDP)增长时,它需要一个更大的数据包缓冲区来容纳更多的数据包。然而,数据包可能属于不同的连接,需要不同的连接相关状态来处理。因此,保存连接状态的缓冲空间必须更大。在高带宽网络中处理许多小RDMA请求时,这个问题变得更加重要,因为数据包缓冲区中会有大量小数据包,这可能需要许多连接状态,很容易导致NIC内存上的状态丢失。此外,高并发下的连接状态缓存未命中将导致数据包处理的临时暂停(来自PCIe的等待状态),这反过来需要更大的数据包缓冲区来容纳传入的数据包(从而进一步加重NIC内存的负担),否则,如果没有足够的内存,NIC必须暂停管道并停止接收数据包,影响性能。

C 现有的解决方案和限制

现有的解决方案主要集中在限制上层软件的使用,从而避免底层RNIC的可扩展性问题。具体而言,它们可以分为两类:


•通过使用软件中间件来控制应用程序通信模式,避免生成过多连接[8]、[20]、[21]。他们试图安排多个连接之间的通信需求,并有目的地在特定时间段内仅为RNIC上的部分连接提供服务,从而避免RNIC上的高并发性。例如,ScalaRDMA[8] 《Scalable RDMA RPC on
Reliable Connection with Efficient Resource Sharing》将连接分为几个组,通过阻止其他组即将启动操作的连接,一次只允许一个组运行,从而减轻了底层RNIC的负担。然而,使用中间件会将开销带回CPU,这与RDMA的原理相反。此外,以下中间件中连接之间的不可知调度可能会损害上层应用程序的性能,因为不同的连接之间可能存在依赖关系。例如,在具有服务器-工作者结构的分布式机器学习中,下一轮参数分配只能在上一轮参数计算完成后开始(假设使用最广泛的同步模式)。这要求服务器节点及时分发参数并接收所有响应。然而,如果在中间件中调度RDMA连接与此应用程序要求无关,则性能将受到显著影响,尽管RNIC并发性没有那么高(请参见§V中的结果)。


•在不可靠模式下使用RNIC,而不是可靠模式[9]、[22]、[23]。尽管RNIC不需要在不可靠模式下保持连接相关状态,因此没有可伸缩性问题,但它可能会导致两方面的问题:

1)当网络有损时(即使在精心设计的数据中心[12]),由于缺乏传输可靠性,它的性能可能非常低,

2)或者它可能会产生非常高的CPU成本,因为它必须在软件中处理传输可靠性[24]

……

FPGA 改造RDMA 后的结果:

 QP数量上升性能下降的原因

《RDMA性能优化经验浅谈(一)》RDMA性能优化经验浅谈(一) - 知乎

首先,当我们创建了QP之后,系统是需要保存状态数据的,比如QP的metadata,拥塞控制状态等等,除去QP中的WQE、MTT、MPT,一个QP大约对应375B的状态数据。这在以前RNIC的SRAM比较小的时候会是一个比较重的存储负担,所以以前的RDMA工作会有QP Sharing的研究,就是不同的处理线程去共用QP来减少meta data的存储压力,但是这会带来一定的性能的损失[1]。现在新的RNIC的SRAM已经比较大了,Mellanox的CX4、CX5系列的网卡的SRAM大约2MB,所以现在新网卡上,大家还是比较少去关注QP带来的存储开销,除非你要创建几千个,几万个QP。

当待请求的数据地址在RNIC SRAM中的MTT/MPT没有命中的时候,RNIC需要通过PCIe去在内存中的MTT和MPT进行查找,这是一个耗时的操作。尤其是当我们需要 high fan-out、fine-grained的数据访问时,这个开销会尤为的明显。这或许就是性能下降的原因

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/61817.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

自动化运维工具-----Ansible入门详解

目录 一.Ansible简介 什么是Ansible? Ansible的特点 Ansible的架构 二.Ansible任务执行解析 ansible任务执行模式 ansible执行流程 ansible命令执行过程 三.Ansible配置解析 ansible的安装方式 ansible的程序结构(yum安装为例) ansibl…

信息安全-应用安全-蚂蚁集团软件供应链安全实践

8月10日,由悬镜安全主办、以“开源的力量”为主题的DSS 2023数字供应链安全大会在北京国家会议中心隆重召开。蚂蚁集团网络安全副总经理程岩出席并发表了《蚂蚁集团软件供应链安全实践》主题演讲。 图1 蚂蚁集团网络安全副总经理程岩发表主题演讲 以下为演讲实录&am…

阿里云 MSE 助力开迈斯实现业务高增长背后带来的服务挑战

开迈斯新能源科技有限公司于 2019 年 5 月 16 日成立,目前合资股东分别为大众汽车(中国)投资有限公司、中国第一汽车股份有限公司、一汽-大众汽车有限公司[增资扩股将在取得适当监督(包括反垄断)审批后完成]、万帮数字…

显示本地 IP 地址和相应的 QR 码,方便用户共享和访问网络信息

这段代码使用了 wxPython、socket、qrcode 和 PIL(Python Imaging Library)模块来生成一个具有本地 IP 地址和相应 QR 码的窗口应用程序。 C:\pythoncode\new\showipgenqrcode.py 让我们逐行解释代码的功能: import wx:导入 wx…

jdbc235

概念:java database connectivity java数据库连接 java语言操作数据库 定义了一套操作所有关系型数据库的规则(接口) 本质:其实是官方公司定义了一套操作所有关系型数据库的规则,即接口。各个数据库厂商去实现这套接…

百度“AI智障”到AI智能体验之旅

目录 前言一、百度PLATO1.抬杠第一名2.听Ta瞎扯淡3.TA当场去世了4.智障与网友的高光时刻 二、文心一言1.设计测试用例2.随意发问3.手机端约会神器 三、体验总结:四、千帆大模型 前言 最近收到了文心一言3.5大模型的内测资格,正巧之前也体验过它的前身&q…

医疗小程序:让服务更高效,用户体验更优化

随着移动互联网的快速发展,小程序已经成为了一个热门的开发方向。医疗健康类小程序也不例外,拥有广泛的市场需求和前景。本文将为你提供一份完整的医疗健康类小程序开发攻略,帮助你快速开发上线一个专业成熟的小程序商城。 一、选择合适的小程…

软件架构设计(二) 软件架构风格其他风格简介

架构师备战(四)-软件架构设计(二) 软件架构风格其他风格简介 架构风格其实是很重要的知识,我们先了解了基本的五种架构风格, 我们之前也提到除了这五种风格之外, 还有一些没有收录在这几种风格之内的, 这次会去做一个探索。 1、闭环控制架构风格(过程控制)【重要】 概念 …

isEmpty 和 isBlank 的区别

干了3年java,代码中 isEmpty 和 isBlank 的区别 都不知道,一顿瞎用。也许你两个都不知道,也许你除了isEmpty/isNotEmpty/isNotBlank/isBlank外,并不知道还有isAnyEmpty/isNoneEmpty/isAnyBlank/isNoneBlank的存在, come on ,让我们…

嵌入式学习笔记(7)ARM汇编指令4-多寄存器指令

多寄存器访问指令 ldr/str每周期只能访问4字节内存,如果需要批量读取、写入内存的话太慢,解决方案就是ldm/stm,ldm(load register multiple),stm(store register multiple) 举例: stmia sp, {r0 - r12} 将r0存入sp指…

Message: ‘chromedriver‘ executable may have wrong permissions.

今天运行项目遇到如下代码 driverwebdriver.Chrome(chrome_driver, chrome_optionsoptions)上述代码运行报错如下: Message: chromedriver executable may have wrong permissions. Please see https://sites.google.com/a/chromium.org/chromedriver/home出错的原…

JPA在不写sql的情况下实现模糊查询

本文已收录于专栏 《Java》 目录 背景介绍概念说明单字段模糊匹配:多字段模糊匹配: 实现过程代码实现1.写一个实体类去实现Specification接口,重写toPredicate方法2.定义一个接口去继承JpaRepository接口,并指定返回的类型和参数类…

RISC-V 中国峰会 | OpenMPL引人注目,RISC-V Summit China 2023圆满落幕

RISC-V中国峰会圆满落幕 2023年8月25日,为期三天的RISC-V中国峰会(RISC-V Summit China 2023)圆满落幕。本届峰会以“RISC-V生态共建”为主题,结合当下全球新形势,把握全球新时机,呈现RISC-V全球新观点、新…

CSS中如何实现元素的渐变背景(Gradient Background)效果?

聚沙成塔每天进步一点点 ⭐ 专栏简介⭐ CSS 渐变背景效果⭐ 线性渐变背景⭐ 径向渐变背景⭐ 添加到元素的样式⭐ 写在最后 ⭐ 专栏简介 前端入门之旅:探索Web开发的奇妙世界 记得点击上方或者右侧链接订阅本专栏哦 几何带你启航前端之旅 欢迎来到前端入门之旅&…

get√接口自动化核心知识点浓缩,为面试加分

日常接触到的接口自动化从实际目标可以划分为两大类: 1、为模拟测试数据而开展的接口自动化 这种接口自动化大多是单次执行,目的很明确是为了功能测试创造测试数据,节约人工造数据的时间和人工成本,提高功能测试人员的测试效率。…

【C语言练习】C语言如何操作内存(重中之重!!!)

📢:如果你也对机器人、人工智能感兴趣,看来我们志同道合✨ 📢:不妨浏览一下我的博客主页【https://blog.csdn.net/weixin_51244852】 📢:文章若有幸对你有帮助,可点赞 👍…

SpringCloud(十)——ElasticSearch简单了解(二)DSL查询语句及RestClient查询文档

文章目录 1. DSL查询文档1.1 DSL查询分类1.2 全文检索查询1.3 精确查询1.4 地理查询1.5 查询算分1.6 布尔查询1.7 结果排序1.8 分页查询1.9 高亮显示 2. RestClient查询文档2.1 查询全部2.2 其他查询语句2.3 排序和分页2.4 高亮显示 1. DSL查询文档 1.1 DSL查询分类 查询所有…

分布式锁实现一. 利用Mysql数据库update锁

文章目录 分布式锁1、什么是分布式锁:2、分布式锁应该具备哪些条件: 基于数据库的分布式锁代码传送代码运行 分布式锁 1、什么是分布式锁: 分布式锁,即分布式系统中的锁。在单体应用中我们通过锁解决的是控制共享资源访问的问题…

app易用性测试报告 软件app测试

易用性测试 app易用性测试应遵从GB/T25000.10-2016、GB/T25000.51-2016中的有关成熟性、可用性、容错性、易恢复性等方面的可靠性要求。依据应用场景需要,可让用户较长时间连续运行或使用APP,不应出现崩溃、闪退、卡死、无响应、响应迟缓等问题。 根据…

11、监测数据采集物联网应用开发步骤(8.2)

监测数据采集物联网应用开发步骤(8.1) 新建TCP/IP Client线程类com.zxy.tcp.ClientThread.py #! python3 # -*- coding: utf-8 -Created on 2017年05月10日 author: zxyong 13738196011 import datetime import socket import threading import timefrom com.zxy.adminlog.Us…