3. 使用tcpdump抓取rdma数据包

系列文章

  • 第1章 多机多卡运行nccl-tests 和channel获取
  • 第2章 多机多卡nccl-tests 对比分析
  • 第3章 使用tcpdump抓取rdma数据包

目录

  • 系列文章
  • 一、准备工作
    • 1. 源码编译tcpdump
    • 2. 安装wireshark
  • 二、Tcpdump抓包
  • 三、Wireshark分析


一、准备工作

1. 源码编译tcpdump

使用 tcpdump 需要对源码进行编译,才可以抓取 RDMA 网卡数据包

参考tcpdump提供的安装说明:https://github.com/the-tcpdump-group/tcpdump/blob/master/INSTALL.md

tcpdump依赖于libpcap,因此首先需要对 libpcap 进行编译安装:

git clone https://github.com/the-tcpdump-group/libpcap.git
cd libpcap./autogen.sh 
./configure 
sudo make install

对 tcpdump 使用同样的命令编译

git clone https://github.com/the-tcpdump-group/tcpdump.git
cd tcpdump./autogen.sh 
./configure 
sudo make install

查看版本信息
在这里插入图片描述

2. 安装wireshark

sudo apt-get update
sudo apt-get install wireshark

二、Tcpdump抓包

使用 tcpdump 抓取 RDMA 数据包-tcpdump需要sudo权限

sudo tcpdump -i mlx5_0 -s 0 -w rdma.pcap 
//使用 tcpdump 抓取 mlx5_0 设备数据包并保存在 rdma.pcap 中,使用 wireshark 进行数据包分析
  • -i mlx5_0: 指定了要监听的网络接口。mlx5_0代表使用的是Mellanox ConnectX系列适配器的一个InfiniBand或RoCE (RDMA over Converged Ethernet) 接口。

  • -s 0: 设置抓取数据包时的snaplen(抓包长度)为0,意味着捕获整个数据包的内容,不受默认限制。这样可以确保即使是非常长的数据包也能被完整捕获。

  • -w rdma.pcap: 使用-w选项将捕获的数据保存到名为rdma.pcap的文件中。.pcap是Packet Capture的缩写,是一种标准的网络数据包捕获格式,可以被多种网络分析工具(如Wireshark)打开和分析。

接下来可以执行perftest测试 ,或者使用roce进行分布式训练或者执行nccl-test,都会有RoCE报文传输了。

以perftest为例:

ib_send_bw是用来测试SEND操作的带宽的程序(infiniband_sendbandwidth),其中<server_ip>表示对端的IP,对于我的环境来说,本节点mlx5_0对应的ip是10.110.0.21,另外一个机器mlx5-0对应的是10.110.0.25,两台机器的网卡连接交换机。

#server端
ib_send_bw -d mlx5_0#client端 - 10.110.0.21为server ip
ib_send_bw -d mlx5_0 10.110.0.21

在这里插入图片描述
在这里插入图片描述

执行之后关闭tcpdump即可.

三、Wireshark分析

wieshark 打开 tcpdump 保存的pcap文件,即可看到RoCE报文。
其中RRoCE是Routable RoCE的意思,即可以被路由的RoCE,即RoCE v2。我们随便选中一个条目,下面的窗口中我们就可以看到每一层报文的内容了,非常清晰:
在这里插入图片描述
上图从上到下分别是:物理层–>以太网链路层–>IPv4网络层–>UDP传输层–>IB传输层(BTH头和iCRC校验)–>数据。

由于我自己对RDMA不是很了解,只是知道如何查看设备信息以及如何在分布式训练中使用他们。在别的文章评论区看到以下内容,感到很受用,记录一下!

RoCE v2协议栈是包括从物理层到传输层以及在此之上的IB传输层。

RoCEv2的外层报文是基于UDP的,它并不具备应答确认与重传机制。假设网络出现了丢包,那么发送端需要怎么把被丢弃的报文再发送给接收端呢?

  • RoCEv2协议里面有ack确认机制。重传机制有go back N
  • 这个是在UDP上层的IB传输层协议保证的,如果是RC,会有ACK和Go-Back-N重传

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/848443.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

判断经纬度是否在某个城市内

一、从高德获取指定城市边界经纬度信息 通过apifox操作&#xff1a; 二、引入第三方jar包&#xff1a; maven地址&#xff1a;https://mvnrepository.com/ maven依赖&#xff1a; <dependency><groupId>org.locationtech.jts</groupId><artifactId>…

vue基础知识点

一、Vue 1. 简介 Vue (读音 /vjuː/&#xff0c;类似于 view) 是一套用于构建用户界面的 JavaScript 框架 它基于标准 HTML、CSS 和 JavaScript 构建&#xff0c;并提供了一套声明式的、组件化的编程模型 由个人维护&#xff1a;尤雨溪&#xff0c;华人 官网 Vue.js - 渐进…

Xcode中给UIView在xib中添加可视化的属性

给UIView在xib中添加可视化的属性 效果如下图&#xff1a; 可以直接设置view 的 borderColor 、borderWidth、cornerRadius&#xff0c;也可以单独指定view的某个角是圆角。减少了代码中的属性。 完整代码&#xff1a; UIViewBorder.h #import <UIKit/UIKit.h>inter…

NLP(1)-TF-IDF算法介绍

一、TF-IDF算法介绍 TF-IDF&#xff08;term frequency–inverse document frequency&#xff0c;词频-逆向文件频率&#xff09;是一种用于信息检索&#xff08;information retrieval&#xff09;与文本挖掘&#xff08;text mining&#xff09;的常用加权技术。 TF-IDF是一…

(十六)统计学基础练习题十(选择题T451-478)

本文整理了统计学基础知识相关的练习题&#xff0c;共50道&#xff0c;适用于想巩固统计学基础或备考的同学。来源&#xff1a;如荷学数据科学题库&#xff08;技术专项-统计学三&#xff09;。序号之前的题请看往期文章。 451&#xff09; 452&#xff09; 453&#xff09; 4…

Spring Kafka 之 @KafkaListener 注解详解

我们在开发的过程中当使用到kafka监听消费的时候会使用到KafkaListener注解&#xff0c;下面我们就介绍下它的常见属性和使用。 一、介绍 KafkaListener 是 Spring Kafka 提供的一个注解&#xff0c;用于声明一个方法作为 Kafka 消息的监听器 二、主要参数 1、topic 描述&…

Ubuntu安装cuda

文章目录 前言一、安装NVIDIA驱动1.1 过程中的问题1.2 解决方法1.3 重启后出现 perform MOK management 二、安装Cuda2.1 检查是否安装显卡驱动2.2 安装Cuda2.3 验证CUDA是否安装成功 三、配置环境变量---未完2.4 图片居中加调整大学 总结 #pic_center 前言 只是为方便学习&…

深度学习 - 张量的广播机制和复杂运算

张量的广播机制&#xff08;Broadcasting&#xff09;是一种处理不同形状张量进行数学运算的方式。通过广播机制&#xff0c;PyTorch可以自动扩展较小的张量&#xff0c;使其与较大的张量形状兼容&#xff0c;从而进行元素级的运算。广播机制遵循以下规则&#xff1a; 如果张量…

ChatGPT基本原理

技术背景与基础&#xff1a; 深度学习&#xff1a;ChatGPT建立在深度学习技术之上&#xff0c;通过复杂的神经网络结构模拟人类的语言处理过程。深度学习使得ChatGPT能够处理海量的文本数据&#xff0c;并从中提取出复杂的语言模式和规律。GPT架构&#xff1a;ChatGPT基于GPT&a…

hadoop集群中zookeeper的搭建与原理解释

搭建zookeeper 将zookeeper的apache-zookeeper-3.5.7-bin.tar.gz解压到/export/servers下 tar -zxvf apache-zookeeper-3.5.7-bin.tar.gz -C /export/servers为了方便后期使用解压后的文件夹改名为zookeeper-3.5.7 mv apache-zookeeper-3.5.7-bin zookeeper-3.5.7先进入zoo_…

如何将本地项目上传到GitHub

在软件开发过程中&#xff0c;将本地项目上传到GitHub是一个非常重要的步骤。它不仅可以帮助你备份代码&#xff0c;还可以让你与团队成员共享和协作开发。本文将详细介绍如何将本地项目上传到GitHub。 前提条件 已安装Git。如果还没有安装&#xff0c;请参考Git官网进行下载…

机器学习_模型评估与选择

在机器学习中&#xff0c;模型评估与选择是至关重要的步骤。这一过程包括评估模型的性能、选择最适合的模型&#xff0c;以及对模型进行优化&#xff0c;以确保在实际应用中达到最佳效果。以下是详细的讲解&#xff1a; 一、模型评估 模型评估的目的是衡量模型在数据上的表现…

递归书写树形图示例

大叫好&#xff0c;今天书写了一个扁型转换为树型的例子&#xff0c;使用的是递归&#xff0c;请大家食用&#xff0c;无毒 <!DOCTYPE html> <html lang"zh"><head><meta charset"UTF-8"><meta name"viewport" conte…

【Python数据类型的奥秘】:构建程序基石,驾驭信息之海

文章目录 &#x1f680;Python数据类型&#x1f308;1. 基本概念⭐2. 转化&#x1f44a;3. 数值运算&#x1f4a5;4. 数值运算扩展(math库常用函数) &#x1f680;Python数据类型 &#x1f308;1. 基本概念 整数&#xff08;int&#xff09;&#xff1a;整数是没有小数部分的数…

Mongodb中字段的删除

学习mongodb&#xff0c;体会mongodb的每一个使用细节&#xff0c;欢迎阅读威赞的文章。这是威赞发布的第61篇mongodb技术文章&#xff0c;欢迎浏览本专栏威赞发布的其他文章。 本篇文章&#xff0c;探讨UPDATE中的操作符$unset。Mongodb数据插入后&#xff0c;开发人员使用$u…

Android输入法IME(三)

2.2. IME管理端&#xff08;IMMS&#xff09;初始化流程 IMMS运行在system server进程中&#xff0c;属于系统服务的一部分&#xff0c;用于控制输入法的显示/隐藏、切换、绑定等操作。 涉及代码文件路径&#xff1a; IMMS运行在system server进程中&#xff0c;属于系统服务的…

在Nginx中配置php程序环境。

1、在Nginx中配置php程序环境。 打开编辑 /opt/local/etc/nginx/nginx.conf 文件。 http {. . . server {listen 8090;server_name localhost;. . . location / {root html;index index.html index.htm;add_header Access-Control-Allow-Origin *;add_header Acces…

MMKV源码详解

文章目录 前言一、MMKV简介1.mmap2.protobuf 二、MMKV 源码详解1.MMKV初始化2.MMKV对象获取3.文件摘要的映射4.loadFromFile 从文件加载数据5.encode 数据写入 总结 前言 谈到轻量级的数据持久化&#xff0c;在 Android 开发过程中&#xff0c;大家首先想到的应该就是 SharedP…

题号:BC19 题目:反向输出一个四位数

题号&#xff1a;BC19 题目&#xff1a;反向输出一个四位数 废话不多说&#xff0c;上题目&#xff1a; 解题思路&#xff1a; 我们发现可以用%和/两个操作符就可以解决。 代码如下: int main() {int a 0;scanf("%d ",& a);while (a){printf("%d "…

香港 Web3 的分岔路口:to 创新 or to 监管,这并不是一个问题

撰文&#xff1a;Babywhale&#xff0c;Techub News 香港 Web3 的分岔路口&#xff1a;to 创新 or to 监管&#xff0c;这并不是一个问题 刚刚过去的周末&#xff0c;香港虚拟资产交易平台&#xff08;VATP&#xff09;牌照相关的问题再一次引发了讨论。 一年多前&#xff0c…