博通BCM575系列 RDMA 网卡驱动 bnxt_re 分析(一)

简介

整个BCM系列驱动分成以太网部分(bnxt_en.ko)和RDMA部分(bnxt_re.ko), 两个模块之间通过内核的auxiliary_bus进行管理.我们主要分析下bnxt_re驱动.

代码结构

这个驱动的核心是 qplib_fp.c, 这个文件主要包含了驱动的数据路径, 包括Post Send, Post Recv, Poll CQ流程的实现. ib_verbs.c主要是实现了上层的Verbs接口, qplib_rcfw.c 实现了驱动和固件通信的部分, qplib_res.c 实现了核心资源的初始化和分配函数.
在这里插入图片描述
整个驱动四万多行代码, 每个小模块精密合作共同构成了这个性能利器.

Page Buffer List(PBL)

在Infiniband中QP接收用户发送的命令, 硬件处理QP中的命令. 处理完成后硬件将结果写入CQ, 用户Poll CQ去取命令执行结果. 这整个过程需要固件和驱动的协作, QP和CQ应该怎么实现, 才能保证硬件和驱动高效协作以实现RoCE的高带宽和低时延将数据包快速可靠的交付给用户呢 ?

在bnxt_re中, 实现这个目标的方法是Page Buffer List(PBL), 驱动使用PBL作为核心去实现QP, CQ等核心资源, PBL使用类似页表的结构去管理DMA Buffer. PBL用来管理多个物理Page, 类似scatter-gather列表, 通过PBL将多个物理不连续的页组织成一个虚拟连续的空间.Page Table Entry(PTE)用来描述一个物理页面, 一个一级的PBL如下图所示, 通过多个vmalloc出来的PTE结构来描述多个物理页面.

在这里插入图片描述

PTE长度为64位, 格式如下图所示, page表示页号, 共52位. next_to_last为1表示PTE指向的页是PBL的倒数第二个页, last为1表示PTE指向的页是PBL的最后一个页,

在这里插入图片描述

二级PBL使用两次遍历去找到最终的页, 第一次使用Page Directory Entry(PDE)找到存储PTE的页, 在使用PTE找到最终的数据页.

在这里插入图片描述

page字段表示PTE Page地址的高位, 如果PTE页的大小超过了4K(用来描述页的PDE会变少), page低位应该置为0.valid表示PDE是否指向了一个有效的PTE Page.
在这里插入图片描述

有效位

类似内核页表的有效位, PBL的valid的含义和内核页表类似, 表示PTE描述的页面是否有效. 避免在一开始就分配一大片的Page, 提高性能, 并且降低资源浪费.

队列PBL

有些PBL用来描述队列, 当PBL被缓存到硬件cache的时候, current和next指针可以被保存, 用来提高cache利用率(通过预取next指针到硬件cache). 但是如果是环形队列最后一个元素, 这种prefetch机制可能会遇到一些障碍, 为了顺利的进行prefetch操作, 在PTE中加入了next_to_last指向PBL表中倒数第二个Page, last表示PTE指向队列最后一个Page.

实现原理

以一级PBL为例讲解下PBL的实现原理, 从上图中我们可以看到要实现一级PBL我们需要一片内存去存储PTE, 实际驱动中会先计算出占用的内存的大小, 然后计算出需要多少个Page, 再计算需要多少个PBL去管理这些Page. 一个4K页最多存储512个指针(4K / 8). 因此使用PBL的数量, 通过下面的方式计算得出:

npbl = npages >> 9;
if (npages % BIT(9))npbl++;
bnxt_qplib_pbl

一个PBL结构用来描述多个Page, 其中pg_arr用来存储页面的CPU地址, pg_map_arr用来存储页面的DMA地址.

struct bnxt_qplib_pbl {//PBL管理的页面数量u32				pg_count;//每个页的大小u32				pg_size;//存储PBL管理的Page的首地址void				**pg_arr;//Page首地址的DMA表示dma_addr_t			*pg_map_arr;
};
PBL的创建和初始化

PBL结构嵌入到HWQ中使用, 根据页的数量分配DMA内存.

struct bnxt_qplib_hwq {struct bnxt_qplib_pbl		pbl[PBL_LVL_MAX];
};int __alloc_pbl(struct bnxt_qplib_res *res, struct bnxt_qplib_pbl *pbl,struct bnxt_qplib_sg_info *sginfo)
{struct pci_dev *pdev;int i;if (sginfo->nopte)return 0;pdev = res->pdev;//分配PBL表pbl->pg_arr = vmalloc(sginfo->npages * sizeof(void *));if (!pbl->pg_arr)return -ENOMEM;//存储dma地址pbl->pg_map_arr = vmalloc(sginfo->npages * sizeof(dma_addr_t));if (!pbl->pg_map_arr) {vfree(pbl->pg_arr);return -ENOMEM;}//初始化页面数为0, pg_size等于要管理的sg的页面大小pbl->pg_count = 0;pbl->pg_size = sginfo->pgsize;if (!sginfo->sghead) {//从DMA_ZONE分配空间给Pagefor (i = 0; i < sginfo->npages; i++) {pbl->pg_arr[i] = msdrv_dma_alloc_coherent(&pdev->dev,pbl->pg_size,&pbl->pg_map_arr[i],GFP_KERNEL);if (!pbl->pg_arr[i])goto fail;memset(pbl->pg_arr[i], 0, pbl->pg_size);pbl->pg_count++;}}return 0;
fail:__free_pbl(res, pbl, is_umem);return -ENOMEM;
}

PBL_LVL_0表示描述PTE Page的PBL, PBL_LVL_1表示描述数据Page的PBL, 整个过程就是把数据Page的DMA地址 | flag, 然后写入到PTE中的过程. 对于队列类型的HWQ, 还需要将PTE Page的最后两项写入魔数PTU_PTE_NEXT_TO_LAST和PTU_PTE_LAST.

/* Fill PBL with PTE pointers */
dst_virt_ptr =(dma_addr_t **)hwq->pbl[PBL_LVL_0].pg_arr;
src_phys_ptr = hwq->pbl[PBL_LVL_1].pg_map_arr;
for (i = 0; i < hwq->pbl[PBL_LVL_1].pg_count; i++)//只有将地址写入到DMA内存中, PTE才算生效dst_virt_ptr[PTR_PG(i)][PTR_IDX(i)] =src_phys_ptr[i] | flag;
if (hwq_attr->type == HWQ_TYPE_QUEUE) {/* Find the last pg of the size */i = hwq->pbl[PBL_LVL_1].pg_count;dst_virt_ptr[PTR_PG(i - 1)][PTR_IDX(i - 1)] |=PTU_PTE_LAST;if (i > 1)dst_virt_ptr[PTR_PG(i - 2)][PTR_IDX(i - 2)] |=PTU_PTE_NEXT_TO_LAST;
}

PBL实现了结合了scatter-gather list和页表的优点, 实现了一个拓展性好, 且虚拟连续的内存空间.

Hardware Queue(HWQ)

HWQ是驱动中抽象出来的生产者-消费者队列, 实体是由PBL. 队列中每个元素的大小是16字节(stride=(sizeof sq_sge)), 在代码中一个元素被称为一个slot. 一个Page最多能容纳, 4K/16=256个slot. 下图是HWQ被封装后的示意图, 通过指针cons和prod的挪动实现了一个生产者-消费者队列.

在这里插入图片描述

原理

HWQ的底层是通过PBL实现, 在访问时需要将slot id翻译成对应的PBL的页号和页内偏移, 如下所示, pg_num就是页号, pg_idx就是在页面内的slot偏移.

void *bnxt_qplib_get_qe(struct bnxt_qplib_hwq *hwq,u32 indx, u64 *pg)
{u32 pg_num, pg_idx;pg_num = (indx / hwq->qe_ppg);pg_idx = (indx % hwq->qe_ppg);if (pg)*pg = (u64)&hwq->pbl_ptr[pg_num];return (void *)(hwq->pbl_ptr[pg_num] + hwq->element_size * pg_idx);
}

通过这样的读写方式, 我们可以将PBL抽象成下面的形式, 我们可以看到多个物理不连续的页面, 被划分成了连续的slot. 这些slot的数量就是HWQ的深度.

在这里插入图片描述

以下就是HWQ的实现, 其中pbl_ptr和pbl_dma_ptr存储了物理页面的首地址, depth是队列深度, element_size是每个slot的大小, qe_ppg表示每个页面能容纳多少个slot.

struct bnxt_qplib_hwq {struct pci_dev			*pdev;spinlock_t			lock;struct bnxt_qplib_pbl		pbl[PBL_LVL_MAX];enum bnxt_qplib_pbl_lvl		level;		/* 0, 1, or 2 */void				**pbl_ptr;	/* ptr for easy accessto the PBL entries */dma_addr_t			*pbl_dma_ptr;	/* ptr for easy accessto the dma_addr */u32				max_elements;u32				depth;	/* original requested depth */u16				element_size;	/* Size of each entry */u16				qe_ppg;		/* queue entry per page */u32				prod;		/* raw */u32				cons;		/* raw */
};

参考

https://lore.kernel.org/all/1581786665-23705-4-git-send-email-devesh.sharma@broadcom.com/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/123911.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Android NDK开发详解之Application.mk探秘

Android NDK开发详解之Application.mk探秘 概览变量APP_ASFLAGSAPP_ASMFLAGSAPP_BUILD_SCRIPTAPP_CFLAGSAPP_CLANG_TIDYAPP_CLANG_TIDY_FLAGSAPP_CONLYFLAGSAPP_CPPFLAGSAPP_CXXFLAGSAPP_DEBUGAPP_LDFLAGSAPP_MANIFESTAPP_MODULESAPP_OPTIMAPP_PLATFORMAPP_PROJECT_PATHAPP_STL…

Amaon CloudFront助力出海业务访问优化

企业的展示网站需要面向多个国家的客户时&#xff0c;由于地理位置的原因。往往会出现一个痛点&#xff0c;网络延迟太高&#xff0c;以至于图片、视频播放时会非常卡顿。客户的访问体验非常差&#xff0c;直接影响到企业收益。此篇文章九河云综合分析Amaon CloudFront&#xf…

matplotlib论文图片配色

还在为配图的颜色而烦恼嘛&#xff0c;还在为matplotlib的经典颜色而困惑嘛&#xff0c;看完下面的文章&#xff0c;教你如何选择图片颜色 上图左边是matplotlib默认的颜色系统&#xff0c;而右边就是使用matplotlib自带的颜色系统实现的。如何实现&#xff0c;请继续往下浏览 …

ES6中Map集合

Map集合是一个新的数据结构&#xff0c;它可以存储键值对&#xff0c;并且可以使用任何类型的值作为键&#xff0c;包括对象、数组和函数。Map也是一种可迭代的结构&#xff0c;可以使用for...of循环遍历。 在ES6中&#xff0c;我们可以使用Map构造函数来创建一个Map集合&…

当面试问你接口测试时,不要再说不会了

很多人会谈论接口测试。到底什么是接口测试&#xff1f;如何进行接口测试&#xff1f;这篇文章会帮到你。 前端和后端 在谈论接口测试之前&#xff0c;让我们先明确前端和后端这两个概念。 前端是我们在网页或移动应用程序中看到的页面&#xff0c;它由 HTML 和 CSS 编写而成…

写一个Django 的Demo

AIGC&#xff08;Artificial Intelligence Guided Control&#xff09;是一种基于人工智能技术的控制系统&#xff0c;其设计模式主要包括以下几个方面&#xff1a; 数据采集和处理&#xff1a;这一步骤主要是通过传感器等设备对物理参数进行采集&#xff0c;通过数据处理的方式…

【Python机器学习】零基础掌握Lasso变量选择回归器

如何优化房价预测模型,让它更加准确? 在生活中,房价预测一直是一个热门但复杂的问题。传统的线性回归模型虽然简单,但在处理高维数据时可能会遇到问题。例如,预测房价时,通常会考虑多个因素:面积、房间数、地理位置等。 假设有一组房屋数据,每条数据包含房屋的面积、…

五分钟理解Java跨平台原理(适合小白)

JVM通俗的理解 Java语言的一个非常重要的特点就是与平台的无关性。而使用Java虚拟机&#xff0c;即JVM&#xff08;Java Virtual Machine&#xff09;是实现这一特点的关键。JVM是一种用于计算设备的规范&#xff0c;它是一个虚构出来的计算机&#xff0c;是通过在实际的计算机…

大厂面试题-什么是JVM

JVM全称是Java虚拟机&#xff0c;在聊什么是JVM之前&#xff0c;我们不妨看⼀下这张图。 从这张图中可以看出JVM所处的位置&#xff0c;同时也能看出它两个作用&#xff1a; 1、运⾏并管理Java源码⽂件所⽣成的Class⽂件&#xff0c; 2、在不同的操作系统上安装不同的JVM&#…

thinkphp 读取存放excel表格并进行数据填充

先读取存放在服务器项目中的原始excel表格 //原文件路径$filePath public_path() . "checklist.xlsx";$file IOFactory::load($filePath);$sheet $file->getActiveSheet();向表格中填充数据 $sheet->setCellValueByColumnAndRow(12, 3, date(Y年m月d日,strt…

瑞萨RH850-P1X ECM和英飞凌TC3xx SMU对比

1.1 基本结构 P1X ECM(Error Control Module)收集从不同的错误源和监控电路发来的错误信号&#xff0c;并通过error pin(ERROROUTZ)对外输出、产生中断并发出ECM reset信号。 P1x-C系列根据产品型号不同&#xff0c;ECM个数也不相同&#xff0c;如下&#xff1a; 对应寄存器基地…

Python 批量解压Zip文件

我最近有个需求需要将大量.zip文件解压后再进行检查&#xff0c;单独的解压太费时间了&#xff0c;于是写了这个脚本来快速实现需求&#xff0c;亲测脚本很好用&#xff1a; import os import zipfile""" Author: Dragon Wu Time: 2023-10-29 22:47:00 "&…

Typora 最新激活方法

Markdown是一种可以使用普通文本编辑器编写的标记语言&#xff0c;通过简单的标记语法&#xff0c;它可以使普通文本内容具有一定的格式&#xff0c;其目标是实现易读易写。而Typora则是一个非常不错的Markdown编辑器&#xff0c;它的界面非常的简洁直观&#xff0c;并且功能各…

css画一条虚线,用到background-image:linear-gradient线性渐变的属性

CSS实现虚线的方法_css 虚线_saltlike的博客-CSDN博客 渐变属性(background-image)全解析_background-image linear_大聪明码农徐的博客-CSDN博客 Background:linear-gradient()详解_background: linear-gradient_小白白中之白的博客-CSDN博客 注意&#xff1a; 必须要写高…

Gateway服务网关

本篇资料&#xff1a;https://gitee.com/Allengan/cloud-demo.githttps://gitee.com/Allengan/cloud-demo.git 目录 1.为什么需要网关 2.gateway快速入门 1&#xff09;创建gateway服务&#xff0c;引入依赖 2&#xff09;编写启动类 3&#xff09;编写基础配置和路由规则…

Spring更加简单的读取和存储对象

前言&#xff1a;在上篇文章中&#xff0c;小编写了一个Spring的创建和使用的相关博客&#xff1a;Spring的创建和使用-CSDN博客&#xff0c;但是&#xff0c;操作/思路比较麻烦&#xff0c;那么本文主要带领大家走进&#xff1a;Spring更加简单的读取和存储对象&#xff01; 本…

SAP MIRO 参考字段XBLNR 数电发票20位问题

参考字段XBLNR只能个支持16位&#xff0c;没有办法支持20位的数电发票号码。只能增强了。 目前还是无解&#xff01;觉得SAP还是不太重视中国的用户&#xff01; Do you need to extend RBKP-XBLNR to handle more characters? You’re not alone. | SAP Blogs 2580037 - M…

1300*C. Social Distance(贪心构造)

Problem - 1367C - Codeforces 解析&#xff1a; 统计出所有连续0序列&#xff0c;并且记录其左右两侧有没有1&#xff0c;然后对于四种情况分别判断即可。 #include<bits/stdc.h> using namespace std; int t,n,k; signed main(){scanf("%d",&t);while(…

Oracel增加IP白名单限制

F:\Java\Oracle\product\11.2.0\dbhome_1\NETWORK\ADMIN\sqlnet.ora 修改sqlnet.ora文件增加两行 # like12 add,20231025,IP白名单限制 TCP.VALIDNODE_CHECKINGyes TCP.INVITED_NODES(WIN-I4HJRGH080V,127.0.0.1,xxx.xxx.xxx.xxx) 注意&#xff1a;需要将计算机名hostname添…

笔记软件Notability mac中文版软件功能

Notability mac是一款帮助用户备注文件的得力工具&#xff0c;Notability Mac版可用于注释文稿、草拟想法、录制演讲、记录备注等。它将键入、手写、录音和照片结合在一起&#xff0c;便于您根据需要创建相应的备注。 Mac Notability mac中文版软件功能 将手写&#xff0c;照片…