Knot Server XDP原理分析

目录

  • Knot Server XDP原理分析
    • 一、Kernel层代码分析
      • 1. kernel层源码的编译
      • 2. bpf-kenerl.c源码的分析
    • 二、 User层代码分析

Knot Server XDP原理分析

xdp部分的代码分为Kernel层和User层两部分,Kernel层代码由User层代码调用linux bpf接口加载到网卡内核驱动,对进入的数据包进行拦截,对于Knot关注的DNS数据包(包括UDP/TCP,甚至QUIC)以Zero Copy的方式穿透到User层的代码进行处理,而Knot不关注的网络数据包则直接PASS到内核网络协议栈进行常规处理。

一、Kernel层代码分析

1. kernel层源码的编译

Kernel层代码存放在src/libknot/xdp目录下面,包括以下几个文件:

  • bpf-consts.h
  • bpf-kernel.c

以上kernel层的代码需要用clang 编译成ebpf字节码并加载到ebpf内核虚拟机中运行。使用以下命令生成:

clang -target bpf -Wall -O2 -g -DNDEBUG -c -o bpf-kernel.o -I/usr/include/x86_64-linux-gnu -include ../../config.h bpf-kernel.cllvm-strip -S bpf-kernel.o

clang 设置了“-target bpf ”选项,用以生成ebpf字节码。

llvm-strip 命令用来删除符号表和相关调试信息。

为了方便User层代码将生成的ebpf字节码加载到ebpf内核虚拟机中,将以上命令生成的bpf-kernel.o的原始字节码,生成为一个c语言数组,以便直接链接编译到User层代码中,这样无需在启动User层代码的时候再额外提供bpf-kernel.o文件,便于安装部署。命令如下:

xxd -i bpf-kernel.o > bpf-kernel-obj.c

输出为bpf-kernel-obj.c文件,另外需要编写一个bpf-kenrle-obj.h的文件,便于User层代码进行include。如下:

extern unsigned char bpf_kernel_o[];
extern unsigned int bpf_kernel_o_len;

2. bpf-kenerl.c源码的分析

2.1 首先定义了两个ebpf的map,如下:

/* A map of configuration options. */
struct {__uint(type, BPF_MAP_TYPE_ARRAY);__uint(max_entries, QUEUE_MAX);__uint(key_size, sizeof(__u32)); /* Must be 4 bytes. */__uint(value_size, sizeof(knot_xdp_opts_t));
} opts_map SEC(".maps");/* A map of AF_XDP sockets. */
struct {__uint(type, BPF_MAP_TYPE_XSKMAP);__uint(max_entries, QUEUE_MAX);__uint(key_size, sizeof(__u32)); /* Must be 4 bytes. */__uint(value_size, sizeof(int));
} xsks_map SEC(".maps");

map是ebpf的一个非常重要的kernel和user层代码的通讯机制,user层代码可以将数据写入map,然后kernel层代码从map中读取,反之亦然。

第一个map为opts_map,其作用是user层借此将配置信息传递到kernel层代码,其key为网卡接收队列id,value为knot_xdp_opts_t,定义如下:

/*! \brief XDP map item for the filter configuration. */
typedef struct knot_xdp_opts knot_xdp_opts_t;
struct knot_xdp_opts {__u16 flags;     /*!< XDP filter flags \a knot_xdp_filter_flag_t. */__u16 udp_port;  /*!< UDP/TCP port to listen on. */__u16 quic_port; /*!< QUIC/UDP port to listen on. */
} __attribute__((packed));

第二个map为xsks_map,其作用是user层将其创建的AF_XDP的socket传递到kernel层代码,其key为网卡接收队列id, value为AF_XDP的socket句柄,kernel层代码在需要的时候将接收到的数据传递到该socket句柄对应的rx ring环形队列中,如:

/* Forward the packet to user space. */
bpf_redirect_map(&xsks_map, ctx->rx_queue_index, 0);

2.2 接着是主函数xdp_redirect_dns_func,下面进行逐行分析,以下是它的原型定义:

SEC("xdp")
int xdp_redirect_dns_func(struct xdp_md *ctx)

SEC(“xdp”)将xdp_redirect_dns_func的二进制字节码存放到elf的xdp节中,这个是 xdp程序的规定。

ctx是内核ebpf调用xdp_redirect_dns_func的时候传入的上下文参数,定义如下:

/* user accessible metadata for XDP packet hook* new fields must be added to the end of this structure*/
struct xdp_md {__u32 data;          /* pkt data starting position */__u32 data_end;      /* end of pkt data  */__u32 data_meta;     /* meta data for the skb *//* Below access go through struct xdp_rxq_info */__u32 ingress_ifindex; /* rxq->dev->ifindex */__u32 rx_queue_index;  /* rxq->queue_index  */__u32 egress_ifindex;  /* txq->dev->ifindex */
};

2.2.1 获取配置选项并检查是否启用xdp

/* Get the queue options. */
__u32 index = ctx->rx_queue_index;
struct knot_xdp_opts *opts_ptr = bpf_map_lookup_elem(&opts_map, &index);
if (!opts_ptr) {return XDP_ABORTED;
}
/* save the opts_ptr value into opts */
knot_xdp_opts_t opts = *opts_ptr;/* Check if the filter is disabled. */
if (!(opts.flags & KNOT_XDP_FILTER_ON)) {return XDP_PASS;
}

2.2.2 在skb同步预留vlan附加数据并初始化设置data和meta对应的指针地址

/* Try to reserve space in front of the packet for additional (VLAN) data. */
(void)bpf_xdp_adjust_meta(ctx, - (int)sizeof(struct knot_xdp_info) - KNOT_XDP_PKT_ALIGNMENT);void *data = (void *)(long)ctx->data;
const void *data_end = (void *)(long)ctx->data_end;
struct knot_xdp_info *meta = (void *)(long)ctx->data_meta;/* Check if the meta data pointer is usable (e.g. not `tap` interface). */
if ((void *)meta + sizeof(*meta) > data) {meta = 0;
}

9-11行代码的含义是:如果保留vlan附加数据空间操作失败,那么设置meta = 0,表示不能支持vlan报文的处理。

2.2.3 设置ethernet协议头的指针地址,并调整data指向三层头

struct ethhdr *eth_hdr = data;
const void *ip_hdr;
const struct iphdr *ip4;
const struct ipv6hdr *ip6;
const void *l4_hdr;
__u8 ipv4;
__u8 ip_proto;
__u8 fragmented = 0;
__u16 eth_type; /* In big endian. *//* Parse Ethernet header. */
if ((void *)eth_hdr + sizeof(*eth_hdr) > data_end) {return XDP_DROP;
}
data += sizeof(*eth_hdr);

2.2.4 解析获取三层头

/* Parse possible VLAN (802.1Q) header. */
if (eth_hdr->h_proto == __constant_htons(ETH_P_8021Q)) {if (data + sizeof(__u16) + sizeof(eth_type) > data_end) {return XDP_DROP;} else if (meta == 0) { /* VLAN not supported. */return XDP_PASS;}__builtin_memcpy(&eth_type, data + sizeof(__u16), sizeof(eth_type));data += sizeof(__u16) + sizeof(eth_type);
} else {eth_type = eth_hdr->h_proto;
}ip_hdr = data;

如果是VLAN报文,需要剥离VLAN报文头, 最后将ip_hdr指向三层头的开始位置。

2.2.5 解析三层报文,并得到四层头

/* Parse IPv4 or IPv6 header. */
switch (eth_type) {case __constant_htons(ETH_P_IP):ip4 = ip_hdr;if ((void *)ip4 + sizeof(*ip4) > data_end) {return XDP_DROP;}if (ip4->version != 4) {return XDP_DROP;}/* Check the IP length. Cannot use strict* equality due to Ethernet padding applied to* frames shorter than 64 octects. */if (data_end - data < __bpf_ntohs(ip4->tot_len)) {return XDP_DROP;}/* check if the pkt is fragmented */if (ip4->frag_off != 0 &&ip4->frag_off != __constant_htons(IP_DF)) {fragmented = 1;}ip_proto = ip4->protocol;l4_hdr = data + ip4->ihl * 4;ipv4 = 1;break;case __constant_htons(ETH_P_IPV6):ip6 = ip_hdr;if ((void *)ip6 + sizeof(*ip6) > data_end) {return XDP_DROP;}if (ip6->version != 6) {return XDP_DROP;}/* Check the IP length. Cannot use strict* equality due to Ethernet padding applied * to frames shorter than 64 octects. */if (data_end - data < __bpf_ntohs(ip6->payload_len) + sizeof(*ip6)) {return XDP_DROP;}ip_proto = ip6->nexthdr;data += sizeof(*ip6);if (ip_proto == IPPROTO_FRAGMENT) {fragmented = 1;const struct ipv6_frag_hdr *frag = data;if ((void *)frag + sizeof(*frag) > data_end){return XDP_DROP;}ip_proto = frag->nexthdr;data += sizeof(*frag);}l4_hdr = data;ipv4 = 0;break;default:/* Pass packets of possible other protocols. */return XDP_PASS;
}

分别对ipv4和ipv6进行报文解析,如果报文有分片则设置分片标记(fragmented),最后将l4_hdr指向四层头地址。如果不是ipv4或者ipv6的报文,直接返回XDP_PASS交给内核进行处理。

2.2.6 解析四层头

const struct tcphdr *tcp;
const struct udphdr *udp;
__u16 port_dest;
__u8 match = 0;/* Check the transport protocol. */
switch (ip_proto) {case IPPROTO_TCP:/* Parse TCP header. */tcp = l4_hdr;if (l4_hdr + sizeof(*tcp) > data_end) {return XDP_DROP;}port_dest = __bpf_ntohs(tcp->dest);if ((opts.flags & KNOT_XDP_FILTER_TCP) &&(port_dest == opts.udp_port ||((opts.flags & (KNOT_XDP_FILTER_PASS | KNOT_XDP_FILTER_DROP)) &&port_dest >= opts.udp_port))) {match = 1;}break;case IPPROTO_UDP:/* Parse UDP header. */udp = l4_hdr;if (l4_hdr + sizeof(*udp) > data_end) {return XDP_DROP;}/* Check the UDP length. */if (data_end - (void *)udp < __bpf_ntohs(udp->len)) {return XDP_DROP;}port_dest = __bpf_ntohs(udp->dest);if ((opts.flags & KNOT_XDP_FILTER_UDP) &&(port_dest == opts.udp_port ||((opts.flags & (KNOT_XDP_FILTER_PASS | KNOT_XDP_FILTER_DROP)) &&port_dest >= opts.udp_port))) {match = 1;} else if ((opts.flags & KNOT_XDP_FILTER_QUIC) &&(port_dest == opts.quic_port ||((opts.flags & (KNOT_XDP_FILTER_PASS | KNOT_XDP_FILTER_DROP)) &&port_dest >= opts.quic_port))) {match = 1;}break;default:/* Pass packets of possible other protocols. */return XDP_PASS;
}

对TCP/UDP协议分别进行解析,检查请求的目标端口是否是knot server监听的端口,如果是则设置match = 1标记。如果不是TCP/UDP协议,则直接返回XDP_PASS交给内核协议栈进行处理。

2.2.7 根据四层的端口匹配结果执行相应的处理

if (!match) {/* Pass non-matching packet. */return XDP_PASS;
} else if (opts.flags & KNOT_XDP_FILTER_DROP) {/* Drop matching packet if requested. */return XDP_DROP;
} else if (fragmented) {/* Drop fragmented packet. */return XDP_DROP;
}
  • 如果端口不是knot server监听的端口,则直接返回XDP_PASS交给内核协议栈进行处理。
  • 如果端口匹配了,并且设置了KNOT_XDP_FILTER_DROP选项,则返回XDP_DROP将报文丢弃。
  • 如果端口匹配了,并且请求报文被分片了,则返回XDP_DROP将报文丢弃。从这里可以看出knot server的xdp逻辑不能支持ip层的报文分片逻辑。

2.2.8 查找路由表进行路由处理

/* Take into account routing information. */
if (opts.flags & KNOT_XDP_FILTER_ROUTE) {struct bpf_fib_lookup fib = {.ifindex = 1 /* Loopback. */};if (ipv4) {fib.family   = AF_INET;fib.ipv4_src = ip4->daddr;fib.ipv4_dst = ip4->saddr;} else {struct in6_addr *ipv6_src = (struct in6_addr *)fib.ipv6_src;struct in6_addr *ipv6_dst = (struct in6_addr *)fib.ipv6_dst;fib.family = AF_INET6;*ipv6_src  = ip6->daddr;*ipv6_dst  = ip6->saddr;}const __u16 *mac_in = (const __u16 *)eth_hdr->h_dest;const __u16 *mac_out = (const __u16 *)fib.smac;int ret = bpf_fib_lookup(ctx, &fib, sizeof(fib), BPF_FIB_LOOKUP_DIRECT);switch (ret) {case BPF_FIB_LKUP_RET_SUCCESS:/* Cross-interface answers are handled * through normal stack. */if (mac_in[0] != mac_out[0] ||mac_in[1] != mac_out[1] ||mac_in[2] != mac_out[2]) {return XDP_PASS;}/* Store output interface index for later use * with VLAN in user space. */if (meta != 0) {meta->out_if_index = fib.ifindex;}/* Update destination MAC for responding. */__builtin_memcpy(eth_hdr->h_source, fib.dmac, ETH_ALEN);break;case BPF_FIB_LKUP_RET_FWD_DISABLED: /* Disabled forwarding on loopback. */return XDP_ABORTED;case BPF_FIB_LKUP_RET_NO_NEIGH: /* Use normal stack to obtain MAC. */return XDP_PASS;default:return XDP_DROP;}
}
  • 如果经过路由选择后的DNS相应包的发送接口与接收接口不同,则直接返回XDP_PASS交由内核协议栈处理。

  • 如果经过路由选择后发现目的地址被配置为黑洞,不可达,或者禁止状态,DNS请求报文则直接被丢弃。

  • 响应报文的目的mac地址和可能的vlan标记都从路由系统中获取。

2.2.9 将报文传递到user层代码进行处理

/* Forward the packet to user space. */
return bpf_redirect_map(&xsks_map, ctx->rx_queue_index, 0);

将接收到的报文传递到对应的AF_XDP socket的rx ring队列。

2.3 文件最后声明了版权信息

char _license[] SEC("license") = "GPL";

​ 由于linux内核ebpf虚拟机只能调用声明为GPL的代码,所以这里必须为GPL。

二、 User层代码分析

【待后续完善】

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/671418.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

网络选择流程分析(首选网络类型切换流程)

首先是界面,我在此平台的界面如下: 对应的入口源码位置在Settings的UniEnabledNetworkModePreferenceController中,当然其他平台可能在PreferredNetworkModePreferenceController中,流程上都是大同小异 然后点击切换按钮会调用到UniEnabledNetworkModePreferenceControlle…

为什么说Python语法简单?

Python被广泛认为是一种语法简单、易学易用的编程语言&#xff0c;这种观点有几个关键的原因&#xff1a; 1、清晰简洁的语法结构&#xff1a; Python采用了清晰而简洁的语法结构&#xff0c;使得代码易于阅读和理解。Python的语法设计强调代码的可读性&#xff0c;采用了清晰…

用的到的linux-删除文件-Day3

前言&#xff1a; 上一节&#xff0c;我们讲到了怎么去移动文件&#xff0c;其中使用到两大类的脚本命令即cp和mv。各两种命令都可以完成移动&#xff0c;但是cp是复制粘贴的方式&#xff0c;可以选择原封不动的复制粘贴过来&#xff0c;即不修改文件及文件夹的创建时间等&…

2024Node.js零基础教程(小白友好型),nodejs新手到高手,(五)NodeJS入门——http模块

044_http模块_创建HTTP服务端 hello&#xff0c;大家好&#xff0c;那这个小节我们来使用 nodejs 创建一个 http 的服务&#xff0c;有了这个 http 服务之后&#xff0c;我们就可以处理浏览器所发送过来的请求&#xff0c;并且还可以给这个浏览器返回响应。 顺便说一下&#x…

【Linux】线程Pthread的概念 | NPTL线程库函数

创作不易&#xff0c;本篇文章如果帮助到了你&#xff0c;还请点赞 关注支持一下♡>&#x16966;<)!! 主页专栏有更多知识&#xff0c;如有疑问欢迎大家指正讨论&#xff0c;共同进步&#xff01; &#x1f525;Linux系列专栏&#xff1a;Linux基础 &#x1f525; 给大家…

华为、清华等开源超高清、精准文生图模型,0.5秒极速生成!

华为诺亚方舟实验室、清华大学信息科技学院、大连理工、香港大学和Hugging Face的研究人员&#xff0c;联合开源了超高清文生图模型——PIXART-δ。 研究人员将潜在一致性模型&#xff08;LCM&#xff09;和创新控制架构ControlNet-Transformer集成在PIXART-δ中&#xff0c;在…

docker 部署springboot项目详细步骤

Docker 是一个开源的应用容器引擎&#xff0c;它允许开发者打包他们的应用以及依赖包到一个可移植的容器中&#xff0c;然后发布到任何流行的 Linux 机器上&#xff0c;也可以实现虚拟化。容器是完全使用沙箱机制&#xff0c;相互之间不会有任何接口。在本教程中&#xff0c;我…

【LeetCode: 73. 矩阵置零 + 矩阵】

&#x1f680; 算法题 &#x1f680; &#x1f332; 算法刷题专栏 | 面试必备算法 | 面试高频算法 &#x1f340; &#x1f332; 越难的东西,越要努力坚持&#xff0c;因为它具有很高的价值&#xff0c;算法就是这样✨ &#x1f332; 作者简介&#xff1a;硕风和炜&#xff0c;…

【XR806开发板试用】基于鸿蒙L0系统的智能WIFI台灯开发(简易版)

【XR806开发板试用】基于鸿蒙L0系统的智能WIFI台灯开发&#xff08;简易版&#xff09; 本文参与极术社区的《基于安谋科技STAR-MC1的XR806开发板试用》活动。 一、环境搭建及固件编译 环境搭建的过程就不说了&#xff0c;参考官方的教程,以下提及需要注意的几个点。 1.在wind…

spring boot学习第十一篇:发邮件

1、pom.xml文件内容如下&#xff08;是我所有学习内容需要的&#xff0c;不再单独分出来&#xff0c;包不会冲突&#xff09;&#xff1a; <?xml version"1.0" encoding"UTF-8"?> <project xmlns"http://maven.apache.org/POM/4.0.0"…

使用Python语言生成区块链地址

# 单次运行 import binascii import sha3 from ecdsa import SigningKey, SECP256k1priv SigningKey.generate(curveSECP256k1) # 生成私钥 pub priv.get_verifying_key() # 生成公钥keccak sha3.keccak_256() keccak.update(pub.to_string()) # keccak_256哈希运算 addr…

【高频SQL基础题】1084.销售分析Ⅲ

题目&#xff1a; 表&#xff1a; Product ----------------------- | Column Name | Type | ----------------------- | product_id | int | | product_name | varchar | | unit_price | int | ----------------------- product_id 是该表的主键&#xff08…

vue配置开发环境和生产环境

在与src文件夹同级的地方增加两个文件 .env.development .env.production配置development和production两个文件 在.env.development中写&#xff1a; NODE_ENV development VUE_APP_NUM dev //VUE_APP_自己取名字在.env.production中写&#xff1a; NODE_ENV production…

idea后端几个层

1.BO层 BO&#xff08;Business Object&#xff09;层通常被称为业务对象层&#xff0c;负责处理业务逻辑。BO 层在整个应用程序中起到了承上启下的作用&#xff0c;连接了持久化层&#xff08;DAO层&#xff09;和展示层&#xff08;Service层&#xff09;。 2.DAO层 DAO&…

【react】如何拦截第三方插件自发的请求

我们需要猜测一下&#xff0c;第三方是用什么方式请求的&#xff1a; 一般是第1种。 1、使用原生的XMLHttpRequest // 创建一个原始的 XMLHttpRequest 对象 const originalXhrOpen XMLHttpRequest.prototype.open;XMLHttpRequest.prototype.open function (method, url, as…

linux k8s 源码编译及单集群测试

目录 概述实践安装插件docker 在线安装containerd安装二进制安装yum安装修改containder配置文件 cnietcdrsyncgo设置golang代理 安装CFSSL下载kubernetes代码编译启动本地单节点集群问题k8s没有被正常启动该如何k8s正常启动日志测试 结束 概述 此文详细说明在 centos 7上编译 k…

英语学习——16组英语常用短语

第1组&#xff1a;look look at 看 look for 寻找 look up 查阅&#xff0c;向上看 look out 向外看&#xff0c;小心 look after 照顾 look like 看起来像 look through 浏览 look into 向里看 look around 环顾四周 look forward to 期盼 look ahead 向前看 Look…

AI应用开发-python实现redis数据存储

AI应用开发相关目录 本专栏包括AI应用开发相关内容分享&#xff0c;包括不限于AI算法部署实施细节、AI应用后端分析服务相关概念及开发技巧、AI应用后端应用服务相关概念及开发技巧、AI应用前端实现路径及开发技巧 适用于具备一定算法及Python使用基础的人群 AI应用开发流程概…

大模型发展

周鸿祎关于大模型的几点见解&#xff1a; 1、大模型无处不在&#xff0c;成为数字系统标配 2、开源大模型爆发 3、 “小模型”涌现&#xff0c;运行在更多终端 4、大模型企业级市场崛起&#xff0c;向产业化、垂直化方向发展 5、Agent智能体激发大模型潜能&#xff0c;成为…

QT上位机:串口调试助手

前言 上位机的简单编写可以帮我们测试并完善平台&#xff0c;QT作为一款跨平台的GUI开发框架&#xff0c;提供了非常丰富的常用串口api。本文先从最简单的串口调试助手开始&#xff0c;编写平台软件的串口控制界面 工程配置 QT 串口通信基于QT的QSerialPort类&#xff0c;先在…