UDP connect 内核源码分析

1 从诡异开始

        最近遇到一个线上问题,client 发了一个 udp 请求,服务器回了一个响应,但诡异的是,client 的 log 却看不到对应的处理日志。抓包发现内核发出了一个指示 udp 目的端口不可达的 icmp 报文,类似这样的:

14:33:36.781627 IP 127.0.0.1 > 127.0.0.1: ICMP 127.0.0.1 udp port 58988 unreachable, length 42

        难道 socket 被人关掉了?仔细分析了代码,client 发包默认会 connect 到 server,特殊情况下,会再调用一下 connect 到 0.0.0.0,意为取消掉 connect,这时,就发现取消 connect 之前发的包的回包收不到了。

        connect 原意是期望只能收到某目的地址的回包,取消之后自然是希望所有的回包都能收到,但反而导致了丢包的发生,不搞清楚这个原因,注定要寝食难安

       文中所引用 kernel 代码基于 Linux-2.6.34。

2 connect()

        入口当然是从系统调用开始:

// net/socket.c
SYSCALL_DEFINE3(connect, int, fd, struct sockaddr __user *, uservaddr,int, addrlen)
{// 通过fd找socksock = sockfd_lookup_light(fd, &err, &fput_needed);// 拷贝addr到内核空间err = move_addr_to_kernel(uservaddr, addrlen, (struct sockaddr *)&address);if (err < 0)goto out_put;// 调用AF族的connecterr = sock->ops->connect(sock, (struct sockaddr *)&address, addrlen,sock->file->f_flags);
}

        udp 协议属于 AF_INET 协议族,所以调用走到了这里:

// net/ipv4/af_inet.c
int inet_dgram_connect(struct socket *sock, struct sockaddr * uaddr,int addr_len, int flags)
{struct sock *sk = sock->sk;if (addr_len < sizeof(uaddr->sa_family))return -EINVAL;// 取消connectif (uaddr->sa_family == AF_UNSPEC)return sk->sk_prot->disconnect(sk, flags);// connectreturn sk->sk_prot->connect(sk, (struct sockaddr *)uaddr, addr_len);
}

        这里就根据sa_family的值,决定是connect 或者 disconnect,可以接着看udp中对应的实现了:

// net/ipv4/datagram.c
int ip4_datagram_connect(struct sock *sk, struct sockaddr *uaddr, int addr_len)
{// 查找从源地址 saddr 到目标地址 usin->sin_addr.s_addr 的路由, 填充 rtable 结构体err = ip_route_connect(&rt, usin->sin_addr.s_addr, saddr,RT_CONN_FLAGS(sk), oif,sk->sk_protocol,inet->inet_sport, usin->sin_port, sk, 1);if (err) {if (err == -ENETUNREACH)IP_INC_STATS_BH(sock_net(sk), IPSTATS_MIB_OUTNOROUTES);return err;}// 填充源目的地址if (!inet->inet_saddr)inet->inet_saddr = rt->rt_src;	/* Update source address */if (!inet->inet_rcv_saddr)inet->inet_rcv_saddr = rt->rt_src;inet->inet_daddr = rt->rt_dst;inet->inet_dport = usin->sin_port;sk->sk_state = TCP_ESTABLISHED;inet->inet_id = jiffies;sk_dst_set(sk, &rt->u.dst);return(0);
}

        这里原地址有两个,一个是 inet_saddr, 是发包时用的,另一个 inet_rcv_saddr, 则是接收时用的,一般两者是一致的,除了监听 0.0.0.0 这种场景。

       可见,udp connect 后,则是记录了源目的地址,大胆猜测一下,收包的时候会判断地址,不匹配的就不收,这也符合我们对 connect 最初的理解。

ICMP_PORT_UNREACH

        udp 收到一个包的流程比较冗长,我们直接看比较关键的部分:

// net/ipv4/udp.c
int __udp4_lib_rcv(struct sk_buff *skb, struct udp_table *udptable,int proto)
{if (proto == IPPROTO_UDP) {/* UDP validates ulen. */if (ulen < sizeof(*uh) || pskb_trim_rcsum(skb, ulen))goto short_packet;uh = udp_hdr(skb);}// 根据源端口和目标端口查找匹配的套接字sk = __udp4_lib_lookup_skb(skb, uh->source, uh->dest, udptable);if (sk != NULL) {  // 如果找到了,就进入收包函数int ret = udp_queue_rcv_skb(sk, skb);...return 0;}// 安全检查不通过就悄悄丢弃if (!xfrm4_policy_check(NULL, XFRM_POLICY_IN, skb))goto drop;/* No socket. Drop packet silently, if checksum is wrong */if (udp_lib_checksum_complete(skb))goto csum_error;// 如果没找到对应的sock,并且校验和是ok的,就发送icmp不可达的报文icmp_send(skb, ICMP_DEST_UNREACH, ICMP_PORT_UNREACH, 0);drop:UDP_INC_STATS_BH(net, UDP_MIB_INERRORS, proto == IPPROTO_UDPLITE);kfree_skb(skb);return 0;
}

        咦,icmp 不可达的报文原来就是这里发出的,那什么情况下可能导致找不到对应的 sock 呢?

static struct sock *__udp4_lib_lookup(struct net *net, __be32 saddr,__be16 sport, __be32 daddr, __be16 dport,int dif, struct udp_table *udptable)
{struct sock *sk, *result;struct hlist_nulls_node *node;unsigned short hnum = ntohs(dport);// 首先,使用目的端口号(dport)计算哈希值(slot),以确定在 UDP 哈希表(udptable)中的哪个槽位进行查找unsigned int hash2, slot2, slot = udp_hashfn(net, hnum, udptable->mask);struct udp_hslot *hslot2, *hslot = &udptable->hash[slot];int score, badness;rcu_read_lock();// 如果目标槽位(hslot)中的元素数量超过 10,则尝试使用更复杂的哈希(hash2)来优化查找过程。// 这涉及到根据目的地址和端口号再次计算哈希值,并检查另一个槽位(hslot2)中的元素数量是否更少。// 如果是,则优先在那个槽位中查找if (hslot->count > 10) {hash2 = udp4_portaddr_hash(net, daddr, hnum);slot2 = hash2 & udptable->mask;hslot2 = &udptable->hash2[slot2];if (hslot->count < hslot2->count)goto begin;result = udp4_lib_lookup2(net, saddr, sport,daddr, hnum, dif,hslot2, slot2);if (!result) {// 如果在 hslot2 中没有找到匹配的套接字,并且 hslot2 是基于 INADDR_ANY(任意地址)计算的,则再次尝试查找。hash2 = udp4_portaddr_hash(net, INADDR_ANY, hnum);slot2 = hash2 & udptable->mask;hslot2 = &udptable->hash2[slot2];if (hslot->count < hslot2->count)goto begin;result = udp4_lib_lookup2(net, saddr, sport,INADDR_ANY, hnum, dif,hslot2, slot2);}rcu_read_unlock();return result;}
begin:result = NULL;badness = -1;// 如果上述优化查找没有成功,或者目标槽位中的元素数量不多于 10,// 则直接遍历目标槽位(hslot)中的所有套接字// 对于槽位中的每个套接字,使用 compute_score 函数计算一个“分数”,该分数基于套接字地址、端口和可能的其他因素(如套接字状态)sk_nulls_for_each_rcu(sk, node, &hslot->head) {score = compute_score(sk, net, saddr, hnum, sport,daddr, dport, dif);if (score > badness) {result = sk;badness = score;}}...return result;
}

        __udp4_lib_lookup 中逻辑稍多,但简而言之,就是用目的地址、端口号从 udp 的 hash 表中快速查找对应的 sock 结构。因此,正常来讲,udp 查不到 sock 的原因大抵是有人把他从 hash 表中移除了。

        接着浅看一下 compute_score:

static inline int compute_score(struct sock *sk, struct net *net, __be32 saddr,unsigned short hnum,__be16 sport, __be32 daddr, __be16 dport, int dif)
{int score = -1;if (net_eq(sock_net(sk), net) && udp_sk(sk)->udp_port_hash == hnum &&!ipv6_only_sock(sk)) {struct inet_sock *inet = inet_sk(sk);score = (sk->sk_family == PF_INET ? 1 : 0);if (inet->inet_rcv_saddr) {if (inet->inet_rcv_saddr != daddr)return -1;score += 2;}if (inet->inet_daddr) {if (inet->inet_daddr != saddr)return -1;score += 2;}if (inet->inet_dport) {if (inet->inet_dport != sport)return -1;score += 2;}if (sk->sk_bound_dev_if) {if (sk->sk_bound_dev_if != dif)return -1;score += 2;}}return score;
}

        compute_score 中会判断dport 、daddr 以及 rcv_addr,不匹配的就返回 -1 了,这进一步证明了我们上面对 connect 原理的推测是正确的。

3 现出原形

int udp_disconnect(struct sock *sk, int flags)
{struct inet_sock *inet = inet_sk(sk);sk->sk_state = TCP_CLOSE;// 重置connect中设置的地址等信息inet->inet_daddr = 0;inet->inet_dport = 0;sk->sk_bound_dev_if = 0;...if (!(sk->sk_userlocks & SOCK_BINDPORT_LOCK)) {// unhashsk->sk_prot->unhash(sk);inet->inet_sport = 0;}sk_dst_reset(sk);return 0;
}

        unhash 这个函数一看就不对劲

void udp_lib_unhash(struct sock *sk)
{if (sk_hashed(sk)) {struct udp_table *udptable = sk->sk_prot->h.udp_table;struct udp_hslot *hslot, *hslot2;hslot  = udp_hashslot(udptable, sock_net(sk),udp_sk(sk)->udp_port_hash);hslot2 = udp_hashslot2(udptable, udp_sk(sk)->udp_portaddr_hash);spin_lock_bh(&hslot->lock);if (sk_nulls_del_node_init_rcu(sk)) {hslot->count--;inet_sk(sk)->inet_num = 0;sock_prot_inuse_add(sock_net(sk), sk->sk_prot, -1);spin_lock(&hslot2->lock);hlist_nulls_del_init_rcu(&udp_sk(sk)->udp_portaddr_node);hslot2->count--;spin_unlock(&hslot2->lock);}spin_unlock_bh(&hslot->lock);}
}

        果然,一个是基于端口号的 hash,另一个基于 port + addr 的 hash, 都被取消了引用!

4 印证

        原理已经搞明白了,再自己复现一下,印证一番:

        先搞它一个 server,你发啥,我回啥:

const char* g_server_ip = "127.0.0.1";
uint16_t g_server_port = 6666;int do_server()
{int sock = socket(AF_INET, SOCK_DGRAM, IPPROTO_UDP);if (sock < 0) {printf("server socket failed: %s\n", strerror(errno));return -1;}uint32_t ip;inet_aton(g_server_ip, (struct in_addr *)&ip);struct sockaddr_in addr;memset(&addr, 0, sizeof(addr));addr.sin_family = AF_INET;addr.sin_addr.s_addr = ip;addr.sin_port = htons(g_server_port);if (bind(sock, (struct sockaddr *)&addr, (socklen_t)sizeof(addr)) < 0) {printf("server bind failed: %s\n", strerror(errno));return -1;}char buf[10240];struct sockaddr_in src_addr;socklen_t addrlen = sizeof(src_addr);while (1) {ssize_t ret = recvfrom(sock, buf, sizeof(buf), 0,(struct sockaddr *)&src_addr, &addrlen);if (ret < 0) {if (errno != EAGAIN) {printf("server recv failed: %s\n", strerror(errno));break;}continue;} buf[ret] = 0;size_t ret_s = sendto(sock, buf, ret, 0,(struct sockaddr *)&src_addr, addrlen);printf("resp:%s %d/%d\n", buf, ret_s, ret);}return 0;
}

        有 server ,必有 client:

void disconnect(int sock)
{uint32_t ip;inet_aton("0.0.0.0", (struct in_addr *)&ip);struct sockaddr_in addr;memset(&addr, 0, sizeof(addr));if (connect(sock, (struct sockaddr *)&addr, (socklen_t)sizeof(addr)) < 0) {printf("client connect failed: %s\n", strerror(errno));}
}int do_client()
{int sock = socket(AF_INET, SOCK_DGRAM, IPPROTO_UDP);if (sock < 0) {printf("client socket failed: %s\n", strerror(errno));return -1;}uint32_t ip;inet_aton(g_server_ip, (struct in_addr *)&ip);struct sockaddr_in addr;memset(&addr, 0, sizeof(addr));addr.sin_family = AF_INET;addr.sin_addr.s_addr = ip;addr.sin_port = htons(g_server_port);char buf[10240];struct sockaddr_in src_addr;socklen_t addrlen = sizeof(src_addr);int i = 0;while (1) {int n = snprintf(buf, sizeof(buf), "echo %d", i++);size_t ret_s = sendto(sock, buf, n, 0,(struct sockaddr *)&addr, sizeof(addr));if (ret_s != n) {break;}udp_connect(sock);ssize_t ret = recvfrom(sock, buf, sizeof(buf), 0,(struct sockaddr *)&src_addr, &addrlen);if (ret < 0) {if (errno != EAGAIN) {printf("client recv failed: %s\n", strerror(errno));break;}sleep(1);continue;} buf[ret] = 0;printf("resp:%s %d/%d\n", buf, ret, n);sleep(1);break;}return 0;
}

        先发一个请求,然后 disconnect 一下,看看能否收到回包:

# server 收到请求,并回了响应
[root@centos udp_connect]# ./a.out -s
resp:echo 0 6/6
^C# client 发出了请求,未收到响应,阻塞在了recvfrom处
[root@centos udp_connect]# ./a.out -c
^C# 抓包发现udp不可达的icmp
[root@centos ~]# tcpdump -i any port 6666 or \( icmp and host 127.0.0.1 \) -nn
tcpdump: verbose output suppressed, use -v or -vv for full protocol decode
listening on any, link-type LINUX_SLL (Linux cooked), capture size 262144 bytes
23:28:23.314272 IP 127.0.0.1.50864 > 127.0.0.1.6666: UDP, length 6
23:28:23.314372 IP 127.0.0.1.6666 > 127.0.0.1.50864: UDP, length 6
23:28:23.314381 IP 127.0.0.1 > 127.0.0.1: ICMP 127.0.0.1 udp port 50864 unreachable, length 42
^C
3 packets captured
6 packets received by filter
0 packets dropped by kernel
[root@centos ~]# 

        符合预期

        最后还是附上测试代码:Linux/udp_connect at master · Fireplusplus/Linux · GitHub

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/877034.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ES6语法详解,面试必会,通俗易懂版

目录 Set的基本使用WeakSet 使用Set 和 WeakSet 区别内存泄漏示例&#xff1a;使用普通 Set 保存 DOM 节点如何避免这个内存泄漏MapWeakMap 的使用 Set的基本使用 在ES6之前&#xff0c;我们存储数据的结构主要有两种&#xff1a;数组、对象。 在ES6中新增了另外两种数据结构&a…

Java面试八股之@Qualifier的作用

Qualifier的作用 Qualifier 是 Spring 框架中的一个非常有用的注解&#xff0c;它主要用于解决在依赖注入过程中出现的歧义问题。当 Spring 容器中有多个相同类型的 Bean 时&#xff0c;Qualifier 可以帮助指明应该使用哪一个具体的 Bean 进行注入。 Qualifier 的作用&#x…

成为git砖家(7): posh-git的安装和使用

文章目录 1. PowerShell 里的 git 默认使用体验不够好2. posh-git 介绍2.1 安装 posh-git2.2 PS1 显示的内容2.3 补全分支 1. PowerShell 里的 git 默认使用体验不够好 在 Windows 系统上&#xff0c;安装了 git for windows 后&#xff0c; git bash 里的体验确实不错。 但是…

C# 获取 Excel 文件的所有文本数据内容

目录 功能需求 范例运行环境 关键代码 组件库引入 获取Excel文件的文本内容 总结 功能需求 获取上传的 EXCEL 文件的所有文本信息并存储到数据库里&#xff0c;可以进一步实现对文件内容资料关键字查询的全文检索。有助于我们定位相关文档&#xff0c;基本实现的步骤如下&…

零代码拖拽,轻松搞定GIS场景编辑

在三维GIS领域&#xff0c;编辑场景和处理影像数据通常是一个复杂且费时的过程&#xff0c;但现在有了山海鲸可视化&#xff0c;这一切都变得简单有趣。这款免费可视化工具为您提供了零代码拖拽式编辑的体验&#xff0c;让您无需编程知识就能轻松创建和优化GIS场景。通过直观的…

Hive多维分析函数——With cube、Grouping sets、With rollup

有些指标涉及【多维度】的聚合&#xff0c;大的汇总维度&#xff0c;小的明细维度&#xff0c;需要精细化的下钻。 grouping sets&#xff1a; 多维度组合&#xff0c;组合维度自定义&#xff1b;with cube&#xff1a; 多维度组合&#xff0c;程序自由组合&#xff0c;组合为…

大数据:数据标准化及质量管控方案

本方案是一套全面的解决方案&#xff0c;旨在为企业构建科学、规范的数据管理体系&#xff0c;确保数据的准确性、一致性、完整性、合理性、及时性和有效性&#xff0c;从而支撑业务数据的高效应用与正确决策。以下是对该方案的详细介绍&#xff1a; 一、方案概述 本数据标准…

迎峰度夏,应急备电:应急电源和燃油发电机哪个好?应急电源选购

在电网迎峰度夏的严峻挑战面前&#xff0c;铂陆帝应急电源以其卓越的性能和可靠性&#xff0c;成为了不可或缺的电力保障伙伴。与燃油发电机相比&#xff0c;铂陆帝应急电源在多个方面均展现出显著的优势。 更高效稳定&#xff0c;性能卓越 铂陆帝应急电源具备出色的性能和稳定…

GPIO子系统

1. GPIO子系统视频概述 1.1 GPIO子系统的作用 芯片内部有很多引脚&#xff0c;这些引脚可以接到GPIO模块&#xff0c;也可以接到I2C等模块。 通过Pinctrl子系统来选择引脚的功能(mux function)、配置引脚&#xff1a; 当一个引脚被复用为GPIO功能时&#xff0c;我们可以去设…

PySide(PyQt)的QPropertyAnimation(属性动画)

学不完&#xff0c;根本学不完:(&#xff0c;感觉逐渐陷入了学习深渊。。。 QPropertyAnimation 是 PySide(PyQt) 中一个用于在时间轴上平滑地改变对象属性的类。它常用于制作动画效果&#xff0c;比如移动、缩放或改变透明度等。 基本概念 QPropertyAnimation 是 Qt …

GPT5发布时间预测,即将到来的GPT5

GPT-5&#xff1a;未来的展望与功能预测 随着人工智能技术的飞速发展&#xff0c;生成式预训练模型&#xff08;GPT&#xff09;已经成为自然语言处理领域的核心技术。从 GPT-1 到目前的 GPT-4&#xff0c;每一代模型都带来了显著的进步和变革。那么&#xff0c;GPT-5 的到来将…

【环境搭建问题】linux服务器安装conda并创建虚拟环境

1.检查有没有conda 首先看root文件夹下有没有anaconda或者conda 没有的话就要先下载安装conda&#xff1a; https://repo.anaconda.com/archive/index.html 在这个链接下找自己需要的。服务器一般为linux&#xff0c;所以我这里选择的是&#xff1a; 2.安装conda 下载安装…

自动控制:PID控制器参数对控制性能的影响

自动控制&#xff1a;PID控制器参数对控制性能的影响 PID控制器是工业控制领域中最常用的控制算法之一。PID控制器通过调节比例、积分(I)、微分(D)三个参数&#xff0c;使系统达到预期的控制效果。本文将详细讨论PID控制器的三个参数对控制性能的影响&#xff0c;并给出一些实…

Python脚本:使用PyPDF2给一个PDF添加上页数/总页数标签

一、实现代码 import PyPDF2 from PyPDF2 import PdfWriter from PyPDF2.generic import AnnotationBuilder# 指定输入和输出pdf pdf_path rC:\Users\ASUS\Desktop\temp\xxxx.pdf out_path rC:\Users\ASUS\Desktop\temp\xxxx2.pdf# 创建 PdfWriter 对象 writer PdfWriter()…

【管理咨询宝藏148】顶级咨询公司大型线下连锁门店客户生命周期规划方案

【管理咨询宝藏148】顶级咨询公司大型线下连锁门店客户生命周期规划方案 【格式】PDF版本 【关键词】零售数字化、客户生命周期、客户画像 【核心观点】 - 在多年的行业研究积累过程中&#xff0c;将每个行业中具有典型代表性的用户维度进行了总结。本项目选择用户服务的标杆企…

视频监控管理平台LntonAIServer智能视频监控平台在工业排污检测中的应用

随着工业化的不断发展&#xff0c;环境污染问题日益严重。为了保护生态环境&#xff0c;各国政府纷纷出台相关政策&#xff0c;对工业排污进行严格监管。然而&#xff0c;传统的排污检测方法往往耗时耗力&#xff0c;且难以实现实时监控。因此&#xff0c;如何提高工业排污检测…

Graph-RAG:知识图谱与大模型的融合

在数字化的浪潮中&#xff0c;知识的累积已非线性增长&#xff0c;以指数级的速度膨胀。我们站在一个信息过载的十字路口&#xff0c;迫切需要一种能力&#xff0c;能够穿透数据的迷雾&#xff0c;捕捉知识的精髓。本文将揭示 Graph-RAG 的神秘面纱&#xff0c;这是一种突破传统…

FBMM: Making Memory Management Extensible With Filesystems——论文泛读

ATC 2024 Paper 论文阅读笔记整理 问题 CXL这样的新内存技术实现了多种内存配置&#xff0c;如分层内存、远内存和内存处理。为了支持这些新的硬件配置&#xff0c;需要对操作系统进行大量修改。例如&#xff0c;Meta的TPP内核补丁对NUMA和页面回收策略进行了更改&#xff0c…

PMP证书含金量高吗?值得考吗?

值啊&#xff0c;我考过了&#xff0c;PMP 是项目管理岗位的敲门砖&#xff0c;很多企业都写明了持有PMP 证书的优先&#xff0c;而且学完这个知识体系&#xff0c;对我的能力提升确实有帮助&#xff0c;还是值得的。 一、为什么值得 这个证书就是基础知识&#xff0c;项目管…

系统架构设计师 - 知识产权与标准化

知识产权与标准化 知识产权与标准化&#xff08;3分&#xff09;保护范围与对象 ★ ★ ★ ★法律法规 保护期限 ★ ★知识产权人确定 ★ ★ ★ ★侵权判断 ★ ★ ★ ★标准化&#xff08;了解&#xff09;★标准的分类标准的编号 大家好呀&#xff01;我是小笙&#xff0c;本章…