linux udp端口大数据包,Linux协议栈中UDP数据报从网卡到用户空间流程总结

NAPI驱动流程:

中断发生

-->确定中断原因是数据接收完毕(中断原因也可能是发送完毕,DMA完毕,甚至是中断通道上的其他设备中断)

-->通过netif_rx_schedule将驱动自己的napi结构加入softnet_data的poll_list链表,禁用网卡中断,并发出软中断

-->中断返回时触发软中断net_rx_action,从softnet_data的poll_list上取下刚挂入的napi结构,并且调用其

poll函数,这个poll函数也是驱动自己提供的,比如rtl8139网卡驱动中的rtl8139_poll等。

-->在poll函数中进行轮询,直到接受完所有的数据或者预算(budget)耗尽。每接收一个报文要分配skb,用eth_type_trans处理并交给netif_receive_skb。

-->如果数据全部接收完(预算没有用完),则重新使能中断并将napi从链表中取下。如果数据没接收完,则什么也不作,等待下一次poll函数被调度。

非NAPI流程:

中断发生

-->确定中断发生的原因是接收完毕。分配skb,读入数据,用eth_type_trans处理并且将skb交给netif_rx

-->在netif_rx中,将packet加入到softnet_data的input_pkt_queue末尾(NAPI驱动不使用这个

input_pkt_queue),再通过napi_schedule将softnet_data中的backlog(这也是个napi结构)加入

softnet_data的poll_list,最后发出软中断

-->软中断net_rx_action从poll_list上取下softnet_data的backlog,调用其poll函数,这个poll函数是内核提供的process_backlog

-->函数process_backlog从softnet_data的input_pkt_queue末尾取下skb,并且直接交给netif_receive_skb处理。

-->如果input_pkt_queue中所有skb都处理完则将backlog从队列中除去(注意input_pkt_queue中可能有多个网卡加入的报文,因为它是每cpu公用的)并退出循环;如果预算用完后也跳出循环。最后返回接受到的包数

总结:

NAPI和非NAPI的区别

1.NAPI使用中断+轮询的方式,中断产生之后暂时关闭中断然后轮询接收完所有的数据包,接着再开中断。而非NAPI采用纯粹中断的方式,一个中断接收一个数据包

2.NAPI都有自己的struct napi结构,非NAPI没有

3.NAPI有自己的poll函数,而且接收数据都是在软中断调用poll函数时做的,而非NAPI使用公共的process_backlog函数作为其poll函数,接收数据是在硬件中断中做的

4.NAPI在poll函数中接收完数据之后直接把skb发给netif_receive_skb,而非NAPI在硬件中断中接收了数据通过

netif_rx把skb挂到公共的input_pkt_queue上,最后由软中断调用的process_backlog函数来将其发送给

netif_receive_skb

驱动以及软中断这块对skb仅仅做了以下简单处理:

1.调用skb_reserve预留出2个字节的空间,这是为了让ip首部对齐,因为以太网首部是14字节

2.调用skb_put将tail指向数据末尾

3.调用eth_type_trans进行如下处理:

(1)将skb->dev指向接收设备

(2)将skb->mac_header指向data(此时data就是指向mac起始地址)

(3)调用skb_pull(skb, ETH_HLEN)将skb->data后移14字节指向ip首部

(4)通过比较目的mac地址判断包的类型,并将skb->pkt_type赋值PACKET_BROADCAST或PACKET_MULTICAST或者PACKET_OTHERHOST,因为PACKET_HOST为0,所以是默认值

(5)最后判断协议类型,并返回(大部分情况下直接返回eth首部的protocol字段的值),这个返回值被存在skb->protocol字段中

总结,结束后,skb->data指向ip首部,skb->mac_header指向

mac首部,skb->protocol储存L3的协议代码,skb->pkt_type已被设置,skb->len等于接收到的报文

长度减去eth首部长度,也就是整个ip报文的总长。其余字段基本上还是默认值。

netif_receive_skb

1.将skb->iif赋值为skb->dev->ifindex,将skb->network_header和

skb->transport_header都指向skb->data,也就是ip首部,然后skb->mac_len=skb-&

gt;network_header-skb->mac_header,正常情况下应该等于ETH_HLEN吧

2.向ptype_all中注册(通过dev_add_pack)的每一个packet_type调用一次deliver_skb,这里没有拷贝skb,只是先增加了一下skb->users

3.调用handle_bridge处理桥报文,如果该dev不是一个桥端口则直接返回

4.调用handle_macvlan处理vlan

5.对于每一个在ptype_base中注册的packet_type(也是用dev_add_pack),调用deliver_skb

6.如果没有任何一个注册的packet_type接受skb则直接kfree_skb并且返回NET_RX_DROP。否则返回最后一个pkt_type->func返回的值

总结,需要说一下dev_add_pack,这个函数根据传入的packet_type的type字

段决定加入哪个队列,如果是ETH_P_ALL就加入ptype_all,否则计算哈希值并加入ptype_base,通过这个函数注册的都是L3层的协

议,比如ip,arp,rarp,bootp等,其实还有packet协议族套接字的监听函数(除了ETH_P_ALL之外都加入ptype_base,

它们对应的接收函数是packet_rcv),这里对于ip来说,接受函数就是ip_rcv。

经过这个函数,又有几个字段发生变化:

network_header和transport_header都指向ip首部,mac_len为mac首部长度

ip_rcv:

1.丢弃所有pkt_type为OTHER_HOST的包,注意对于将网卡设为混杂模式的监听进程来说,这个包已经在netif_receive_skb中给它们发送了一份拷贝

2.检查skb是否被共享,如果被共享需要用skb_clone拷贝一份,因为后面要对skb的内容进行变更

3.常规检测:如果报文的长度小于ip首部最小长度,丢弃;如果ip协议字段不等于4丢弃;若ip首部长度字段小于5,丢弃;若ip首部长度小于ip首部

长度字段*4,丢弃;如果ip首部校验和出错,丢弃;如果skb->len(此时len为整个ip报文长度)小于ip首部总长字段,丢弃;如果ip

首部总长字段小于ip首部长度字段,丢弃;

4.注意第三步中skb->len是可以小于ip首部的总长字段的,因为根据代码注释,传输介质有可能在末尾添加了padding,在这种情况下,

会调用pskb_trim_rcsum将多余的结尾部分砍掉(通过把skb->tail往前移),并且还要将检查和无效化

5.此处调用NF_INET_PRE_ROUTING钩子函数

总结,ip_rcv主要进行的常规检查,唯一对skb进行操作的就是将结尾的填充字段砍掉。

ip_rcv_finish:

1.首先,如果skb->dst为空,说明还不确定这个ip报文的目的地是本机还是别的机器,这时通过ip_route_input来找到rtable并且赋给skb->rtable

2.如果ip首部长度字段大于5则调用ip_rcv_options处理ip选项。该函数调用ip_options_compile将选项全部处理放在

skb的cb字段中,作为一个struct

ip_options(还要详细看ip_options_compile)。如果有源站路由选项则检查设备是否支持源站路由(软件支持,可配置),则调用

ip_options_rcv_srr(此函数也还需认真看)填写源站路由。

3.添加统计信息并调用dst_input,dst_input只是调用skb->dst->input函数,这个skb->dst就

是前面用ip_route_input确定的,而根据dst类型的不同,这个input函数可能是ip_local_deliver或者

ip_forward,这里我们看ip_local_deliver。

总结,ip_rcv_finish改变了skb->dst字段(如果本来

skb->dst字段已经有值则不改变)和skb->cb字段(在ip_rcv_options中将ip首部选项编译之后放入cb)。

ip_options_compile可以改变报文内容,比如填写路由记录选项,填写时间戳选项等

ip_local_deliver

1.如果ip首部offset或者MF不为0,则调用ip_defrag进行ip分片的重组,ip_defrag只在成功完全重组了一个报文之后才会返回

0,其他情况都是返回非0,如果返回非0就会从ip_local_deliver返回。ip_defrag也比较复杂,需要细看,总体来说就是将分片放在

一个哈希表中,开启定时器,来一个分片就与前面属于同一ip报文的分片合并(两个分片是否属于同一个ip报文是通过ip的id字段,源目的地址,L4协议

等多个参数确定的,可参考ip4_frag_match)

2.钩子NF_INET_LOCAL_IN,并调用ip_local_deliver_finish

总结,从上两个函数可以看出NF_INET_PRE_ROUTING和

NF_INET_LOCAL_IN之间的区别,前者还没有经过路由处理,即skb->dst一般还没有确定,而后者是已经确定了

skb->dst且dst为本地地址,假如skb->dst不是本地地址则会调用ip_forward,这就不会触发

NF_INET_LOCAL_IN了。另外NF_INET_PRE_ROUTING尚未对ip分片进行合并处理,而NF_INET_LOCAL_IN抓到

的数据包是已经合并成的ip报文了

ip_local_deliver_finish

1.将skb->data继续移动指向传输层首部,并且将skb->transport_header也指向传输层首部,接下来开始处理

2.首先从ip首部取得传输层协议号,然后用这个协议号调用raw_local_deliver将skb传给raw_v4_hashinfo哈希表中的原始套接字协议

3.再利用protocol值作为下标取得inet_protos全局数组中的注册协议(对于tcp,udp,icmp分别是

tcp_protocol,udp_protocol,icmp_protocol)。如果找到了对应的协议处理结构,就把skb交给该结构的

handler函数处理(对于tcp,udp,icmp分别是tcp_v4_rcv,udp_rcv,icmp_rcv)。如果没找到对应的处理结构,则

回发一个icmp协议不可达的目的不可达报文,并释放skb。

总结:这里又一次移动了skb->data指针,将其指向传输层首部,同时设置了

transport_header也指向传输层首部。raw_v4_hashinfo和inet_protos都是一个256项的全局数组,以协议号为下

标保存了各个协议的处理结构。这两个数组就像是L4层的ptype_base,根据本层的协议号来决定处理函数

注意区别raw_v4_hashinfo和上面的ptype_all,前者是AF_INET的SOCK_RAW套接字注册的接收结构,而后者是

AF_PACKET套接字注册的接收结构,可见raw套接字是经过了ip层处理的而packet是在netif_receive_skb中接收的,尚未经

过任何处理,其中一个显著区别就是raw经过了ip_defrag而packet没有

对于udp来说,inet_protos中的结构是全局变量udp_protocol,它的handler函数是udp_rcv

udp_rcv所做的就是直接调用__udp4_lib_rcv(skb, udp_hash, IPPROTO_UDP);

__udp4_lib_rcv

此函数中会调用__udp4_lib_lookup_skb-->()__udp4_lib_lookup()来查找此udp包对应的socket,主要是查找源目的地址和端口号都符合的socket。

如果查找到了对应的socket,则调用udp_queue_rcv_skb将skb放入udp的接收队列,然后返回0

如果没有查找到对应的socket,要向源地址发送一个ICMP端口不可达消息

udp_queue_rcv_skb

它经过__udp_queue_rcv_skb(sk,

skb)-->__udp_queue_rcv_skb-->skb_queue_tail一系列调用过程将skb加入socket的接收队

列sk->sk_receive_queuek末尾。其中还要检测接收缓冲区是否已经满。

接着调用sk->sk_data_ready(sk, skb_len)通知socket有数据就绪,可以读了。一般情况下这个函数对应sock_def_readable,这个函数的功能就是唤醒在sk->sk_sleep上睡眠的进程

那么是谁在这里睡眠呢?在调用recvfrom系统调用接收报文的时候,会经过这样一个流程

sys_socketcall

-->sys_recvfrom

-->sock_recvmsg

-->__sock_recvmsg

-->sock->ops->recvmsg,这个sock->ops对应全局变量inet_dgram_ops,里面的recvmsg对应sock_common_recvmsg

-->sock_common_recvmsg

-->sk->sk_prot->recvmsg,这个sk->sk_prot对应全局变量udp_prot,里面的recvmsg对应udp_recvmsg

-->udp_recvmsg

-->__skb_recv_datagram

在__skb_recv_datagram中,会首先尝试从sk->sk_receive_queue上取下数据包,如果发现队列中没有数据包,则

开始在sk->sk_skeep上睡眠。而上面sock_def_readable唤醒的就是这里睡眠的进程。

可以看到,在__skb_recv_datagram中被唤醒后,函数又尝试从sk->sk_receive_queue上取下数据包,这时当然会

成功,成功之后返回到udp_recvmsg。udp_recvmsg再进行一些简单的检测之后就调用copy_to_user将数据拷贝到用户空间了

(其实这里并不是简单调用copy_to_user,还要处理很多情况,比如用户使用的msghdr可能包含多个iovec,skb可能有多个frags

等等)

这样,一个udp数据包就从网卡到达了用户的缓冲区

阅读(4267) | 评论(0) | 转发(0) |

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/305712.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

浅谈.NET技术公司的实习生培养

浅谈.NET技术公司的实习生培养背景近几年.NET开发者市场的越发不景气,一毕业就选择.NET技术的开发者更是少之又少。一方面是公司效益的日益提高,一方面却是招聘优秀人才的速度总是赶不上公司发展的速度,这样的矛盾不断的倾轧着技术管理者的内…

禁止自动播放功能

运行gpedit.msc打开组策略,在“管理模板--系统”右侧双击“关闭自动播放”,然后设置为“已启用”,并在“关闭自动播放”下拉列表中选择“所有驱动器”,最后“确定”即可。这个设置在“计算机配置”和“用户配置”中都有&#xff0…

MBR的Linux分区机制启动过程,linux系统启动流程(MBR)

总:POST---> Boot Squence ---> Bootloader ---> kernel ---> init---> 完成启动系统:CentOS61、按下电源,cpu找到CMOS中的BIOS并运行起来,这个小程序会完成硬件自检。BIOS:Basic Input and Output Sys…

.netcore 极速接入第三方登录

新年新气象,趁着新年的喜庆,肝了十来天,终于发了第一版,希望大家喜欢。如果有不喜欢看文字的童鞋,可以直接看下面的地址体验一下:Github: https://github.com/mrhuo/MrHuo.OAuth唯一官网:https:…

linux watch 文件大小,Linux watch命令的使用

1.命令简介watch 命令以周期性的方式执行给定的命令,并全屏显示执行结果。watch 是一个非常实用的命令,基本所有的 Linux 发行版都带有。如同名字一样,watch 可以帮助监测一个命令的运行结果,省得我们一遍遍地手动运行。比如 tail…

在ISA 2006标准版上定制带宽和限制流量(测试)

最的忙于工作上的事,有点烦躁,很少有心情能静下来去看看书或是做些实验了。这是个不好的现象。 一直想着在ISA SERVER上做一些带宽和流量方面的测试,没有找到较好的软件。偶尔从朋友那得到一款,虽说是英文的,也蛮不错…

.NET 中 async 和 await

前言C# 中的 Async 和 Await 关键字是异步编程的核心。使用这两个关键字可以轻松创建异步方法。使用 async 关键字定义的异步方法简称“异步方法”。异步编程并发的一种形式,它采用furture模式或回调(callback)机制,以避免产生不必要的线程。.Net中futur…

Javascript 常用技巧 [2]

Javascript 常用技巧 [2] /**请问如何去掉主页右面的滚动条&#xff1f; <!-- <body scroll"no"> --> <!-- <body style"overflow-y:hidden"> --> ******************************** 怎样不使用页面的缓存&#xff1f;即每一次打…

mongodb可视化工具 linux,Linux中安装启动MongoDB与可视化工具

MongoDB 提供了 linux 各发行版本 64 位的安装包&#xff0c;你可以在官网下载安装包。下载地址&#xff1a;https://www.mongodb.com/download-center#community下载完安装包&#xff0c;并解压 tgz(以下演示的是 64 位 Linux上的安装) 。curl -O https://fastdl.mongodb.org/…

年轻有为的老黄2020

0x01 不知道开篇要说什么好&#xff0c;那就来个经典的 0x01 吧。这个世界不止苟且&#xff0c;还有诗和远方。工作 工作上面还算是比较忙碌的&#xff0c;在20年也做了很多东西&#xff0c;本来面试进公司的时候title是高开&#xff0c;在基础架构组&#xff0c;光杆部门。过完…

VS.NET调试问题

Q:VS.NET调试问题 A:关于VisualStudio.NET里调试出现的一系列问题&#xff0c;例如没有权限调试Web服务器&#xff0c;不属于Debugger Users组、无法调试等情况&#xff0c;都可以在The VS7 Debugger doesn’t work. What can I do(http://blogs.msdn.co…

linux调用odbc接口乱码,linux中pypyodbc读取GB编码mdb中文乱码解决办法

当前1.3.3版本的pypyodbc在linux系统上面已经可以读取有中文字符的mdb文件,不再出现异常,但是读取的中文字符却全是乱码。下面是根据一些现象的合理推论:mdb文件来自于windows系统,其中的中文字符使用GB编码无疑,但linux系统上mdbtools提供的odbc驱动底层已经执行了编码转换,将…

推荐:Dapper扩展-Dapper.SimpleCRUD

背景Dapper目前应该是大家比较喜欢的orm框架之一&#xff0c;但是它灵活的背后&#xff0c;还是有很多不尽人意的地方&#xff0c;谁想编写基本的读取/插入/更新/删除语句&#xff1f;下面推荐SimpleCRUD为Dapper提供了简单的CRUD帮助器。解放了大家&#xff0c;提高生产力。功…

创建虚拟磁盘的小工具软件plainmaker.exe

此小工具,在虚拟机中做集群实现时用到!其下载地址如下:[url]http://www.vmware.cn/Soft/69.html[/url]

Linux下的MySQL测试,Linux下MySQL命令(1)

启动命令&#xff1a;$ ./mysqld_safe --defaults-file/home/mysql/local/mysql_sale_mirror/etc/my.cnf --basedir/home/mysql/local/mysql_sale_mirror/ --datadir/home/mysql/local/mysql_sale_mirror/var/ --pid-file/home/mysql/local/mysql_sale_mirror/var/mysql.pid --…

深入浅出Dotnet Core的项目结构变化

有时候&#xff0c;越是基础的东西&#xff0c;越是有人不明白。前几天Review一个项目的代码&#xff0c;发现非常基础的内容&#xff0c;也会有人理解出错。今天&#xff0c;就着这个点&#xff0c;写一下Dotnet Core的主要类型的项目结构&#xff0c;以及之间的转换和演化。一…

群策群力:破机房征求灵丹妙药

我校有一年代久远之计算机教室&#xff0c;现已经迈入日落西山之境。特征求灵丹妙药&#xff0c;不求妙手回春&#xff0c;只愿其能为我校的信息技术教育事业再尽最后一把微力&#xff0c;也为我校即将面临无地授课的教师提供继续上岗的救命稻草一枝。具体情况说明&#xff1a;…

使用 C# 9 的records作为强类型ID - 路由和查询参数

上一篇文章&#xff0c;我介绍了使用 C# 9 的record类型作为强类型id&#xff0c;非常简洁public record ProductId(int Value);但是在强类型id真正可用之前&#xff0c;还有一些问题需要解决&#xff0c;比如&#xff0c;ASP.NET Core并不知道如何在路由参数或查询字符串参数中…

linux sudo 必须属于用户ID0,sudo:/usr/bin/sudo 务必属于用户 ID 0(的用户)并且设置 setuid 位...

今天手抖本来要修改/usr/bin/下面的一个文件属性为 user:user&#xff0c;执行chown -R /usr/bin/的时候&#xff0c;再按tab之前直接敲了回车&#xff1b;结果导致执行sudo命令时出现错误提示&#xff1a;“sudo&#xff1a;/usr/bin/sudo 必须属于用户 ID 0(的用户)并且设置…

企业形象广告的几个突破要点

企业形象广告的使用不能简单的说好与不好&#xff0c;特定的企业&#xff0c;特定的行业&#xff0c;有不同的功能和效果&#xff0c;一般大众化消费品较为适宜&#xff0c;但也要注意&#xff1a; 1、 如果一个企业的产品处于一个完全成熟的品牌阶段&#xff0c;不易投入大量的…