之前写过一篇《通俗易懂TCP/IP(概述)》,广受欢迎和好评,有网友催更,便抽空续写IP章节,回应粉丝期待。
TCP/IP网络模型
TCP/IP网络模型分为4层,自下而上分布为链路层(又叫网络接口层)、网络层、传输层、应用层。
- 链路层:处理数据在媒介上的表示、传输以及与硬件交互的细节。
- 网络层:IP层负责IP数据报的路由转发,所有的TCP、UDP、ICMP和IGMP数据都通过IP数据报传输。网络层(IP)提供了一种尽力而为、无连接、不可靠的数据报交付服务,IP负责将IP数据报(又叫分组)放入数据链路层传输,并处理分片和重组逻辑。
- 传输层:为端主机上运行的应用程序提供端到端服务,包括TCP和UDP。
- TCP提供了带流量控制、拥塞控制、有序、可靠的流交付,TCP需要处理丢包检测重传、重排序等IP层不处理的问题,TCP面向连接,不保留消息边界。
- UDP提供的功能基本上没有超越IP,不提供速率控制和差错控制,不保证可靠性,UDP只是提供一套端口号,用于复用、多路分解(即把收到的数据报交给应用层对应程序处理)和校验数据完整性(只检错不纠错),UDP面向非连接,保留消息边界。
- 应用层:负责处理特定应用的细节,通常应用的实现都是基于TCP/IP或者UDP/IP。应用层与应用细节相关,与网络数据传输无关,而之下的三层(链路层、网络层、传输层)则对应用一无所知,但需要处理通信的细节。
分层&协议对照
OSI七层网络模型和TCP/IP四层网络模型的对应关系如下图,对应层的常用协议也列于表中。
分层的目标是隔离,通过分层实现:下层对上层透明,而上层利用下层提供的能力。
分层的另一个优点是协议复用,这种复用允许多种协议共存于同一基础设施之中,复用可以发生在不同层,并在每层都有不同类型的标识符区分,用于确定信息属于哪个协议。
比如在链路层的数据帧(Frame)有一个协议标识符字段,用来标识链路层帧携带的协议是IP还是ARP;又比如在网络层的IP数据报头部有一个8位协议字段,标识该IP数据报来自于TCP、还是UDP、亦或是ICMP、IGMP...
封装
数据在发送端从上到下经过TCP/IP协议栈,遵循应用层->TCP/UDP->IP->链路层的顺序。
当某层的一个协议数据单元(PDU)对象转换为由底层携带的数据格式表示,这个过程称为在相邻低层的封装,即上层被封装对象作为不透明数据充当底层的Payload部分,封装是层层包裹的过程。
每层都有自己的消息对象(PDU)的概念。
- TCP层的PDU叫TCP段(segment)
- UDP层的PDU叫UDP数据报(Datagram)
- IP层的PDU叫IP数据报(Datagram)
- 链路层的PDU叫链路层帧(Frame)
封装的本质是将来自上层的数据看成不透明、无须解释的信息,经过本层的处理,在上层PDU的前面加上本层协议的头部,有些协议是增加尾部(链路层),头部用于在发送时复用数据,接收方基于各层封装过程中增加头部中的分解标识符执行分解。
具体到TCP传输数据而言,发送端的数据要经过三次封装。
- 应用层数据经过TCP层的时候,会增加TCP头部,产生TCP Segment,TCP头部中的端口号是该层的分解标识符。
- TCP Segment经过IP层的时候,会增加IP头部,产生IP Datagram,IP头部中的协议类型字段是该层的分解标识符。
- IP分组经过链路层的时候,会增加以太网首部和尾部,产生以太网Frame,帧头部中的以太网类型字段,可用于区分IPv4(0x8000)、IPv6(0x86DD)和ARP(0x0806)。
分用
数据到达接收端(是目的机器),会从下到上经过TCP/IP协议栈,遵循链路层->IP->TCP/UDP->应用层的顺序。
接收端的数据还原也需要经历三次解封。
- 经过链路层会剥离以太网首尾部,根据以太网类型字段,如果是IP Datagram则交给IP模块。
- 经过IP层会清除IP头部,根据IP头部中的协议类型字段,交给TCP、UDP或者ICMP、IGMP模块。
- 经过TCP/UDP层去掉TCP/UDP头部,根据端口号,最终将数据还原取出,并交付给应用程序。
封装发生在发送方,拆封(还原)发生在接收方。
消息边界
应用层将协议携带的数据写入消息,消息边界是两次写入操作之间的位置或字节偏移量。
保留消息边界的协议(UDP)在接收方能获得发送方的消息边界,而不保留消息边界的协议(TCP)在接收方将不能获得发送方的消息边界。
比如发送端通过UDP协议先后发送2个大小分别为100、200字节的消息,接收端通过UDP协议接收数据,将分2次分别接收到100、200字节的消息,但不保证接收100、200消息的先后顺序。
而TCP是数据流协议,如果发送端通过TCP协议先后发送2个大小为100和200字节的消息,接收端会收到300字节数据,但每次接收返回的不一定是100、200字节消息,接收端丢失了发送端的消息边界。
网络地址
IP地址用于IP层,IPv4的IP地址是32位整数,最多可以表示40多亿个IP地址,按8位一字节,则分为4字节,每个字节是一个0~255的无符号整数,所以可以表示为“abc.def.ghi.jkl”的点分十进制格式,也可以表示为32位无符号整数。
点分十进制和无符号32位无符号整数可以很容易换算。
IPv4地址空间分成五大类,A、B、C类用于Internet单播,D类地址供组播使用,E类地址保留。
IPv4的32位又被划分为网络号和主机号,可以把网络号想象成到小区的邮政地址,而主机号想象成房间号。
链路层使用48bit的MAC地址,ARP和RARP用于IP地址和MAC地址之间的相互换算。
应用程序编程接口
操作系统通过提供编程接口(API)来支持应用程序的网络开发,目前最流行的API是套接字(Socket),也叫Berkeley套接字。
Socket抽象层位于应用层跟传输层之间,提供创建、绑定、监听、连接、发送、接收、关闭等常用方法。
Internet协议
IP是TCP/IP协议族中的核心协议,为传输层提供IP数据报的交付能力,它负责将IP数据报从网络一端传递到另一端,实现数据转发。
IP的另一个作用是:在发送端,接收来自传输层的协议数据单元(PDU),添加IP首部封装为IP数据报,交给协议族的下一层链路层。
在接收端(包括中间路由器),接收来自链路层的PDU,去掉IP首部,根据IP首部中的协议类型,将数据分发给TCP、UDP或者其他。
IP只是完成分组交换(转发),如果你希望得到可靠性保证,IP会说:对不起,做不了。
发送一个IP数据报犹如寄一个快递,只需把目的地收件人写在快递上,快递公司会路由分发,但中间有可能丢件,丢了不管,而且到了,也不会有确认,一切随缘。
基于TCP/IP协议族构建的网络,可以区分为端系统(两边的主机)和中间系统(中间路由器),端主机实现网络所有层,而路由器实现传输层之下的所有层,IP使用逐跳协议,IP之上的各层使用端到端协议。
路由器
路由器工作于网络层,是IP层的核心设备。
路由器有两个或两个以上的网络接口,用于连接两个或多个网络,负责将IP数据报(分组)从一个网络接口转发到另一个网络接口。
带有多网络接口(网卡)的主机也能承担转发分组的功能,这种主机称为作为路由器使用的主机。
如果把一个村庄比喻成一个小的局域网,那路由器就相当于连接村庄的桥梁,路由器属于中间系统,所以连接不同网络的路由器需要实现不同的链路层协议,完成不同链路层的翻译转换功能。
另一方面,路由器实现链路层+网络层这2层就够了,而不必实现传输层和应用层,这是由它的功能(实现分组交换)决定的。
每个IP分组都是一个IP数据报,包含发送方和接收方的第三层地址(IP地址),即32位的IPv4或128位的IPv6,IP数据报首部中的目的地址决定将该数据报发往何处,而做出决定和发送数据报到下一跳的过程叫转发,转发依赖于路由表,是存储于内存中的一个数据结构。
IP协议格式
在贴出IP协议格式之前,我们可以设想一下,IP协议需要包括哪些信息,这比直接上图+死记硬背要好。
根据之前封装的描述,显然,IP数据报应该是包括IP首部+数据负载,而这个不透明的负载(Payload)来自于TCP、UDP或者其他。
所以我们讲IP数据报格式,其实就是IP首部的组成和结构,因为数据负载来自于上层,而封装的本质要求上层的数据对下层隐藏、无须解释,既然IP的Payload对于IP层透明,那自然没什么可讲的。
IP首部由各种不同用途和含义的字段组成。
因为IP分32位的IPv4和128位的IPv6,所以IP首部需要包括版本号字段用来区分这两种情况。
因为IP负责分组转发,所以IP首部应该包括目的IP地址,用于路由转发逻辑的处理,另外接收端可能需要找到该分组的来源,所以也应该包含来源IP地址。
TCP、UDP、ICMP、IGMP都通过IP数据报传输,所以在IP首部,需要包含一个协议字段,用于区分该IP数据报承载的是哪种类型的协议。
IP不纠错,但是需要检查错误,数据在传输过程中,有可能出错,导致接收到的数据跟发送的不一样,所以接收端需要有方法知道传输过程中,数据是否跟发送端一致,所以头部校验和字段也是必要的。
因为IP要处理分片和重组,所以IP首部需要包含相关信息,以支持该功能。
IP分IPv4和IPv6两种,协议格式不同,本文讲述以IPv4为主,先给一个IPv4的数据报图,不带选项的IP数据报头部为20字节。
版本,IP协议的第一个字段都是版本字段,这也是IPv4和IPv6唯一相同的字段,IP数据报的版本字段为4对应IPv4,为6对应IPv6,主机或者路由器可以根据版本字段,分别处理IPv4或IPv6(称为双栈)。
IHL,Internet头部长度,该字段为4位,表示头部(包括选项)32位字的数量,也就是说,真正的用字节表示的头部长度应该是IHL的值,再乘以4(32位=4字节),因为4位能表示的最大2进制为1111,对应十进制15,所以IPv4的首部最多60(15*4)字节。
DS,服务类型字段占6bit,显示控制通知(ECN)占2bit,一共8bit,该8bit用来替换了最初版本的服务类型(ToS)字段,原因是ToS其实没怎么被用。
总长度字段,是IP数据报的总长度,包括首部和数据。
接下来的32位字(4字节),标识(16bit)+标志(3bit)+分片偏移(13bit)用于分片和重组逻辑。
TTL,生存期字段用于设置数据报可经过路由器数量的上限。超此上限的IP数据报将被丢弃。
协议字段,8bit,提供多路分解功能,满足IP协议可用于携带多种(TCP、UDP、ICMP、IGMP等)协议类型的有效载荷的要求,TCP对应值17,UDP对应值为6。
头部校验和字段,仅计算IPv4头部,不包括数据,数据(Payload)的校验由传输层协议去保证,校验和的含义很简单明了,在发送端根据IP头部的各位计算出一个数值,接收端根据接收到的IP头部的各位重算一个数值,如果该值等于校验和字段,那就哦了,否则,传输过程中出错了,这个IP数据报不靠谱,扔了吧。
分片和重组
链路层对可传输的帧有一个最大长度的限制,以太网对数据帧的长度上限是1500字节,链路层可传输帧的长度限制叫做最大传输单元(MTU)。
如果IP层有一个数据报要传,且数据长度比链路层的MTU还大,那么IP层就需要对该数据报分片(fragmentation),把超限的数据报切分为若干片,使得每片都小于MTU限制。
IP层接收到一份要发送的数据报时,通过选路逻辑来决定向哪个接口(网卡)发送数据,发送数据之前,需要查询该接口获得其MTU,然后将数据报长度与MTU进行比较,如果需要,则进行分片,分片可以发生在原始发送端主机,也可以发生在中间路由器上。
IP数据报分片后,到达目的地后才进行重新组装,恢复分片前的IP数据报信息,重组由目的主机的IP层完成。因此,分片和重组对传输层(TCP、UDP)透明,IP首部中的标识、标志、分片偏移字段为分片和重组提供了足够的信息。
IP数据报首部中的标识(16bit)保存分片的唯一值,这意味着属于同一IP数据报的多个分片拥有相同的标识值。
标志(3bit)字段中的一位用来表示“是否有更多的片”,除最后一片外,其他组成数据报的分片该位设1,最后一片置0表示没有更多的片,也就是最后一片;片偏移字段用来标识该片在原始IP数据报中的位置。
当IP数据报切分为多个分片(IP数据报)后,每个分片的总长度字段(16bit)要更改为该片的长度值。
对链路层而言,不管是完整的IP数据报,还是IP数据报的一个分片,都以IP分组同等视之,分组是IP层把数据报传递给链路层的一个概念,既可能是一个独立IP数据报也可能是一个IP数据报的分片。每个分组(分片)都有自己的IP首部,并在选路时与其他分组(分片)独立路由,所以这些分片到达目的端可能失序,但IP首部有足够信息重新组装这些片。
任何一个分片的丢失,都要导致重传整个数据报,这是因为重传机制在传输层,而分片对传输层透明。
上图是UDP数据报在IP层的分片示例,可见UDP首部只存在第一个分组(分片)之中,这很容易理解,因为经传输层封装后的数据报对于IP层而言是透明的,IP不区分UDP首部和UDP数据,它们都是不透明的Payload。
接收端在收到IP分片后,相同标识值的分片属于同一个被切分的数据报,然后对分片偏移排序,更多片标志位为0的分组是最后一片,排序后的分组,如果分配偏移连续,且最后一个分组也到达,则表示整个数据报都到达了,则恢复数据报,否则继续等待。
IP转发
IP转发的概念很简单,就是路由器为IP数据报挑选一个接口发送出去。
从发送端到目的端,之间经历的所有路由器构成网络路由的完整路径,这跟从家到公司经过的所有路口构成的路径类似。
当网络接口(网卡)收到数据报时,IP模块检查数据报目的地址是否为自己的IP地址,如果是,数据报交付给由协议字段指定的协议模块(TCP、UDP等),如果不是,则判断IP层是否配置为路由器,如果是,则转发,如果不是,丢弃,因为主机不转发那些不是由它生成的数据报。
IP层包含一些位于内存中的信息,称为路由表,每次转发数据报时,都要查询路由表,执行最长前缀匹配法,决定挑选哪个路由表项做数据转发。IP转发逐跳进行,每次转发假设离目的地更近一步,路由器和主机不包含到目的地的完整路径信息。
路由表是路由条目的列表,每个路由条目包括以下几项关键信息。
- 目的地:一个32位字段,用于与掩码操作结果相匹配。
- 掩码:一个32位字段,用于与IP数据报中的目的IP地址做按位与操作。
- 下一跳:下一个IP实体(路由器或者主机)的32位IP地址,数据报将被转发到该地址。
- 接口:用于将数据报发送给下一跳的网络接口(网卡)。
选路过程:
- 首先取出数据报中的目的IP地址,然后与路由条目的掩码字段进行按位与,按位与的结果如果等于路由条目的目的地,则该条目与目的地IP匹配,该条目进入候选集合。
- 从候选集合中选择最匹配的条目,即掩码最多位为1的条目,取出下一跳字段作为转发数据报的下一跳IP地址。
- 通过最匹配条目的网络接口,发送到下一跳。
- 如果没有匹配条目,则数据报无法交付,通过ICMP发送“主机不可达”通知发送主机。
通常路由表会有一个默认路由项目,用于默认路由,每经过一个路由器,IP首部中的TTL字段都要自减1。
欢迎关注:"码砖杂役"公众号和头条号,本号专注于科技互联网知识传播和分享。