在运维工作中,我们可能经常遇到诸如服务器无法远程连接、网站无法访问等各种网络问题。此时你是否想过,我们常背的OSI七层模型,能在处理这样的实际问题中发挥什么样的作用呢?
基于OSI架构的方法论,我们可以使用自下而上的方法论来进行网络故障排查。
什么是OSI模型
OSI,即开放系统互连(Open Systems Interconnection),该模型是一个概念框架,它将网络通信的功能划分为七个不同的层级。简单来说,OSI标准定义了不同计算机系统之间如何进行通信。七层模型自下而上分别为:
如何运用OSI模型排查网络故障
假设有一个托管在Linux服务器上的网站无法正常工作,那么我们可以使用OSI模型对问题进行有效分解。
物理层
物理层是最底层,这一层的关键组件是电缆、光纤等物理介质。在这个层次上,我们可以检查电源供应及设备状态,查看接口统计信息。常用的命令如ifconfig
、ip link show
:
[root@ecs-91176055 ~]# ifconfig
eth0: flags=4163<UP,BROADCAST,RUNNING,MULTICAST> mtu 1500inet 192.168.0.4 netmask 255.255.255.0 broadcast 192.168.0.255inet6 fe80::f816:3eff:fe03:78e prefixlen 64 scopeid 0x20<link>inet6 2409:8c3c:ffff:3b10::1a prefixlen 128 scopeid 0x0<global>ether fa:16:3e:03:07:8e txqueuelen 1000 (Ethernet)RX packets 400 bytes 299740 (292.7 KiB)RX errors 0 dropped 0 overruns 0 frame 0TX packets 405 bytes 90337 (88.2 KiB)TX errors 0 dropped 0 overruns 0 carrier 0 collisions 0lo: flags=73<UP,LOOPBACK,RUNNING> mtu 65536inet 127.0.0.1 netmask 255.0.0.0inet6 ::1 prefixlen 128 scopeid 0x10<host>loop txqueuelen 1000 (Local Loopback)RX packets 32 bytes 2520 (2.4 KiB)RX errors 0 dropped 0 overruns 0 frame 0TX packets 32 bytes 2520 (2.4 KiB)TX errors 0 dropped 0 overruns 0 carrier 0 collisions 0[root@ecs-91176055 ~]# ip link show
1: lo: <LOOPBACK,UP,LOWER_UP> mtu 65536 qdisc noqueue state UNKNOWN mode DEFAULT group default qlen 1000link/loopback 00:00:00:00:00:00 brd 00:00:00:00:00:00
2: eth0: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 qdisc mq state UP mode DEFAULT group default qlen 1000link/ether fa:16:3e:03:07:8e brd ff:ff:ff:ff:ff:ff
如果结果中有接口显示down
,则表明物理层未能正常运行。 有时候物理连接是正常的,但网卡并未激活,可以尝试使用如下命令拉起接口:
ifconfig eth0 up
# 或
ip link set eth0 up
另外ethtool
也是非常有用的工具,它提供了查询和修改设置的能力,可以调整诸如速率、端口、自动协商等参数。
[root@ecs-91176055 ~]# ethtool eth0
Settings for eth0:Supported ports: [ ]Supported link modes: Not reportedSupported pause frame use: NoSupports auto-negotiation: NoSupported FEC modes: Not reportedAdvertised link modes: Not reportedAdvertised pause frame use: NoAdvertised auto-negotiation: NoAdvertised FEC modes: Not reportedSpeed: Unknown!Duplex: Unknown! (255)Auto-negotiation: offPort: OtherPHYAD: 0Transceiver: internalLink detected: yes
数据链路层
数据链路层使连接到同一网络的两台设备能够传输数据。该层包含两个部分。第一个组成部分是介质访问控制(MAC
)层,涉及硬件寻址和访问控制操作。第二个部分是逻辑链路层,它能够在不同媒介间建立逻辑连接。
本层常见问题之一是两台服务器无法建立连接,此时可以使用ping
、traceroute
、arp
以及Wireshark等工具对数据链路层进行测试,验证同一网络组内设备之间数据帧是否正确传输和接收。
网络层
网络层的作用是确保数据能够在两个网络之间顺畅流动,在网络层工作的设备是路由器。路由器的主要任务是简化网络之间的通信,处理IP地址是这一层的工作内容。
在这个阶段,我们主要应查找与IP地址相关的问题,例如可以通过ip -br address show
来查看地址,确认网卡是否已分配到IP地址。
[root@ecs-91176055 ~]# ip -br address show
lo UNKNOWN 127.0.0.1/8 ::1/128
eth0 UP 192.168.0.4/24 2409:8c3c:ffff:3b10::1a/128 fe80::f816:3eff:fe03:78e/64
如果您使用DHCP获取IP地址,那么可能是没有从DHCP获得动态IP地址。
另一个常见的问题是缺少特定路由或路由指向错误,导致数据包无法通过网关发出或走到了错误的网关。了解数据报到达最终目的地址的路由,在排查跨网络通信时尤其重要。我们可以通过ip route
命令查看和管理路由表,也可以通过向默认网关或远端网关发送ping请求来检查连通性。
[root@ecs-91176055 ~]# ip route
default via 192.168.0.1 dev eth0 proto dhcp metric 100
192.168.0.0/24 dev eth0 proto kernel scope link src 192.168.0.4 metric 100 [root@ecs-91176055 ~]# ip -6 route
::1 dev lo proto kernel metric 256 pref medium
2409:8c3c:ffff:3b10::1a dev eth0 proto kernel metric 100 pref medium
2409:8c3c:ffff:3b10::/64 dev eth0 proto ra metric 100 pref medium
fe80::/64 dev eth0 proto kernel metric 100 pref medium
default via fe80::6a54:edff:fe00:7f1c dev eth0 proto ra metric 100 pref medium[root@ecs-91176055 ~]# ping 192.168.0.1 -c 4
PING 192.168.0.1 (192.168.0.1) 56(84) bytes of data.
64 bytes from 192.168.0.1: icmp_seq=1 ttl=64 time=0.095 ms
64 bytes from 192.168.0.1: icmp_seq=2 ttl=64 time=0.096 ms
64 bytes from 192.168.0.1: icmp_seq=3 ttl=64 time=0.097 ms
64 bytes from 192.168.0.1: icmp_seq=4 ttl=64 time=0.120 ms--- 192.168.0.1 ping statistics ---
4 packets transmitted, 4 received, 0% packet loss, time 3099ms
rtt min/avg/max/mdev = 0.095/0.102/0.120/0.010 ms
传输层
传输层使用传输控制协议(TCP
)和用户数据报协议(UDP
)等协议来控制系统间的网络流量,确保数据高效流动。传输层负责发送数据包,查找错误,控制数据流,并将其按序排列。
在这个层面遇到的问题,可能是监听端口未开启等。如果服务启动失败,可能是因为端口已被占用。可以运行netstat
或ss
命令查看哪些端口正在监听,并判断你需要连接的端口是否正由正确的程序监听。
[root@ecs-91176055 ~]# netstat -ntupl
Active Internet connections (only servers)
Proto Recv-Q Send-Q Local Address Foreign Address State PID/Program name
tcp 0 0 0.0.0.0:22 0.0.0.0:* LISTEN 1245/sshd: /usr/sbi
tcp 0 0 0.0.0.0:44321 0.0.0.0:* LISTEN 1478/pmcd
tcp 0 0 0.0.0.0:4330 0.0.0.0:* LISTEN 2752/pmlogger
tcp 0 0 0.0.0.0:111 0.0.0.0:* LISTEN 743/rpcbind
tcp6 0 0 :::22 :::* LISTEN 1245/sshd: /usr/sbi
tcp6 0 0 :::44321 :::* LISTEN 1478/pmcd
tcp6 0 0 :::4330 :::* LISTEN 2752/pmlogger
tcp6 0 0 :::111 :::* LISTEN 743/rpcbind
udp 0 0 0.0.0.0:60469 0.0.0.0:* 743/rpcbind
udp 0 0 0.0.0.0:111 0.0.0.0:* 743/rpcbind
udp6 0 0 :::52026 :::* 743/rpcbind
udp6 0 0 :::111 :::* 743/rpcbind
udp6 0 0 fe80::f816:3eff:fe0:546 :::* 829/NetworkManager [root@ecs-91176055 ~]# ss -ntupl
Netid State Recv-Q Send-Q Local Address:Port Peer Address:Port Process
udp UNCONN 0 0 0.0.0.0:60469 0.0.0.0:* users:(("rpcbind",pid=743,fd=7))
udp UNCONN 0 0 0.0.0.0:111 0.0.0.0:* users:(("rpcbind",pid=743,fd=6))
udp UNCONN 0 0 [::]:52026 [::]:* users:(("rpcbind",pid=743,fd=10))
udp UNCONN 0 0 [::]:111 [::]:* users:(("rpcbind",pid=743,fd=9))
udp UNCONN 0 0 [fe80::f816:3eff:fe03:78e]%eth0:546 [::]:* users:(("NetworkManager",pid=829,fd=25))
tcp LISTEN 0 128 0.0.0.0:22 0.0.0.0:* users:(("sshd",pid=1245,fd=3))
tcp LISTEN 0 5 0.0.0.0:44321 0.0.0.0:* users:(("pmcd",pid=1478,fd=0))
tcp LISTEN 0 5 0.0.0.0:4330 0.0.0.0:* users:(("pmlogger",pid=2752,fd=7))
tcp LISTEN 0 4096 0.0.0.0:111 0.0.0.0:* users:(("rpcbind",pid=743,fd=8))
tcp LISTEN 0 128 [::]:22 [::]:* users:(("sshd",pid=1245,fd=4))
tcp LISTEN 0 5 [::]:44321 [::]:* users:(("pmcd",pid=1478,fd=3))
tcp LISTEN 0 5 [::]:4330 [::]:* users:(("pmlogger",pid=2752,fd=8))
tcp LISTEN 0 4096 [::]:111 [::]:* users:(("rpcbind",pid=743,fd=11))
最常遇到的问题是无法与远端端口建立连接,这是可以使用telnet
命令进行连通性测试:
[root@ecs-91176055 ~]# telnet 192.168.0.6 6443
Trying 192.168.0.6...
Connected to 192.168.0.6.
Escape character is '^]'.
如果要检查远程UDP端口,则可以使用netcat
工具(nc
命令)。
会话层
会话层负责协调两个设备之间的通信发起和终止过程,通信发起和终止的时间段及称为会话。
在这个层面,可以检查凭据、服务器证书、客户端的会话ID和cookies等内容。
表示层
表示层负责将数据转换为能够呈现给用户的形式。
在这个网站访问的例子中,SSL
或TLS
加密方法是这一层的关键组成部分。在这一层,我们可以检查加密和解密方面的问题。
应用层
系统在此层接收用户的输入并将输出返回给用户。我们熟知的FTP、SMTP、SSH、IMAP、DNS、HTTP等协议均运行在这一层级。
在这个阶段,我们可以检查服务器上的配置文件是否存在错误。此外,还可以查看服务器日志文件以获取有关问题的更多详细信息。
结论
我们从底层开始逐层向上探索,针对OSI模型的每一层介绍了各种专用工具和排查思路。尽管实际生产环境会复杂得多,但这种方法论确是通用的。