这张图展示的是 NFS 重传次数速率监控,具体解释如下:
1. 指标含义
- 监控指标
node_nfs_rpc_retransmissions_total
统计 NFS(网络文件系统)通信中 RPC(远程过程调用)的重传次数,rate(node_nfs_rpc_retransmissions_total[5m])
则计算过去 5 分钟内重传次数的平均速率。 - 重传次数高:意味着 NFS 通信过程中因网络波动、服务器负载高、连接不稳定等原因,数据传输失败后需要重新发送,反映 NFS 存储链路存在异常。
2. 图中表现
- 从图中可见,在
2025-03-29 10:52:01
左右,实例qfusion-node6
的重传速率值达到6.36
,且该时间段内多条曲线(不同节点)出现明显波动。这表明 NFS 存储在该时段发生了频繁的通信重传,存储链路稳定性差。
3. 问题关联
- NFS 重传频繁会导致 IO 延迟升高、响应不稳定。结合此前 MSSQL 故障场景,这种 NFS 波动会引发存储挂载点响应异常,导致 MSSQL 备份时因 IO 阻塞卡住,最终触发实例崩溃切换。图中的重传高峰时段,恰好可作为 NFS 异常的关键证据,与数据库故障因果关联。