一、ipoib_start_xmit函数定义
static netdev_tx_t ipoib_start_xmit(struct sk_buff *skb, struct net_device *dev)
{struct ipoib_dev_priv *priv = ipoib_priv(dev);struct rdma_netdev *rn = netdev_priv(dev);struct ipoib_neigh *neigh;struct ipoib_pseudo_header *phdr;struct ipoib_header *header;unsigned long flags;phdr = (struct ipoib_pseudo_header *) skb->data;skb_pull(skb, sizeof(*phdr));header = (struct ipoib_header *) skb->data;if (unlikely(phdr->hwaddr[4] == 0xff)) {/* multicast, arrange "if" according to probability */if ((header->proto != htons(ETH_P_IP)) &&(header->proto != htons(ETH_P_IPV6)) &&(header->proto != htons(ETH_P_ARP)) &&(header->proto != htons(ETH_P_RARP)) &&(header->proto != htons(ETH_P_TIPC))) {/* ethertype not supported by IPoIB */++dev->stats.tx_dropped;dev_kfree_skb_any(skb);return NETDEV_TX_OK;}/* Add in the P_Key for multicast*/phdr->hwaddr[8] = (priv->pkey >> 8) & 0xff;phdr->hwaddr[9] = priv->pkey & 0xff;neigh = ipoib_neigh_get(dev, phdr->hwaddr);if (likely(neigh))goto send_using_neigh;ipoib_mcast_send(dev, phdr->hwaddr, skb);return NETDEV_TX_OK;}/* unicast, arrange "switch" according to probability */switch (header->proto) {case htons(ETH_P_IP):case htons(ETH_P_IPV6):case htons(ETH_P_TIPC):neigh = ipoib_neigh_get(dev, phdr->hwaddr);if (unlikely(!neigh)) {neigh = neigh_add_path(skb, phdr->hwaddr, dev);if (likely(!neigh))return NETDEV_TX_OK;}break;case htons(ETH_P_ARP):case htons(ETH_P_RARP):/* for unicast ARP and RARP should always perform path find */unicast_arp_send(skb, dev, phdr);return NETDEV_TX_OK;default:/* ethertype not supported by IPoIB */++dev->stats.tx_dropped;dev_kfree_skb_any(skb);return NETDEV_TX_OK;}
send_using_neigh:/* note we now hold a ref to neigh */if (ipoib_cm_get(neigh)) {if (ipoib_cm_up(neigh)) {priv->fp.ipoib_cm_send(dev, skb, ipoib_cm_get(neigh));goto unref;}} else if (neigh->ah && neigh->ah->valid) {neigh->ah->last_send = rn->send(dev, skb, neigh->ah->ah,IPOIB_QPN(phdr->hwaddr));goto unref;} else if (neigh->ah) {neigh_refresh_path(neigh, phdr->hwaddr, dev);}if (skb_queue_len(&neigh->queue) < IPOIB_MAX_PATH_REC_QUEUE) {spin_lock_irqsave(&priv->lock, flags);/** to avoid race with path_rec_completion check if it already* done, if yes re-send the packet, otherwise push the skb into* the queue.* it is safe to check it here while priv->lock around.*/if (neigh->ah && neigh->ah->valid)if (!ipoib_cm_get(neigh) ||(ipoib_cm_get(neigh) && ipoib_cm_up(neigh))) {spin_unlock_irqrestore(&priv->lock, flags);goto send_using_neigh;}push_pseudo_header(skb, phdr->hwaddr);__skb_queue_tail(&neigh->queue, skb);spin_unlock_irqrestore(&priv->lock, flags);} else {++dev->stats.tx_dropped;dev_kfree_skb_any(skb);}
unref:ipoib_neigh_put(neigh);return NETDEV_TX_OK;
}
二、函数解读
该函数 ipoib_start_xmit 是用于 IP over InfiniBand (IPoIB) 模式的 InfiniBand 内核网络栈处理发送网络数据包的标准入口点。该函数的职责是准备并发送一个 socket buffer(`skb`),该 buffer 包含了要发送的网络数据。以下是该函数的详细中文解读:
1. ipoib_start_xmit 函数接收两个参数:
- skb:一个指向数据包(socket buffer)的指针,这个数据包即将被发送。
- dev:一个指向相关网络设备 (net_device) 的指针。
2. 函数首先通过调用 ipoib_priv(dev) 来获取这个网络设备的 IPoIB 私有数据结构 ipoib_dev_priv。
3. 函数通过 skb->data 获取 IPoIB 伪头部 (ipoib_pseudo_header),然后通过 skb_pull 函数将数据包指针向前移动,跳过伪头部,指向实际的 IPoIB 头部 (ipoib_header)。
4. 通过分析伪头部和 IPoIB 头部的内容,函数会检测数据包是单播还是多播。如果是多播,并且协议类型不被 IPoIB 支持,则丢弃此数据包并返回。
5. 对于多播数据包,函数添加 P_Key,并获取或创建一个邻居(neighbor)条目。如果获取邻居条目成功,则跳转到 send_using_neigh 标签来发送数据包;否则,通过 ipoib_mcast_send 函数发送多播数据包。
6. 对于单播数据包,根据协议头部中的协议类型,函数确定如何处理数据包。如果是 IP、IPv6 或 TIPC 协议,函数尝试获取一个邻居条目。如果没有找到,则通过 neigh_add_path 函数添加一个路径,并发送数据包。对于 ARP 或 RARP 协议,函数使用 unicast_arp_send 发送单播ARP请求。
7. 来到 send_using_neigh 标签,如果获取到邻居并确定了有效的通信路径,根据邻居条目的状态(是否启用了连接管理 CM 或者是否有有效的地址句柄 AH),发送数据包或者将数据包加入发送队列,等待有效通信路径建立。
8. 如果邻居的发送队列已满,那么数据包会被丢弃,并更新统计量 dev->stats.tx_dropped。
9. 在引用了一个邻居条目,并处理完后,通过调用 ipoib_neigh_put 函数减少邻居条目的引用计数。
10. 最后,函数返回 NETDEV_TX_OK,表示数据包的发送过程已经被正确处理,不管是直接发送、入队列等待,还是被丢弃。
总的来说,`ipoib_start_xmit` 函数处理从 IPoIB 网络设备发出的网络数据包的发送。函数会根据目标地址是单播还是多播以及数据包的类型,采取适当的发送策略,并处理数据路径查找和邻居管理等任务。