轻松理解 Docker 网络虚拟化基础之 veth 设备!

675136700ce7a9f4cdd423f5a565c0b4.gif

作者 | 张彦飞allen

来源 | 开发内功修炼

最近我又对网络虚拟化技术产生了浓厚的兴趣,迫切想搞明白在 Docker 等虚拟技术下,网络底层是如何运行的。

不得不说,网络虚拟化技术是我给自己抛的又一个大坑。虽然我自认为把原生 Linux 网络实现过程理解的还算不错了。但在看网络虚拟化相关的技术的时候,还是觉得不是很容易。

这不,今天我给大家带来的就是 Docker 网络虚拟化中的一个比较好理解的技术 - veth。

回想下在物理机组成的网络里,最基础,最简单的网络连接方式是什么?没错,那就是直接用一根交叉网线把两台电脑的网卡连起来。这样,一台机器发送数据,另外一台就能收到了。

29ca27c2246d398e8cafadb16efcbcbe.png

那么,网络虚拟化实现的第一步,就是用软件来模拟这个简单的网络连接实现过程。实现的技术就是我们今天的主角 veth,它模拟了在物理世界里的两块网卡,以及一条网线。通过它可以将两个虚拟的设备连接起来,让他们之间相互通信。平时工作中在 Docker 镜像里我们看到的 eth0 设备,其实就是 veth。

2cee17bff703b11f2a1865b9de1380d5.png

事实上,这种软件模拟硬件方式我们一点儿也不陌生,我们本机网络 IO 里的 lo 回环设备也是这样一个用软件虚拟出来设备。Veth 和 lo 的一点区别就是 veth 总是成双成对地出现。

我们今天就来深入地看看 veth 这个东东是咋工作的。

一、veth 如何使用

不像回环设备,绝大多数同学在日常工作中可能都没接触过 veth。所以本文咱们专门拉一小节出来介绍 veth 是如何使用的。

在 Linux 下,我们可以通过使用 ip 命令创建一对儿 veth。其中 link 表示 link layer的意思,即链路层。这个命令可以用于管理和查看网络接口,包括物理网络接口,也包括虚拟接口。

# ip link add veth0 type veth peer name veth1

使用 ip link show 来进行查看。

# ip link add veth0 type veth peer name veth1
# ip link show
1: lo: <LOOPBACK,UP,LOWER_UP> mtu 65536 qdisc noqueue state UNKNOWN mode DEFAULTlink/loopback 00:00:00:00:00:00 brd 00:00:00:00:00:00
2: eth0: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 qdisc mq state UP mode DEFAULT qlen 1000link/ether 6c:0b:84:d5:88:d1 brd ff:ff:ff:ff:ff:ff
3: eth1: <BROADCAST,MULTICAST> mtu 1500 qdisc noop state DOWN mode DEFAULT qlen 1000link/ether 6c:0b:84:d5:88:d2 brd ff:ff:ff:ff:ff:ff
4: veth1@veth0: <BROADCAST,MULTICAST,M-DOWN> mtu 1500 qdisc noop state DOWN mode DEFAULT qlen 1000link/ether 4e:ac:33:e5:eb:16 brd ff:ff:ff:ff:ff:ff
5: veth0@veth1: <BROADCAST,MULTICAST,M-DOWN> mtu 1500 qdisc noop state DOWN mode DEFAULT qlen 1000link/ether 2a:6d:65:74:30:fb brd ff:ff:ff:ff:ff:ff

和 eth0、lo 等网络设备一样,veth 也需要为其配置上 ip 后才能够正常工作。我们为这对儿 veth 分别来配置上 IP。

# ip addr add 192.168.1.1/24 dev veth0
# ip addr add 192.168.1.2/24 dev veth1

接下来,我们把这两个设备启动起来。

# ip link set veth0 up
# ip link set veth1 up

当设备启动起来以后,我们通过我们熟悉的 ifconfig 就可以查看到它们了。

# ifconfig
eth0: ......
lo: ......
veth0: flags=4163<UP,BROADCAST,RUNNING,MULTICAST>  mtu 1500inet 192.168.1.1  netmask 255.255.255.0  broadcast 0.0.0.0......
veth1: flags=4163<UP,BROADCAST,RUNNING,MULTICAST>  mtu 1500inet 192.168.1.2  netmask 255.255.255.0  broadcast 0.0.0.0......

现在,一对儿虚拟设备已经建立起来了。不过我们需要做一点准备工作,它们之间才可以进行互相通信。首先要关闭反向过滤 rp_filter,该模块会检查 IP 包是否符合要求,否则可能会过滤掉。然后再打开 accept_local,接收本机 IP 数据包。详细准备过程如下:

# echo 0 > /proc/sys/net/ipv4/conf/all/rp_filter
# echo 0 > /proc/sys/net/ipv4/conf/veth0/rp_filter
# echo 0 > /proc/sys/net/ipv4/conf/veth1/rp_filter
# echo 1 > /proc/sys/net/ipv4/conf/veth1/accept_local
# echo 1 > /proc/sys/net/ipv4/conf/veth0/accept_local

好了,我们在 veth0 上来 ping 一下 veth1。这两个 veth 之间可以通信了,欧耶!

# ping 192.168.1.2 -I veth0
PING 192.168.1.2 (192.168.1.2) from 192.168.1.1 veth0: 56(84) bytes of data.
64 bytes from 192.168.1.2: icmp_seq=1 ttl=64 time=0.019 ms
64 bytes from 192.168.1.2: icmp_seq=2 ttl=64 time=0.010 ms
64 bytes from 192.168.1.2: icmp_seq=3 ttl=64 time=0.010 ms
...

我在另外一个控制台上,还启动了 tcpdump 抓包,抓到的结果如下。

# tcpdump -i veth0
09:59:39.449247 ARP, Request who-has *** tell ***, length 28
09:59:39.449259 ARP, Reply *** is-at 4e:ac:33:e5:eb:16 (oui Unknown), length 28
09:59:39.449262 IP *** > ***: ICMP echo request, id 15841, seq 1, length 64
09:59:40.448689 IP *** > ***: ICMP echo request, id 15841, seq 2, length 64
09:59:41.448684 IP *** > ***: ICMP echo request, id 15841, seq 3, length 64
09:59:42.448687 IP *** > ***: ICMP echo request, id 15841, seq 4, length 64
09:59:43.448686 IP *** > ***: ICMP echo request, id 15841, seq 5, length 64

由于两个设备之间是首次通信的,所以 veth0 首先先发出了一个 arp request,veth1 收到后回复了一个 arp reply。然后接下来就是正常的 ping 命令下的 IP 包了。

我们需要倾听到你专业的声音!

CSDN音视频技术开发者在线调研来啦!

作为一名开发者,如何看待音视频技术的职业发展前景?

你熟悉哪些音视频技术产品和平台呢?

欢迎大家扫码参与调研呦~85dd710711e5cc2bf2d4776d2f99b042.png

ba11c5dc069303069973b8cea6573699.png

二、veth 底层创建过程

在上一小节中,我们亲手创建了一对儿 veth 设备,并通过简单的配置就可以让他们之间互相进行通信了。那么在本小节中,我们看看在内核里,veth 到底是如何创建的。

Veth 相关源码位于 drivers/net/veth.c,其中初始化入口是 veth_init。

//file: drivers/net/veth.c
static __init int veth_init(void)
{return rtnl_link_register(&veth_link_ops);
}

在 veth_init 中注册了 veth_link_ops(veth 设备的操作方法),它包含了 veth 设备的创建、启动和删除等回调函数。

//file: drivers/net/veth.c
static struct rtnl_link_ops veth_link_ops = {.kind  = DRV_NAME,.priv_size = sizeof(struct veth_priv),.setup  = veth_setup,.validate = veth_validate,.newlink = veth_newlink,.dellink = veth_dellink,.policy  = veth_policy,.maxtype = VETH_INFO_MAX,
};

我们先来看下 veth 设备的创建函数 veth_newlink,这是理解 veth 的关键之处

//file: drivers/net/veth.c
static int veth_newlink(struct net *src_net, struct net_device *dev,struct nlattr *tb[], struct nlattr *data[])
{...//创建peer = rtnl_create_link(net, ifname, &veth_link_ops, tbp);//注册err = register_netdevice(peer);err = register_netdevice(dev);...//把两个设备关联到一起priv = netdev_priv(dev); rcu_assign_pointer(priv->peer, peer);priv = netdev_priv(peer); rcu_assign_pointer(priv->peer, dev);
}

在 veth_newlink 中,我们看到它通过 register_netdevice 创建了 peer 和 dev 两个网络虚拟设备。接下来的 netdev_priv 函数返回的是网络设备的 private 数据,priv->peer 就是一个指针而已。

//file: drivers/net/veth.c
struct veth_priv {struct net_device __rcu *peer;atomic64_t  dropped;
};

两个新创建出来的设备 dev 和 peer 通过 priv->peer 指针来完成结对。其中 dev 设备里的 priv->peer 指针指向 peer 设备, peer 设备里的 priv->peer 指向 dev。

接着我们再看下 veth 设备的启动过程。

//file: drivers/net/veth.c
static void veth_setup(struct net_device *dev)
{//veth的操作列表,其中包括veth的发送函数veth_xmitdev->netdev_ops = &veth_netdev_ops;dev->ethtool_ops = &veth_ethtool_ops;......
}

其中 dev->netdev_ops = &veth_netdev_ops 这行也比较关键。veth_netdev_ops 是 veth 设备的操作函数。例如发送过程中调用的函数指针 ndo_start_xmit,对于 veth 设备来说就会调用到 veth_xmit。这个在下一个小节里我们会用到。

//file: drivers/net/veth.c
static const struct net_device_ops veth_netdev_ops = {.ndo_init            = veth_dev_init,.ndo_open            = veth_open,.ndo_stop            = veth_close,.ndo_start_xmit      = veth_xmit,.ndo_change_mtu      = veth_change_mtu,.ndo_get_stats64     = veth_get_stats64,.ndo_set_mac_address = eth_mac_addr,
};

三、veth 网络通信过程

在这里我们回顾一下基于回环设备 lo 的本机网络过程。在发送阶段里,流程分别是 send 系统调用 => 协议栈 => 邻居子系统 => 网络设备层 => 驱动。在接收阶段里,流程分别是软中断 => 驱动 => 网络设备层 => 协议栈 => 系统调用返回。过程图示如下:

cddaafa20d3ad74327570406efd5b6f7.png

基于 veth 的网络 IO 过程和上面这个过程图几乎完全一样。和 lo 设备所不同的就是使用的驱动程序不一样,马上我们就能看到。

网络设备层最后会通过 ops->ndo_start_xmit 来调用驱动进行真正的发送。

//file: net/core/dev.c
int dev_hard_start_xmit(struct sk_buff *skb, struct net_device *dev,struct netdev_queue *txq)
{//获取设备驱动的回调函数集合 opsconst struct net_device_ops *ops = dev->netdev_ops;//调用驱动的 ndo_start_xmit 来进行发送rc = ops->ndo_start_xmit(skb, dev);...
}

对于回环设备 lo 来说 netdev_ops 是 loopback_ops。那么 ops->ndo_start_xmit 对应的就是 loopback_xmit。

//file:drivers/net/loopback.c
static const struct net_device_ops loopback_ops = {.ndo_init      = loopback_dev_init,.ndo_start_xmit= loopback_xmit,.ndo_get_stats64 = loopback_get_stats64,
};

回顾本文上一小节中,对于 veth 设备来说,它在启动的时候将 netdev_ops 设置成了 veth_netdev_ops。那 ops->ndo_start_xmit 对应的具体发送函数就是 veth_xmit。这就是在整个发送的过程中,唯一和 lo 设备不同的地方所在。我们来简单看一下这个发送函数的代码。

//file: drivers/net/veth.c
static netdev_tx_t veth_xmit(struct sk_buff *skb, struct net_device *dev)
{struct veth_priv *priv = netdev_priv(dev);struct net_device *rcv;//获取 veth 设备的对端rcv = rcu_dereference(priv->peer);//调用 dev_forward_skb 向对端发包if (likely(dev_forward_skb(rcv, skb) == NET_RX_SUCCESS)) {}

在 veth_xmit 中主要就是获取一下当前 veth 设备,然后向对端把数据发送过去就行了。发送到对端设备的工作是由 dev_forward_skb 函数来处理的。

//file: net/core/dev.c
int dev_forward_skb(struct net_device *dev, struct sk_buff *skb)
{skb->protocol = eth_type_trans(skb, dev);...return netif_rx(skb);
}

先调用了 eth_type_trans 将 skb 的所属设备改为了刚刚取到的 veth 的对端设备 rcv。

//file: net/ethernet/eth.c
__be16 eth_type_trans(struct sk_buff *skb, struct net_device *dev)
{skb->dev = dev;...
}

接着调用 netif_rx,这块又和 lo 设备的操作一样了。在该方法中最终会执行到 enqueue_to_backlog 中(netif_rx -> netif_rx_internal -> enqueue_to_backlog)。在这里将要发送的 skb 插入 softnet_data->input_pkt_queue 队列中并调用 ____napi_schedule 来触发软中断,见下面的代码。

//file: net/core/dev.c
static int enqueue_to_backlog(struct sk_buff *skb, int cpu,unsigned int *qtail)
{sd = &per_cpu(softnet_data, cpu);__skb_queue_tail(&sd->input_pkt_queue, skb);...____napi_schedule(sd, &sd->backlog);
}
//file:net/core/dev.cstatic inline void ____napi_schedule(struct softnet_data *sd,struct napi_struct *napi)
{list_add_tail(&napi->poll_list, &sd->poll_list);__raise_softirq_irqoff(NET_RX_SOFTIRQ);
}

当数据发送完唤起软中断后,veth 对端的设备开始接收。和发送过程不同的是,所有的虚拟设备的收包 poll 函数都是一样的,都是在设备层被初始化成了 process_backlog。

//file:net/core/dev.c
static int __init net_dev_init(void)
{for_each_possible_cpu(i) {sd->backlog.poll = process_backlog;}
}

所以 veth 设备的接收过程和 lo 设备完全一样。大致流程是 net_rx_action 执行到 deliver_skb,然后送到协议栈中。

|--->net_rx_action()|--->process_backlog()|--->__netif_receive_skb()|--->__netif_receive_skb_core()|---> deliver_skb

总结

由于大部分的同学在日常工作中一般不会接触到 veth,所以在看到 Docker 相关的技术文中提到这个技术时总会以为它是多么的高深。

其实从实现上来看,虚拟设备 veth 和我们日常接触的 lo 设备非常非常的像。

5aa4e96d63c225c4d5397f3a86e51bc1.png

只不过和 lo 设备相比,veth 是为了虚拟化技术而生的,所以它多了个结对的概念。在创建函数 veth_newlink 中,一次性就创建了两个网络设备出来,并把对方分别设置成了各自的 peer。在发送数据的过程中,找到发送设备的 peer,然后发起软中断让对方收取就算完事了。

怎么样,是不是 So easy!

CSDN音视频技术开发者在线调研已开放!

欢迎大家扫码参与调研呦~0aa38ae1b45cf7b50cb6240f55ce9666.png

3b418b272200643bfeb9dd1384877af1.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/511640.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

如何做好数字化体验管理,了解一下?

简介&#xff1a;本文主要分为三部分&#xff0c;第一部分是数字化体验的必要性&#xff0c;从数字化体验管理对业务的影响和数字化体验管理对企业的价值两个方面来介绍其必要性&#xff1b;第二部分&#xff0c;ARMS 在数字化体验管理上的产品能力介绍&#xff1b;第三部分&am…

深信服智能边缘计算平台与 OpenYurt 落地方案探索与实践

简介&#xff1a;本文将介绍边缘计算落地的机遇与挑战&#xff0c;以及边缘容器开源项目 OpenYurt 在企业生产环境下的实践方案。 作者&#xff1a;赵震&#xff0c;深信服云计算开发工程师&#xff0c;OpenYurt 社区 Member 编者案&#xff1a;在 5G、物联网等新技术的持续推…

云原生的本手、妙手和俗手

作者 | 步尔斯特来源 | 步尔斯特刚刚看到一个话题&#xff1a;Java大军&#xff0c;真的开始把目光从Spring Cloud转向云原生系的k8s Istio了么&#xff1f;乍一看&#xff0c;有一丝不解&#xff0c;Java大军&#xff1f;Spring Cloud&#xff1f;Kubernetes&#xff1f;Serv…

云原生背景下故障演练体系建设的思考与实践—云原生混沌工程系列之指南篇

简介&#xff1a;生产环境的突袭演练是我们迈出的艰难但有力的一步&#xff0c;锻炼了研发运维人员的应急响应能力&#xff0c;在真实用户场景下锤炼系统&#xff0c;推进了产品的轮班制度&#xff0c;提升了云原生底座的稳定性和竞争力。 作者&#xff1a;智妍&#xff08;郑…

Spring Boot Serverless 实战系列“部署篇” | Mall 应用

简介&#xff1a;本篇中为各位讲述如何将 Mall 应用部署到函数计算平台上。为了让分析更有代表性&#xff0c;我选择了 Github 上 star 数超过 50k 的电商应用 mall 作为示例。 作者&#xff1a;西流 导读&#xff1a;Spring Boot 是基于 Java Spring 框架的套件&#xff0c;它…

押宝云原生,Ampere Computing打响服务器芯片变革关键一枪

“闯龙潭&#xff0c;越虎穴”这句话用来形容在服务器领域披荆斩棘的Arm架构服务器器芯片似乎最为合适不过。所谓“龙潭”“虎穴”指的便是雄霸服务器芯片市场数载的intel与AMD&#xff0c;而他们所属的x86架构&#xff0c;更是数据中心芯片领域的绝对主流。然而云原生时代的到…

阿里云实时数仓Hologres年度发布,解读数仓新趋势

简介&#xff1a;阿里云实时数仓Hologres年度发布&#xff0c;解读数仓新趋势。 1月7日&#xff0c;阿里云实时数仓Hologres发布最新版本&#xff0c;在成本、可用性、在线高可用等多方面进行了能力升级&#xff0c;行存吞吐提升100%&#xff0c;列存吞吐提升30%&#xff0c;支…

服务发现与配置管理高可用实践

简介&#xff1a;本篇是微服务高可用最佳实践系列分享的开篇&#xff0c;系列内容持续更新中&#xff0c;期待大家的关注。 作者&#xff1a;三辰&#xff5c;阿里云云原生微服务基础架构团队技术专家&#xff0c;负责 MSE 引擎高可用架构 本篇是微服务高可用最佳实践系列分享…

联想首次详解混合云Lenovo xCloud五大优势,如何打造智能化数字底座

多年积累之后&#xff0c;联想混合云品牌Lenovo xCloud主打云原生、智能运维、私有云、多云管理4大产品家族&#xff0c;9款通用解决方案&#xff0c;覆盖客户“建云、上云、用云和管云”的全部场景 6月10日&#xff0c;联想举办“弹性韧性悟性——多云混合时代Lenovo xCloud提…

阿里云何川:开放兼容的云,计算巢帮助合作伙伴云化升级

简介&#xff1a;保障业务稳定性&#xff0c;提供安全的云上互联网&#xff0c;助力合作伙伴实现规模化&#xff0c;打通多渠道分发。 12月21日&#xff0c;在阿里云弹性计算年度峰会上&#xff0c;阿里云弹性计算高级产品专家何川发表了题为《开放兼容的云&#xff0c;计算巢…

只用两个自定义 Hooks 就能替代 React-Redux ?

作者 | &#x1f47d;来源 | 前端Sharing前言之前有朋友问我&#xff0c;React Hooks 能否解决 React 项目状态管理的问题。这个问题让我思索了很久&#xff0c;最后得出的结论是&#xff1a;能&#xff0c;不过需要两个自定义 hooks 去实现。那么具体如何实现的呢&#xff1f;…

java queue源码_Java高并发系列之ArrayBlockingQueue源码解析

JUC包下定义了一个接口&#xff1a;BlockingQueue。其实现类有ArrayBlockingQueue等。本文先来介绍一下ArrayBlockingQueue。从字面可以看出&#xff0c;ArrayBlockingQueue是一种基于数组的阻塞队列&#xff0c;阻塞队列在线程池中会经常使用到。首先来看看ArrayBlockingQueue…

圆桌对话:云时代下,企业运维面临的挑战与机遇

简介&#xff1a;四位企业运维大咖展开对话&#xff0c;讨论“云时代下&#xff0c;企业运维面临的挑战与机遇”。 编者按&#xff1a;上云&#xff0c;已经成为了企业势不可挡的选择。云计算所拥有的“软件定义一切”的特性&#xff0c;推动了敏捷弹性、DevOps、智能运维和基…

揭晓阿里云神龙团队拿下TPCx-BB排名第一的背后技术

简介&#xff1a;近日&#xff0c;TPC Benchmark Express-BigBench(简称TPCx-BB)公布了最新的世界排名&#xff0c;阿里云自主研发的神龙大数据加速引擎获得了TPCx-BB SF3000排名第一的成绩。TPCx-BB测试分为性能与性价比两个维度。其中&#xff0c;在性能维度&#xff0c;在本…

聊聊分布式一致性算法协议 Paxos

作者 | 码哥字节来源 | 码哥字节Google的粗粒度锁服务Chubby的设计开发者Burrows曾经说过&#xff1a;所有一致性协议本质上要么是Paxos要么是其变体。网上有很多讲解Paxos算法的文章&#xff0c;但是质量层次不齐。今天笔者带大家深入聊一下PaxosPaxos是什么&#xff1f;Paxos…

java jdk myeclipse_java初体验(JDK+myeclipse)

前一段时间突击了C语言&#xff0c;主要是针对文件的操作&#xff0c;学习C的目的就是利用C处理oracle数据文件&#xff0c;在脱离oracle软件的情况下&#xff0c;提取出特定表的数据。行链接和行迁移再加上cluster表搞的头大&#xff0c;暂且一放&#xff0c;学习下java,了解下…

专访阿里云王伟民:一站式全链路,阿里云向云原生数据库2.0跃迁

简介&#xff1a;阿里云连续第二年进入Gartner《全球云数据库魔力象限》领导者象限&#xff0c;意味着国产数据库正在迅速崛起。 数据库与操作系统、中间件并称为基础软件&#xff0c;“核高基”中的“基”指的就是这三类基础软件产品&#xff0c;它们在软件产业中有举足轻重的…

媒体声音 | 云数据库,谁才是领导者?

简介&#xff1a;你们从2021年Gartner云数据库管理系统魔力象限中看到了什么…… 2021年新冠疫情进入第二年&#xff0c;对全球的社会、经济而言是不平凡之年&#xff0c;这句话也可用于概括云数据库的发展。随着中国厂商逐步进入全球云数据库市场重要舞台&#xff0c;我们也看…

再聊数据中心网络

作者 | 鲜枣课堂来源 | 小枣君本着“将通信科普到底”的原则&#xff0c;今天&#xff0c;我再继续聊一下这个话题。故事还是要从头开始说起。1973年夏天&#xff0c;两名年轻的科学家&#xff08;温顿瑟夫和罗伯特卡恩&#xff09;开始致⼒于在新⽣的计算机⽹络中&#xff0c;…

面向中后台复杂场景的低代码实践思路

简介&#xff1a;现实中&#xff0c;业务场景多&#xff0c;迭代频繁&#xff0c;变化快到跟不上&#xff0c;规则可能由多人掌握&#xff0c;无法通过一个人了解全貌&#xff1b; 还有业务所在行业固有的复杂度和历史包袱&#xff0c;这些问题都会让我们感到痛苦。 除了逻辑问…