M-LAG 的作用及特点
-
能不能简单的描述以下M-LAG的工作原理?
-
跨设备链路聚合,将两台物理设备在聚合层面虚拟成一台设备来实现跨设备链路聚合,从而提供设备级冗余保护和流量负载分担
-
-
M-LAG(跨设备链路聚合)是基于IEEEP802.1A协议的跨设备链路聚合技术。
-
M-LAG将两台物理设备聚合层面虚拟成一台设备来实现跨设备链路聚合,从而提供设备级冗余保护和流量负载分担。
-
M-LAG 作为一种跨设备链路聚合的技术,除了具备增加带宽、提高链路可靠性,负载分担的优势外,还具备以下优势:
-
无环拓扑:M-LAG 提供无环拓扑,即使在M-LAG 组网中部署 STP,M-LAG组网中的接口也不会被 STP 阻塞。
-
更高的可靠性:把链路可靠性从单板级提高到了设备级。
-
双归接入:允许设备双归接入,将两台设备的链路进行聚合,实现流量负载分担。
-
用户流量不中断:链路或设备发送故障时,可将用户流量快速切换到正常设备或链路,确保用户业务不中断
-
怎么实现的?通过peer-link同步表项信息,本地找不到可以从peer-link绕行
-
-
简化组网及配置:提供了一个没有环路的二层拓扑;同时实现冗余备份不再需要繁琐的防环协议配置,极大地简化了组网及配置。
-
独立升级:两台设备可以分别进行升级,保证有一台设备正常工作即可对正在运行的业务几乎没有影响。
-
M-LAG 和IRF 之间有什么区别
-
M-LAG:
-
是一种跨设备链路聚合的技术,它可以将两台接入交换机以同一个状态和用户侧设备或服务器进行跨设备的链路聚合,实现链路的高可靠性和高带宽利用率。
-
M-LAG 设备的控制面是独立的,故障域隔离,可以单独升级,业务秒级中断。M-LAG 适合于高可靠性、低延迟、业务中断时间短的场景
-
-
IRF:
-
是一种多设备堆叠的技术,它可以将多台交换机通过专用的堆叠线缆或者普通的以太网口连接起来,形成一个逻辑设备,实现设备的高可靠性和高端口密度。
-
IRF设备的控制面是集中的,故障可能扩散、需要同时升级,业务分钟级中断。IRF 适合于端口数量、带宽需求大、配置简洁的场景。
-
-
MAD检测机制区别
-
IRF:可以选择类型更多
-
M-LAG:使用keepalive机制就可以
-
-
总体上对于组网可靠性要求高,升级过程要求业务中断时间短的场录推荐使用M-LAG。但是在同一组网环境中,不能同时部署IRF 和 M-LAG。
-
M-LAG和IRF的具体区别:
IRF | M-LAG | |
---|---|---|
控制面 | 所有成员设备控制面统一,集中管理;所有成员设备需要同步所有表项 | 两台独立设备,控制平面解耦;主要同步MAC表项/ARP表项/ND表项 |
设备面 | 紧耦合:①硬件要求:芯片架构相同,一般要求同系列②软件要求:必须相同版本 | 松耦合:①硬件要求:支持不同型号;②软件要求:支持不同版本 |
版本升级 | 需要成员设备同步升级,或者主设备,从设备分开升级,但操作复杂;业务升级时业务中断时间2s左右 | 可以独立升级,升级时业务中断时间小于1s;对于支持GIR的版本可以做到不中断 |
配置管理 | 统一配置,统一管理,操作简单;耦合度高,和控制器配合存在单点故障可能 | 独立配置,M-LAG系统会进行配置一致性检测,具体业务配置需要手工保证;独立管理,耦合度低,和控制器不存在单点故障,可靠性高 |
成员数量 | 支持两台及以上 | 只支持两台 |
组建一个 M-LAG 系统涉及的设备角色以及链路角色有哪些
M-LAG设备在M-LAG系统中互为邻居,共同进行负载分担流量转发,当一台设备发送故障,流量可以快速切换到另一台设备,保证业务正常运行
-
M-LAG 主设备:部署 M-LAG 且状态为 Primany 的设备。
-
M-LAG 备设备:部署M-LAG 且状态为 Secondary 的设备。
-
peer-link 链路:
-
M-LAG 设备间的交互 M-LAG 协议报文及传输数据流量的链路。
-
peer-link 可以是聚合链路,也可以是 Tunnel 隧道,管理员需要根据不同组网环境选择 per-ink 链路。当采用聚合链路作为 peer-ink 链路时,建议构多条链路进行聚合。
-
一个M-LAG 系统只有一条 peer-link 链路。
-
-
peer-link接口:peer-link 链路对应的接口,可以是聚合接口,也可以是 Tunnel接口。每台 M-LAG 设备只有一个peer-link接口。
-
Keepalive 链路:
-
M-LAG 主备设备间的一条三层互通链路,用于M-LAG 主备设备间检测邻居状态
-
即通过交互Keepalive报文来进行peer-link 链路故障时的双主检测。
-
-
M-LAG 组:用于部署M-LAG 设备之间的配对,M-LAG 设备上相同编号的M-LAG接口属于同一M-LAG组,一个M-LAG系统可以同时创建多个M-LAG组
-
M-LAG 接口:M-LAG 主备设备与外部设备相连的二层聚合接口。为了提高可靠性,需要使用动态聚合。M-LAG 设备上相同编号的 M-LAG 接口属于同一MLAG 组。M-LAG 组ID 为 M-LAG 接口编号。
DRCP协议是什么?
-
定义:
-
分布式聚合控制协议
-
M-LAG系统通过在peer-link链路上运行DRCP来交互分布式聚合信息,以确定两台是否可以组成M-LAG系统
-
DRCP协议通过交互DRCPDU报文交互信息
-
-
交互方式:
-
两端M-LAG设备定期交互DRCP报文
-
当本端设备收到对端DRCP报文后,会判断DRCP报文中的M-LAG系统配置是否一致,一致则两端可组成M-LAG
-
-
超时时间:超时时间:peer-link接口等待接收DRCPDU的超时时间;
-
短超时:3秒,每1秒发送一个DRCPDU,3秒未收到对端设备DRCPDU,则判断peer-link接口失效;慎用,容易误检查
-
长超时:90秒,每30秒发送一个DRCPDU,90,秒未收到对端设备DRCPDU,则判断peer-link接口失败;默认长超时
-
M-LAG的keepalive机制
-
M-LAG 设备间通过 Keepalive 链路检测邻居状态,即通过交互 Keepalve 报文来进行 peer-link 链路故障时的双主检测。
-
三个 keepalive计时器
定时器类型 含义 缺省值 keepalive interval keepalive报文发送的时间间隔 1s keepalive hold timeout peer-link链路down后等待检测故障原因的时间 3s keepalive timeout keepalive报文超时时间间隔 5s -
如果在 Keepalive timeout 时间内,本端 M-LAG 设备收到对端 M-LAG 设备发送的 Keepalive 报文:
-
如果 peer-link 链路状态为 down,则认为 peer-link 故障,启动 Keepalive hold timeout 定时器
-
在该定时器超时前收到 DRCP 报文,则 peer-link 链路状态恢复 UP M-LAG 系统正常工作。
-
在该定时器超时前未收到 DRCP 报文,则本端和对端 M-LAG 设备根据收到的 Keepalive 报文选举主备设备,保证 M-LAG 系统中仅一台 M-LAG设备转发流量,避免两台M-LAG 设备均升级为主设备。
-
-
如果 peer-link 链路状态为 UP,则 M-LAG 系统正常工作。
-
-
如果在 keepalive timeout 时间内,本端 M-LAG 设备未收到对端 M-LAG 设备发送的 Keepalive 报文:
-
如果 peer-link 链路状态为 down,则认为对端 M-LAG 设备状态为 down,启动 Keepalive hold timeout定时器,在该定时器超时后:
-
本端设备为主设备时,如果本端设备上存在处于 up 状态的 M-LAG 口,则本端仍为主设备;否则,本端设备角色变为 None角色。
-
本端设备为备设备时,则升级为主设备。此后,只要本端设备上存在处于 up 状态的 M-LAG 口,则保持为主设备,否则本端设备角色变为None 角色。当设备为 None 角色时,设备不能收发Keepalive 报文,Keepalive 链路处于 down 状态。
-
-
如果 peer-link 链路状态为up,则认为 Keepalive 链路状态为 down。此时主备设备正常工作,同时设备打印日志信息,提醒用户检查Keepalive 链路
-
Peer-link和keepalive的作用:
-
Peer-link链路
-
作用:
-
数据面同步:用于两台M-LAG设备之间的实时数据同步(如MAC表、ARP表、STP状态等)
-
流量互通:当跨设备转发流量时(如服务器A→服务器B,分别连接不同M-LAG设备),流量通过Peer-Link中转
-
-
特点:
-
必须是高带宽、低延迟的直连链路
-
需独立于业务网络,避免与业务流量共用链路(防止拥塞影响同步)
-
故障时触发M-LAG主备切换(结合Keepalive判断)
-
-
故障影响:
-
若Peer-Link断开,但Keepalive正常:两台设备失去数据同步能力,可能产生临时流量黑洞。通过Keepalive Hold Timer等待恢复,超时后强制选举主备。
-
-
-
keepalive
-
作用:
-
控制面心跳检测:用于确认对端设备是否存活(类似Hello报文)
-
主备协商:与Peer-Link状态结合,决定设备角色
-
-
特点:
-
通常通过独立物理链路或管理口传输(与Peer-Link物理分离)。
-
报文间隔短(如1秒),超时时间短(如3秒),实现快速故障检测。
-
-
故障影响:
-
若Keepalive断开,但Peer-Link正常:不触发切换(依赖Peer-Link同步状态)记录告警日志,提示管理员检查链路。
-
若Peer-Link和Keepalive同时断开:判定对端设备宕机,本端设备升主(备设备时)或保持主(主设备时)。
-
-
-
故障处理流程
-
peer-link故障,keepalive正常
-
设备检测到Peer-Link DOWN,启动Keepalive Hold Timer
-
在Timer超时前:
-
收到DRCP报文 → Peer-Link恢复,继续双活。
-
未收到DRCP报文 → 强制选举主备(避免双主)。
-
-
-
peer-link正常,keepalive正常
-
仅记录日志,不切换主备(因数据面仍可通过Peer-Link同步)。
-
-
peer-link和keepalive链路同时故障
-
判定对端设备宕机,本端设备升主(备设备时)或保持主(主设备时)
-
-
-
为什么要双重检测:
-
Peer-Link单独检测不足:若仅依赖Peer-Link,无法区分是对端设备宕机还是链路故障。
-
Keepalive单独检测不足:若仅依赖Keepalive,无法确保数据面状态一致(如MAC表不同步)。
-
双重检测确保可靠性:只有两者协同,才能精准判断故障类型,避免误切换或脑裂。
-
M-LAG 的 MAD 机制
-
作用:peer-link链路故障后,备设备可能无法转发流量,为了避免设备继续转发流量,需要使用MAD来检测分裂
-
原理:
-
M-LAG分裂时,将设备上部分接口置为M-LAG MAD DOWN状态,仅允许M-LAG口,peer-link的接口转发流量
-
如果希望有特殊用途的接口(如keepalive口)保持UP,可以配置为保留接口
-
-
不被置于M-LAG MAD DOWN 状态的接口
-
M-LAG保留接口:
-
系统保留:
-
peer-link接口
-
peer-link接口所对应的二层聚合接口的成员接口
-
M-LAG口
-
管理以太网接口
-
-
用户配置保留
-
-
配置了强制端口UP功能的接口
-
-
M-LAG MAD DOWN 保持功能:
-
当peer-link链路故障,而keepalive链路正常时,主设备正常工作,备设备会关闭除保留接口外的所有接口
-
此时keepalive链路也故障后,备设备会解除M-LAG MAD DOWN状态,并升级为主设备,使网络中两台设备都作为主设备转发流量,引起网络故障
-
为了避免以上故障开启M-LAD MAD DOWN保持功能后,设备上的接口一直处于M-LAG MAD DOWN状态,不参与流量转发
-
-
peer-link故障恢复:
-
故障恢复后,为了防止丢包,备设备尽可能在延迟恢复时间内完成(ARP、MAC)同步,其后设备上处于M-LAG MAD DOWN状态接口将恢复为UP
-
-
M-LAG 系统的 MAD 机制无需额外配置
M-LAG 设备的角色计算
-
三种设备角色:Primary ,Secondary ,None
-
M-AG 角色升算触发条件包括。
-
M-LAG 设备在系统初始化时(包括新配置 M-LAG 或带 M-LAG 配置重启设备)。
-
peer-link 链路 UP时,设备角色通过 peer-link 链路计算
-
peer-link 链路故障,Keepalive 正常工作,设备角色通过 Keepalive 链路计算
-
peer-ink 链路和 Keepalive 链路均故障,根据本端 M-LAG 设备上 M-LAG接口状态决定设备角色。
-
-
当通过 peer-link 链路或Keepalive 链路交互报文计算设备角色时,依次比较如下因素:
-
比较设备所有 M-LAG 接口的状态,有可工作 M-LAG 接口的一端为优(如果设备通过peer-link链路计算角色,则不对比该条)
-
比较计算前角色,若有一端为 Primary,另一端为 None,则 Primary 端优
-
比较 M-LAG MAD DOWN 状态,若一端存在处于 M-LAG MAD DOWN 状态的接口,另一端不存在处于 M-LAG MAD DOWN 状态的接口,则不存在处于 M-LAG MAD DOWN 状态的接口的一端优;
-
比较设备健康状况,健康值越小越优。设备的健康值可通过display system health 命令查看,健康值越小设备越健康,设备无故障运行时,健康值为0;
-
比较设备角色优先级,越高越优,优先级数值越小优先级越高
-
比较设备桥 MAC,越小越优
-
结果为优的一端角色计算为 Primary,另一端为 Secondary。
-
如果设备通过peer-link 链路计算角色,则不比较设备所有 M-LAG 接口的状态
-
M-LAG系统的建立及工作过程
-
DRCP 协商
-
当 M-LAG 设备完成M-LAG 系统参数配置后,两端设备通过 peer-link 链路定期发送 DRCP 报文。
-
-
M-LAG 配对
-
当本端收到对端的 DRCP 协商报文后,会判断 DRCP 协商报文中的 M-LAG系统配置是否和本端相同。如果两端的 M-LAG 系统配置(接口编号)相同,则这两台设备组成 M-LAG 系统。
-
-
主备协商
-
配对成功后,两端设备会确定出主备状态。
-
选举规则:
-
比较两端 M-LAG 设备的初始角色(有primary的优先)
-
M-LAG MAD Down状态(不存在的优先)
-
设备健康值(小的优先)
-
角色优先级(大的优先)
-
设备桥MAC(小的优先)
-
-
主备协商后,M-LAG 设备间会进行配置一致性检查
-
-
双主检测
-
当主备角色确定后,两端设备通过Keepalve 链路周期性地发送 Keepalive报文进行双主检测。
-
-
M-LAG 系统开始工作后、两端设备之间会通过 peer-link 链路实时同步对端的信息,例如 MAC地址表项、ARP 表项,DHCP表项,ND等表项从而确保任意一台设备故障都不会影响流量的转发、保证业务不会中断。
-
SW1自身学到的MAC信息怎么和对端SW2交换机去同步的?
-
表项的同步是通过泛洪数据的方式来实现的
-
-
M-LAG 设备工作模式
-
接入设备与M-LAG设备交互LACPDU(链路聚合控制协议数据单元)
-
M-LAG系统工作模式(双机):
-
作为M-LAG系统成员设备,与对端设备协同转发流量。
-
LACPDU标识:
-
使用M-LAG系统MAC地址 + M-LAG系统优先级作为LACP System ID。
-
确保接入设备(如服务器/交换机)将两台M-LAG设备视为同一聚合组(逻辑单台设备)
-
-
-
独立工作模式(单机):
-
脱离M-LAG系统,独立转发报文。
-
触发条件:
-
peer-link和keepalive链路均故障,导致M-LAG系统分裂
-
备份设备立即或延迟切换至独立模式(避免双主)
-
-
LACPDU标识:还原为本地LACP系统MAC地址 + LACP优先级(与对端不一致)。
-
使接入设备仅选择一侧聚合成员端口(另一侧因System ID不匹配被阻塞)避免流量双向转发导致环路或丢包。
-
-
LACPUD中携带系统优先级的作用
-
完成LACP计算
-
参与STP计算
-
配置一致性检查功能
-
M-LAG系统建立过程中通过配置一致性检查,来确保两端M-LAG设备配置匹配,不影响报文转发
-
M-LAG 设备通过 peer-link 链路交换各自的配置信息,检查配置是否匹配。
-
Type1类型配置:
-
会影响M-LAG系统转发的配置,Type1配置不匹配,则将备设备上的M-LAG口置为DOWN状态
-
全局Type1配置
-
peer-link端口链路类型:access,trunk,hybrid
-
peer-link接口PVID
-
STP功能:
-
全局STP是否开启,VLAN内STP是否开启
-
仅当STP模式为PVST时,才检查VLAN内STP功能
-
-
STP模式:STP,RSTP,PVST,MSTP
-
MST域相关配置:MST域名,修订级别,MSTI和VLAN的映射关系
-
-
M-LAG接口Type1配置:
-
聚合组工作模式:静态聚合,动态聚合
-
接口STP功能:是否开启STP
-
接口链路类型:access,trunk,hybrid
-
接口PVID:M-LAG接口的PVID
-
-
-
Type2类型配置:
-
仅影响业务模块配置,Type2配置不匹配,备设备上M-LAG口依然UP,不影响M-LAG系统正常工作,由Type2类型配置对应业务模块决定是否关闭该业务功能,其他业务模块不受影响
-
全局Type2配置:
-
peer-link接口所属vlan:先比较携带Tag的vlan,再比较未携带Tag的vlan
-
vlan接口处于UP状态,且peer-link接口加入该vlan
-
vlan接口状态up、down
-
vlan接口的ipv4地址
-
-
M-LAG接口Type2配置:
-
接口所属vlan:先比较携带Tag的vlan,再比较未携带Tag的vlan
-
M-LAG接口上的端口速率作为优先选择参考端口功能
-
M-LAG接口上的选择选中短裤忽略端口速率功能
-
-
-
延时恢复计时器:
-
为避免设备M-LAG口震荡,设备在延迟恢复计时器一半时间后进行配置一致性检查
-
延时恢复计时器用于设置设备作为备设备加入M-LAG系统时进行MAC地址表等信息同步的最大时间
-
计时器超时前,业务口状态为M-LAG MAD DOWN,超时后,接口UP
-
默认30秒
-
M-LAG 防环机制
-
M-LAG 本身具有防环机制,可以构造出一个无环网络。从接入设备或网络侧到达 M-LAG 设备的单播流量,会优先从本地转发出去,peer-link 链路一般情况下不用来转发数据流量。
-
当流量通过 peer-link 链路转发到对端 M-LAG 设备,在 peer-link 链路与 M-LAG接口之间设置单方向的流量隔离,即从peer-link 接口进来的流量不会再从 M-LAG 接口转发出去,所以不会形成环路,这就是 M-LAG 单向隔离机制
M-LAG的双活组网方案
-
M-LAG 的双活网关组网方案主要有 VLAN 双活网关和 VRRP 网关两种方案,在VRRP 双活网关方案中,网关收到目的 MAC是VRRP 虚拟 MAC、本地实 MAC、对端 M-LAG 设备实 MAC 的报文,都会进行三层本地优先转发。本地双活网关实 MAC 会通过 peer-link 通道同步到对端 M-LAG 设备上。
-
两种双活网关的本质区别
方案 | VLAN双活网关 | VRRP双活网关 |
---|---|---|
网关形态 | 两台设备使用完全相同的IP+MAC | 使用VRRP虚拟IP+虚拟MAC |
转发逻辑 | 纯本地转发,无协议交互 | 依赖VRRP协议维护主备状态 |
MAC处理 | 需手动配置相同实MAC | 自动生成虚拟MAC(00-00-5E-00-01-XX) |
-
M-LAG VLAN双活网关方案部署注意事项:
-
M-LAG1、M-LAG2 各创建一个相同编号的 VLAN接口(例如 VLAN 100)作为IPV4 和 IPV6 双活网关,在两台 M-LAG 设备上为该 VLAN 接口配置相同IP地址和MAC地址作为网关地址。
-
M-LAG1,M-LAG2 各自再创建一个相同编号的 VLAN 接口(例如 VLAN101),将 peer-link 聚合接口加入该 VLAN。两合 M-LAG 设备上分别为该VLAN 接启配置同一网段的不同IP 地址,以实现两台 M-LAG 设备的三层互通。如果M-LAG1或M-LAG2与上行设备 DeviceA的链路故障,报文命以通过路由绕行到对端 M-LAG 设备处理。
-
M-LAG 设备与上行设备 Device 间通过三层接口部署等价路由进行负载分担。
-
-
M-LAG+VRRP 网关方案部署注意事项:
-
M-LAG 设备部署VRRP,VRRP 虚拟 IP 地址作为用户侧终端的网关地址,用户侧终端通过 M-LAG 接口双归接入到 VRRP 网关。
-
两台 M-LAG 设备通过peer-link链路建立的三层接口建立路由邻居作为三层链路备份,如果 M-LAG1或 M-LAG2与上行设备 Devce A 的链路故障,报文可以通过路由绕行到对端 M-LAG 设备处理
-
M-LAG 设备与上行设备 Device A 间通过三层接口部署等价路由进行负载分担
-
在M-LAG和VRRP 组网环境下,需要确保 vrrp vrid timer advertise 命令和vrp ipv6 rid timer advertise 命令配置的时间间隔大于 m-lag keepalive hold-time 配置的时间间隔,否则在确认 peer-fink 链路故障前可能会进行VRRP 主备切换,导致流量丢失。
-
M-LAG 故障处理机制
-
M-LAG 接口故障处理机制:
-
M-LAG仍然是UP的,M-LAG接口保持全局UP,表项同步不受影响
-
M-LAG下行流量从非故障侧走,下行流量不感知故障,仍然会两边发送,流量需要绕行peer-link链路所有流量均由另外一台 M-LAG 设备转发
-
-
peer-link链路故障处理机制:
-
peer-link链路故障但是keepalive链路正常会导致从设备上除M-LAG保留接口以外的接口处于M-LAG MAD DOWN状态;
-
主设备上的M-LAG接口所在的聚合口仍然up,从设备上的M-LAG接口所在的聚合口变为Down,从而保证流量从主设备转发
-
一旦peer-link故障恢复,处于M-LAG MAD DOWN状态的接口经过延迟恢复时间自动恢复为UP状态
-
-
设备故障处理机制:
-
主设备故障后,主设备上的聚合链路DOWN,不再转发流量,备设备升级为主设备,流量只从备设备转发;主设备故障恢复后,M-LAG 系统中由从状态升级为主状态的设备仍保持主状态,故障恢复后的设备成为 M-LAG 系统的备设备。
-
备设备故障后,M-LAG系统主备状态不变,备设备上的聚合链路DOWN,主设备UP,流量只从主设备转发
-
-
上行链路故障处理机制:
-
上行链路故障并不会影响 M-LAG 系统的转发,上行链路故障时,如果通过A 将访问外网侧的流量发送给 B进行转发,会降低转发效率。
-
用户可以配置 Monitor link 功能,将 M-LAG 组成员端口和上行端口关联起来,一旦上行链路故障了,会联动M-LAG组成员端口状态,将其状态变为down提高转发效率。
-
-
M-LAG 二次故障处理机制
-
M-LAG 二次故障是指在 peer-link 发生故障后,Keepalive 链路也发生故障,或者在Keepalive 链路发生故障后,peer-link 也发生故障。针对 M-LAG 设备上不同的配置情况,当发生二次故障时,处理方式不同。
-
缺省配置场景
-
若 peer-link 链路先发生故障,此时两端 M_LAG 设备会根据 Keepalive 链路进行设备角色选举,并依据 MAD检测机制,将从设备上除M-LAG 保留接口外的所有接口置为 M-LAG MAD DOWN 状态。
-
此后,若Keepalive 链路也发生故障,从设备也会升为主设备,并解除设备上所有接口的 M-LAG MAD DOWN状态,以双主双活的方式转发流量。由于 peer-link 链路故障时,无法同步表项,可能导致流量转发错误。
-
若 Keepalive 链路先发生故障,peer-link 链路后发生故障,则 M-LAG 设备上的接口不会被置为 M-LAGMAD DOWN 状态,而是直接以双主双活的方式转发流量,可能导致流量转发错误。
-
-
开启 M-LAG MAD DOWN 状态保持功能场景
-
若 peer-link 先发生故障,Keepalie 链路后发生故障,从设备也会升为主设备,但由于M-LAG 设备已开启M-LAGMAD DOWN 状态保持功能,将不会解除设备上所有接口的 M-LAGMAD DOWN 状态,继续只从原来的主设备转发流量。这样将不会出现双主双活的情况,避免流量转发异常。
-
若 Keepalive 链路先发生故障,peer-link 链路后发生故障,则 M-LAG 设备上的接口不会被置为 M-LAG MAD DOWN 状态,而是直接以双主双活的方式转发流量。M-LAG MAD DOWN 状态保持功能不能解决Keepalive 链路先故障,peer-link后故障导致的双主双活问题。
-
-
开启设备独立工作功能场景
-
若 Keepalive 链路和 peer-link 链路先后发生故障,则 M-LAG 设备上的接口不会被置为 M-LAG MAD DOWN 状态,将立即或延迟一段时间切换到设备独立工作模式。
-
切换后 M-LAG 接口对应的聚合接口发送的 LACP 报文中携带的 M-LAG 系统参数还原为聚合接口的 LACP 系统 MAC地址和 LACP 系统优先级,使同- M-LAG 组中的两个聚合接口的LACP 系统 MAC 地址和 LACP 系统优先级不一致。
-
这样 M-LAG 设备中只有一台设备的聚合接口的成员端口可以被选中(接入设备上仅一个成员端口可以被选中),通过被选中的设备转发业务流量、避免流量转发异常
-
M-LAG 网络中运行 STP
-
M-LAG 本身具有环路避免机制,正常情况下,M-LAG 组网中不会产生环路多级 M-LAG 组网中,网络搭建错误、初始化 M-LAG 配置或设备空配置重启时,网络中可能会产生环路,需要部署 STP来避免环路。需要部署 STP 的典型场景包括:
-
下行接入设备产生环路。
下行设备 M 和 N 通过非 M-LAG 接口接入A 和 B,且 M 和N 互连。
-
多级 M-LAG 设备间接入设备产生环路。
多级 M-LAG 组网中A 和C之间通过非 M-LAG 接口误接线。
-
初始化 M-LAG 配置产生环路
按照 M-LAG 组网要求完成设备间的线路连接,并在 M-LAG 设备上执行 M-LAG 相关配置后,在 M-LAG 系统建立前,网络中存在短暂的环路
-
设备空配置重启产生环路
两台 M-LAG 设备组成 M-LAG 系统后,如果其中一台 M-LAG 设备进行空配置重启,则该设备重启后不会加入 M-LAG 系统,作为独立的物理设备运行,可以转发流量。另一台 M-LAG设备认为对端 M-LAG 设备故障,承担流量转发工作。从而导致网络中存在环路。
-
STP 在 M-LAG 中的工作机制
-
在 M-LAG组网中,由于组成M-LAG系统的两台M-LAG设备虚拟为一台设备,为了确保 STP 在 M-LAG 组网中的正常运行,M-LAG 设备上的 STP 运行机制需要进行如下调整:
-
STP 协议由主设备控制。
-
无论指定端口位于哪台 M-LAG 设备,都是由主备生成 STP的 BPDU报文,并在指定的端口上发送 BPDU 报文。端口的STP状态也由主设备决定。
-
-
备设备不生成 BPDU报文,也无法决定端口的 STP 状态。
-
备设备接收到BPDU报文后,通过 peer-link链路将其转发给主设备。
-
-
两台 M-LAG 设备上 M-LAG 接口的 STP 端口状态始终保持一致。
-
peer-link 链路上不运行 STP 协议。
-
-
组成 M-LAG 系统的两台 M-LAG 设备具有相同的虚 MAC地址(M-LAG 系统的MAC地址)。M-LAG 设备基于该虚MAC地址运行STP 协议,因此,两台M-LAG 设备可以同时作为 STP 的根
在多级 M-LAG 系统中部署 STP 有什么注意事项
-
M-LAG 设备上都部署 STP,以防止 MLAG 系统分裂、误接线或者配置不当导致聚合成员口之间经过 peer-link 链路形成环路
-
上级 M-LAG 系统中两台MLAG 设备同时配置为STP 根,并部署根保护,以防止新扩容设备加入 STP 网络可能动态抢占 STP 根,导致 STP 网络震荡。
-
M-LAG 设备上可以部署设备对TC类型 BPDU报文的保护功能,这样可以避免频繁删除 MAC 地址表项和 ARP 表项。
-
对端设备不支持/不运行STP 时,将本端设备端口配置为 STP 边缘端口
-
可以在M-LAG 设备上部署 BPDU保护功能来防止恶意用户伪造 BPDU攻击
-
在 M-LAG 场景中,由于 M-LAG 设备对外呈现为一合设备,所以两台 M-LAG设备上 STP 的相关配置需要保持一致,包括生成树全局配置、M-LAG 接口和peer-link接口的生成树端口配置。在M-LAG组网中,peer-link 接口不参与生成树拓扑计算。
组建 M-LAG 的配置步骤包含哪些
-
配置 M-LAG 系统参数
-
配置 M-LAG 系统 MAC 地址
-
M-LAG 系统中相互配对的 M-LAG 接口的系统 MAC 地址必须相同
-
-
配置 M-LAG 系统编号
-
M-LAG 系统中不同 M-LAG 设备的系统编号必须不同、修改 M-LAG 设备的系统编号将会导致当前设备从已经建立的 M-LAG组中分裂
-
-
配置 M-LAG 系统优先级
-
M-LAG 系统使用M-;LAG 系统优先级作为LACPDU中的系统LACP 优先级与对端设备交互聚合组信息M-LAG 系统中相互配对的 M-LAG 接口的系统优先级必须相同。
-
-
-
配置 M-LAG设备的角色优先级
-
设备角色优先级用于两台设备间进行主从协商,值越小优先级越高,优先级高的为主设备。
-
-
配置 Keepalive 参数
-
配置 Keepalive 报文的参数时,指定的源IP地址和目的IP地址必须是两台 M-LAG 设备上路由可达的地址。
-
-
配置 M-LAG系统的接口
-
配置 M-LAG 接口,一台 M-LAG 设备上可以配置多个 M-LAG 接口,一个二层聚合接口只能加入一个M-LAG 组。
-
配置 peer-link 接口,可以将二层聚合接口或 Tunnel接口配置为 peer-link接口,且该 Tunnel接口的隧道模式必须为 VXLAN 隧道。
-
-
其中聚合接口需要设置为动态聚合方式
M-LAG 系统无法建立要如何排查
-
如何判断M-LAG建立是否成功?
-
display m-lag summary能不能看到本端和对端信息
-
-
检查M-LAG 系统编号、MAC、优先级配置正确性
-
检查 peer-link 接口对应的二层聚合口编号正确性;
-
检查 M-LAG 接口对应的二层聚合口编号、聚合类型、聚合配置一致性
-
检查 Keepalive 时间参数、源目 IP 参数配置正确。
M-LAG 业务流量转发不通要如何排查
-
M-LAG 业务流量转发不通
-
检查 M-LAG 系统状态。正常情况下,State 为 UP 且能看到 Peer 的详细信息
-
检查 M-LAG MAD 状态。正常情况下,M-LAG MAD DOWN State 状态为 No若为 Yes 则说明这台设备处于 mad down 状态;
-
Peer-link 接口关闭报文入接口与静态 MAC地址表项匹配检查功能;
-
检查 M-LAG 接口的配置一致性;
-
检查 M-LAG 设备 ARP 和 MAC 表项学习及同步情况。
M-LAG+VRRP 组网方案中,如果出现VRRP 双主角色要如何排查
-
检查 M-LAG 系统状态。正常情况下,State 为 UP且能看到 Peer 的详细信息;
-
检查 M-LAG 接口的配置正确性
-
检查 VRRP 配置正确性
-
检查 VRRP协议报文收发情况。
常见的检查 M-LAG 系统运行状态的命令有哪些
-
display m-lag system 用来显示 M-LAG 系统信息(能看到双方的说明系统建立成功)
-
display m-lag mad verbose 用来显示M-LAG MAD 的详细信
-
display m-lag keepalive 用来显示 M-LAG 系统 Keepalive 报文的信息
-
display m-lag summay 用来显示 M-LAG系统的接口摘要信息
-
display m-lag troubleshooting histoy 用来显示 M-LAG 系统的历史故障信息
园区网中经常部署的三种方案MSPT+VRRP IRF M-LAG组网中怎么选择,为什么?
-
没有正确的具体答案,用对比的方式去答题,加上条件去回答
-
都是华三的设备,而且只有两台使用M-LAG
-
虽然 IRF 管理更简单,但两台设备虚拟化为一台,存在脑裂风险,且升级时需整组重启,影响业务连续性。
-
MSTP 收敛慢(秒级甚至更久),VRRP 是主备模式,无法实现双活负载均衡,带宽利用率低。
-
-
有多台设备,可以用IRF多台堆叠
-
M-LAG 通常仅支持两台设备,多台设备需分组部署,配置复杂,管理困难。
-
MSTP+VRRP 在多台设备下配置复杂,收敛慢,且无法实现多活负载均衡
-
-
有不同厂商的设备,建议使用MSTP+VRRP
-
IRF 和 M-LAG 仅限同厂商设备,无法用于跨厂商环境。
-