自动驾驶场景下TCP协议参数优化调整案例分享

RTT

往返时间,从tcp协议栈决定发包,到收到回包的时间。

包含本地驱动,网卡硬件,网线,交换机,收包方处理的耗时。需注意如果开了delayed ack,协议栈未做特殊处理(默认没做),则RTT可能包含delayed ack时间。

delay ack

理论上来说有可能会延迟40ms发ack;实际对我们来说概率非常小,详见delayed ack代码和实车环境影响分析

cwnd  40

拥塞窗口。in flights数据包的数量不能大于cwnd。linux是按照包数而不是数据字节来管理的。

当开启gso后,会根据skb→size / mss来计算发出的包量;4.9的内核收到ack时也会按照确认的包数量扩大拥塞窗口(老内核不是)。

所以gso不影响拥塞窗口计算。

initcwnd  30

初始拥塞窗口。当连接刚建立,或者重置拥塞窗口时,使用这个值。

RTO 4ms

如果发出的数据包,未得到回复,会在rto时间之后进行重传。

在丢包场景下,rto就是丢包带来的额外延迟。

linux内核代码写死了全局rto_min=200ms,可以通过路由表ip route change ..... rto_min 10ms覆盖全局的rto_min

rto需要跟quickack联动,默认delayed ack可能40ms才回ack包,rto_min < ack时间可能导致大量无效重传。

快速重传

当收到3个“错误”的ack时,对未确认数据包进行重传。

涉及的扩展算法较多,对我们影响不大,不展开。

TLP 4ms

当发包端最后一个数据包丢包时,响应ack达不到三个,无法触发快速重传。

此时会把最后一个包重传一下,触发对端响应。

但在linux内核实现时,TLP和RTO共用了一个定时器;

判断1: tlp时间 = max(..., 200ms),这200ms是写死的,除了改内核代码外无法修改

接着判断2: tlp时间 = min( tlp时间, rto时间)

因为rto_min可以被路由表覆盖,实际上在我们修改rto_min后,tlp时间等于rto时间

从结果上来看,非常的蛋疼。因为在局域网情况下,TLP时间总是小于RTO时间,导致未能起到尽快触发重传的效果,反而还抢了RTO的定时器

TODO 实验记录单独记录文档,引用到这里

下图中 8253 就是一个 TLP 包,因为 50362853 + 12567 - 983 = 50374437。12ms 后重传了尾包

cubic

linux默认使用的拥塞控制算法。windows多个版本也是使用此算法。

启动时使用initcwnd,每个rtt窗口倍增,达到ssthresh后线性增长。

发生丢包时cwnd=1,同时调整ssthresh。丢包的cwnd=1是在tcp协议栈写死的,不受拥塞控制算法影响,见tcp_enter_lost函数。

bbr

google做的拥塞控制算法,bbr比传统拥塞策略要先进很多,主要体现在:

1 摒弃了用丢包触发限速的策略,会通过延迟的变动来调整对网络情况的探测;

2 除了in flights包数量控制外,还会控制发包的频率间隔。

但是bbr的很多设计细节不适合自动驾驶领域。

例如对rtt<1ms场景的适配,传输的DAG优先级,定频流量场景等都可以做针对性优化,能取得非常大的提升。

长期来看我们会针对自动驾驶场景自己写拥塞算法,故不把使用bbr算法纳入计划中。

备注:平行驾驶推流通常会内置拥塞算法,这里建议尝试bbr。

gso/gro

gso允许tcp协议栈直接发送大报文,且无需计算checksum,由网卡负责拆包+计算checksum。

gro是在napi类型的网卡中断处理时,将一次循环中收到的数据包合并后,再交给上层协议栈处理。(napi是硬中断触发后一直轮询直到数据为空)

在我们用的4.9版本内核里,拥塞窗口的变动考虑了gso/gro的情况。

gso/gro会导致tcp协议栈收发的数据包尺寸大于mss和mtu,并减少收发的包数量。会带来一定的附加影响。

从实车抓包来看,收包方抓到的包基本都经过gro处理,发包方收到的ack也是明显收到gro影响的。

但是结合内核gro相关代码 + 火焰图分析来看,感觉gro触发几率很小。gro收包的CPU占用0.08,普通收包的CPU占用2.74。

不确定是分析过程有问题,还是xavier在网卡硬件层面实现了gro。

时间有限不展开分析,后续相信实际抓包情况,认为gro大量生效。

TODO-低优先级:分析gro生效路径

二 自动驾驶的网络模型分析

网络丢包的理论模型

上图是一个简化的从发包到收包的环节描述。

各个环节都可能因为故障导致丢包,如md5错误,网卡硬件错误等。

因故障导致的丢包,在正常环境中是非常非常少见的。一般出现在网口接触不良,网线损坏等情况下。

除了故障之外,各环节的缓冲区满也会导致丢包,这是实际场景中最常见的情况。

例如xavier的内置switch是SJA1105型号,根据其手册buffer=128KB,根据我们的实验测试,也能得到相应的结论。

xavier上linux内核的发包缓冲区满时,会阻止socket发包(socket不可写);收包缓冲区满时tcp的滑动窗口会降为0。

故重点考察的是网卡和switch缓冲区满导致的丢包。

无论是对网卡,还是switch,当入流量 > 出流量时,缓冲区开始积压,积压超过buffer size时就会丢包。

根据我们的实验可以证明这一点:

TODO 这里单抽一个文档,贴代码,测试环境,详细记录,引用到这里

udp发包实验测网卡缓冲区大小:

1400字节,10us一个包,延迟增加1800us左右开始丢包。即180个包,250KB积压开始丢包。

700字节,设10us一个包,实际7.7ms左右一个包,延迟增加3000us左右开始丢包(不稳定,可能是发包速率就不稳定)。即390个包,273KB积压开始丢包。

14000字节,100us一个包,延迟增加1800us左右开始丢包。即18个包,250KB积压开始丢包。

根据实车观察,一旦触发丢包,会在几毫秒内有很大的丢包率。

现象1:dup ack很少,远少于rto/tlp超时触发的次数。

现象2:  rto/tlp触发时,一般都是连续一段数据都需要重传。

这个现象符合理论分析。当入流量>出流量时,缓冲区增加,当缓冲区满时丢包。

一旦触发丢包,入流量无改善的情况下,会有相当高的丢包率。

带宽 ,RTT,窗口

带宽/ms = 窗口 * 每ms包数量 = 窗口 ÷ RTT

以xavier的1Gb/s网络计算:

每个数据包的发送速度 = 1.5KB ÷ 1Gb/s = 0.012ms

打满1Gb/s带宽,需要每秒传输83个1.5KB的数据包 => 打满1Gb/s带宽,窗口 >= 83 * rtt

以switch 128KB buffer计算:

积压85个包会打满缓冲区,85 * 0.012ms = 1ms,即当入流量大于出流量时,缓存积压的包会增加,由此会导致rtt上升。

这也是bbr基于rtt变化调整发送速率的理论基础。

使用ss -i -t实车观察rtt:

在网络良好且空闲时一般在0.25ms左右;

在流量上升时,一般在0.5-1ms(缓存积压+收包端CPU0繁忙导致耗时增加);

如果持续超过1.6ms,一般丢包就比较严重了。

因为是手动采集了100多次数据做的观察,具体数值不够准确,但大致趋势应该是没错的。

实验:rtt,带宽随cwnd变化

不锁的情况,speed [829.35 Mb/s],rtt:1.467/0.181,cwnd:149

锁40的情况,见抓包no_drop,speed [781.53 Mb/s],rtt:0.408/0.08,cwnd:40

锁30的情况,speed [707.76 Mb/s],rtt:0.314/0.057,cwnd:30

锁20的情况,speed [590.34 Mb/s],rtt:0.293/0.059,cwnd:20

自动驾驶的场景特征

1 自动驾驶中大多数流量,是定频发生的。

2 不同流量(topic)有不同的优先级(DAG优先级)。

3 硬件环境是已知的,如6*xavier的网络拓扑,2*orin的网络拓扑。当实际探测到的硬件环境与设计不符时,应报故障并做降级处理。

丢包场景分两种:

场景1 MAP在中间件中的多个topic流量同时触发。此场景的特点是持续时间短,一般<10ms。

场景2 MAP之外的持续大流量。此场景具有不确定性,如果有人手动拷数据包,则可能是持续十几分钟的高丢包环境。

场景3 MAP之外的短暂大流量。如filebeat突然上传数据,激光雷达的udp点云。

目前根据在多个车型上tcpdump抓包总计3小时观察,丢包在80%的情况下持续<10ms,20%的情况下持续10-20ms,尚未看到前后两帧数据(间隔100ms)都出现丢包的情况。

TODO-重点:通过毫秒级流量监控,做更全面的流量模型分析

三 参数调整方案

可以调整的方案,重点集中在几组:

修改重传间隔: rto_min + quickack,TLP开关

修改窗口上限:tcp_rmem控制滑动窗口,路由表cwnd_limit控制拥塞窗口上限

修改窗口初始值:initcwnd + ssthresh + tcp_slow_start_after_idle

修改快速重传门限:tcp_reordering

参数含义和修改方法参考:ip route下的tcp参数设置    /proc/sys/net/ipv4/tcp相关参数说明

1 重传间隔修改

因无法完全规避丢包,通过修改重传间隔可以减少丢包带来的影响。

根据前面的理论分析,switch缓冲区打满最多使得rtt上升1ms。

实车观察到的rtt,最高到1.87ms,同一时刻的tcpdump已能观察到较多丢包。

即使再计算收包方CPU0打满的情况,最多也是增加2ms延迟(网卡硬件缓冲区满丢包)。

理论上在有TLP时,无效重传应该不会很多。改到8ms可能都是可行的,但是不确定各种极端场景下是否会触发大量无效重传,需要大量测试&观察验证。

稳妥起见,将rto_min设置为10ms,实车观察到的rto都是16ms。这是因为rto_min设置有坑,具体看ip route下的tcp参数设置内关于rto_min的描述

TODO-重点:实车调参,尝试把rto_min降低到7ms,看是否会触发大量无效重传。

TLP开关默认开启,不需要关闭

关闭的收益是在丢包发生时,直接开始重传,减少一次rtt耗时。在已经发送丢包的情况下,这一次rtt的耗时不算什么。

打开的收益是在ack丢包时,不按丢包的流程走(会把cwnd降低为1),更友好。

理论上即使关闭了TLP影响也不大,因为还有“拥塞撤销机制”:

当触发重传,ack回包发现不需要重传时,cwnd会回复。但是具体效果得详细看内核代码+测试,时间有限未深入确认。

保险起见可以不关闭TLP。

2 窗口上限修改

拥塞窗口管理的是in flight数据包总数。这些数据包可能在各个环节上跑着(也可能丢了)。

考虑到各环节都是需要耗时的,cwnd通常不会全都集中在switch buffer上。

但是在空闲时突然发包的情况下,cwnd更容易集中卡在一个点上,比较危险。

这里给出两个典型值:

1 cwnd_limit=80

即使运气不好,单个tcp连接的in flight数据包都积压在switch buffer上,也不会丢包。

当rtt=1ms时,单tcp连接可以把流量打到800Mb/s以上,完全够用了。

即使网络环境差rtt=1.5ms,单tcp连接可以把流量打到650Mb/s以上,也是够用的。

2 cwnd_limit=40

即使运气很不好,两个tcp连接的in flight数据包都积压在switch buffer上,也不会丢包。

在rtt=0.8ms时,单tcp连接可以把流量打到500Mb/s以上,不是特别好,基本也够用。

在rtt=0.5ms时,单tcp连接可以把流量打到700Mb/s以上,够用了。

从另一个角度来看,cwnd=40  =>  60KB/rtt,60KB以下数据一次rtt时间,120KB两次rtt时间,180KB三次rtt时间可以完成传输

cwnd_limit=40等于是牺牲一定的平均延迟,来降低丢包率

TODO-重点-优先:实车观察丢包时流量超标原因,调参。

如果丢包原因不受我们控制,例如一个topic给三端发,或者udp流量,或者102-106之外的大流量,则cwnd_limit倾向于调到80

另外cwnd_limit对丢包的影响可能需要较长时间观察。可以调整一个cwnd值观察几天/一周,确保统计数据稳定后,换cwnd值继续观察。作为偏长期的技术优化项

目前cwnd提测给的40,观察了四辆车*三天,统计数据没有观察到p50,p90,p99,p999传输延迟上升。

但是也未能观察到丢包率下降。需通过毫秒级监控分析引发丢包的主要原因。

备注:通过抓包能看到cwnd设置是生效的。

3 窗口初始值修改

tcp_slow_start_after_idle默认打开,不修改。

打开的理由:

1 在我们的环境下,丢包几乎不会持续到100ms以上,所以10HZ定频的topic不需要在发下一帧时继承上一帧的窗口设置。

2 这是全局参数,影响所有连接,需要考虑对平行驾驶,鹰眼,大屏,数据上云等业务等影响,修改有风险。

3 如果一个连接“在使用中增长cwnd”,其cwnd对应的in flight数据包通常分布在各个环节上;而从空闲开始突然按cwnd发包的连接,有更大的概率将in flight数据包集中在一个环节上从而引起丢包。

   通过重置,可以避免空闲状态下,直接使用之前的大cwnd连续发出大流量。

   102-107之间的流量设置了cwnd上限,此问题不突出,对未受我们管理的其他业务有很大的价值。遗憾的是其他业务的rto_min也未做调整,需要200ms空闲才会重置cwnd。

TODO-重点:如实车观察到大屏/鹰眼业务的突发流量导致大量丢包,出相应解决方案,例如telemtics通过setsockopt设置tcp参数

initcwnd暂定30, ssthresh暂定40:

设置逻辑:

传统拥塞控制中,不丢包就增加cwnd,丢包就降为1这个策略太傻了。

增加策略会顶着rtt上升,奔着丢包而去。

丢包之后又自己把自己按在地上摩擦。

通过将initcwnd设置到接近cwnd_limit,ssthresh设置为cwnd_limit,直接初始化时就按我们的理想速率发送。

之所以initcwnd略小于cwnd_limit,是为了避免在空闲时直接while循环发出cwnd大小数据,导致数据包集中在一个环节上。

修改cwnd_limit后,需要记得同步修改initcwnd和cwnd_limit

4 快速重传门限

不修改

理论上来说,在开启gro后,由于收包方收到的是合并后的数据包,回复的ack会显著变少。而且当连续10ms丢包率都较高时,ack会进一步减少。

在我们的场景下,快速重传未能发挥原本tcp协议设计中的作用。

从实车抓包来看:

现象1:dup ack很少,连续三个dup ack非常少,远少于rto/tlp超时触发的次数。很少看到有触发快速重传的场景。

现象2:  rto/tlp触发时,一般都是连续一段数据都需要重传。丢包经常有连续性。

tcp_reordering参数可以把默认的三个dup ack包触发快速重传,改成一个或两个dup ack即触发快速重传。(改更大也行)

考虑到以下几个因素,本次不做改动:

1 这是全局参数,影响所有连接,需要考虑对平行驾驶,鹰眼,大屏,数据上云等业务等影响,修改有风险。

2 从实车抓包来看,即使快速重传门限改成1,也只是减少5-10%的超时重传。收益不是非常大。

5 优化指标

从结果来看,我们要优化的是两个指标:

1 降低因丢包-超时重传引起高延迟的概率

观察pub_recv./local_planning.p99的各分位数值

此延迟一般会存在跳变,从未触发超时重传的个位数毫秒,跳变到丢包的16+ms。

找出现跳变的百分位数值,大致上可以判断超时重传出现的概率。

目前尚未观察到明显优化,需依赖340的毫秒级流量监控分析丢包瞬间流量打满的原因。

2 降低发生丢包-超时重传后带来的延迟

直接看pub_recv./local_planning的p99.p99数值即可。

目前已可以从100ms降低到20ms左右,调整rto_min可进一步降低。

工程上实现

xavier 网络参数调整。调整后,约车实车对比,planning p9999网络延迟降低了 1/4

需要在下个要上线的版本把
cwnd = 40
initcwnd = 30
initrwnd = 30
ssthresh = 40

改为 :
cwnd = 30
initcwnd = 25
initrwnd = 25
ssthresh = 30

在东风 7211 车上测试的,之前 planning.pub_recv p9999 在 27ms,调整后,约 18ms,差不多正好卡在我们 OKR 的 20ms网络延迟

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/27853.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

探索交互的本质:从指令到界面的演进与Linux基础指令的深入剖析

目录 1.指令 vs 界面//选读 1.1交互的需求 满足需求的第一阶段-指令 满足需求的第二阶段-界面 1.2 指令 和 界面交互 区别 2.操作系统介绍 2.1 举例说明 驱动软件层 2.2 为什么要有操作系统&#xff1f; 0x03 为什么要进行指令操作&#xff1f; 3.Linux基本指令 l…

模型量化 剪枝bevfusion

量化 剪枝 shared mem 只在block内共享&#xff0c;device glob mem能够所有线程共享

从多线程设计模式到对 CompletableFuture 的应用

大家好&#xff0c;我是 方圆。最近在开发 延保服务 频道页时&#xff0c;为了提高查询效率&#xff0c;使用到了多线程技术。为了对多线程方案设计有更加充分的了解&#xff0c;在业余时间读完了《图解 Java 多线程设计模式》这本书&#xff0c;觉得收获良多。本篇文章将介绍其…

重塑IT审计的未来:数智化审计赋能平台的创新与实践

重塑IT审计的未来&#xff1a;数智化审计赋能平台的创新与实践 一、当前企业开展IT审计面临的挑战 随着信息技术的快速发展、企业数字化转型的持续深入&#xff0c;以及网络安全合规要求的不断增强&#xff0c;企业开展新型IT审计重要性越来越突出&#xff0c;但实施难度却越来…

统计信号处理基础 习题解答10-16

题目&#xff1a; 对于例10.1&#xff0c;证明由观察数据得到的信息是&#xff1a; 解答&#xff1a; 基于习题10-15的结论&#xff0c;&#xff0c;那么&#xff1a; 而根据习题10-15的结论&#xff1a; 此条件概率也是高斯分布&#xff0c;即&#xff1a; 根据相同的计算&a…

一文带你搞清楚AI领域的高频术语!RAG、Agent、知识库、向量数据库、知识图谱、Prompt...都是在讲啥?

随着AI人工智能技术的不断发展&#xff0c;一些领域有关的概念和缩写总是出现在各种文章里&#xff0c;像是Prompt Engineering、Agent 智能体、知识库、向量数据库、RAG 以及知识图谱等等&#xff0c;但是这些技术和概念也的的确确在AI大模型的发展中扮演着至关重要的角色。这…

使用 3D 图形 API 在 C# 中将 PLY 转换为 OBJ

OBJ和PLY是一些广泛使用的 3D 文件格式&#xff0c;易于编写和读取。这篇博文演示了如何以编程方式在 C# 中将 PLY 转换为 OBJ。此外&#xff0c;它还介绍了一种用于 3D 文件格式转换的在线3D 转换器。是的&#xff0c;Aspose.3D for .NET为程序员和非程序员提供了此功能来执行…

Day52 代码随想录打卡|二叉树篇---二叉搜索树中的众数

题目&#xff08;leecode T501&#xff09;&#xff1a; 给你一个含重复值的二叉搜索树&#xff08;BST&#xff09;的根节点 root &#xff0c;找出并返回 BST 中的所有 众数&#xff08;即&#xff0c;出现频率最高的元素&#xff09;。 如果树中有不止一个众数&#xff0c…

【深度学习】基于EANet模型的图像识别和分类技术

1.引言 1.1.EANet模型简介 EANet&#xff08;External Attention Transformer&#xff09;是一种深度学习模型&#xff0c;它结合了Transformer架构和外部注意力机制&#xff0c;特别适用于图像分类等计算机视觉任务。以下是关于EANet的详细解释&#xff1a; 1.1.1 定义与背…

Node.js版本管理工具-NVM

在开发 Node.js 项目时&#xff0c;经常会遇到需要切换不同版本的 Node.js 的情况。为了方便管理和切换各个版本&#xff0c;我们可以使用一些 Node.js 版本管理工具。 Node Version Manager&#xff1a;简称NVM&#xff0c;最流行的 Node.js 版本管理工具之一。它允许我们在同…

计算机体系结构重点学习(一)

从外部I/O与上层应用交互的整体软硬件过程 上层应用发出I/O请求&#xff1a;上层应用程序&#xff0c;如一个文本编辑器、网络浏览器或者任何软件应用&#xff0c;需要读取或写入数据时&#xff0c;会通过调用操作系统提供的API&#xff08;如文件操作API、网络操作API等&…

Python学习打卡:day04

day4 笔记来源于&#xff1a;黑马程序员python教程&#xff0c;8天python从入门到精通&#xff0c;学python看这套就够了 目录 day428、while 循环的嵌套应用29、while 循环案例 — 九九乘法表补充知识示例&#xff1a;九九乘法表 30、for 循环基本语法while 和 for 循环对比f…

Android屏幕旋转流程(1)

&#xff08;1&#xff09;Gsensor的注册和监听 App -->I2C过程&#xff1a;App通过SensorManager.getSystemServer调用到SystemSensorManager&#xff0c;SystemSensorManager通过jni调用到SensorManager.cpp&#xff0c;后通过binder调用到SensorService。SensorService通…

SpringBoot+Maven笔记

文章目录 1、启动类2、mapper 接口3、控制类4、补充&#xff1a;返回数据时的封装5、补充a、mybatisplus 1、启动类 在启动类上加入MapperScan扫描自己所写的mapper接口 package com.example.bilili_springboot_study;import org.mybatis.spring.annotation.MapperScan; impo…

CorelDraw 2024软件安装包下载 丨不限速下载丨亲测好用

​简介&#xff1a; CorelDRAW Graphics Suite 订阅版拥有配备齐全的专业设计工具包&#xff0c;可以通过非常高的效率提供令人惊艳的矢量插图、布局、照片编辑和排版项目。价格实惠的订阅就能获得令人难以置信的持续价值&#xff0c;即时、有保障地获得独家的新功能和内容、…

生产中的 RAG:使你的生成式 AI 项目投入运营

作者&#xff1a;来自 Elastic Tim Brophy 检索增强生成 (RAG) 为组织提供了一个采用大型语言模型 (LLM) 的机会&#xff0c;即通过将生成式人工智能 (GenAI) 功能应用于其自己的专有数据。使用 RAG 可以降低固有风险&#xff0c;因为我们依赖受控数据集作为模型答案的基础&…

【菜狗学前端】uniapp(vue3|微信小程序)实现外卖点餐的左右联动功能

记录&#xff0c;避免之后忘记...... 一、目的&#xff1a;实现左右联动 右->左 滚动&#xff08;上拉/下拉&#xff09;右侧&#xff0c;左侧对应品类选中左->右 点击左侧品类&#xff0c;右侧显示对应品类 二、实现右->左 滚动&#xff08;上拉/下拉&#xff09;右…

什么是深拷贝;深拷贝和浅拷贝有什么区别;深拷贝和浅拷贝有哪些方法(详解)

目录 一、为什么要区别深拷贝和浅拷贝 二、浅拷贝 2.1、什么是浅拷贝 2.2、浅拷贝的方法 使用Object.assign() 使用展开运算符(...) 使用数组的slice()方法&#xff08;仅适用于数组&#xff09; 2.3、关于赋值运算符&#xff08;&#xff09; 三、深拷贝 3.1、什么是…

leetcode第709题:转换成小写字母

注意字符不仅有26个英文字母&#xff0c;还有特殊字符。特殊字符的话&#xff0c;原样输出。 public class Solution {public char toLowChar(char c){if(c>a&&c<z){return c;}else if(c>A&&c<Z){int n(int)c32;return (char)n;}return c;}publi…

Java数据结构之ArrayList(如果想知道Java中有关ArrayList的知识点,那么只看这一篇就足够了!)

前言&#xff1a;ArrayList是Java中最常用的动态数组实现之一&#xff0c;它提供了便捷的操作接口和灵活的扩展能力&#xff0c;使得在处理动态数据集合时非常方便。本文将深入探讨Java中ArrayList的实现原理、常用操作以及一些使用场景。 ✨✨✨这里是秋刀鱼不做梦的BLOG ✨✨…