先从网络时延抖动的根源说起。
信息能否过去取决于信道容量,而信道利用率则取决于编码。这是香农定律决定的。
考虑到主机处理非常快,忽略处理时延,端到端时延就是信息传播时延,但现实中通信信道利用率非常不均匀,统计复用的意思是,某些时刻信息量太大以至信道过载,某些时刻信息量过小导致信道轻载甚至空载,因此引入少量 buffer 平滑这种统计波动,同时提高信息到达率和信道利用率。
关于统计复用网络的全部就以上这么多,抖动则来源于对以上描述具体操作时的弄巧成拙。
信息在链路某处若超过信道容量一定过不去,问题的核心是在实际有空闲容量资源发送它前你最多容忍多久,而这恰恰不由你决定,它不仅由 buffer 大小决定,还由通信协议决定。
buffer 过大导致的排队时延是不得已的,你的应用对 0~buffer_size/bw 的时延抖动无能为力。只能寄希望于设备厂商压缩 buffer 大小。
协议时延分端到端协议抖动和底层协议抖动,而端到端协议抖动可以避开。比如应用层自己都认为可以丢弃的数据,tcp 却擅作主张非要死命重传而引入至少 rtt 量级的时延抖动,这时就可以选择 udp 进行有损传输。
底层协议抖动比较难避开。比如 wifi 提供一种尽力而为的传输服务,如果传输一帧时出现冲突,wifi 会自行重试多次而引入 0~n*10ms 级的时延抖动,即使应用层并不需要这种努力也不行。
网络中或大或小的 buffer,网络边缘的无线 wifi,再加上使用了 tcp,都是抖动的根源,端到端时延不可能稳定,解决问题的方法很简单,在应用层加 buffer,这才是问题的实质,buffer 带来的问题通过再加一个 buffer 就能解决,重读上面的 3 个段落,可将 buffer 分两类,常规意义上的交换机可排队 buffer 算空间类,而 tcp,wifi 类的重传,重试行为算时间类,两类 buffer 共同引入了时延抖动。
buffer 引入的时延抖动显然是一种统计波动,而统计波动只要一个 buffer 就能平滑,这不,圆回来了一个圈。
最近帮朋友做一个无 buffer 协议,顺带着就聊聊 buffer 的本质。无 buffer 协议是一个非常简单的传输协议,“信息能否过去取决于信道容量,而信道利用率则取决于编码。” 没 buffer 什么事,意思是如果过不去就随他,能过多少是多少,通过编码来完全或部分恢复丢失的信息,这便是一个无抖动的 有损传输协议,这也是信息传输的本质需求,它从来不要求 100% 高保真,本质上有损的传输,为什么用时间来抵偿呢。
为啥长链路吞吐干不过短链路,困扰程序员多年的长肥管道问题,都能用香农公式说明白,信道容量和带宽 B 和信噪比 S/N 正相关,随着链路长度增加,B,S 不变,N 在增加,S/N 减小。印证我之前文章里另一种解释,随链路长度增加,好事发生的概率是各好事的概率相乘,坏事则是各概率相加,就殊途同归了。
计算机网络不讲这个,但本质上还是这个。计算机网络讲的是在目标处 100% 保真重现源信息,又不能违背香农自然律,就必须用协议靠时间去弥补信道固有损失,吞吐 = 保真数据量/时间,无论在数据中加冗余,还是抵偿了时间,表现都是降低了吞吐。
用空间换时间,提高信噪比,用冗余编码确保信息保真,带宽不满足时等一会儿再发,信息丢失了重新发一遍,这些其实都是在对抗不了香农定律后试图弥补损耗的不同方法,但计算机网络围绕基于 buffer 的 “包交换”,也就是统计复用的分组交换技术展开,因此后两种方法值得关注,其中,buffer 是核心。 有趣的是,包交换之前的打电话恰恰相反,因此你听到的电话那头的声音明显失真,但绝不卡顿。
明显失真,但绝不卡顿,看上去不错,但计算机网络却是明显卡顿,但绝不失真。
来看 buffer 的本质。
把 buffer 看作一种信用货币,而带宽则是我们买东西的实际货币,就好理解了。现代社会,实际货币也算信用货币,就像 bdp = bw * proprt + buffer 一样。通俗讲,信用货币就是每一元的币值不必对应某种等价物 比如黄金,而可以 “凭信用” 发行货币,只要拿到货币的人可以偿还等值就行。
信用货币产生于交易规模的扩大。只有 10 人参与交易,黄金可以分属 10 人,参与交易的人达到 10 亿人,仍然用黄金就不现实了,一个满怀信心的企业家开发一款注定能卖钱的新产品需借款 10 万块时,可能没有任何地方有价值 10 万的黄金借给他,如果他要借 100 亿,这个数可能超过当前全世界所有黄金总价值,这是不可能的,这是黄金等价物的 bug,信用货币修正了这个 bug,无论多少钱,把时间算进来,只要他在未来能偿付,这笔钱就可以无中生有。
解决了大规模交易问题,坏处也显而易见,即信用膨胀(你可能已经想到 bufferbloat 了)。银行疯狂放贷,以为这些钱可以在未来被勾销,但如果借钱的人纷纷还不上怎么办?一次大额借款不可怕,海量不受控的中小额借款才可怕,这就是次贷危机。
大规模通信需要 buffer 平滑大额需求,就像借贷,在未来以带宽勾销。buffer 太小无法覆盖需求,太大又属于信用超发,勾销前时间太久而 bdp 过大,buffer 度量信用额度,一处部署 buffer,处处需要部署 buffer 以吸纳它处的信用超发,最终实际可用带宽(流通货币)没有任何变化,但 bdp 却增大,这就带来通胀风险,一个 sender 想要保住它现有吞吐,越来越大的 buffer 中它要发送越来越多的报文,只为保住配额,表现为物价飞涨。
上述场景适合描述 10 年来的房产市场,从银行借一笔钱还给开发商,月薪大涨却拿一大部分还银行,最终实际能消费的钱却没有任何改变。当交换机意识到这个问题时,aqm 会丢包来触发 buffer 通缩,各个 sender 降低 cwnd 回归现实,对于现实世界,失业,断供也会让人们做价值回归,随之而来的可能就是通缩。
显而易见的经济规律配备合理的玩法,网络流量在 buffer 调节下自然也是繁荣与萧条的此起彼伏,波动,时延抖动是固有的,根植于 buffer。然而 rdma/roce 促进的 pfc(priority flow control) 却把 buffer 玩成了花。
当次贷危机已发生,解题的有效方法就是促进破产,这理论不见得恒对,但破产确实能消除债务。网络拥塞后丢包不仅仅是通知 sender,也确实缓释了当前 buffer,消除了部分作为债务的 queue,减缓了拥塞的进一步危害。可 pfc 反压是什么鬼?
拥塞只影响当前交换机流量甚至在 codel 起作用时只影响单流,拥塞不出交换机,就地解决。而 pfc 则将拥塞状态蔓延,一个 buffer 堆积造成一个 buffer 树一起堆积,多少无关流量受害,甚至 deadlock,然后是一系列解决特定问题比如 pfc-deadlock 的顶会奇技淫巧,小范围烂账迅速蔓延成次贷危机以及随之而来的新政。
pfc 本质上要提供一个无丢包网络,但根据信道的香农定律,绝对不丢包不可能,而弥补丢包必然引入不可预期的时延抖动,无论 buffer,tcp 还是 wifi,都以时延抖动为代价提供了不丢包和尽量不丢包的保证,而 pfc 做同一类事的方式最不雅且鲁莽,它不惜影响网络全局状态只为不丢包。
历史早就过去,但历史的方案还在,这就有大问题。rdma 需要一个无损网络只因 gbn 代价太大,而在硬件中实现 sack 代价更大,pfc 恰好以小代价提供了无损网络的底层。如果非要保留 pfc,不如在每交换机 buffer 旁边部署一个副 buffer,大小大概一个 bdp,在通知到 sender 抑制速率前继续缓存,但千万别把状态反压给上游,拥塞不蔓延是原则。
人们太执着于提供一个可靠传输协议,提供一个无损传输网络,对丢包天然抵触,以为传输就应该完全可靠,人们用完美保真的态度看待传输,这是典型的计算机分层方法论,只关注接口语义而不管细节,但这种方法论同时也给人们带来了很大负担。
共享带宽链路上跑 capacity-searching 协议,必然会冲突,排队甚至丢包,解决这些必然发生的问题就是协议的目标,也正是解决这些问题的进展把事情搞得越来越复杂。计算机的视角下,通信的本质被分层协议模型完全掩盖。
换一种思路,以通信视角看传输并配合按需重传。以明确的 nak 请求重传取代擅自 arq。配合精致的冗余编码,buffer 也可同步减少以降低时延抖动,不用再怕丢包,有些数据是可丢的,不可丢的如果不能从冗余中恢复,还可以请求重传,而这一切都在应用程序自己的控制范围内,也就从根本上消除了它不想要的时延抖动。
幸运的是,随着流媒体发展,需求越发允许失真,但不接受卡顿,回归了信息传输的本质。传输优化越发倾向于精巧编码 + fec 而不是 buffer-oriented cc(先拥塞后控制),接受你最低限度接受的,剩下的放弃掉不要。
信道容量由香农定律限定,而编码说来如何?尽量用短数据编码长数据(这里面包含了压缩)并提供冗余,规矩一样,提供冗余,不苛求信道,传输量尽可能小。
假设要编码 s = 1234567890987654321,直线 y = ax + s 上一定存在一个点 P 使 {a, P} 比 s 更短,传输 {a, P} 即可,receiver 取斜率为 a,过点 P 直线的截距即可解码原始数据 s,如果找到多个这样的点,同时传输 {a1, P1},{a2, P2},…{an, Pn} 可提供冗余,receiver 只要收到任意一个即可还原 s。
同理,可提供 m 次曲线编码大数据,提供能唯一确定该曲线且可用更短数字编码的 n 个点,同时传输多个 n 次拼接的短数据即可提供冗余,可视 receiver 的保真要求调节冗余度,由此,曲线不必精确,亦可拟合。很多年前写的 密钥分存 比较有趣,供参考。
问题是怎么找到这些编码更短的点,比如事先不知 y = (x - 1)(x - 2), 当 x = 100000 时,y = 9999899998,现在若要编码 9999899998,只需找到并传输 {1, 2, 5} 即可,receiver 即可根据二次曲线解码 y。这是技巧和算力的事,但和重传,重试,buffer 相比,性价比大概提升,守恒律,不费电不行,提高信号功率也得费电。
上周末写的 因式分解的几何意义 里也有编码的启发,一大一小正方形固定挨在一起,就可以决定很多比两个正方形边长更长的数字,主要就是短数据决定了什么长数据是不变的。
正式的标准化编码原理我这里不提,请自行学习。
总之,让传输回归自然律。
接着昨天的 tcp pure ack “反馈风暴”,以通信的视角重新看网络传输这件事。
浙江温州皮鞋湿,下雨进水不会胖。