如何定位并修复 HttpCore5 中的 HTTP2 流量控制问题

简介:开篇吹一波阿里云性能测试服务 PTS,PTS 在 2021 年 5 月份已经上线了对 HTTP2 协议的支持(底层依赖 httpclient5),在压测时会通过与服务端协商的结果来决定使用 HTTP1.1 或者 HTTP2 协议。

作者:风起

开篇吹一波阿里云性能测试服务 PTS[1],PTS 在 2021 年 5 月份已经上线了对 HTTP2 协议的支持(底层依赖 httpclient5),在压测时会通过与服务端协商的结果来决定使用 HTTP1.1 或者 HTTP2 协议。

背景

写这篇文章的原因是某天某个客户找过来,问我们是不是不支持 HTTP2,因为他在 XX 云上购买了 2 个域名,其中一个开启了 HTTP2,而在 PTS 压测过程中,支持 HTTP2 的接口总是报错:

起初怀疑是 HTTP2 支持的问题,通过在本地强制使用 HTTP2 协议,访问淘宝主页,发现是没问题的,怀疑是用户在 XX 云上的配置问题,但紧接着通过在本地 Postman、curl 以及压测引擎强制使用 HTTP1.1 协议时都能够正常访问该网页,意识到大概率是 PTS 引擎侧的问题。

通过本地 debug,看到是因为请求 URL 时,客户端窗口大小被调整为大于 2^32 -1 导致的异常。

那正好借这个机会看下这里的窗口大小指的是什么。

HTTP2 流控

提到窗口,就要提到 HTTP2 相比于 HTTP1.1 支持的新特性:流控(Flow Control),其实 HTTP1.1 依赖于传输层 TCP 的滑动窗口一样可以实现流控,那么为什么 HTTP2 要在应用层再实现一个流控呢?原因在于 HTTP2 引入了流和多路复用,通过流控可以达到使多个流协同的效果。

一些流控的基本概念:

  1. 流控是针对连接而言的,不是针对端到端的,而是在两端中的每一跳;主要指有代理的情况下,代理与两端都存在流控
  2. 流控是基于WINDOW_UPDATE 帧的,接收者可以通过流控控制发送者的速度
  3. 流控既可以作用于 stream 也可以作用于 connection
  4. 对于连接与所有新开启的流而言,流控窗口大小默认都是 65535,且最大值为 2^32 - 1
  5. 流控无法禁用

为了便于理解,先简单列一下 HTTP2 帧的类型:

  • DATA:携带请求或响应中的数据
  • HEADERS:用于新建一个流(请求或响应),包含对应的 Headers
  • PRIORITY:用于配置流的优先级
  • RST_STREAM:强制结束某个流,仅用于某一端取消流,并不适用于正常流的结束
  • SETTINGS:H2 建联的一些配置
  • PUSH_PROMISE:服务端推送响应到客户端
  • PING:向远端发送一条 PING,远端必须返回该 PING
  • GOAWAY:用于某一端将要结束连接
  • WINDOW_UPDATE:更新流控窗口大小
  • CONTINUATION:如果 headers 过大,单个 HEADERS 帧难以携带,通过该帧发送额外的 headers

接下来,我们重点看下流控相关的帧,主要是 SETTING 与 WINDOW_UPDATE,在连接建立时会通过 SETTINGS 帧来调整对方的窗口大小,之后在传输过程中,窗口大小会随着数据的发送逐渐减小,直到收到对方发送的 WINDOW_UPDATE 帧,从而更新窗口大小。SETTINGS 帧主要包含以下内容:

  • SETTINGS_HEADER_TABLE_SIZE:HPACK(一种header压缩算法) header 表的最大长度,默认值 4096
  • SETTINGS_ENABLE_PUSH:客户端发向服务端的配置,若设置为 true,客户端将允许服务端推送响应,默认值 true
  • SETTINGS_MAX_CONCURRENT_STREAMS:同时打开的 stream 最大数量,通常意味着同一时刻能够同时响应的请求数量,默认无限
  • SETTINGS_INITIAL_WINDOW_SIZE:流控的初始窗口大小,默认值 65535
  • SETTINGS_MAX_FRAME_SIZE:对端能够接受帧的最大长度,默认值16384
  • SETTINGS_MAX_HEADER_LIST_SIZE:对端能够接受的 header 列表最大长度,默认不限制

流控的实现如上所述,每发送一批 DATA 帧,即将窗口大小减小。需要注意的是流控仅针对 DATA 帧。

前面提到流控既可以作用于 stream 又可以作用于 connection,那具体是怎么执行的呢?connection 的流控与 上述 stream 流控逻辑类似,每次发送 DATA 帧,connection 与 stream 窗口都会减小,但不同的是,WINDOW_UPDATE 要么单独作用于 stream,要么单独作用于 connection(streamid 为 0 时,表示作用于 connection)。

问题定位

那么回到开篇的问题,我们以 URL 系统极客 - 专注于操作系统及软件使用教程的技术极客网站 为例,通过在本地做代码 debug 发现,最终抛异常的原因在于接收到 WINDOW_UPDATE 帧后,更新后窗口大小值大于 2^32 - 1 导致抛异常:

而从这里的代码可以看出,524288 是当前窗口大小,而delta是对方告知的 WINDOW_UPDATE 大小,通过分析,发现 524288 这个值不同于默认值 65535,那继续看这个值是什么时间改动的

发现是接收 SETTINGS 指令后,初始化窗口大小时修改的,但这里与 RFC 7540 [2]的描述(connection 窗口大小仅在接收到 WINDOW_UPDATE 后才可能修改)是冲突的:

因此我们断定是 httpcore5 的源代码有 bug,在删除标记的这行代码后,请求可以正常执行了。

遗憾的是在准备给 httpcore5 提 PR 的过程中发现这个 bug 已经在 commit 中被修复了。

参考资料

[1] PTS:

PTS使用指引 - 性能测试 PTS - 阿里云

[2] RFC 7540:

RFC 7540 - Hypertext Transfer Protocol Version 2 (HTTP/2)

原文链接

本文为阿里云原创内容,未经允许不得转载。 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/511437.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

全链路灰度之 RocketMQ 灰度

简介:本文将以上次介绍过的《如何用 20 分钟就能获得同款企业级全链路灰度能力?》中的场景为基础,来进一步介绍消息场景的全链路灰度。 作者:亦盏 之前的系列文章中,我们已经通过全链路金丝雀发布这个功能来介绍了 M…

普洛斯数据中心发布DC Brain系统,科技赋能智慧化运营管理

7月5日,普洛斯数据中心发布了DC Brain智慧化运营管理系统。该系统由普洛斯历时两年自主研发,契合现代化数据中心平台的发展趋势。目前已应用于普洛斯旗下数据中心,并有对外输出的成功案例,面向行业,赋能中小规模运营商…

mi6 android版本,小米6:我依旧是王,MIUI10.4.2稳定版与AndroidP同时到来

原标题:小米6:我依旧是王,MIUI10.4.2稳定版与AndroidP同时到来小米6作为小米数字系列最受欢迎的机型之一,从上市到下架热度一直未减,它也是众多米粉心目中小米数字系列最成功的机型没有之一。但是,再怎么讲…

如何利用 AHAS 保障 Web 服务稳如磐石?

简介:应用高可用服务 AHAS (Application High Availability Service) 是经阿里巴巴内部多年高可用体系沉淀下来的云产品,基于阿里开源流控降级组件 Sentinel,以流量与容错为切入点,从流量控制、不稳定调用隔离、熔断降级、热点流量…

KubeDL HostNetwork:加速分布式训练通信效率

简介:ubeDL 为分布式训练作业带来了 HostNetwork 网络模式,支持计算节点之间通过宿主机网络相互通信以提升网络性能,同时适应 RDMA/SCC 等新型高性能数据中心架构的网络环境,此外,KubeDL 针对 HostNetwork 模式带来的 …

阿里云容器服务差异化 SLO 混部技术实践

简介:阿里巴巴在“差异化 SLO 混合部署”上已经有了多年的实践经验,目前已达到业界领先水平。所谓“差异化 SLO”,就是将不同类型的工作负载混合运行在同一节点,充分利用工作负载对资源 SLO 需求特征的不同,提升资源整…

鸿蒙系统被烧毁,华为鸿蒙操作系统再次被质疑 国产是原罪

国产是原罪,国际驰名双标现象严重,为何对待国产的东西要格外刻薄?华为手机版鸿蒙系统正式发布,但却引来一片嘲讽,这些人简直是刷新三观。如果一个产品是相同的价格,国产的用料更足但是还不够成熟&#xff1…

云原生落地大爆发,企业和开发者如何把握先机?

简介:回顾 2021 年,云原生有哪些重大技术突破?云原生时代下开发模式、技术标准等不断变化,企业应该如何落地云原生?开发者应掌握哪些能力?本文将为你一一解说。 作者:伍杏玲 随着云计算产业走…

Gartner发布中国人工智能软件市场指南,激烈竞争下走向差异化

作者 | Gartner高级研究总监 方琦 供稿 | Gartner 人工智能(AI)软件是中国企业投资和关注的重点。中国的AI软件市场在持续快速增长,竞争非常激烈。AI软件企业使用一种或多种AI技术(见图1),帮助企业解读事件…

华为Mate是鸿蒙系统,华为mate30概念新机:4500mAh+5G网络+“鸿蒙”系统 这才是华为...

对于现在的华为手机来说,很多消费者的态度不一样,有的觉得华为手机性价比不高,有的则觉得华为手机质量很好,配置也非常的高。而我觉得,华为手机最值得敬佩,敬佩的是华为不屈的精神,敬佩的是远见…

平安保险基于 SPI 机制的 RocketMQ 定制化应用

简介:本文讲讲述平安保险为何选择 RocketMQ,以及在确定使用消息中间件后,又是如何去选择哪款消息中间件的。 作者:孙园园|平安人寿资深开发 为什么选用 RocketMQ 首先跟大家聊聊我们为什么会选用 RocketMQ&#xff…

Redis 内存优化神技,小内存保存大数据

作者 | 码哥呀来源 | 码哥字节这次跟大家分享一些优化神技,当你面试或者工作中你遇到如下问题,那就使出今天学到的绝招,一招定乾坤!❝如何用更少的内存保存更多的数据?我们应该从 Redis 是如何保存数据的原理展开&…

SchedulerX 如何帮助用户解决分布式任务调度难题?

简介:本文分别对任务调度平台的资源定义、可视化管控能力、分布式批处理能力进行了简述,并基于 SchedulerX 的能力结合实际业务场景提供了一些基础参考案例。希望通过上述内容能让大家方便地熟悉任务调度平台接入使用概况,对于现有用户也可结…

如何做“健康码”的性能压测

简介:随着无线设备的普及和 5G 的大力建设,越来越多的线上系统、小程序成为了人们生活中必不可少的工具。对于这些工具,都会面对一个问题:系统能承受多少用户同时访问,面对突发的流量洪峰,能否保证系统无故…

对话 MySQL 之父:一个优秀程序员可抵5个普通程序员

【CSDN 编者按】MySQL之父Monty有着四十多年的编程经验,从儿时的兴趣到长大后的深耕,他在编程领域不断钻研,最终成为编程大师。《新程序员004》带你走进Monty的程序人生,谈谈他在编程方面的最新感悟以及对未来的预测。作者 | 郭露…

服务网格 ASM 年终总结:最终用户如何使用服务网格?

简介:本文不打算回顾 Istio 或是阿里云服务网格 ASM 的变化或趋势,我们来聊一聊阿里云 ASM 服务网格,它的最终用户是如何使用服务网格的。 作者:叶剑宏 背景 阿里云服务网格 ASM 于 2020 年 2 月公测,近 2 年的时间…

使用 nginx 轻松管理 kubernetes 资源文件

作者 | 江小南来源 | 江小南和他的小伙伴们引言nginx在传统的使用中,一般是作为反向代理或者负载均衡。但是它还有一个很优秀的能力常被人们所忽略。在kubernetes部署应用的过程中,会有大量的yaml等资源需要维护。集群内部维护起来不太方便,特…

Dubbo-go 优雅上下线设计与实践

简介:在分布式场景下,微服务进程都是以容器的形式存在,在容器调度系统例如 k8s 的支持下运行,容器组 Pod 是 K8S 的最小资源单位。随着服务的迭代和更新,当新版本上线后,需要针对线上正在运行的服务进行替换…

华为鸿蒙网络,这回真翻脸了?被谷歌“除名”,官宣鸿蒙手机版,华为:走着瞧...

与电脑系统类似,手机操作系统如今也已经被安卓和苹果的iOS瓜分殆尽,根据数据,安卓和iOS已经占据了手机操作系统99%以上的市场份额。不过由于iOS是苹果自研的封闭系统,所以在智能手机这么多年发展下来,也就自然地形成了…

SaaS服务的私有化部署,这样做最高效|云效工程师指北

简介:为了能够有效且高效地同时管理SaaS版本和私有化版本的发布过程,云效团队也结合云原生的基础设施和标准化工具(比如helm)进行了一系列的探索和实践,并将其中一些通能的能力进行了产品化。本文从问题本身出发&#…