go grpc-go 连接变动,导致全服 gRPC 重连 BUG 排查

问题描述

项目中遇到一个问题,每当有节点变更时,整个 gRPC 网络连接会重建

然后我对该问题做了下排查

最后发现是 gRPC Resolver 使用上的一个坑

问题代码

func (r *xxResolver) update(nodes []*registry.Node) {state := resolver.State{Addresses: make([]resolver.Address, 0, 10),}var grpcNodes []*registry.Node // grpc的节点for _, n := range nodes {if _, ok := n.ServicePorts["grpc"]; ok {grpcNodes = append(grpcNodes, n)}}for _, n := range grpcNodes {port := n.ServicePorts["grpc"]addr := resolver.Address{Addr:       fmt.Sprintf("%s:%d", n.Host, port), 问题代码在下面这行 Attributes: attributes.New(registry.NodeKey{}, n, registry.NodeNumber{}, len(grpcNodes)),   问题代码在这行 }state.Addresses = append(state.Addresses, addr)}if r.cc != nil {r.cc.UpdateState(state)}
}

这段代码的意思是:

  • xxResolver 是个 gRPC 名字解析器实现
    • 名字解析器就是收集有哪些 ip 列表(没接触过 gRPC Resolver ,你可以把它看成是类似 DNS 的域名解析过程)
  • nodes 里服务发现维护的节点集合
  • 从 nodes 中搜集相关 IP 列表
  • 最后更新 gRPC 连接器/平衡器(cc)的状态

在构建 resolver.Address 时,字段 Attributes 添加了 NodeNumber 属性;而这个 NodeNumber 值是变化的

发生 bug 的原因

项目基于 gRPC 1.410 版本。该版本本身就存在前后矛盾的 bug 代码:

  • 不同处的代码对 resolver.Address 对象的等于操作不一致

具体两处代码分别如下:

func (b *baseBalancer) UpdateClientConnState(s balancer.ClientConnState) error {// TODO: handle s.ResolverState.ServiceConfig?if logger.V(2) {logger.Info("base.baseBalancer: got new ClientConn state: ", s)}// Successful resolution; clear resolver error and ensure we return nil.b.resolverErr = nil// addrsSet is the set converted from addrs, it's used for quick lookup of an address.addrsSet := make(map[resolver.Address]struct{})for _, a := range s.ResolverState.Addresses {// Strip attributes from addresses before using them as map keys. So// that when two addresses only differ in attributes pointers (but with// the same attribute content), they are considered the same address.//// Note that this doesn't handle the case where the attribute content is// different. So if users want to set different attributes to create// duplicate connections to the same backend, it doesn't work. This is// fine for now, because duplicate is done by setting Metadata today.//// TODO: read attributes to handle duplicate connections.aNoAttrs := aaNoAttrs.Attributes = niladdrsSet[aNoAttrs] = struct{}{}if scInfo, ok := b.subConns[aNoAttrs]; !ok {// a is a new address (not existing in b.subConns).//// When creating SubConn, the original address with attributes is// passed through. So that connection configurations in attributes// (like creds) will be used.sc, err := b.cc.NewSubConn([]resolver.Address{a}, balancer.NewSubConnOptions{HealthCheckEnabled: b.config.HealthCheck})if err != nil {logger.Warningf("base.baseBalancer: failed to create new SubConn: %v", err)continue}b.subConns[aNoAttrs] = subConnInfo{subConn: sc, attrs: a.Attributes}b.scStates[sc] = connectivity.Idlesc.Connect()} else {// Always update the subconn's address in case the attributes// changed.//// The SubConn does a reflect.DeepEqual of the new and old// addresses. So this is a noop if the current address is the same// as the old one (including attributes).scInfo.attrs = a.Attributesb.subConns[aNoAttrs] = scInfob.cc.UpdateAddresses(scInfo.subConn, []resolver.Address{a})}}for a, scInfo := range b.subConns {// a was removed by resolver.if _, ok := addrsSet[a]; !ok {b.cc.RemoveSubConn(scInfo.subConn)delete(b.subConns, a)// Keep the state of this sc in b.scStates until sc's state becomes Shutdown.// The entry will be deleted in UpdateSubConnState.}}// If resolver state contains no addresses, return an error so ClientConn// will trigger re-resolve. Also records this as an resolver error, so when// the overall state turns transient failure, the error message will have// the zero address information.if len(s.ResolverState.Addresses) == 0 {b.ResolverError(errors.New("produced zero addresses"))return balancer.ErrBadResolverState}return nil
}

baseBalancer.UpdateClientConnState 比较 Addresses 对象,事先处理了aNoAttrs.Attributes = nil

即,不考虑属性字段内容,即只要 ip port 一样就是同个连接

func (ac *addrConn) tryUpdateAddrs(addrs []resolver.Address) bool {ac.mu.Lock()defer ac.mu.Unlock()channelz.Infof(logger, ac.channelzID, "addrConn: tryUpdateAddrs curAddr: %v, addrs: %v", ac.curAddr, addrs)if ac.state == connectivity.Shutdown ||ac.state == connectivity.TransientFailure ||ac.state == connectivity.Idle {ac.addrs = addrsreturn true}if ac.state == connectivity.Connecting {return false}// ac.state is Ready, try to find the connected address.var curAddrFound boolfor _, a := range addrs {if reflect.DeepEqual(ac.curAddr, a) {curAddrFound = truebreak}}channelz.Infof(logger, ac.channelzID, "addrConn: tryUpdateAddrs curAddrFound: %v", curAddrFound)if curAddrFound {ac.addrs = addrs}return curAddrFound
}

addrConn.tryUpdateAddrs 内用的是 DeepEqual ,这里 Addresses 字段又是起作用的。

导致连接先关闭,后重建

问题解决

基于 gRPC 1.410 代码中的相互矛盾点,然后看了最新的代码:

// Equal returns whether a and o are identical.  Metadata is compared directly,
// not with any recursive introspection.
//
// This method compares all fields of the address. When used to tell apart
// addresses during subchannel creation or connection establishment, it might be
// more appropriate for the caller to implement custom equality logic.
func (a Address) Equal(o Address) bool {return a.Addr == o.Addr && a.ServerName == o.ServerName &&a.Attributes.Equal(o.Attributes) &&a.BalancerAttributes.Equal(o.BalancerAttributes) &&a.Metadata == o.Metadata
}

加了 Address.Equal 统一了 Address 等号操作的定义(说明官方也发现了这个问题 = =|)

但是很不幸,Attributes 字段也必须相等,才算地址相等

因此,项目中的代码还是写错的

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/235301.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

PyQt6 QColorDialog颜色对话框控件

锋哥原创的PyQt6视频教程: 2024版 PyQt6 Python桌面开发 视频教程(无废话版) 玩命更新中~_哔哩哔哩_bilibili2024版 PyQt6 Python桌面开发 视频教程(无废话版) 玩命更新中~共计50条视频,包括:2024版 PyQt6 Python桌面开发 视频教程(无废话版…

基于SSM框架的电脑测评系统论文

基于 SSM框架的电脑测评系统 摘要 随着信息技术在管理上越来越深入而广泛的应用,作为一个一般的用户都开始注重与自己的信息展示平台,实现基于SSM框架的电脑测评系统在技术上已成熟。本文介绍了基于SSM框架的电脑测评系统的开发全过程。通过分析用户对于…

大数据HCIE成神之路之数据预处理(3)——数值离散化

数值离散化 1.1 无监督连续变量的离散化 – 聚类划分1.1.1 实验任务1.1.1.1 实验背景1.1.1.2 实验目标1.1.1.3 实验数据解析 1.1.2 实验思路1.1.3 实验操作步骤1.1.4 结果验证 1.2 无监督连续变量的离散化 – 等宽划分1.2.1 实验任务1.2.1.1 实验背景1.2.1.2 实验目标1.2.1.3 实…

Open5GSUeRANSim2:对安装在同一个VM上的OPEN5GS和UERANSIM进行配置和抓取wireshark报文

参考链接: Configuring SCTP & NGAP with UERANSIM and Open5GS on a Single VM for the Open5GS & UERANSIM Series https://www.youtube.com/watch?vINgEX5L5fkE&listPLZqpS76PykwIoqMdUt6noAor7eJw83bbp&index5 Configuring RRC with UERANSI…

泛微e-cology XmlRpcServlet文件读取漏洞复现

漏洞介绍 泛微新一代移动办公平台e-cology不仅组织提供了一体化的协同工作平台,将组织事务逐渐实现全程电子化,改变传统纸质文件、实体签章的方式。泛微OA E-Cology 平台XmRpcServlet接口处存在任意文件读取漏洞,攻击者可通过该漏洞读取系统重要文件 (如数据库配置…

fastadmin表格右侧操作栏增加审核成功和审核失败按钮,点击提交ajax到后端

fastadmin表格右侧操作栏增加审核成功和审核失败按钮,点击提交ajax到后端 效果如下 js {field: operate, title: __(Operate), table: table, events

安装Neo4j

jdk1.8对应的neo4j的版本是3.5 自行下载3.5版本的zip文件 地址 解压添加环境变量 变量名:NEO4J_HOME 变量值:D:\neo4j-community-3.5.0 (你自己的地址) PATH添加: %NEO4J_HOME%\bin (如果是挨着的注意前后英…

Linux c++开发-11-Socket TCP编程简单案例

服务端&#xff1a; #include <stdio.h> #include <stdlib.h> #include <string.h> #include <unistd.h> #include <netinet/in.h> #include <sys/types.h>#include <errno.h>int main(void) {//1.socketint server_sock socket(A…

传统行业与人工智能融合:材料、化学、物理、生物的发展与未来展望

导言 传统行业如材料科学、化学、物理、生物学一直是科学领域的重要支柱。随着人工智能的快速发展&#xff0c;这些领域也在不断融合创新。本文将深入研究这些领域与人工智能的发展过程、遇到的问题及解决过程、未来的可用范围&#xff0c;以及在各国的应用和未来的研究趋势。 …

H-ui前端框架 —— layer.js

layer.js是由前端大牛贤心编写的web弹窗插件。 laye.js是个轻量级的网页弹出层组件..支持类型丰富的弹出层类型&#xff0c;如消息框、页面层、iframe层等&#xff0c;具有较好的兼容性和灵活性。 layer.js用法 1.引入layer.js文件。在HTML页面的头部引用layer.is文件&#x…

【uniapp】uniapp中本地存储sqlite数据库保姆级使用教程(附完整代码和注释)

数据库请求接口封装 uniapp中提供了plus.sqlite接口&#xff0c;在这里我们对常用的数据库请求操作进行了二次封装 这里的dbName、dbPath、recordsTable 可以根据你的需求自己命名 module.exports {/** * type {String} 数据库名称*/dbName: salary,/*** 数据库地址* type {…

【【迭代七次的CORDIC算法-Verilog实现】】

迭代七次的CORDIC算法-Verilog实现求解正弦余弦函数 COEDIC.v module CORDIC #(parameter DATA_WIDTH 4d8 , // we set data widthparameter PIPELINE 4d8)(input clk ,input …

在spring boot项目引入mybatis plus后的的案例实践

前景提要 1、项目背景 一个spring boot mybatis的项目&#xff0c;分页一直是PageHelper。 2、为什么要引入mybatis plus 1、简化单表的crud 2、对mybatis plus进行简单的设计&#xff0c;以满足现有系统的规范&#xff0c;方便开发 实践中出现的问题 1、版本不兼容 当…

前端:git介绍和使用

Git是一个分布式版本控制系统&#xff0c;用于跟踪和管理代码的变更。它是由Linux之父Linus Torvalds于2005年创建的&#xff0c;并被广泛用于软件开发、版本控制和协作开发。 Git的背景 在软件开发中&#xff0c;版本控制是非常重要的。传统的文件管理系统很难跟踪文件的变更…

深入理解 Nginx 工作原理:Master-Worker 架构与性能优化

目录 前言1 Nginx 的 Master-Worker 架构2 Worker 进程的工作原理3 Master-Worker 架构的优势3.1 热部署的便利性3.2 进程间独立性3.3 系统稳定性和容错性提升3.4 系统风险降低 4 Worker 数量的设置5 Worker 连接数&#xff08;worker_connections&#xff09;结语 前言 Nginx…

nodejs微信小程序+python+PHP购物商城网站-计算机毕业设计推荐

目 录 摘 要 I ABSTRACT II 目 录 II 第1章 绪论 1 1.1背景及意义 1 1.2 国内外研究概况 1 1.3 研究的内容 1 第2章 相关技术 3 2.1 nodejs简介 4 2.2 express框架介绍 6 2.4 MySQL数据库 4 第3章 系统分析 5 3.1 需求分析 5 3.2 系统可行性分析 5 3.2.1技术可行性&#xff1a;…

Ubuntu 常用命令之 tar 命令用法介绍

tar 命令在 Ubuntu 系统中是用来打包和解包文件的工具。tar 命令可以将多个文件或目录打包成一个 tar 文件&#xff0c;也可以将 tar 文件解包成原来的文件或目录。 tar 命令的常用参数如下 c&#xff1a;创建一个新的 tar 文件。x&#xff1a;从 tar 文件中提取文件。v&…

198|鸭的喜剧,也是蝌蚪的悲剧

​ 第一次读鲁迅的《鸭的喜剧》&#xff0c;平平淡淡的文字&#xff0c;没有一丝辛辣&#xff0c;讲了一个给小朋友的故事。如果不知道&#xff0c;都不会觉得这是鲁迅的作品。 故事很简单&#xff1a;友人先是买了蝌蚪&#xff0c;想等蝌蚪长大听蛙鸣&#xff1b;后来买了四只…

机器学习之逻辑回归,一文掌握逻辑回归算法知识文集

&#x1f3c6;作者简介&#xff0c;普修罗双战士&#xff0c;一直追求不断学习和成长&#xff0c;在技术的道路上持续探索和实践。 &#x1f3c6;多年互联网行业从业经验&#xff0c;历任核心研发工程师&#xff0c;项目技术负责人。 &#x1f389;欢迎 &#x1f44d;点赞✍评论…

H5聊天系统聊天网站源码 群聊源码 无限建群创群

H5聊天系统聊天网站源码 群聊源码 无限建群创群 1.支持自助建群 管理群 修改群资料 2.支持自动登录 登陆成功可自助修改资料 3.后台可查看群组聊天消息记录 4.支持表情 动态表情 图片发布 5.支持消息语音提醒 测试环境&#xff1a;NginxMySQL5.6PHP5.6 1.将压缩包解压到…