问题排查: Goalng Defer 带来的性能损耗

在这里插入图片描述本作品采用知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议进行许可。

本作品 (李兆龙 博文, 由 李兆龙 创作),由 李兆龙 确认,转载请注明版权。

文章目录

  • 引言
  • 问题背景
  • 结论

引言

性能优化之路道阻且长,因为脱敏规定,此文记录一个问题排查的简化过程。

问题背景

一个业务的查询绝大多数查询如下所示:

SELECT max(field) FROM m WHERE ((a = ‘1254801811’ AND b = ‘’ AND c = ‘lzl’ AND d = ‘lzl2’ AND e = ‘’ AND f = ‘’ AND g = ‘5702962’ AND h = ‘20466’) OR (a = ‘1254801811’ AND b = ‘’ AND c = ‘lzl’ AND d = ‘lzl2’ AND e = ‘’ AND f = ‘’ AND g = ‘5702962’ AND h = ‘20467’) OR (a = ‘1254801811’ AND b = ‘’ AND c = ‘lzl’ AND d = ‘lzl2’ AND e = ‘’ AND f = ‘’ AND g = ‘5702962’ AND h = ‘20468’) OR (a = ‘1254801811’ AND b = ‘’ AND c = ‘lzl’ AND d = ‘lzl2’ AND e = ‘’ AND f = ‘’ AND g = ‘5702962’ AND h = ‘20469’) OR (a = ‘1254801811’ AND b = ‘’ AND c = ‘lzl’ AND d = ‘lzl2’ AND e = ‘’ AND f = ‘’ AND g = ‘5702962’ AND h = ‘20470’) OR (a = ‘1254801811’ AND b = ‘’ AND c = ‘lzl’ AND d = ‘lzl2’ AND e = ‘’ AND f = ‘’ AND g = ‘5702962’ AND h = ‘20471’) OR (a = ‘1254801811’ AND b = ‘’ AND c = ‘lzl’ AND d = ‘lzl2’ AND e = ‘’ AND f = ‘’ AND g = ‘5702962’ AND h = ‘20472’) OR (a = ‘1254801811’ AND b = ‘’ AND c = ‘lzl’ AND d = ‘lzl2’ AND e = ‘’ AND f = ‘’ AND g = ‘5702962’ AND h = ‘20473’) OR (a = ‘1254801811’ AND b = ‘’ AND c = ‘lzl’ AND d = ‘lzl2’ AND e = ‘’ AND f = ‘’ AND g = ‘5702962’ AND h = ‘20474’) OR (a = ‘1254801811’ AND b = ‘’ AND c = ‘lzl’ AND d = ‘lzl2’ AND e = ‘’ AND f = ‘’ AND g = ‘5702962’ AND h = ‘20475’)) AND time >= 477088h AND time <= 28626779m GROUP BY time(1h), a, b, c, d, e, f, g, h fill(none)

内部发现这种sql在多条并发执行时不但执行时间较长,而且会吃满节点cpu,因为内部存在限流,读读分离等逻辑,这种行为会导致大量排队,从而一段时间内查询平均时延从20ms升高到1000ms,严重影响业务。

最终经过一系列的定位,我们定位到瓶颈在 e = '' 的条件筛选上。

时序数据库中需要基于条件去做时间线的筛选,在得到最终时间线后去实际的数据文件中去获取数据。等于空和不等于空这样的条件相对于c = 'lzl'的条件查询大不相同。前者需要首先定位到所有tagkey所有的时间线,然后获取measurement所有的时间线,最后求差集才可以。因为引擎实现的原因,并没有在索引中存储tagkey所属的全部时间线,而是存储tag的所有tagvalue对应的所有时间线,所以在求tagkey所属的全部时间线时需要做一个交集。而e的tagvalue数量在10w级别。

tagkey所属tagvalue的合并逻辑类似下述代码:

func (s *SeriesIDSet) Merge(others ...*SeriesIDSet) {bms := make([]*Bitmap, 0, len(others)+1)s.RLock()bms = append(bms, s.bitmap)s.RUnlock()for _, other := range others {other.RLock()defer other.RUnlock()bms = append(bms, other.bitmap)}result := FastOr(bms...)s.Lock()s.bitmap = results.Unlock()
}

可以看到当others过多时,会存在相当多的defer函数,在排查中我们发现这个函数的瓶颈来自于defer。

当defer在函数内在8个以上时,会使用堆上分配的方式[2],在允许时执行runtime.deferprocruntime.deferprocruntime.newdefer 会基于go本身的内存分配器获得runtime._defer结构体,这里包含三种路径:

  1. 从调度器的延迟调用缓存池 sched.deferpool 中取出结构体并将该结构体追加到当前 Goroutine 的缓存池中;
  2. 从 Goroutine 的延迟调用缓存池 pp.deferpool 中取出结构体;
  3. 通过 runtime.mallocgc 在堆上创建一个新的结构体;

然后将runtime._defer插入Goroutine _defer 链表的最前面。

在函数结束时runtime.deferreturn 会从 Goroutine 的 _defer 链表中取出最前面的runtime._defer 并调用 runtime.jmpdefer 传入需要执行的函数和参数。

当defer在函数内在8个以下时,在Go 1.14及之后的版本会使用open coded defer[1],简单讲就是会把defer的内容拷贝到栈上,并给函数准备一个FUNCDATA,这样就不存在对象的申请和释放了,性能相当优秀。

在函数内部defer过多时,会大量触发runtime.mallocgc ,用于分配defer对象。

下面的代码模拟了现网场景以及对应优化:

package mainimport ("sync""time""fmt""net/http"_ "net/http/pprof"
)type SeriesIDSet struct {sync.RWMutexbitmap *Bitmap
}type Bitmap struct{}func FastOr(bitmaps ...*Bitmap) *Bitmap {time.Sleep(10 * time.Millisecond)return &Bitmap{}
}func (s *SeriesIDSet) Merge(others ...*SeriesIDSet) {bms := make([]*Bitmap, 0, len(others)+1)s.RLock()bms = append(bms, s.bitmap)s.RUnlock()for _, other := range others {other.RLock()defer other.RUnlock()bms = append(bms, other.bitmap)}result := FastOr(bms...)s.Lock()s.bitmap = results.Unlock()
}func (s *SeriesIDSet) OptimizationMerge(others ...*SeriesIDSet) {bms := make([]*Bitmap, 0, len(others)+1)s.RLock()bms = append(bms, s.bitmap)s.RUnlock()for _, other := range others {other.RLock()bms = append(bms, other.bitmap)}defer func() {for _, other := range others {other.RUnlock()}}()result := FastOr(bms...)s.Lock()s.bitmap = results.Unlock()
}func main() {go func() {http.ListenAndServe("localhost:6060", nil)}()mainSet := &SeriesIDSet{bitmap: &Bitmap{}}var others []*SeriesIDSetcardinality := 5000000for i := 0; i < cardinality; i++ {others = append(others, &SeriesIDSet{bitmap: &Bitmap{}})}startSerial := time.Now()for i := 0; i < 50; i++ {mainSet.Merge(others...)}elapsedSerial := time.Since(startSerial)fmt.Printf("Cardinality %d, Serial Merge took %s\n", cardinality, elapsedSerial)var wg sync.WaitGroupstartConcurrent := time.Now()for i := 0; i < 50; i++ {wg.Add(1)go func() {defer wg.Done()mainSet.Merge(others...)}()}wg.Wait()elapsedConcurrent := time.Since(startConcurrent)fmt.Printf("Cardinality %d, Concurrent Merge took %s\n", cardinality, elapsedConcurrent)startConcurrent = time.Now()for i := 0; i < 50; i++ {mainSet.OptimizationMerge(others...)}elapsedConcurrent = time.Since(startConcurrent)fmt.Printf("Cardinality %d, Serial OptimizationMerge took %s\n", cardinality, elapsedConcurrent)startConcurrent = time.Now()for i := 0; i < 50; i++ {wg.Add(1)go func() {defer wg.Done()mainSet.OptimizationMerge(others...)}()}wg.Wait()elapsedConcurrent = time.Since(startConcurrent)fmt.Printf("Cardinality %d, Concurrent OptimizationMerge took %s\n", cardinality, elapsedConcurrent)
}

开发机器规格32c64g
在这里插入图片描述

可以看到在未优化defer的情况下,并行只比串行快了四倍不到,这证明对象申请的过程存在竞争,多个goroutine互相影响。也符合我们现网的观察。

在优化defer后,并行比串行快了近十倍。

仅串行优化前后性能也差了九倍。

未优化时cpu profile如下:
在这里插入图片描述

结论

这里当然只是在讨论defer。修改是顺便的事情,这只是e = ''的一部分,最终我们使用了更贴合业务的形式将查询性能优化了95%以上。

参考:

  1. open coded defer 是怎么实现的
  2. golang defer原理
  3. golang 内存分配器

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/25199.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

vite常识性报错解决方案

1.导入路径不能以“.ts”扩展名结束。考虑改为导入“xxx.js” 原因&#xff1a;当你尝试从一个以 .ts 结尾的路径导入文件时&#xff0c;ESLint 可能会报告这个错误&#xff0c;因为它期望导入的是 JavaScript 文件&#xff08;.js 或 .jsx&#xff09;而不是 TypeScript 文件&…

coap-emqx:使用libcoap与emqx通信

# emqx开启CoAP网关 请参考【https://blog.csdn.net/chenhz2284/article/details/139562749?spm1001.2014.3001.5502】 # 写一个emqx的客户端程序&#xff0c;不断地往topic【server/1】发消息 【pom.xml】 <dependency><groupId>org.springframework.boot<…

速盾:高防 CC CDN 的优势剖析

在当今数字化的世界中&#xff0c;网络安全和性能优化至关重要。高防 CC CDN 作为一种先进的技术组合&#xff0c;展现出了诸多显著的优势。 首先&#xff0c;高防 CC 部分能够提供强大的抵御 CC 攻击的能力。CC 攻击往往会造成服务器资源的大量消耗&#xff0c;导致正常服务受…

雪花雪花雪花

/* * Project: 0x14_Hash * File Created:Monday, January 18th 2021, 10:21:24 am * Author: Bug-Free * Problem:AcWing 137. 雪花雪花雪花 */ #include <cstdio> #include <cstring> #include <iostream> #include <vector> #define ll long …

开源与新质生产力

在这个信息技术迅猛发展的时代&#xff0c;全球范围内的产业都在经历着深刻的变革。在这样的背景下&#xff0c;“新质生产力”的概念引起了广泛的讨论。无论是已经成为或正努力转型成为新质生产力的企业&#xff0c;都在寻求新的增长动力和竞争优势。作为一名长期从事开源领域…

JavaScript 编程语言【 数据类型】日期和时间

文章目录 日期和时间创建访问日期组件设置日期组件自动校准&#xff08;Autocorrection&#xff09;日期转化为数字&#xff0c;日期差值Date.now()基准测试&#xff08;Benchmarking&#xff09;对字符串调用 Date.parse总结✅任务创建日期显示星期数欧洲的星期表示方法许多天…

数据交换平台_05_ 监控和管理消息队列

数据交换平台_05_ 监控和管理消息队列 目录概述需求:设计思路实现思路分析1.监控和管理消息拓展实现参考资料和推荐阅读Survive by day and develop by night. talk for import biz , show your perfect code,full busy,skip hardness,make a better result,wait for change,…

哈希算法实现

哈希算法概述 哈希算法(Hashing Algorithm)是一种将输入数据映射到固定大小的哈希值的算法,用于高效的查找和插入操作。哈希表(Hash Table)是哈希算法的典型应用,通过哈希函数将键映射到表中的索引位置,从而实现快速的数据存取。 以下是哈希表的一个简单实现,以及如何使…

Linux用户和用户组的管理

目录 前言一、系统环境二、Linux用户组的管理2.1 新增用户组2.2 删除用户组2.3 修改用户组2.4 查看用户组 三、Linux用户的管理3.1 新增用户3.2 删除用户3.3 修改用户3.4 查看用户3.5 用户口令&#xff08;密码&#xff09;的管理 总结 前言 本篇文章介绍如何在Linux系统上实现…

OrangePi Kunpeng Pro深度评测:性能与体验的完美融合

文章目录 一、引言二、硬件开箱与介绍1.硬件清单2.硬件介绍 三、软件介绍四、性能测试1. 功率测试2. cpu测试2.1 单线程cpu测试2.2 多线程cpu测试 五、实际开发体验1. 搭建API服务器2. ONNX推理测试3. 在线推理平台 五、测评总结1. 能与硬件配置2. 系统与软件3. 实际开发体验个…

jQuery:一站式指南

目录 jQuery&#xff1a;一站式指南前言1. jQuery简介1.1 jQuery的历史1.2 jQuery的安装 2. jQuery的核心概念2.1 选择器2.2 操作DOM2.2.1 内容操作2.2.2 属性操作2.2.3 CSS操作2.2.4 DOM结构操作 2.3 事件处理2.3.1 绑定事件2.3.2 事件委托2.3.3 解绑事件 3. jQuery的动画与效…

Unity物体材质属性Offset动态偏移

Unity物体材质属性Offset动态偏移 MeshRenderer mr;float offset;public float scrollSpeed 0.5F;private void Start(){mr GetComponent<MeshRenderer>();}void Update(){offset -Time.time * scrollSpeed;mr.material.mainTextureOffset new Vector2(0, -offset);}…

探索智慧商场的功能架构与应用

在数字化和智能化的浪潮下&#xff0c;智慧商场已经成为零售业的重要发展方向之一。智慧商场系统的功能架构设计与应用&#xff0c;结合了现代信息技术和零售业的实际需求&#xff0c;为商场的管理和运营提供了全新的解决方案。本文将深入探讨智慧商场的功能架构与应用&#xf…

SpringAOP-代理方式-Cglib动态代理

文章目录 cglib动态代理 cglib是基于继承的方式实现的 是继承目标类从而产生代理类 springaop底层使用的就是cglib的动态代理 package com.itheima.cjlibproxy;import net.sf.cglib.proxy.Callback; import net.sf.cglib.proxy.Enhancer; import net.sf.cglib.proxy.MethodI…

matlab---app

一 基础 标签和信号灯没有回调函数 clc,clear,close all %清理命令区、工作区&#xff0c;关闭显示图形 warning off %消除警告 feature jit off %加速代码运行 ysw{i}i %循环赋值 celldisp(ysw) %显示元胞数组ysw.y1{1}[1,2] …

shaderlab 关键点记录

1.C#获取着色器标签的接口 可以使用 Material.GetTag API 从 C# 脚本中读取子着色器标签&#xff0c; 2.常用的标签 subshader的标签 “RenderPipeline” “[name]” //向 Unity 告知此子着色器是否与 URP 或 HDRP 兼容。 值&#xff1a;UniversalRenderPipeline //此…

leetcode够用之java语法

常用方法 Arrays.sort()排序 import java.util.Arrays;public class Main {public static void main(String[] args) {int[] numbers {9, 2, 5, 1, 7, 3};Arrays.sort(numbers);System.out.println(Arrays.toString(numbers)); // 输出: [1, 2, 3, 5, 7, 9]} }获取str中的第…

《软件定义安全》之二:SDN/NFV环境中的安全问题

第2章 SDN/NFV环境中的安全问题 1.架构安全 SDN强调了控制平面的集中化&#xff0c;从架构上颠覆了原有的网络管理&#xff0c;所以SDN的架构安全就是首先要解决的问题。例如&#xff0c;SDN实现中网络控制器相关的安全问题。 1.1 SDN架构的安全综述 从网络安全的角度&…

@BeforeAll 和 @AfterAll 必须是 static 的原因

BeforeAll 和 AfterAll 必须是 static 的原因 执行时机&#xff1a; BeforeAll 方法在所有测试方法之前运行。AfterAll 方法在所有测试方法之后运行。 实例化前/后的执行&#xff1a; 因为 BeforeAll 是在所有测试方法执行之前运行的&#xff0c;所以它在任何一个测试实例创建…

基于springboot的教学管理系统的设计

管理员账户功能包括&#xff1a;系统首页&#xff0c;个人中心&#xff0c;管理员管理&#xff0c;教师管理&#xff0c;学生管理&#xff0c;课程管理 教师账户功能包括&#xff1a;系统首页&#xff0c;个人中心&#xff0c;学生管理&#xff0c;课程管理&#xff0c;课程表…