使用Perf诊断PostgreSQL性能问题

1 编译参数

使用perf获取完整的堆栈信息需要下面几个编译参数:

  • -O0:编译器不做优化
  • -ggdb3:增加了为GDB优化的调试信息,级别是3
  • -g3:增加了调试信息,级别是3
  • -fno-omit-frame-pointer:保留完成的栈帧

但偏向于debug的参数会造成性能降低,生产上也不一定这样编,部分堆栈确实也不妨碍整体性能分析。

一个例子:

./configure --prefix=/pathto --enable-tap-tests --with-tcl --enable-depend --enable-cassert --enable-debug --with-perl --with-openssl --with-libxml CFLAGS="-O0 -ggdb3 -g3 -fno-omit-frame-pointer"

2 函数与地址的关系

perf使用符号表将地址对应到函数名,这里简单总结下函数地址的查看方法。

以exec_simple_query函数为例,这是PG中的一个函数,编译在postgres中,可以使用一些工具拿到函数地址:00000000009f1760

# nm /data02/mingjie/pgroot99/pghome/bin/postgres | grep exec_simple_query
00000000009f1760 t exec_simple_query# readelf -s /data02/mingjie/pgroot99/pghome/bin/postgres | grep exec_simple_query15588: 00000000009f1760  1712 FUNC    LOCAL  DEFAULT   13 exec_simple_query# objdump -t /data02/mingjie/pgroot99/pghome/bin/postgres | grep exec_simple_query
00000000009f1760 l     F .text	00000000000006b0              exec_simple_query

实际运行时,加载到内存中时,因为每个进程有自己的私有内存地址空间,所以函数地址就会用0x9f1760

gdb -p 2591493
(gdb) info address exec_simple_query
Symbol "exec_simple_query" is a function at address 0x9f1760.(gdb) p exec_simple_query
$1 = {void (const char *)} 0x9f1760 <exec_simple_query>(gdb) x/32 0x9f1750
0x9f1750 <pg_plan_queries+331>:	-1065091072	-18971377	-1958150145	-1010173883
0x9f1760 <exec_simple_query>:	-443987883	-521371320	1207959552	-14107255
0x9f1770 <exec_simple_query+16>:	93061119	8198448	266093961	127206838
0x9f1780 <exec_simple_query+32>:	1166540927	-280639781	-2054469632	-216
0x9f1790 <exec_simple_query+48>:	1761970504	1207992691	-14121589	-1991704577
0x9f17a0 <exec_simple_query+64>:	180166	-2048393216	-2147483066	1946213245
0x9f17b0 <exec_simple_query+80>:	1345382405	-1243086848	-402653145	10635
0x9f17c0 <exec_simple_query+96>:	-519730360	1207992077	-521615479	1224736753

在这里插入图片描述

使用pmap查看PG进程后,发现

  1. PG的函数加载到400000 - 11bc000地址范围内
  2. PG的静态库加载到11bc000 - 11bd000地址范围内
  3. PG的全局变量加载到11bd000 - 11d800011d8000 - 2041000地址范围内
  4. 后面是一些malloc、共享内存映射等拿到的地址空间。
  5. 整体用户态空间在0 - ffffffffff600000范围内,高地址放栈、低地址放代码和堆。
# pmap 2591493
2591493:   postgres: mingjie postgres [local] idle
0000000000400000  12020K r-x-- postgres    -- 函数-- 00000000009f1760  1712 FUNC    LOCAL  DEFAULT   13 exec_simple_query00000000011bc000      4K r---- postgres     -- 静态库-- 00000000011bcce0    24 OBJECT  GLOBAL DEFAULT   20 xmlIsDigitGroup@LIBXML2_2.6.0 (6)-- 00000000011bccc0    24 OBJECT  GLOBAL DEFAULT   20 xmlIsExtenderGroup@LIBXML2_2.6.0 (6)-- 00000000011bcd30    24 OBJECT  GLOBAL DEFAULT   20 xmlIsBaseCharGroup@LIBXML2_2.6.0 (6)-- 00000000011bcd20    16 OBJECT  WEAK   DEFAULT   20 in6addr_any@GLIBC_2.2.5 (3)00000000011bd000    108K rw--- postgres     -- 全局变量 extern PGDLLIMPORT ...-- 00000000011c2d4e     1 OBJECT  GLOBAL DEFAULT   24 enable_async_append-- 00000000011c2d5c     4 OBJECT  GLOBAL DEFAULT   24 constraint_exclusion-- 00000000011c2a27     1 OBJECT  GLOBAL DEFAULT   24 log_checkpoints-- 00000000011bcce0    24 OBJECT  GLOBAL DEFAULT   20 xmlIsDigitGroup@LIBXML2_2.6.0 (6)-- 00000000011be9a0     1 OBJECT  GLOBAL DEFAULT   24 synchronize_seqscans-- 00000000011be9d0     4 OBJECT  GLOBAL DEFAULT   24 ParallelWorkerNumber00000000011d8000    216K rw---   [ anon ]   -- 全局变量 extern PGDLLIMPORT ...-- 0000000001207368     1 OBJECT  GLOBAL DEFAULT   25 pg_krb_caseins_users-- 00000000011d8150     4 OBJECT  GLOBAL DEFAULT   25 binary_upgrade_next_array-- 00000000011dd5b8     1 OBJECT  GLOBAL DEFAULT   25 pgstat_track_activities-- 00000000011e2588     8 OBJECT  GLOBAL DEFAULT   25 TopMemoryContext0000000002041000    412K rw---   [ anon ]-- 无
00000000020a8000    916K rw---   [ anon ]-- 无
00007fdb78d2b000    260K rw---   [ anon ]
00007fdb78d6c000   1024K rw-s- PostgreSQL.1707624748
00007fdb78e6c000   2312K rw---   [ anon ]
00007fdb790ae000 326000K rw-s- zero (deleted)
00007fdb8cf0a000   2528K r---- LC_COLLATE
00007fdb8d182000     92K r-x-- libgcc_s-8-20210514.so.1
00007fdb8d199000   2044K ----- libgcc_s-8-20210514.so.1
00007fdb8d398000      4K r---- libgcc_s-8-20210514.so.1
00007fdb8d399000      4K rw--- libgcc_s-8-20210514.so.1
00007fdb8d39a000   1560K r-x-- libstdc++.so.6.0.25
00007fdb8d520000   2044K ----- libstdc++.so.6.0.25
00007fdb8d71f000     48K r---- libstdc++.so.6.0.25
00007fdb8d72b000      4K rw--- libstdc++.so.6.0.25
...
00007ffcd99dc000      8K r-x--   [ anon ]
ffffffffff600000      4K r-x--   [ anon ]total           420376K

3 PERF TOP

准备压测

drop table t1;
create table t1(c1 serial8 primary key, c2 text, c3 timestamp);
insert into t1 select i, md5(random()::text), now() from generate_series(1, 1000000) t(i);

test.sql

\set aid random(1, 1000000)
select * from t1 where c1 = :aid;

压测开始

pgbench -M prepared -nr -P 1 -f test.sql -c 32 -j 32 -T 600

perf top 观测1

注意这里的Overhead全部是Self的,也就是函数自己在采样中出现的百分比。
在这里插入图片描述

perf top -g 观测2

这里会看到Children和Self两列,怎么理解呢?

  • Self:当前函数本身的代码上消耗CPU时间的百分比,不包括它调用的其他函数的时间。
  • Children:当前函数以及它调用的所有函数上消耗的CPU时间的总和的百分比。

如果一个函数的Self时间很高意味着函数本身的代码效率低下。如果一个函数的Children时间很高,但Self时间相对较低,可能意味着它调用的一个或多个子函数是性能瓶颈。

例如下面可以看到AllocSetCheck的Self时间20.09%(注意这里是按Children来排序的)而第一个PostgresMain的Children占用86.47%,但Self只有0.27%,说明PostgresMain本身的占比很低,但他调用的函数占比很高,加起来有86.47%了,其中之一就是AllocSetCheck。
在这里插入图片描述

注意:children的百分比都是相对于parent的百分比,例如:

-   60.00%  A- 30.00%  B- 20.00%  C

函数 A 总执行时间的 60%。这包括它自己的代码执行时间以及它调用的所有函数的执行时间。
函数 B 是 A 的一个子函数,它单独占用了 A 执行时间的 30%。
函数 C 也是 A 的一个子函数,它占用了 A 执行时间的 20%。

4 PERF RECORD / PERF REPORT

一般PG独占物理机时,偏IO的业务不会占用很高的CPU,perf看整机不太好看到瓶颈。一般可以指定观测某个PG进程来确认进程瓶颈点,有没有提升空间。

采样某个进程的情况,采样60秒。

perf record -p 86684 -ag -- sleep 60

大部分信息直接看就好了,没必要火焰图。

  1. 按SELF排序:perf report --no-children
    在这里插入图片描述

  2. 按CHILDREN排序:perf report
    在这里插入图片描述

  3. 按SELF排序展开:perf report --no-children --stdio
    在这里插入图片描述

5 PERF STAT

注意vm上使用会有限制,在物理机上测试。

5.1 场景一:关注CPU使用情况perf stat -d

准备数据:

drop table t1;
create table t1(c1 serial8 primary key, c2 text, c3 timestamp);

开始测试:

perf stat -d -- /usr/bin/psql -h127.0.0.1 -U postgres -p 9999 postgres -c "insert into t1 select i, md5(random()::text), now() from generate_series(1, 1000000) t(i)";
INSERT 0 1000000Performance counter stats for '/usr/bin/psql -h127.0.0.1 -U postgres -p 9999 postgres -c insert into t1 select i, md5(random()::text), now() from generate_series(1, 1000000) t(i)':6.49 msec task-clock                       #    0.002 CPUs utilized             3      context-switches                 #  462.220 /sec                      0      cpu-migrations                   #    0.000 /sec                      474      page-faults                      #   73.031 K/sec                     16,389,325      cycles                           #    2.525 GHz                         (38.37%)14,418,870      instructions                     #    0.88  insn per cycle              (53.78%)3,040,699      branches                         #  468.490 M/sec                       (53.77%)99,270      branch-misses                    #    3.26% of all branches             (53.69%)8,688      L1-dcache-loads                  #  697.749 M/sec                       (30.82%)272,823      L1-dcache-load-misses            #    6.02% of all L1-dcache accesses   (30.82%)95,365      LLC-loads                        #   14.693 M/sec                       (30.89%)28,676      LLC-load-misses                  #   30.07% of all L1-icache accesses   (30.89%)4.111546535 seconds time elapsed0.003017000 seconds user0.003656000 seconds sys

在这里插入图片描述

5.2 场景二:关注L1使用情况perf stat -e

#  perf list | grep L1-dcacheL1-dcache-loads OR cpu/L1-dcache-loads/L1-dcache-load-misses OR cpu/L1-dcache-load-misses/L1-dcache-stores OR cpu/L1-dcache-stores/perf stat -e L1-dcache-loads,L1-dcache-load-misses,L1-dcache-stores -- /usr/bin/psql -h127.0.0.1 -U postgres -p 9999 postgres -c "insert into t1 select i, md5(random()::text), now() from generate_series(1, 1000000) t(i)";

结果

 Performance counter stats for '/usr/bin/psql -h127.0.0.1 -U postgres -p 9999 postgres -c insert into t1 select i, md5(random()::text), now() from generate_series(1, 1000000) t(i)':4,977,428      L1-dcache-loads                                                         (60.90%)231,942      L1-dcache-load-misses            #    4.66% of all L1-dcache accesses   (66.04%)1,978,389      L1-dcache-stores                                                        (73.06%)3.889877294 seconds time elapsed0.003390000 seconds user0.003122000 seconds sys

在这里插入图片描述

5.3 场景三:关注内核调用perf stat -e

注意怎么过滤等于0的事件,否则打印太多。

perf stat -e 'syscalls:*,block:*' -- /usr/bin/psql -h127.0.0.1 -U postgres -p 9999 postgres -c "insert into t1 select i, md5(random()::text), now() from generate_series(1, 1000000) t(i)" 2>&1 | awk '$1 != 0'

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/2881.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

「JavaEE」线程状态

&#x1f387;个人主页&#xff1a;Ice_Sugar_7 &#x1f387;所属专栏&#xff1a;JavaEE &#x1f387;欢迎点赞收藏加关注哦&#xff01; 线程状态 &#x1f349;start 和 run 的区别&#x1f349;终止线程&#x1f349;join & 阻塞状态&#x1f349;线程六大状态 &…

docker 基本命令

目录 一、docker 镜像操作命令 1.1.查询软件镜像 1.2.docker pull&#xff1a;下载镜像 1.3.docker push&#xff1a;上传镜像 1.4.docker images&#xff1a;查看本地镜像 1.5.docker inspect &#xff1a;获取镜像详细信息 1.6.docker tag&#xff1a;添加镜像标签 …

Git:使用conda命令切换虚拟环境

1. 问题 在win10电脑的Git中&#xff0c;无法使用conda list命令&#xff0c;报错&#xff08;bash&#xff1a;conda&#xff1a;command not found&#xff09;。也无法使用conda activate base命令激活虚拟环境&#xff0c;报错&#xff08;bash&#xff1a;conda&#xff…

共享单车数据分析与需求预测项目

注意&#xff1a;本文引用自专业人工智能社区Venus AI 更多AI知识请参考原站 &#xff08;[www.aideeplearning.cn]&#xff09; 项目背景 自动自行车共享系统是传统自行车租赁的新一代&#xff0c;整个会员、租赁和归还过程都变得自动化。通过这些系统&#xff0c;用户可以…

L1-098 再进去几个人 - java

L1-098 再进去几个人 代码长度限制 16 KB 时间限制 400 ms 内存限制 64 MB 栈限制 8192 KB 题目描述&#xff1a; 数学家、生物学家和物理学家坐在街头咖啡屋里&#xff0c;看着人们从街对面的一间房子走进走出。他们先看到两个人进去。时光流逝。他们又看到三个人出来。 物理…

锐捷网络闪耀高博会:智慧教育数字基座引领教育数字化新浪潮

4月15日,第61届中国高等教育博览会(简称“高博会”)在福州盛大开幕,在这次教育高端装备展示、教学改革成果交流、校企云集的行业盛会上,围绕构建智慧教育数字基座,锐捷网络携全场景智慧教育方案亮相,极简以太全光网、高校桌面云、5G多网融合等创新方案纷纷登场,吸引了众多观众驻…

【Python_PySide6学习笔记(三十六)】基于QGroupBox和QScrollArea实现带有滚动条的QGroupBox(分组框)

基于QGroupBox和QScrollArea实现带有滚动条的QGroupBox分组框 基于QGroupBox和QScrollArea实现带有滚动条的QGroupBox(分组框)前言正文1、创建QGroupBox并创建其内部布局2、创建QScrollArea并将QGroupBox设置为其内容3、将QScrollArea添加到主窗口的中心部件的布局中4、完整代码…

Linux实现文件共享

#nfs-utils、rpcbind 软件包来提供 NFS 共享服务 #客户端创建共享文件夹&#xff1a; nmcli c reload nmcli c up ens160 systemctl stop firewalld systemctl disable firewalld rpm -q nfs-utils rpcbind #查看是否安装 systemctl enable rpcbind systemctl enable nfs…

JavaEE初阶之IO流快速顿悟一(超详细)

目录 题外话 正题 IO流 Java.io.FileInputStream int read() int read(byte[] b) 关于异常 Java7的新特性: try-with-resources ( 资源自动关闭) Java.io.FileOutputStream void write(int b) void write(byte[] b) 小结 题外话 十年青铜无人问,一朝顿悟冲王者 前天…

C#控制台相关方法

控制台相关方法 文章目录 控制台输入1、清空2、设置控制台3、设置光标位置&#xff0c;1y 2x4、设置颜色相关5、光标显隐6、关闭控制台思考 移动方块 控制台输入 //如果ReadKey(true)不会把输入的内容显示再控制台上 char c Console.ReadKey(true).KeyChar;1、清空 ​ Cons…

【HarmonyOS4学习笔记】《HarmonyOS4+NEXT星河版入门到企业级实战教程》课程学习笔记(二)

课程地址&#xff1a; 黑马程序员HarmonyOS4NEXT星河版入门到企业级实战教程&#xff0c;一套精通鸿蒙应用开发 &#xff08;本篇笔记对应课程第 3 - 4节&#xff09; P3《开发准备-了解ArkTS》 鸿蒙开发主要是用来开发移动端应用的。 以前我们开发移动端应用的代码&#xff…

Linux 认识与学习Bash——2

1 read 从键盘读取变量的值 read 后面不带变量&#xff0c;那么默认会给REPLY变量赋值 #!/bin/bash echo -n "请输入你的名字&#xff1a;" read name echo "欢迎您 $name" echo "----------------"echo -n "请输入你的名字2&#xff1a;&q…

[MoeCTF-2022]Sqlmap_boy

title:[MoeCTF 2022]Sqlmap_boy 查看网页源代码&#xff0c;得到提示 <!-- $sql select username,password from users where username".$username." && password".$password.";; --> 用万能密码绕过&#xff0c;用’"闭合 爆数据库…

HOOPS Commuicator:基于Web的交互式2D/3D图形轻量化引擎

在当前数字化时代&#xff0c;Web基础的3D应用程序正在成为行业标准&#xff0c;尤其是在工程和制造领域。Tech Soft 3D公司旗下的HOOPS Communicator正是针对这一需求设计的高级解决方案&#xff0c;提供了一套全面的工具&#xff0c;旨在帮助开发者构建复杂的3D工程应用程序。…

Springboot+Vue项目-基于Java+MySQL的图书馆管理系统(附源码+演示视频+LW)

大家好&#xff01;我是程序猿老A&#xff0c;感谢您阅读本文&#xff0c;欢迎一键三连哦。 &#x1f49e;当前专栏&#xff1a;Java毕业设计 精彩专栏推荐&#x1f447;&#x1f3fb;&#x1f447;&#x1f3fb;&#x1f447;&#x1f3fb; &#x1f380; Python毕业设计 &…

【信号处理】基于CNN的心电(ECG)信号分类典型方法实现(tensorflow)

关于 本实验使用1维卷积神经网络实现心电信号的5分类。由于数据类别不均衡&#xff0c;这里使用典型的上采样方法&#xff0c;实现数据类别的均衡化处理。 工具 方法实现 数据加载 Read the CSV file datasets: NORMAL_LABEL0 , ABNORMAL_LABEL1,2,3,4,5 ptbdb_abnormalpd.…

【行为型模式】解释器模式

一、解释器模式概述 解释器模式定义&#xff1a;给分析对象定义一个语言&#xff0c;并定义该语言的文法表示&#xff0c;再设计一个解析器来解释语言中的句子。也就是说&#xff0c;用编译语言的方式来分析应用中的实例。这种模式实现了文法表达式处理的接口&#xff0c;该接口…

代码随想录第三十天|无重叠区间| 划分字母区间| 合并区间

今天三道都是重叠区间问题&#xff0c;重叠区间问题第一步就是先对数组进行排序&#xff0c;才能进行后续操作。 无重叠区间 这一题和昨天的最少多少支箭射爆气球的解法是相同的&#xff0c;判断相邻区间是否重叠&#xff0c;若两个区间重叠了则找出重叠区间最小右边界&#…

怎样用PHP语言实现远程控制三路开关

怎样用PHP语言实现远程控制三路开关呢&#xff1f; 本文描述了使用PHP语言调用HTTP接口&#xff0c;实现控制三路开关&#xff0c;三路开关可控制三路照明、排风扇等电器。 可选用产品&#xff1a;可根据实际场景需求&#xff0c;选择对应的规格 序号设备名称厂商1智能WiFi墙…

C++:模板(初级)

hello&#xff0c;各位小伙伴&#xff0c;本篇文章跟大家一起学习《C&#xff1a;模板&#xff08;初级&#xff09;》&#xff0c;感谢大家对我上一篇的支持&#xff0c;如有什么问题&#xff0c;还请多多指教 &#xff01; 如果本篇文章对你有帮助&#xff0c;还请各位点点赞…