Python 踩坑记 -- 调优

前言

继续解决问题

一个服务运行有点慢,当然 Python 本身不快,如果再编码不当那这个可能就是量级上的劣化。
整个 Code 主线逻辑 1700+,各依赖封装 3000+,主线逻辑也是很久远的痕迹,长函数都很难看清楚一个 if else 的分支块到哪。
主线逻辑理清楚后,剔除其中诸多已失去意义的逻辑和无效操作,但是整体功能运行时常并未缩短,深入看下具体卡点原因。
调优肯定离不开 Profile 工具,参考下官方介绍:Python 性能分析器
简单来说,就是可以,如下命令生成我们的 profile 分析文件

python -m cProfile -o my_script.prof my_script.py

再借助 flameprof 将 分析文件转为火焰图

# 安装
pip install flameprof
# 将上文的 分析文件 my_script.prof 转图片
python flameprof my_script.prof > my_script.svg

性能开销
上图可以看出,主要的性能开销是在 字符串的 splitlines 和 正则的 search 上,层层找下去,定位到 Code 逻辑:

rules = [rule1, rule2, rule3, ...., rule50]
source_text = [text1, text2, text3, ...., text400]def parse_data(text_str):result = {}for rule in rules:do_one_rule(rule, text_str, result)search_objects = re.search(r'some_pattern', text_str)if search_objects:objects = search_objects.group.split('; ')for obj in objects:# do somethingpassdef do_one_rule(rule, test_str, result):for line in test_str.splitlines():data = rule(line)result.update(data)

剔除多余分支,保留核心卡点逻辑,基本能识别出火焰图中卡点的根因了,这段 code 的目的是对文本中的内容做清理,得出想要的数据

  • 在每个 rule 的解析过程中,重复对原始的 test_str 做了 splitlines 的操作,直接就是性能途中一个主要卡点处
  • 正则中的匹配,首先有个不好习惯,没有去 compile pattern,并且 pattern 也是固定的,每次 search 的时都会重复执行 compile
  • 其次,这里的 search 实际功能就是匹配到其中某一行,而后再对该行处理,并且该行有一定特性,完全可以用字符串前缀匹配 和 关键字匹配来达到同样效果
  • 原始的文本 text_str 是由一些很大段的行可以先行剔除,来加速此处的匹配

优化后效果:
在这里插入图片描述
可以看出,主要开销点都没有,直观测试效果是 原始的功能块从 耗时 15s + -> 3s -
找出点了,仿佛也很简单,但是在长久迭代中,随着原始文本的增长,rule 的增多性能会有明显劣化。

内存泄漏

承接前文的的内存泄漏,修复了全局变量后,仍然会出现,内存的 profile 工具推荐 memray https://bloomberg.github.io/memray/getting_started.html,参考文档使用并不复杂。
通过图形基本确定了开销点

程序中会从 DB 读取全表数据,40w+ 行,整体会持续不断去 append 数组,这种不停数组扩容的情形,导致了有部分容量的内存够分配后不回收

Flask 上下文不一致

Flask 框架搭建服务,单个 app,使用了 werkzeug 的工功能来做 request 级别隔离的上下文管理,结果发现内容会串,无法做到 request 级别正确隔离,原始 code 如下

from flask import Flask
from werkzeug.local import Local, LocalManagerlocal_store = Local()
local_manager = LocalManager([local_store])app = Flask(__name__)
app.wsgi_app = local_manager.make_middleware(app.wsgi_app)

Flask 本身推荐了 g 用来做 request 级别的上下文存储,关于 Flask 的上下文 LocalLocalStackLocalProxy 是茫茫多的信息量,得空再细说吧。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/28433.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

设计通用灵活的LabVIEW自动测试系统

为了在不同客户案例中灵活使用不同设备(如采集卡、Modbus模块)且保持功能一致的LabVIEW自动测试系统,需要采用模块化的软件架构、配置文件管理、标准化接口和良好的升级维护策略。本文从软件架构、模块化设计、配置管理、升级维护、代码管理和…

Centos实现Mysql8.4安装及主主同步

8.4的Msyql在同步的时候与之前的版本有很大不同,这里记录一下安装流程 Mysql安装 官网下载 选择自己的版本,选第一个 复制下载链接 在服务器上创建一个msyql目录 使用命令下载,链接换自己的 wget https://dev.mysql.com/get/mysql84-community-relea…

Web前端项目-交互式3D魔方【附源码】

交互式3D魔方 ​ 3D魔方游戏是一款基于网页技术的三维魔方游戏。它利用HTML、CSS和JavaScript前端技术来实现3D效果&#xff0c;并在网页上呈现出逼真的魔方操作体验。 运行效果&#xff1a; 一&#xff1a;index.html <!DOCTYPE html> <html><head><…

绿色版DirectoryOpus功能强大且高度可定制的Windows文件管理器

Directory Opus&#xff08;通常简称为DOpus&#xff09;是一款功能强大且高度可定制的Windows文件管理器。它提供了许多超越Windows默认文件资源管理器&#xff08;Explorer&#xff09;的功能&#xff0c;使得文件和文件夹的管理变得更加高效和直观。以下是对Directory Opus的…

R进阶使用技巧

Introduction 分享一些R进阶使用的技巧&#xff0c;相当于是之前写的R语言学习的实践和总结了。 Online slide: https://asa-blog.netlify.app/R_tips_for_advanced_use_byAsa/R_tips.html 下载slide和相关的各种test文件: https://asa-blog.netlify.app/R_tips_for_advanced…

GTK tutorial 十三

Spin Buttons Spin Button用于让用户在一个范围内的数值中选择一个数字。它包含一个text entry box,并且在entry box旁边有用于上下翻的箭头按钮。entry box也能够直接被编辑。 下面举例说明其用法。 程序运行结果&#xff1a; /**spinbutton.c/ #include<stdio.h> #i…

Java并发自测题

文章目录 一、什么是线程和进程?线程与进程的关系,区别及优缺点&#xff1f;二、为什么要使用多线程呢?三、说说线程的生命周期和状态?四、什么是线程死锁?如何预防和避免线程死锁?五、synchronized 关键字六、并发编程的三个重要特性七、JMM &#xff08;Java Memory Mod…

上海计算机考研避雷,25考研慎报

上大计算机一直很热 408考研er重来没有让我失望过&#xff0c;现在上大的专业课是11408&#xff0c;按理说&#xff0c;这个专业课的难度是很高的&#xff0c;但是408er给卷出了新高度&#xff0c;大家可以去上大官网看看今年最新的数据&#xff0c;我也帮大家统计了24年最新的…

灾备建设中虚拟机细粒度恢复的含义及技术使用

灾备建设中为了考虑虚拟机恢复的效率与实际的用途&#xff0c;在恢复上出了普通的恢复虚拟机&#xff0c;也有其余的恢复功能&#xff0c;比如瞬时恢复&#xff0c;细粒度恢复等。这里谈的就是细粒度恢复。 首先细粒度恢复是什么&#xff0c;这个恢复可以恢复单个备份下来的文…

Git学习记录v1.0

1、常用操作 git clonegit configgit branchgitt checkoutgit statusgit addgit commitgit pushgit pullgit loggit tag 1.1 git clone 从git服务器拉取代码 git clone https://gitee.com/xxx/studyJava.git1.2 git config 配置开发者用户名和邮箱 git config user.name …

堆的基本概念

堆 堆是一个完全二叉树 完全二叉树的要求&#xff0c;除了最后一层&#xff0c;其他层的节点个数都是满的&#xff0c;最后一层的节点都靠左排列 堆中每一个节点的值都必须大于等于(或小于等于)其子树中每个节点的值 堆中每个节点的值都大于等于(或者小于等于)其左右子节点的值…

不同高速协议接口之间共享时钟

文章目录 前言1、万兆网给8B10B PHY共享2、8B10B PHY给万兆网共享3、综合实现4、总结4.1、上板验证4.1.1、第一路数据&#xff1a;万兆网4.1.2、第二路数据&#xff1a;8B10B PHY 前言 一个GT BANK有四个GT channel&#xff0c;他们之间是可以共享同一个QPLL输出参考时钟&…

【深度学习量化交易1】一个金融小白尝试量化交易的设想、畅享和遐想

关注我的朋友们可能知道&#xff0c;我经常在信号处理的领域出没&#xff0c;时不时会发一些信号处理、深度学习科普向的文章。 不过算法研究久了&#xff0c;总想做一些更有趣的事情。 比如用深度学习算法赚大钱。。毕竟有什么事情能比暴富更有意思呢。 一、神经网络与彩票…

【linux】Linux分析cpu问题

CPU使用率高怎么分析&#xff1a; 首先先看哪些线程占用资源高看每个线程在干啥&#xff08;类似windows系统的任务管理器&#xff09; 步骤&#xff1a; 定位应用进程 pid jps -l # 查看进程找到线程 tid top -Hp {pid}将 tid 转换成十六进制 printf "%x\n" {…

【loguru】【notifiers】配置ERROR级别邮件发送通知

完整代码 from loguru import logger from notifiers import get_notifier# 获取电子邮件通知器 notifier get_notifier("email")# 配置电子邮件通知参数 email_params {"username": "xxxxx163.com", # 发送邮件的用户名&#xff0c;我这里用…

数字孪生技术如何赋能智慧工厂

数字孪生技术为什么能在智慧工厂中发挥作用&#xff1f;随着工业4.0的推进和智能制造的普及&#xff0c;数字孪生技术成为智慧工厂的重要推动力。数字孪生是指在虚拟空间中创建一个与现实物理实体相对应的数字模型&#xff0c;通过实时数据交互和分析&#xff0c;实现对物理实体…

Kafka高频面试题整理

文章目录 1、什么是Kafka?2、kafka基本概念3、工作流程4、Kafka的数据模型与消息存储机制1)索引文件2)数据文件 5、ACKS 机制6、生产者重试机制:7、kafka是pull还是push8、kafka高性能高吞吐的原因1&#xff09;磁盘顺序读写&#xff1a;保证了消息的堆积2&#xff09;零拷贝机…

【java分布式计算】控制反转和依赖注入(DI IOC AOP)

考试要求&#xff1a;了解控制反转的基本模式&#xff0c;用依赖注入编写程序 目录 控制反转&#xff08;Inversion of Control, IOC&#xff09;&#xff1a; 依赖注入&#xff08;Dependency Injection, DI&#xff09;&#xff1a; 依赖注入的三种实现方式 具体的例子 …

LoadBalance客户端负载均衡

1. 前言Ribbon Spring Cloud Ribbon是基于Netflix Ribbon实现的一套客户端 负载均衡的工具。简单的说&#xff0c;Ribbon是Netflix发布的开源项目&#xff0c;主要功能是提供客户端的软件负载均衡算法和服务调用。Ribbon客户端组件提供一系列完善的配置项如连接超时&#xff0…

Intel平台,13600KF+3060Ti,虚拟机安装macOS 14(2024年6月)

距离上次装macOS虚拟机已经有一段时间了&#xff0c;macOS系统现在大版本升级的速度也是越来越快了&#xff0c;由于Office只支持最新三个版本的macOS&#xff0c;所以现在保底也得安装macOS 12了&#xff0c;我这次是用macOS 14做实验&#xff0c;13和12的安装方式和macOS 14一…