Python 踩坑记 -- 调优

前言

继续解决问题

一个服务运行有点慢,当然 Python 本身不快,如果再编码不当那这个可能就是量级上的劣化。
整个 Code 主线逻辑 1700+,各依赖封装 3000+,主线逻辑也是很久远的痕迹,长函数都很难看清楚一个 if else 的分支块到哪。
主线逻辑理清楚后,剔除其中诸多已失去意义的逻辑和无效操作,但是整体功能运行时常并未缩短,深入看下具体卡点原因。
调优肯定离不开 Profile 工具,参考下官方介绍:Python 性能分析器
简单来说,就是可以,如下命令生成我们的 profile 分析文件

python -m cProfile -o my_script.prof my_script.py

再借助 flameprof 将 分析文件转为火焰图

# 安装
pip install flameprof
# 将上文的 分析文件 my_script.prof 转图片
python flameprof my_script.prof > my_script.svg

性能开销
上图可以看出,主要的性能开销是在 字符串的 splitlines 和 正则的 search 上,层层找下去,定位到 Code 逻辑:

rules = [rule1, rule2, rule3, ...., rule50]
source_text = [text1, text2, text3, ...., text400]def parse_data(text_str):result = {}for rule in rules:do_one_rule(rule, text_str, result)search_objects = re.search(r'some_pattern', text_str)if search_objects:objects = search_objects.group.split('; ')for obj in objects:# do somethingpassdef do_one_rule(rule, test_str, result):for line in test_str.splitlines():data = rule(line)result.update(data)

剔除多余分支,保留核心卡点逻辑,基本能识别出火焰图中卡点的根因了,这段 code 的目的是对文本中的内容做清理,得出想要的数据

  • 在每个 rule 的解析过程中,重复对原始的 test_str 做了 splitlines 的操作,直接就是性能途中一个主要卡点处
  • 正则中的匹配,首先有个不好习惯,没有去 compile pattern,并且 pattern 也是固定的,每次 search 的时都会重复执行 compile
  • 其次,这里的 search 实际功能就是匹配到其中某一行,而后再对该行处理,并且该行有一定特性,完全可以用字符串前缀匹配 和 关键字匹配来达到同样效果
  • 原始的文本 text_str 是由一些很大段的行可以先行剔除,来加速此处的匹配

优化后效果:
在这里插入图片描述
可以看出,主要开销点都没有,直观测试效果是 原始的功能块从 耗时 15s + -> 3s -
找出点了,仿佛也很简单,但是在长久迭代中,随着原始文本的增长,rule 的增多性能会有明显劣化。

内存泄漏

承接前文的的内存泄漏,修复了全局变量后,仍然会出现,内存的 profile 工具推荐 memray https://bloomberg.github.io/memray/getting_started.html,参考文档使用并不复杂。
通过图形基本确定了开销点

程序中会从 DB 读取全表数据,40w+ 行,整体会持续不断去 append 数组,这种不停数组扩容的情形,导致了有部分容量的内存够分配后不回收

Flask 上下文不一致

Flask 框架搭建服务,单个 app,使用了 werkzeug 的工功能来做 request 级别隔离的上下文管理,结果发现内容会串,无法做到 request 级别正确隔离,原始 code 如下

from flask import Flask
from werkzeug.local import Local, LocalManagerlocal_store = Local()
local_manager = LocalManager([local_store])app = Flask(__name__)
app.wsgi_app = local_manager.make_middleware(app.wsgi_app)

Flask 本身推荐了 g 用来做 request 级别的上下文存储,关于 Flask 的上下文 LocalLocalStackLocalProxy 是茫茫多的信息量,得空再细说吧。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/28433.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

设计通用灵活的LabVIEW自动测试系统

为了在不同客户案例中灵活使用不同设备(如采集卡、Modbus模块)且保持功能一致的LabVIEW自动测试系统,需要采用模块化的软件架构、配置文件管理、标准化接口和良好的升级维护策略。本文从软件架构、模块化设计、配置管理、升级维护、代码管理和…

Centos实现Mysql8.4安装及主主同步

8.4的Msyql在同步的时候与之前的版本有很大不同,这里记录一下安装流程 Mysql安装 官网下载 选择自己的版本,选第一个 复制下载链接 在服务器上创建一个msyql目录 使用命令下载,链接换自己的 wget https://dev.mysql.com/get/mysql84-community-relea…

【WEEK16】Learning Objectives and Summaries【Spring Boot】【English Version】

Learning Objectives: Learning SpringBoot Learning Content: Reference video tutorials【狂神说Java】SpringBoot最新教程IDEA版通俗易懂Dubbo and Zookeeper Integration Learning time and outputs: Week16 TUE~FRI 2024.6.11【WEEK16】 【DAY2】Dubbo和Zookeeper集成第…

整理好了!2024年最常见 20 道并发编程面试题(九)

十七、请解释synchronized和volatile关键字在Java中的作用。 在Java中,synchronized和volatile是两个用于控制线程同步和内存可见性的关键字。它们各自有不同的用途和作用范围。 synchronized关键字 synchronized关键字主要用于实现线程同步,确保多个…

python IP 端口 socket tcp 介绍

IP 端口 介绍 1、IP IP地址是分配给网络设备上网使用的数字标签,它能够标识网络中唯一的一台设备 windows环境可以使用 ipconfig 来查看自己的iplinux环境可以使用 ifconfig 来查看自己的ip 2、端口 端口是传输数据的通道,每个操作系统上都有 65535个…

Web前端项目-交互式3D魔方【附源码】

交互式3D魔方 ​ 3D魔方游戏是一款基于网页技术的三维魔方游戏。它利用HTML、CSS和JavaScript前端技术来实现3D效果&#xff0c;并在网页上呈现出逼真的魔方操作体验。 运行效果&#xff1a; 一&#xff1a;index.html <!DOCTYPE html> <html><head><…

绿色版DirectoryOpus功能强大且高度可定制的Windows文件管理器

Directory Opus&#xff08;通常简称为DOpus&#xff09;是一款功能强大且高度可定制的Windows文件管理器。它提供了许多超越Windows默认文件资源管理器&#xff08;Explorer&#xff09;的功能&#xff0c;使得文件和文件夹的管理变得更加高效和直观。以下是对Directory Opus的…

R进阶使用技巧

Introduction 分享一些R进阶使用的技巧&#xff0c;相当于是之前写的R语言学习的实践和总结了。 Online slide: https://asa-blog.netlify.app/R_tips_for_advanced_use_byAsa/R_tips.html 下载slide和相关的各种test文件: https://asa-blog.netlify.app/R_tips_for_advanced…

请解释Java中的volatile关键字的作用和内存可见性原理。什么是Java中的死锁?请解释其产生的原因和避免方法。

请解释Java中的volatile关键字的作用和内存可见性原理。 在Java中&#xff0c;volatile关键字是一个非常重要的修饰符&#xff0c;它主要用于确保多线程环境下变量的可见性和有序性。下面我将详细解释volatile的作用和内存可见性原理。 volatile的作用 可见性&#xff08;Vis…

第7章:系统架构设计基础知识-软件架构风格

由于历史原因&#xff0c;研究者和工程人员对Sofiware Architecture(简称SA)的翻译不尽相同&#xff0c;其软件的“体系结构”和“架构”具有相同的含义。 系统架构其实就是系统的结构&#xff0c;系统架构设计其实就是要给相关利益方说清楚通过什么样的结构来解决需求中功能和…

GTK tutorial 十三

Spin Buttons Spin Button用于让用户在一个范围内的数值中选择一个数字。它包含一个text entry box,并且在entry box旁边有用于上下翻的箭头按钮。entry box也能够直接被编辑。 下面举例说明其用法。 程序运行结果&#xff1a; /**spinbutton.c/ #include<stdio.h> #i…

Java并发自测题

文章目录 一、什么是线程和进程?线程与进程的关系,区别及优缺点&#xff1f;二、为什么要使用多线程呢?三、说说线程的生命周期和状态?四、什么是线程死锁?如何预防和避免线程死锁?五、synchronized 关键字六、并发编程的三个重要特性七、JMM &#xff08;Java Memory Mod…

上海计算机考研避雷,25考研慎报

上大计算机一直很热 408考研er重来没有让我失望过&#xff0c;现在上大的专业课是11408&#xff0c;按理说&#xff0c;这个专业课的难度是很高的&#xff0c;但是408er给卷出了新高度&#xff0c;大家可以去上大官网看看今年最新的数据&#xff0c;我也帮大家统计了24年最新的…

灾备建设中虚拟机细粒度恢复的含义及技术使用

灾备建设中为了考虑虚拟机恢复的效率与实际的用途&#xff0c;在恢复上出了普通的恢复虚拟机&#xff0c;也有其余的恢复功能&#xff0c;比如瞬时恢复&#xff0c;细粒度恢复等。这里谈的就是细粒度恢复。 首先细粒度恢复是什么&#xff0c;这个恢复可以恢复单个备份下来的文…

Git学习记录v1.0

1、常用操作 git clonegit configgit branchgitt checkoutgit statusgit addgit commitgit pushgit pullgit loggit tag 1.1 git clone 从git服务器拉取代码 git clone https://gitee.com/xxx/studyJava.git1.2 git config 配置开发者用户名和邮箱 git config user.name …

堆的基本概念

堆 堆是一个完全二叉树 完全二叉树的要求&#xff0c;除了最后一层&#xff0c;其他层的节点个数都是满的&#xff0c;最后一层的节点都靠左排列 堆中每一个节点的值都必须大于等于(或小于等于)其子树中每个节点的值 堆中每个节点的值都大于等于(或者小于等于)其左右子节点的值…

【React】Profiler作用是什么,怎么使用?

React的Profiler是一个内置的工具,主要用于帮助开发者检测和分析React应用中的性能瓶颈。以下是关于React Profiler的详细作用和使用方法: 作用: 性能分析:Profiler可以帮助你了解组件渲染所花费的时间,并提供有关哪些组件需要进行优化的信息。数据收集:它可以测量组件的…

RAG下的prompt编写探索

针对特定领域的回答,编写抽象的prompt需要在细节和灵活性之间找到平衡。我们需要一个既能涵盖普遍步骤又能适应不同问题的框架。以下是如何在这种情况下编写抽象prompt的方法,以及适用于各种技术领域的通用策略。 一、编写抽象Prompt的通用策略 定义用户问题和背景信息: 明…

Semantic Kernel 和 LangChain 如何选择?

选择 Semantic Kernel 还是 LangChain 取决于你特定的应用需求和技术偏好。以下是这两者的一些关键点和对比&#xff0c;可以帮助你做出决策&#xff1a; Semantic Kernel 1、优点&#xff1a; 集成性强&#xff1a;Semantic Kernel 是由微软开发的&#xff0c;专为与 Azure…

不同高速协议接口之间共享时钟

文章目录 前言1、万兆网给8B10B PHY共享2、8B10B PHY给万兆网共享3、综合实现4、总结4.1、上板验证4.1.1、第一路数据&#xff1a;万兆网4.1.2、第二路数据&#xff1a;8B10B PHY 前言 一个GT BANK有四个GT channel&#xff0c;他们之间是可以共享同一个QPLL输出参考时钟&…