加载速度提升 15%,关于 Python 启动加速探索与实践的解析

编者按:在刚刚结束的 PyCon China 2022 大会上,龙蜥社区开发者严懿宸分享了主题为《Python 启动加速的探索与实践》的技术演讲。本次演讲,作者将从 CPython 社区相关工作、本方案的设计及实现,以及业务层面的集成等方面进行介绍。

以下为本次演讲内容:

一、Python 启动速度简析

首先从一个 Python 3 中空解释器启动时间的好事分析开始。我们可以看到,主要的耗时都和 Python 包加载有关。

其中,CPU 时间中包加载占据了 30% 左右的时间;而 37% 的等待时间中,磁盘 IO 等花费的时间也和包加载有较大的关联。

熟悉 Python 机制的朋友大概知道,Python 中加载一个包首先会搜索对应的 pyc 文件,这是一种序列化的字节码格式。找到之后会对其进行反序列化,并执行其中的代码。如对应的 pyc 文件不存在,会重新编译 py 文件得到字节码,并序列化为 pyc 文件持久化保存。我们优化的主要目标主要集中在加载包这个过程,希望能够至少免去每次查找、读取、反序列化的开销。

以 Python3.10 为例,这里是使用 python 解释器启动一个空语句的所需时间,同时使用了 -Ximporttime 打印出过程中加载每一个包的耗时。可以粗略地看到,包加载时间大约占了总时间的 30% 左右。我们发现这种情况和 Java 虚拟机类似。在 Java 中,Java 会首先将 Java 源代码编译为 Java 字节码,随后由 Java 命令执行。

我们知道 Java 的优势并不包括启动速度,这种流程也是原因之一。

那么 Java 如何部分解决这个问题呢?

二、PyCDS (代码对象共享)设计与实现

Java 中有一个叫做 CDS/AppCDS 的机制,通过将 Java 字节码和一些辅助数据持久化保存,在后续启动时使用 mmap 加载,节约了磁盘 IO 和解析验证 class 文件的开销。

很自然的想法是,如果我们希望在 Python 中使用类似的技术,目标应该是 Python 字节码

Python 默认从 py 文件导入模块的逻辑如上图左边所示,首先根据制定的名字获取对应的规则,随后尝试寻找 pyc 文件或重新编译。最后,使用 exec 命令利用代码和一个空 dict 来创建模块,并加入 runtime。

我们做的事情可以简化为右侧逻辑。同样根据包名,尝试从 mmap 中加载。如果成功,那么同样的 codeobject 也可以用于初始化。

这样做有什么直接的障碍?

可以看到,Python 中代码对象的 C 数据结构大致如图,包括 consts、string、bytes 等 Python 数据类型。

以使用到的 codeobject 作为 root,将涉及的数据序列化存储到内存映射中。

在这一步,最直接的问题是内存随机化机制。在处理 code object 中的 Python 对象时,每个 Python 对象头中都保存着指向当前进程中对应类型信息的指针。Runtime 通过这个指针判断该对象在 Python 中的类型。

以 PyCode_Type 为例,如果不做处理,这里会丢失类型信息(红色 offset)。

为了解决这个问题,在我们创建的镜像文件中会保存涉及的对象指针。在加载时动态 patch 相关的指针。

在整个过程中涉及的 Python 类型包括

1. 常量(bool/None/ellipsis)

2. 字面量(float/complex)

3. 需要额外分配的变量(long/bytes/str)

4. container(tuple/frozenset)

对于常量和字面量,在内存映射中分配好空间后直接赋值即可保存;对于后两种,需要模拟 Python 中变量初始化的逻辑,创建合适的内存大小并写入对应位置。同时,对于非常量的类型,还需要对内存映射中的引用计数额外赋值,防止意外触发 Python 中的回收。

以上就是本项目的大致内容,另外关于项目的具体用法请前往 PyCDS 项目主页或我们在龙蜥实验室上的课程查看,链接见下:

龙蜥实验室课程:https://lab.openanolis.cn/#/apply/chapters?courseId=117

PyCDS 主页:https://github.com/alibaba/code-data-share-for-python

原文链接

本文为阿里云原创内容,未经允许不得转载。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/510336.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

统信软件高级工程师:关于云原生技术在容器方面的应用介绍

编者按:随着近几年来云原生生态的不断壮大,众多企业纷纷开展了用云上云的工作,学习云原生及容器技术对于现代工程师是必不可少的。本文整理自龙蜥大讲堂 54 期,统信高级研发工程师参与技术分享,为大家介绍了云原生的介…

sdut 区间覆盖问题

区间覆盖问题 Time Limit: 1000MS Memory Limit: 65536KBSubmit Statistic DiscussProblem Description 用i来表示x坐标轴上坐标为[i-1,i]的长度为1的区间,并给出n(1≤n≤200)个不同的整数,表示n个这样的区间。 现在要…

opencv mat数据剪裁感兴趣的部分处理方法

Mat srcImage_r imread("c_d_right.jpg",1);Mat srcImage_l imread("c_d_left.jpg",1);Mat vv(srcImage_r,Rect(10,10,100,100));imshow("vv", vv);

解读最佳实践:倚天710 ARM芯片的 Python+AI 算力优化

编者按:在刚刚结束的 PyCon China 2022 大会上,龙蜥社区开发者朱宏林分享了主题为《ARM 芯片的 PythonAI 算力优化》的技术演讲。本次演讲,作者将向大家介绍他们在倚天 710 ARM 芯片上开展的 PythonAI 优化工作,以及在 ARM 云平台…

从敏捷协作到价值交付

前面我的同事在分享的时候,指出目前软件研发的最大问题不是效率,而是研发资源的浪费。可能产品经理半天写的需求,开发要埋头苦干三个月。如果错误的选择了一个对业务发展无益的需求,会带着大家往错误的方向越跑越远。 那么什么是…

opencv实现几幅图像拼接成一整幅大图

opencv实现几幅图像拼接成一整幅大图 标签: 博客opencv 2013-10-22 12:05 9846人阅读 评论(3) 收藏 举报 本文章已收录于: 分类: opencv(14) 作者同类文章X版权声明:本文为博主原创文章,未…

行动策略过于复杂怎么办?试试下面一些解决方法

背景 随着使用SLS告警越来越深入,有些用户的行动策略会配置的特别复杂,有些时候可以让用户通过创建多个行动策略来进行一定的精简,但是在一些场景下,用户是无法创建多个行动策略的。例如用户想要通过SLS来统一管理其各个监控系统…

从效能公式解构研发效能

这几年,云原生、Web3.0、元宇宙等技术的出现和应用,正在深刻地改变着我们这个世界。以数字技术应用为主线的数字化转型是此次人类文明变革的核心动力。在这一变革过程中,软件研发模式的发展起到了重至关重要的作用。从早期瀑布式、精益敏捷、…

sdut 汉诺塔系列2

汉诺塔系列2 Time Limit: 1000MS Memory Limit: 65536KBSubmit Statistic DiscussProblem Description 用1,2,...,n表示n个盘子,称为1号盘,2号盘,...。号数大盘子就大。经典的汉诺塔问 题经常作为一个递归的经典例题存在。可能有人并不知道汉诺塔问题的典…

阿里CCO:基于 Hologres 的亿级明细 BI 探索分析实践

CCO是Chief Customer Officer的缩写,也是阿里巴巴集团客户体验事业部的简称。随着业务的多元化发展以及行业竞争的深入,用户体验问题越来越受到关注。CCO体验业务运营小二日常会大量投入在体验洞察分析中,旨在通过用户的声音数据结合交易、物…

ubuntu软件安装 caffe相关软件安装 学习笔记

解压rar文件sudo 7z x filename.rar解压zip文件unzip archive_name.zip解压TAR文件# tar -cvf archive_name.tar directory_to_compress运行ssdsudo sucd caffepython ///caffe出现no mudole caffe解决方法source /etc/profile编译caffemake cleanmake all -j8获得复制文件权限…

sdut 青蛙过河

青蛙过河 Time Limit: 1000MS Memory Limit: 65536KBSubmit Statistic DiscussProblem Description 1)一条小溪尺寸不大,青蛙可以从左岸跳到右岸,在左岸有一石柱L,石柱L面积只容得下一只青蛙落脚,同样右岸也有一石柱R&…

python调用shell脚本

python程序 import osimport subprocessimport syswhile(1):subprocess.call("/home/your_host_name/caffe/detection_position/test_code/new/call_parse_position.sh", shellTrue) call_parse_position.sh 文件 #!/bin/bash # # #gcc m1.cpp -o m1_run echo &…

sdut 数字三角形问题

数字三角形问题 Time Limit: 1000MS Memory Limit: 65536KBSubmit Statistic DiscussProblem Description 给定一个由n行数字组成的数字三角形如下图所示。试设计一个算法,计算出从三角形的顶至底的一条路径,使该路径经过的数字总和最大。对于给定的由n行…

caffe编译出现 libcudart.so.8.0 cannot open shared object file: No such file or directory的错去

"libcudart.so.8.0 cannot open shared object file: No such file or directory"解决办法是将一些文件复制到/usr/local/lib文件夹下:#注意自己CUDA的版本号!sudo cp /usr/local/cuda-8.0/lib64/libcudart.so.8.0 /usr/local/lib/libcudart.s…

sdut 装船问题

装船问题 Time Limit: 1000MS Memory Limit: 65536KBSubmit Statistic DiscussProblem Description 王小二毕业后从事船运规划工作,吉祥号货轮的最大载重量为M吨,有10种货物可以装船。第i种货物有wi吨,总价值是pi。王小二的任务是从10种货物中…

SSD( Single Shot MultiBox Detector)关键源码解析

SSD(SSD: Single Shot MultiBox Detector)是采用单个深度神经网络模型实现目标检测和识别的方法。如图0-1所示,该方法是综合了Faster R-CNN的anchor box和YOLO单个神经网络检测思路(YOLOv2也采用了类似的思路,详见YOLO…

sdut 删数问题

删数问题 Problem Description 键盘输入一个高精度的正整数n(≤100位),去掉其中任意s个数字后剩下的数字按照原来的左右次序组成一个新的正整数。编程对给定的n与s,寻找一种方案,使得剩下的数字组成的新数最小。Input …

爬取百度搜索的图片

#encoding:utf-8import urllibimport requests #首先导入库import reMaxSearchPage 20 # 收索页数CurrentPage 0 # 当前正在搜索的页数DefaultPath "/home/mindfusion/pic" # 默认储存位置NeedSave 0 # 是否需要储存n0def imageFiler(content): # 通过正则获取当…

sdut 活动选择问题

活动选择问题 Time Limit: 1000MS Memory Limit: 65536KBSubmit Statistic DiscussProblem Description sdut 大学生艺术中心每天都有n个活动申请举办,但是为了举办更多的活动,必须要放弃一些活动,求出每天最多能举办多少活动。Input 输入包括…