生成html_听说你不会用Python将字符串生成PDF?来,我教你!

d1e0547891db8d0aa743795512b818d0.png

这是恋习Python推荐的第118篇好文

来源:Python爬虫与算法

作者:jclian

  笔者在今天的工作中,遇到了一个需求,那就是如何将Python字符串生成PDF。比如,需要把Python字符串‘这是测试文件’生成为PDF, 该PDF中含有文字‘这是测试文件’。

  经过一番检索,笔者决定采用wkhtmltopdf这个软件,它可以将HTML转化为PDF。wkhtmltopdf的访问网址为:https://wkhtmltopdf.org/downloads.html ,读者可根据自己的系统下载对应的文件并安装。安装好wkhtmltopdf,我们再安装这个软件的Python第三方模块——pdfkit,安装方式如下:

pip install pdfkit

  我们再讨论如下问题:

  • 如何将Python字符串生成PDF;

  • 如何生成PDF中的表格;

  • 解决PDF生成速度慢的问题。

如何将Python字符串生成PDF

  该问题的解决思路还是利用将Python字符串嵌入到HTML代码中解决,注意换行需要用标签,示例代码如下:

import pdfkit

# PDF中包含的文字
content = '这是一个测试文件。' + '
' + 'Hello from Python!'

html = '' \
       '

%s

'%content

# 转换为PDF
pdfkit.from_string(html, './test.pdf')

输出的结果如下:

Loading pages (1/6)
Counting pages (2/6)                                               
Resolving links (4/6)                                                       
Loading headers and footers (5/6)                                           
Printing pages (6/6)
Done

生成的test.pdf如下:

f693ee62cf710ef44e5321c66b5638d9.png
生成的PDF

如何生成PDF中的表格

  接下来我们考虑如何将csv文件转换为PDF中的表格,思路还是利用HTML代码。示例的iris.csv文件(部分)如下:

29679d5e74bd2bf28b4e5ebb142a002a.png
iris.csv(部分)

  将csv文件转换为PDF中的表格的Python代码如下:

import pdfkit

# 读取csv文件
with open('iris.csv', 'r') as f:
    lines = [_.strip() for _ in f.readlines()]

# 转化为html中的表格样式
td_width = 100
content = '
' % (td_width*len(lines[0].split(',')))for i in range(len(lines)):
    tr = ''+''.join(['%s'%(td_width, _) for _ in lines[i].split(',')])+''
    content += tr
content += ''

html = '' \
       '
%s
' % content

# 转换为PDF
pdfkit.from_string(html, './iris.pdf')

  生成的PDF文件为iris.pdf,部分内容如下:

247dfa3391eefea019d159ada9e84c42.png
生成的pdf文件

解决PDF生成速度慢的问题

  用pdfkit生成PDF文件虽然方便,但有一个比较大的缺点,那就是生成PDF的速度比较慢,这里我们可以做个简单的测试,比如生成100份PDF文件,里面的文字为“这是第*份测试文件!”。Python代码如下:

import pdfkit
import time

start_time = time.time()

for i in range(100):
    content = '这是第%d份测试文件!'%(i+1)
    html = '' \
           '
%s
' % content

    # 转换为PDF
    pdfkit.from_string(html, './test/%s.pdf'%(i+1))

end_time = time.time()

print('一共耗时:%s 秒.' %(end_time-start_time))

在这个程序中,生成100份PDF文件一共耗时约192秒。输出结果如下:

......
Loading pages (1/6)
Counting pages (2/6)                                               
Resolving links (4/6)                                                       
Loading headers and footers (5/6)                                           
Printing pages (6/6)
Done                                                                      
一共耗时:191.9226369857788 秒.

  如果想要加快生成的速度,我们可以使用多线程来实现,主要使用concurrent.futures模块,完整的Python代码如下:

import pdfkit
import time
from concurrent.futures import ThreadPoolExecutor, wait, ALL_COMPLETED

start_time = time.time()

# 函数: 生成PDF
def convert_2_pdf(i):
    content = '这是第%d份测试文件!'%(i+1)
    html = '' \
           '
%s
' % content

    # 转换为PDF
    pdfkit.from_string(html, './test/%s.pdf'%(i+1))


# 利用多线程生成PDF
executor = ThreadPoolExecutor(max_workers=10)  # 可以自己调整max_workers,即线程的个数
# submit()的参数: 第一个为函数, 之后为该函数的传入参数,允许有多个
future_tasks = [executor.submit(convert_2_pdf, i) for i in range(100)]
# 等待所有的线程完成,才进入后续的执行
wait(future_tasks, return_when=ALL_COMPLETED)

end_time = time.time()
print('一共耗时:%s 秒.' %(end_time-start_time))

在这个程序中,生成100份PDF文件一共耗时约41秒,明显快了很多~

觉得有用,点个在看呗!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/245192.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

大学计算机基础python第二次作业_python第二次作业-titanic数据集练习

一、读入titanic.xlsx文件,按照教材示例步骤,完成数据清洗。 titanic数据集包含11个特征,分别是: Survived:0代表死亡,1代表存活 Pclass:乘客所持票类,有三种值(1,2,3) Name:乘客姓名 Sex:乘客性别 Age:乘客…

大一计算机上机试题2017,2017历年全国计算机二级ACCESS上机试题及答案

可通过实际操作,锻炼Access的学习能力,动手能力,编程思想锻炼等,也可以作为access 数据库国际二级考试使用呢历年Access操作试题解析(2017.5.8整理,可能为2015年以前的)第一套一、基本操作题(计30分)(1)新建数据库"学生.mdb",将考生文件夹中的…

怎么做手机的上下滑动_手机视频恢复怎么做?删除时间较久的找回方法

手机视频恢复?话说到手机视频误删的情况对于一些用户来说是常态,手机视频多又杂,经常全选删除,不小心多选了没有发现就给一起删除了!事隔多个月以后突然要用到,却怎么也找不到了,最近删除相册也…

大唐发电厂计算机考试题,全国计算机等级考试上机考试与题库解析:一级B

全国计算机等级考试上机考试与题库解析:一级B语音编辑锁定讨论上传视频《全国计算机等级考试上机考试与题库解析一级B》是2011年北京邮电大学出版社出版的图书。本书在研究历年上机真题(库)的基础上,将常考题型提炼出来,对其进行了细致深入的…

opencv利用矩形框选中某一区域_【从零学习OpenCV】4Ubuntu系统中安装OpenCV 4

经过几个月的努力,小白终于完成了市面上第一本OpenCV 4入门书籍《从零学习OpenCV 4》。为了更让小伙伴更早的了解最新版的OpenCV 4,小白与出版社沟通,提前在公众号上连载部分内容,请持续关注小白。Ubuntu系统中安装OpenCV 4前面我…

python中str和int区别_python中eval与int的区别浅析

python中eval和int的区别是什么&#xff1f;下面给大家介绍一下: 1.eval()函数 eval(<字符串>)能够以Python表达式的方式解析并执行字符串&#xff0c;并将返回结果输出。eval()函数将去掉字符串的两个引号&#xff0c;将其解释为一个变量。 作用&#xff1a; a. 处理数字…

英伟达最大gpu_英伟达正式发布Ampere架构GPU,完成史上最大性能飞跃

PingWest品玩5月14日讯&#xff0c;在GTC 2020线上发布会上&#xff0c;英伟达CEO黄仁勋正式推出了安培(Ampere)架构GPU。据其表示&#xff0c;这块芯片采用7nm工艺&#xff0c;540亿晶体管&#xff0c;20倍AI算力&#xff0c;实现5大技术创新。黄仁勋表示&#xff0c;“这是英…

学计算机语言需要什么基础,学习计算机语言需要什么基础

学语言其实很有意思&#xff0c;但鉴于你的职业是学生&#xff0c;国籍是中国&#xff0c;建议在学有余力的情况下学习&#xff0c;尤其不要为了计算机特招而学。语言分为高级语言&#xff0c;汇编语言&#xff0c;机器语言。其实什么高级语言都差不多&#xff0c;只要学会一种…

c++ map 析构函数_C++|类继承关系中的虚函数、虚析构函数、虚基类

在继承关系中&#xff0c;虚函数、虚析构函数、虚基类中使用的关键字virtual都是在告诉编译器&#xff0c;此处要进行特殊处理&#xff1a;虚函数&#xff1a;函数重写时的要求编译器动态绑定来实现多多态 &#xff1b;虚析构函数&#xff1a;当基类指针指向在堆内实现的派生类…

python计算面积折线图_Python交互图表可视化Bokeh:4. 折线图| 面积图

折线图与面积图① 单线图、多线图② 面积图、堆叠面积图1. 折线图--单线图importnumpy as npimportpandas as pdimportmatplotlib.pyplot as plt%matplotlib inlineimportwarningswarnings.filterwarnings(ignore)#不发出警告from bokeh.io importoutput_notebookoutput_notebo…

上海j计算机一级分值,计算机一级考试内容及分值

计算机一级考试内容有哪些&#xff0c;各题型分值是多少&#xff0c;以下是小编整理的计算机一级考试相关内容&#xff0c;供您参考与阅读。计算机一级考试内容及分值软件环境:Windows 7 操作系统,WPS Office 2012 办公软件。并在指定时间内,完成下列各项操作:(1) 选择题(计算机…

python 多个列表合并_Python对两个有序列表进行合并和排序的例子

Python对两个有序列表进行合并和排序的例子 这篇文章主要介绍了Python对两个有序列表进行合并和排序的例子,最终代码经过不断优化,小编非常满意,需要的朋友可以参考下 假设有2个有序列表l1、l2&#xff0c;如何效率比较高的将2个list合并并保持有序状态&#xff0c;这里默认排序…

启动之后自己关闭_电脑一开都是广告,请问怎么永久关闭?

电脑一开机&#xff0c;主屏广告、右下角弹窗广告蹭蹭蹭的弹个不停&#xff0c;相信很多人都有这样的困扰&#xff0c;尤其是在公共电脑上&#xff0c;广告多的要命。你是否有这样的经历&#xff0c;上学的时候&#xff0c;教室前面的用来讲课的电脑&#xff0c;在老师用PPT授课…

中等职业计算机等级考试,中等职业学校计算机等级考试题库(含答案):EXCEL

中等职业学校计算机等级考试题库(含答案)三 EXCEL20031某工作簿已设置了"打开"与"修改"两种密码&#xff0c;如果只知道其"打开"密码&#xff0c;那么______。A可打开该工作簿&#xff0c;也可以修改&#xff0c;但是不能在原文件夹下用原文件名…

python在统计专业的应用_Python统计学一数据的概括性度量详解

一、数据的概括性度量 1、统计学概括&#xff1a; 统计学是应用数学的一个分支&#xff0c;主要通过利用概率论建立数学模型&#xff0c;收集所观察系统的数据&#xff0c;进行量化的分析、总结&#xff0c;并进而进行推断和预测&#xff0c;为相关决策提供依据和参考。统计学主…

5错误怎么办_“选择不对,一生白费”:如果选错了,该怎么办?记住这两句话...

上帝把1、2、3、4、5、6、7、8、9、0十个数字摆出来&#xff0c;让面前10个人去取&#xff0c;并说道&#xff1a;“一人只能取一个。”人们争先恐后地拥上去&#xff0c;把9、8、7、6、5、4、3都抢走了。取到2和1的人&#xff0c;都说自己运气不好&#xff0c;得到的很少很少。…

北京大学灵异事件计算机房,北大 清华高校 发生的真实恐怖灵异事件

北京大学我有一高中同学b&#xff0c;大学在交大上的&#xff0c;有段时间没联系了&#xff0c;偶然的机会在街上遇到他&#xff0c;当时我被他吓了一跳&#xff0c;只见他脸色发青&#xff0c;眼窝深陷&#xff0c;一问之下&#xff0c;他神情紧张地告诉我&#xff1a;他遇到鬼…

python中 是什么运算符_Python 运算符

Python 运算符 什么是运算符&#xff1f; 本章节主要说明Python的运算符。举个简单的例子4 5 9。 例子中&#xff0c;4和5被称为操作数&#xff0c;""号为运算符。 Python语言支持以下类型的运算符: 算术运算符 比较&#xff08;关系&#xff09;运算符 赋值运算符 …

下取整函数的含义_Excel数值取整的7种方式

原标题&#xff1a;Excel数值取整的7种方式上期帮主原创&#xff1a;《高手会这样制作图表~》(在Excel数据处理过程中&#xff0c;数值取整比较常见&#xff0c;且针对不同的要求我们需要采用不同的取整函数来解决。那今天帮主就和大家分享数值取整的7种方式&#xff0c;大家收…

软件测试面试选择判断提,软件测试面试常考判断题

1.软件测试的目的是尽可能多的找出软件的缺陷。( Y)2.负载测试是验证要检验的系统的能力最高能达到什么程度。(N )3.测试人员要坚持原则&#xff0c;缺陷未修复完坚决不予通过。(N)4.自动化测试能比手工测试发现更多的缺陷(N)5. 错误猜测法基于这样一种假设&#xff0c;以前犯过…