python自动翻译pdf_在Python中自动执行PDF

python自动翻译pdf

Modules used:

使用的模块:

In this script, we will use PyPDF2 module which will provide us various functions such as to extract the data and read the pdf file and split the file and write a new file.

在此脚本中,我们将使用PyPDF2模块,该模块将为我们提供各种功能,例如提取数据,读取pdf文件,拆分文件并写入新文件。

Download PyPDF2:

下载PyPDF2:

  • General Way: pip install PyPDF2

    通用方式:pip安装PyPDF2

  • Pycharm Users: Go to the python project interpreter and install it from there.

    Pycharm用户:转到python项目解释器并从那里安装它。

Various function provided by PyPDF2:

PyPDF2提供的各种功能:

  1. PyPDF2.PdfFileReader(): This function will read our pdf and return us a data value that we will store in a variable (Let's take as Pdf_Data).

    PyPDF2.PdfFileReader() :此函数将读取我们的pdf并返回一个将存储在变量中的数据值(以Pdf_Data为例)。

  2. Pdf_Data.isEncrypted: This Function will help us to check if the pdf file is Encrypted.

    Pdf_Data.isEncrypted :此功能将帮助我们检查pdf文件是否已加密。

  3. Pdf_Data.decrypt("<password>"): This function will help us to decrypt the pdf file and inside this function, we have to put the password and our pdf file will get decrypted.

    Pdf_Data.decrypt(“ <password>”) :此函数将帮助我们解密pdf文件,并且在此函数内部,我们必须输入密码,然后pdf文件将被解密。

  4. Pdf_Data.numPages: This Function will return us the number of pages our pdf contain.

    Pdf_Data.numPages :此函数将向我们返回pdf包含的页面数。

  5. Pdf_Data.getPage(0): This function will return us the data on the first page, here 0 seems to be the first page and 1 to be the second page, the things will go like indexing in python.

    Pdf_Data.getPage(0) :此函数将返回第一页上的数据,这里0似乎是第一页,而1则是第二页,事情就像在python中建立索引一样。

  6. Pdf_Writer=PyPDF2.PdfFileWriter(): This function will create a variable that will help us to create a new pdf file.

    Pdf_Writer = PyPDF2.PdfFileWriter() :此函数将创建一个变量,该变量将帮助我们创建新的pdf文件。

  7. Pdf_Writer.addPage(<The Page Data>): This function will add the pdf page to the newly created pdf file.

    Pdf_Writer.addPage(<页面数据>) :此函数会将pdf页面添加到新创建的pdf文件中。

Note: The text Extraction can be done only with the pdf files which have text.

注意:只有具有text的pdf文件才能进行文本提取

Python代码读取文件并提取文本 (Python code to read the file and extract the text)

# import the modules
import PyPDF2
# open the file and read the content
# open the file
Pdf_Open=open("/home/abhinav/Downloads/CS_Defination-converted.pdf","rb")
# read the file and store the content
Pdf_Data=PyPDF2.PdfFileReader(Pdf_Open)
# get the number of pages
print(Pdf_Data.numPages)
# Lets extract the data for the first page
# we will use getPage command to get the page
# using 0 for 1st page
First_page=Pdf_Data.getPage(0)
# printing the text
print(First_page.extractText())

Output:

输出:

Automating pdfs in Python

This is the extracted text from the pdf that we have given in input. In this way, we can extract the text from the pdf.

这是我们在输入中从pdf中提取的文本。 这样,我们可以从pdf中提取文本。

Now we will create a pdf file and we will add the starting and the last page of the above-used pdf in that file.

现在我们将创建一个pdf文件 ,并将上面使用的pdf的开始和最后一页添加到该文件中。

Let's see the code,

让我们看一下代码,

# import the modules
import PyPDF2
# open the file and read the content
# open the file
Pdf_Open=open("/home/abhinav/Downloads/Abhinav_Gangrade.pdf","rb")
# read the file and store the content
Pdf_Data=PyPDF2.PdfFileReader(Pdf_Open)
# get the number of pages
print(Pdf_Data.numPages)
# Create a pdf writer
pdf_writer=PyPDF2.PdfFileWriter()
# we will take the first page of the above pdf
first_page=Pdf_Data.getPage(0)
# we will take the last page of the above pdf
# as the last page will be Total number of pages-1
last_page=Pdf_Data.getPage((Pdf_Data.numPages)-1)
# adding page to the new pdf
pdf_writer.addPage(first_page)
pdf_writer.addPage(last_page)
# create a blank file
New_pdf=open("/home/abhinav/Downloads/Hello.pdf","wb")
# add the content to the blank file
pdf_writer.write(New_pdf)
# Now close the file

From the above code, we can create a new pdf with the help of an existing pdf, and after that, we have taken the first and last page of the existing pdf and combine them and wrote it in the new pdf. In that way, we can create a pdf with the help of existing pdfs.

从上面的代码中,我们可以在现有pdf的帮助下创建一个新pdf,然后,我们将现有pdf的第一页和最后一页进行合并,并将它们写入新pdf中。 这样,我们可以在现有pdf的帮助下创建pdf。

翻译自: https://www.includehelp.com/python/automating-pdfs.aspx

python自动翻译pdf

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/380688.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

设置DVWA出现Could not connect to the MySQL service. Please check the config的解决方法,默认登录账号

按照这个路径&#xff0c;找到config.inc.php文件&#xff0c;打开 找到下面三个语句 db_server:一般填127.0.0.1&#xff0c;如果修改了mysql的端口号&#xff0c;要在后面加上修改后的端口号&#xff0c;默认为3306 db_user:自己mysql数据库的用户名 db_password&#xff1…

关于用户角色权限的一点想法(1) 选择自 biggie 的 Blog

原文&#xff08;http://dev.csdn.net/article/19/19751.shtm&#xff09; 前言&#xff1a;权限往往是一个极其复杂的问题&#xff0c;但也可简单表述为这样的逻辑表达式&#xff1a;判断“Who对What(Which)进行How的操作”的逻辑表达式是否为真。针对不同的应用&#xff0c;需…

使用anconada 的conda更换环境

打开命令行界面。cmd&#xff0c;直接打开 查看有些环境 conda env list 我这里有两个环境使用指定的环境 我这里就用py27 命令&#xff1a;activate环境名 py27在前面&#xff0c;已经成功更换了退出使用某个环境 conda deactivate 前面已经没有py27&#xff0c;表示已经退…

php采集分页数据,如何通过php+wordpress实现分页获取数据

1.首先我们通过WordPress来搭建我们的博客网站&#xff0c;需要实现分页获取数据&#xff0c;我们需要了解一下WordPress给我们提供的api。主要是get_posts()这个api的使用方法。函数的结构大概长这么个样子&#xff1a;<?php get_posts($args); ?> &#xff0c;其中…

家纺B2C优雅100获IDG及DCM 1000万美元投资

网易科技讯 3月3日下午动静&#xff0c;家纺网上商城优雅100(uya100.com) 首创人陈腾华往日吐露&#xff0c;该公司明天不日完成了1000万美元的首轮融资&#xff0c;投资方为IDG及DCM。陈腾华以有合同约定为由拒绝流露更详细的财务细节。陈腾华说&#xff0c;这1000万美元曾经到…

手动打开和关闭windows的相关服务

winR&#xff0c;输入services.msc 找到指定的服务打开或者关闭

PetShop之ASP.NET缓存(转载)

《解剖PetShop》系列之四 四 PetShop之ASP.NET缓存 如果对微型计算机硬件系统有足够的了解&#xff0c;那么我们对于Cache这个名词一定是耳熟能详的。在CPU以及主板的芯片中&#xff0c;都引入了这种名为高速缓冲存 储器&#xff08;Cache&#xff09;的技术。因为Cache的存取速…

使用python学线性代数_最简单的神经网络简介| 使用Python的线性代数

使用python学线性代数A neural network is a powerful tool often utilized in Machine Learning because neural networks are fundamentally very mathematical. We will use our basics of Linear Algebra and NumPy to understand the foundation of Machine Learning usin…

电脑安装了mysql,但找不到mysql服务

首先找到mysql的bin文件目录&#xff0c;我的是在&#xff1a;C:\Program Files\mysql-5.7.27-winx64\bin 然后找到下图内容&#xff0c;右键以管理者身份运行 然后cd 到mysql的bin目录 在输入mysqld -install 服务就重启好了

win10安装masm32 SDK并运行一个小程序

建议在安装之前&#xff0c;先装一下notepad编辑器&#xff08;其他也行)&#xff0c;Visual C 首先我们到官网下载masm32&#xff08;http://www.masm32.com/&#xff09;&#xff0c;到了官网后&#xff0c;点击download就行了。 随便点一个就可以了。 将zip文件解压&#…

matlab figure 嵌套,操作Matlab的Figure窗口(一)

以前&#xff0c;我和很多人一样&#xff0c;总是将数据保存到mat文件中。后来突然发现&#xff0c;如果数据量不大的话&#xff0c;直接将Figure窗口中的图形保存为fig文件是更好的选择。fig文件与一般的图像文件不同&#xff0c;并不是由图像的像素构成&#xff0c;它包含了当…

c语言中fflush函数z_带有示例的C语言fflush()函数

c语言中fflush函数zC中的fflush()函数 (fflush() function in C) Prototype: 原型&#xff1a; int fflush(FILE *filename);Parameters: 参数&#xff1a; FILE *filenameReturn type: 0 or EOF 返回类型&#xff1a; 0或EOF Use of function: 使用功能&#xff1a; When …

masm32使用nmake工具

nmake.exe如果你安装了Visual C你可以在bin文件目录下找到&#xff0c;然后复制到masm32的bin目录下,如果没有安装visual C就百度下一个吧&#xff01; 使nmake之前&#xff0c;我们的.obj和.res文件都创建好了,在工程建一个文件Makefile&#xff0c;不需要后缀 里面内容填&am…

SQL Server 2005 中的商务智能和数据仓库

SQL Server 2005 中的商务智能和数据仓库 发布日期&#xff1a; 2005年03月11日摘要&#xff1a;本文概述了 SQL Server 2005 Beta 2 中“商务智能”平台的增强功能。本文并非实施指南&#xff0c;而是为读者提供了关于“商务智能”平台增强功能的信息。本页内容 简介SQL Serve…

MVVM实践教程

算算&#xff0c;从事Silverlight和WPF的开发也有1年多的时间了&#xff0c;虽然时间不算长&#xff0c;虽然还没有突出的成就&#xff0c;但是感觉也还算一般。 但是&#xff0c;从头至今都没有去认真研究和使用过MVVM&#xff0c;虽然它被认为是Silverlight和WPF开发的最佳架…

32位通用寄存器ESP、EIP、EAX、EBX、ECX、EDX,在OD里操作这些寄存器

EIP&#xff1a;指向CPU下一步即将执行的指令 I EIP为00401000&#xff0c;表示&#xff0c;CPU下一步到00401000这个地址去执行&#xff0c;下一步执行push 0x0指令 ESP&#xff1a;始终指向堆栈的最顶端 现在的ESP是0012FFC4&#xff0c;现在堆栈的顶部在这个地址 EAX、EBX、…

汇编add和mov指令

汇编指令add&#xff1a; 格式&#xff1a;add 参数1&#xff0c; 参数2 功能&#xff1a;参数1和参数2相加&#xff0c;将结果赋值给参数1&#xff0c;即 &#xff1a;参数1参数1参数2 汇编指令 mov&#xff1a; 格式&#xff1a;MOV destination,source 功能&#xff1a;将源…

双层玻璃窗的功效模型matlab,数学建模:双层玻璃窗的功效,80人%的人搞不懂数学的应用价值...

原标题&#xff1a; 数学建模&#xff1a;双层玻璃窗的功效&#xff0c;80人%的人搞不懂数学的应用价值A.Einstein有一句名言&#xff1a;想象力比知识更重要&#xff0c;因为知识是有限的&#xff0c;而想象力包括世界的一切&#xff0c;推动着进步&#xff0c;并且是知识的源…

8086CPU物理地址

8086CPU有20位地址总线&#xff0c;可以传送20位地址&#xff0c;达到1MB寻址能力&#xff0c;但8086CPU内部是16位&#xff0c;表现出来的寻址能力只有64kb。 8086CPU采用一种在内部用用两个16位地址合成的方法来形成一个20位的物理地址。 CPU中的相关部件提供两个16位地址&a…

8086的CS段寄存器(IP)

8086共有四个段寄存器&#xff0c;分别为CS&#xff0c;DS&#xff0c;SS&#xff0c;ES CS为代码段寄存器&#xff0c;还有个与CS息息相关的寄存器叫IP&#xff0c;为指令指针寄存器。 在8086PC机中&#xff0c;设CS中的内容为M&#xff0c;IP的内容为N&#xff0c;8086CPU将从…