玩转Python：用Python处理文档，5个必备的库，特别实用，附代码

在Python中，有几个流行的库用于处理文档，包括解析、生成和操作文档内容。以下是一些常用的库及其简介和简单的代码示例：

PyPDF2 - 用于处理PDF文件。

简介：PyPDF2是一个纯Python库，用于分割、合并、转换和提取PDF文件中的文本和元数据。

示例代码：

import PyPDF2# 打开PDF文件
pdf_file = open('example.pdf', 'rb')
pdf_reader = PyPDF2.PdfFileReader(pdf_file)# 读取第一页的内容
page = pdf_reader.getPage(0)
text = page.extractText()
print(text)pdf_file.close()

BeautifulSoup - 用于解析HTML和XML文档。

简介：BeautifulSoup是一个HTML和XML解析库，用于提取数据，如标签、属性、文本等。

示例代码：

from bs4 import BeautifulSoup
from urllib.request import urlopen# 打开网页
html = urlopen('http://example.com').read()# 解析HTML
soup = BeautifulSoup(html, 'html.parser')# 查找所有段落
paragraphs = soup.find_all('p')
for p in paragraphs:print(p.get_text())

docx - 用于处理Microsoft Word文档（.docx）。

简介：docx是一个用于创建、读取和修改.docx文件的库。

示例代码：

from docx import Document# 创建一个新的Word文档
doc = Document()# 添加标题
doc.add_heading('Hello World', 1)# 添加段落
doc.add_paragraph('This is a sample paragraph.')# 保存文档
doc.save('example.docx')

openpyxl - 用于处理Excel文件（.xlsx）。

简介：openpyxl是一个用于读取和写入Excel 2010 xlsx/xlsm/xltx/xltm文件的库。

示例代码：

from openpyxl import Workbook# 创建一个新的Excel工作簿
wb = Workbook()
ws = wb.active# 添加数据
ws['A1'] = 'Hello'
ws['B1'] = 'World'# 保存工作簿
wb.save('example.xlsx')

reportlab - 用于生成PDF文档。

简介：reportlab是一个用于创建PDF文档的库，支持复杂的布局和样式。

示例代码：

from reportlab.pdfgen import canvas# 创建PDF文档
c = canvas.Canvas('example.pdf')# 设置字体和大小
c.setFont('Helvetica', 12)# 添加文本
c.drawString(100, 750, 'Hello World')# 保存文档
c.save()