什么是爬虫?——从技术原理到现实应用的全面解析 V
二十六、异构数据采集技术突破
26.1 PDF文本与表格提取
import pdfplumber
import pandas as pddef extract_pdf_data(pdf_path):"""从PDF中提取文本和表格数据:param pdf_path: PDF文件路径:return: 包含文本和表格数据的字典"""result = {'text': [], 'tables': []}with pdfplumber.open(pdf_path) as pdf:for page in pdf.pages:# 提取文本text = page.extract_text()if text:result['text'].append(text)# 提取表格table = page.extract_table()if table:df = pd.DataFrame(table[1:],