知识图谱06——将pdf中的表格(文字形式)保存至csv中

使用ubuntu22.04,anaconda
由于装环境装了一阵子,不确定装了哪些包了

可能的环境安装

conda install -c conda-forge pymupdf
conda install -c conda-forge camelot-py
conda install pandas
#或者
pip install PyMuPDF
pip install camelot-py[all]
pip install pandas

camelot-py 的安装可能需要其他依赖项,如 Tkinter 和 Ghostscript。在大多数情况下,它们应该在大多数 Linux 发行版和 macOS 中预安装。

# Tkinter
sudo apt-get install python3-tk  # Debian/Ubuntu
sudo yum install python3-tkinter  # CentOS/RHEL
# Ghostscript
sudo apt-get install ghostscript  # Debian/Ubuntu
sudo yum install ghostscript  # CentOS/RHEL

实现代码

import fitz  # PyMuPDF
import camelot
import pandas as pd# 路径到您的 PDF 文件
file_path = 'path_to_file.pdf'# 打开 PDF 文件
doc = fitz.open(file_path)# 存储包含表格的页面编号
table_pages = []# 检查每个页面以确定是否包含表格
for page_num in range(len(doc)):print(f"Page {page_num} is finding.\n")page = doc.load_page(page_num)text = page.get_text("text")if "表格中关键文本" in text and "表格中关键文本" in text and "表格中关键文本" in text:  # 替换为检测表格的逻辑table_pages.append(page_num + 1)  # 页面编号是从 1 开始的doc.close()# 提取表格数据
all_tables = []
first_table = True  # 用于跟踪是否是第一个表格for page_num in table_pages:print(f"Table {page_num} is getting.\nTotal table number is {len(table_pages)}.\n")# 提取指定页面的表格tables = camelot.read_pdf(file_path, pages=str(page_num), flavor='lattice')     # flavour='stream'为空白划分表格方式,flavor='lattice'为线条划分表格方式。for table in tables:		# 这里是针对重复的表格头设计的,舍弃了重复的表格头# 如果是第一个表格,保留标题if first_table:all_tables.append(table.df)first_table = Falseelse:# 如果不是第一个表格,跳过标题行all_tables.append(table.df[1:])# 是否提取到表格
if all_tables:          # 提取到表格# 合并所有提取的表格final_table = pd.concat(all_tables, ignore_index=True)# 导出到 CSVfinal_table.to_csv('path_to_file.csv', index=False)print("表格数据已提取并保存到 'path_to_file.csv'")else:                   # 未提取到表格print("没有提取到任何表格数据")

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/171138.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

求链表环的起始位置

leetcode中题目位置 https://leetcode.cn/problems/linked-list-cycle-ii/submissions/?envTypestudy-plan-v2&envIdtop-100-liked 代码: public class Solution {public ListNode detectCycle(ListNode head) {if (head null || head.next null) {return…

S25FL系列FLASH读写的FPGA实现

文章目录 实现思路具体实现子模块实现top模块 测试Something 实现思路 建议读者先对 S25FL-S 系列 FLASH 进行了解,我之前的博文中有详细介绍。 笔者的芯片具体型号为 S25FL256SAGNFI00,存储容量 256Mb,增强高性能 EHPLC,4KB 与 6…

Could not resolve all files for configuration ‘:app:androidJdkImage‘.

在使用./gradlew build编译项目时候遇到了该问题,整体错误如下: * What went wrong: Configuration cache state could not be cached: field generatedModuleFile of com.android.build.gradle.tasks.JdkImageInput bean found in field compilerArgumentProvider…

Leetcode199. 二叉树的右视图

Every day a Leetcode 题目来源:199. 二叉树的右视图 解法1:层序遍历 给定一个二叉树的 根节点 root,想象自己站在它的右侧,按照从顶部到底部的顺序,返回从右侧所能看到的节点值。 按层序遍历,将每层的…

如何判断一个题目用“贪心/动态规划“还是用“BFS/DFS”方法解决

1 总结 1.1 贪心、动态规划和BFS/DFS题解的关系 一般能使用贪心、动态规划解决一个问题时,使用BFS,DFS也能解决这个题,但是反之不能成立。 1.2 2 贪心 -> BFS/DFS 2.1 跳跃游戏1和3的异同 这两道题,“跳跃游戏”&#xf…

html实现各种瀑布流(附源码)

文章目录 1.设计来源1.1 动态响应瀑布流1.2 分页瀑布流1.3 响应瀑布流 2.效果和源码2.1 动态效果2.2 源代码 源码下载 作者:xcLeigh 文章地址:https://blog.csdn.net/weixin_43151418/article/details/134613121 html实现各种瀑布流(附源码),…

100元预算,轻松涨粉1000!腾讯运营面试秘籍大揭秘!

大家好啊!小米在这里~ 很高兴又有机会和大家见面啦!最近小米参加了一场腾讯的运营面试,遇到了一个超有趣的问题:如果让你运营一个公众号,近期需要增加1000个关注,预算100元,怎么完成…

CMake中的变量: 描述系统信息的变量

文章目录 变量名称描述ANDROID当目标系统(CMAKE_SYSTEM_NAME)为Android时,设置为1。APPLE当目标系统是苹果平台(macOS、iOS、tvOS、visionOS或watchOS)时,设置为True。BORLAND如果正在使用Borland编译器&am…

【阿里云】图像识别 智能分类识别 项目开发(一)

语音模块和阿里云图像识别结合 环境准备 代码实现 编译运行 写个shell脚本用于杀死运行的进程 语音模块和阿里云图像识别结合 使用语音模块和摄像头在香橙派上做垃圾智能分类识别 语音控制摄像下载上传阿里云解析功能点实现 环境准备 将语音模块接在UART5的位置 在orange…

数据结构总复习

文章目录 线性表动态分配的顺序存储结构链式存储 线性表 动态分配的顺序存储结构 通过分析代码,我们发现,要注意什么: 要分清你的下标Insert 函数是可以用来没有元素的时候,增加元素的Init(或者Create )函数一般只用来分配空间…

qt 简单了解QHBoxLayout QVBoxLayout QFormLayout水平,垂直,表单布局管理器.

QHBoxLayout水平布局,QVBoxLayout垂直布局,QFormLayout表单布局管理器,是常用的布局管理器,是用代码编写应用界面必不可少的功能类. 1.tips 这里值得注意的是,2个单选按钮(QRadioButton)同时放进一个水平布局管理器(QHBoxLayout)中,相当于放进了一个分组器中,此时,2个单选按钮…

C++判断一个整数是否为回文数

可以将整数转换为字符串&#xff0c;然后再判断该字符串是否为回文串。 将整数转化为字符串&#xff0c;可以使用 to_string() 方法&#xff1b; 使用双指针法判断字符串是否为回文串。 #include <iostream> #include <string>using namespace std;bool isPalin…

Qt QString与QChar总结

(一) QString 1 QString的简介 QString 是Qt 中的一个类&#xff0c;用于存储字符串&#xff0c;QString 没有父类。QString 存储的是一串字符&#xff0c;每个字符是一个 QChar 类型的数据。QChar 使用的是 UTF-16 编码&#xff0c;一个字符包含 2字节数据。 对于超过 6553…

5 个 Python 异常值检测算法实战案例

异常值检测(outlier)是一种数据挖掘过程,用于确定数据集中发现的异常值并确定其出现的详细信息。当前自动异常检测至关重要,因为大量数据无法手动标记异常值。自动异常检测具有广泛的应用,例如信用卡欺诈检测,系统健康监测,故障检测以及传感器网络中的事件检测系统等。 …

go atexit源码分析

文章目录 atexit源码解析UML类图样例一: 程序退出之前执行注册函数1.1 流程图1.2 代码分析 样例二&#xff1a;使用cancel取消注册函数2.1 cancel流程图2.2 代码分析 样例三&#xff1a;使用Fatal/Fatalln/Fatal执行注册函数3.1 Fatal/Fatalln/Fatal流程图3.2 代码分析 atexit源…

Android平台GB28181设备接入模块开发填坑指南

技术背景 为什么要开发Android平台GB28181设备接入模块&#xff1f;这个问题不再赘述&#xff0c;在做Android平台GB28181客户端的时候&#xff0c;媒体数据这块&#xff0c;我们已经有了很好的积累&#xff0c;因为在此之前&#xff0c;我们就开发了非常成熟的RTMP推送、轻量…

Scannet v2 数据集介绍以及子集下载展示

Scannet v2 数据集介绍以及子集下载展示 文章目录 Scannet v2 数据集介绍以及子集下载展示参考数据集简介子集scannet_frames_25kscannet_frames_test 下载脚本 download_scannetv2.py 参考 scannet数据集简介和下载-CSDN博客 scannet v2 数据集下载_scannetv2数据集_蓝羽飞鸟的…

kafka学习笔记(一)--脑裂

我知道你想裂&#xff0c;但你先别裂 脑裂 用集群部署的大多数的分布式系统无可避免会面临脑裂问题。简单来说&#xff0c;脑裂就是在同一时刻出现了两个“Leader&#xff08;或叫Master&#xff09;”。设想这样一个场景&#xff1a;某分布式系统的分别部署在A&#xff0c;B…

BeanUtil的正确使用方式

shigen日更文章的博客写手&#xff0c;擅长Java、python、vue、shell等编程语言和各种应用程序、脚本的开发。记录成长&#xff0c;分享认知&#xff0c;留住感动。 在实际的开发中&#xff0c;我们常常会用到工具类去拷贝对象的属性&#xff0c;将一个对象的属性转换成另外一个…

球面的表面积

此推导需要用到重积分的知识&#xff0c;另外关于曲面的面积公式可以看我之前的博客