使用pymupdf提取PDF文档中的文字和其颜色

最近我在捣鼓一个PDF文件,想把它里面的文字和文字颜色给提取出来。后来发现有个叫pymupdf的库能搞定这事儿。操作起来挺简单的,pymupdf的示例文档里就有现成的代码可以参考。
how-to-extract-text-with-color
在这里插入图片描述

我本地的测试代码如下:

import pymupdf
import sys# sys.argv[1] 为文件名!
doc = pymupdf.open(sys.argv[1])
page = doc[0]for page in doc:text_blocks = page.get_text("dict", flags=pymupdf.TEXTFLAGS_TEXT)["blocks"]for block in text_blocks:for line in block["lines"]:for span in line["spans"]:text = span["text"]color = pymupdf.sRGB_to_rgb(span["color"])print(f"Text: {text}, Color: {color}")

运行效果如下:
在这里插入图片描述
我弄的那个文档里,有一块内容是这样的,项目里的文字被标成橙色,就是那种选中后的样子,所以我特别留意了它的颜色提取。
在这里插入图片描述
所以我需要抽取出文字的同时,还需要文字的颜色
在这里插入图片描述
在这里插入图片描述

推荐相关的文章 PymuPDF4llm:PDF 提取的革命

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/887852.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Java 中的栈、队列

Java 中的栈、队列和双端队列 Java 提供了多种类和接口支持栈、队列和双端队列的实现。 Stack \texttt{Stack}Stack 类是早期版本的栈的实现类,继承自 Vector \texttt{Vector}Vector 类。在后续版本中,JDK 的官方文档不建议使用 Stack \texttt{Stack}St…

《企业级低代码开发平台技术要求》核心要点解析

一、引言 在数字化转型的浪潮中,企业级低代码开发平台成为推动企业创新与发展的关键力量。深圳市标准化协会发布的《企业级低代码开发平台技术要求》(T/SZAS 77—2024)为该领域提供了重要的规范与指引。深入剖析其核心要点,对于理…

STM32 + CubeMX + 串口 + IAP升级

这篇文章分享一个简单的串口IAP Demo,实现使用串口更新我们自己的App程序。 目录 一、IAP简介二、Stm32CubeMx配置三、Boot代码及配置1、代码2、配置 四、App代码及配置1、代码2、配置 五、效果展示 一、IAP简介 IAP介绍可以在网上找找,相关资料很多&am…

A051-基于Spring Boot的网络海鲜市场系统的设计与实现

🙊作者简介:在校研究生,拥有计算机专业的研究生开发团队,分享技术代码帮助学生学习,独立完成自己的网站项目。 代码可以查看文章末尾⬇️联系方式获取,记得注明来意哦~🌹 赠送计算机毕业设计600…

《String类》

目录 一、定义与概述 二、创建字符串对象 2.1 直接赋值 2.2 使用构造函数 三、字符串的不可变性 四、常用方法 4.1 String对象的比较 4.1.1 比较是否引用同一个对象 4.1.2 boolean equals(Object anObject)方法:按照字典序比较 4.1.3 int compareTo(Strin…

【python使用kazoo连ZooKeeper基础使用】

from kazoo.client import KazooClient, KazooState from kazoo.exceptions import NoNodeError,NodeExistsError,NotEmptyError import json# 创建 KazooClient 实例,连接到 ZooKeeper 服务器 zk KazooClient(hosts127.0.0.1:2181) zk.start()# 定义节点路径 path…

I/O流综合练习题

(1)要编写一个dog.properties nametom age5 colorred (2)编写Dog 类(name,age,color)创建一个dog对象,读取dog.properties 用相应的内容完 成属性初始化,并输出 (3)将创建的Dog 对象 ,序列化到 文件 dog.dat 文件 package chapter19.Properties;import …

vue多页面应用集成时权限处理问题

在多页面应用(MPA)中,权限管理通常会涉及到每个页面的访问控制、身份验证、以及权限校验。以下是几种常见的权限处理方式: 1. 前端路由权限控制 原理:虽然是多页面应用,通常每个页面会独立加载和渲染&…

泷羽sec-蓝队基础之网络七层杀伤链 (下)学习笔记

声明! 学习视频来自B站up主 **泷羽sec** 有兴趣的师傅可以关注一下,如涉及侵权马上删除文章,笔记只是方便各位师傅的学习和探讨,文章所提到的网站以及内容,只做学习交流,其他均与本人以及泷羽sec团队无关&a…

《C++ Primer Plus》学习笔记|第7章-函数——C++编程模块 (未完结)

文章目录 7.1 函数的基本知识7.1.1 定义函数7.1.2 函数原型和函数调用 7.2 函数参数和按值传递7.3 函数与数组7.3.5 指针与const7.4 函数和二维数组 7.10 函数指针1. 函数的地址2. 声明函数指针3.使用指针来调用函数 7.12 复习题1. 使用函数的3个步骤是什…

Flink CDC Connector开发指南:逻辑复制协议实战与性能优化

目录 1、PostgreSQL的数据同步原理 2、Debezium定义的数据库和Flink通讯的消息格式 3、Gauss100 OLTP的数据同步方案 3.1 通过 JDBC 拉取数据 3.2 Gauss100 OLTP 逻辑复制插件Socket通讯 3.2.1 开发逻辑复制插件 编译逻辑复制插件 配置逻辑复制工具 启动逻辑复制服务 …

探讨播客的生态系统

最近对播客发生了兴趣,从而引起了对播客背后的技术,生态的关注。本文谈谈播客背后的技术生态系统。 播客很简单 播客(podcast)本质上就是以语音的方式发布信息。它和博客非常类似。如果将CSDN 网站上的文字加一个语音播报。CSDN …

@bytemd/vue掘金markdown插件预览内容有误

vue项目使用bytemd/vue 来预览字符串格式的markdown内容,总会多出如图的一段代码, 请问有没有大佬知道为什么? 很急,求教!!!!!

windows下编译IEC 61850依赖库

windows下编译IEC 61850依赖库 0、引言1、环境准备2、源码下载3、下载WpdPack4、生成vs解决方案5、在VS上对解决方案进行编译 0、引言 最近刚好在学习IEC 61850的一些标准规范,主要包含了两大块协议:MMS和GOOSE。61850是一个非常强大的协议,…

实现对图片或者视频增加隐藏水印和提取水印

好久好久没有写博客了,最近看见一个很有意思的文章:小心你的电脑被窃听,就是说在一些公司,截图都会存在水印,方便溯源,然后出于技术的好奇,我在github上搜了一下,还真有相关的github…

demo专业的一些无聊联想

手印分析年龄之形态学方法初探镜子表面汗潜指印的拍摄 实验采用普通配光检验法(暗视场配光照相法和垂直定向反射配光照相法)和短波紫外反射照相法对镜面上的汗潜指印进行拍摄, 拍摄效果如图2所示。三种方法均取得了较好的拍摄效果, 其中效果最好的是采用暗视场配光照相法拍摄…

科技为翼 助残向新 高德地图无障碍导航规划突破1.5亿次

今年12月03日是第33个国际残疾人日。在当下科技发展日新月异的时代,如何让残障人士共享科技红利、平等地参与社会生活,成为当前社会关注的热点。 中国有超过8500万残障人士,其中超过2400万为肢残人群,视力障碍残疾人数超过1700万…

C++类的自动转换和强制类型转换

目录 一、类型转换 二、转换函数 一、类型转换 C⽀持内置类型隐式类型转换为类类型对象,需要有相关内置类型为参数的构造函数 简单说就是可以将内置类型转化为自定义类型 示例: class Test { public:Test(int n1 0):num1(n1){}void pr…

什么是sfp,onu,​为什么PON(​俗称“光猫”​)模块使用SC光纤接口

在现代网络设备中,我们经常会看到SFP或SFP接口的身影,这些接口有时被简称为光口,但这个称呼并不严谨。有些厂商则称之为多功能口或多用途口,然而这对于不了解的人来说可能还是一头雾水。SFP,即Small Form-Factor Plugg…

【Linux】线程池设计 + 策略模式

🌈 个人主页:Zfox_ 🔥 系列专栏:Linux 目录 一:🔥 线程池 1-1 ⽇志与策略模式1-2 线程池设计1-3 线程安全的单例模式1-3-1 什么是单例模式1-3-2 单例模式的特点1-3-3 饿汉实现⽅式和懒汉实现⽅式1-3-4 饿汉…