使用 Apache PDFBox 提取 PDF 中的文本和图像

在许多应用中,我们需要从 PDF 文件中提取文本内容和嵌入的图像。为了实现这一目标,Apache PDFBox 是一个非常实用的开源工具库。它提供了丰富的 API,可以帮助我们轻松地读取 PDF 文件、提取其中的文本、图像以及其他资源。

本文将介绍如何使用 Apache PDFBox 来提取 PDF 文件中的文本和图像,并将图像保存为文件。通过实际代码示例,您将学会如何高效地处理 PDF 文件中的内容。

1. Apache PDFBox 简介

Apache PDFBox 是一个用于创建、操作和提取 PDF 内容的 Java 库。它提供了一些重要的功能,包括:

  • 提取 PDF 文件中的文本内容。
  • 提取 PDF 文件中的图像。
  • 创建和修改 PDF 文档。
  • 操作 PDF 表单、数字签名等。

PDFBox 是完全开源的,适用于 Java 开发者,用于处理 PDF 文档中的各种数据。

2. 目标

在本文中,我们的目标是使用 PDFBox 从 PDF 文件中提取:

  • 文本内容:每一页的文本信息。
  • 图像:嵌入到 PDF 中的图像并保存为文件。

3. 示例代码

以下是使用 Apache PDFBox 提取 PDF 中文本和图像的完整代码示例:

import org.apache.pdfbox.cos.COSName;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.pdmodel.PDPage;
import org.apache.pdfbox.pdmodel.PDResources;
import org.apache.pdfbox.pdmodel.graphics.image.PDImageXObject;
import org.apache.pdfbox.text.PDFTextStripper;import javax.imageio.ImageIO;
import java.awt.image.BufferedImage;
import java.io.ByteArrayOutputStream;
import java.io.File;
import java.io.FileOutputStream;public class PdfboxTest {// 提取PDF中的文本和图像private static void readTextAndImage(String filePath) {try (PDDocument document = PDDocument.load(new File(filePath))) {// 获取PDF文档的页数int numberOfPages = document.getNumberOfPages();// 遍历每一页提取文本和图像for (int i = 0; i < numberOfPages; i++) {PDPage page = document.getPage(i);// 提取页面文本PDFTextStripper textStripper = new PDFTextStripper();textStripper.setStartPage(i + 1);textStripper.setEndPage(i + 1);String pageText = textStripper.getText(document);System.out.println("Page " + (i + 1) + " Content: \n" + pageText + "\n");// 提取图像资源PDResources resources = page.getResources();for (COSName xObjectName : resources.getXObjectNames()) {if (resources.isImageXObject(xObjectName)) {PDImageXObject imageObject = (PDImageXObject) resources.getXObject(xObjectName);BufferedImage bImage = imageObject.getImage();// 将图像保存为 PNG 格式try (ByteArrayOutputStream baos = new ByteArrayOutputStream()) {ImageIO.write(bImage, "png", baos);byte[] imageBytes = baos.toByteArray();String imageFilePath = "image_" + System.currentTimeMillis() + ".png";try (FileOutputStream fos = new FileOutputStream(imageFilePath)) {fos.write(imageBytes);System.out.println("Page " + (i + 1) + " Image saved: " + imageFilePath);}}}}}} catch (Exception e) {e.printStackTrace();}}public static void main(String[] args) {// 输入PDF文件路径String filePath = "/path/to/your/pdf-file.pdf"; // 请替换为实际的 PDF 文件路径readTextAndImage(filePath);}
}

4. 代码分析

1. 加载 PDF 文件

我们通过 PDDocument.load() 方法加载 PDF 文件。该方法会返回一个 PDDocument 对象,表示整个 PDF 文档。

try (PDDocument document = PDDocument.load(new File(filePath))) {int numberOfPages = document.getNumberOfPages();

2. 提取文本内容

PDFTextStripper 类是用于从 PDF 中提取文本的工具。我们通过设置 startPageendPage 来指定提取特定页面的文本。getText() 方法将返回当前页面的文本内容。

PDFTextStripper textStripper = new PDFTextStripper();
textStripper.setStartPage(i + 1);
textStripper.setEndPage(i + 1);
String pageText = textStripper.getText(document);

3. 提取图像

为了提取 PDF 页面中的图像,我们使用 PDPage.getResources() 获取该页面的资源对象。资源对象包含页面的所有资源,包括图像。然后我们通过 resources.getXObject() 方法获取图像对象,并使用 PDImageXObject.getImage() 获取 BufferedImage,最后将图像保存为字节数组。

PDResources resources = page.getResources();
for (COSName xObjectName : resources.getXObjectNames()) {if (resources.isImageXObject(xObjectName)) {PDImageXObject imageObject = (PDImageXObject) resources.getXObject(xObjectName);BufferedImage bImage = imageObject.getImage();

然后,我们将图像保存为 PNG 格式的文件:

try (ByteArrayOutputStream baos = new ByteArrayOutputStream()) {ImageIO.write(bImage, "png", baos);byte[] imageBytes = baos.toByteArray();String imageFilePath = "image_" + System.currentTimeMillis() + ".png";try (FileOutputStream fos = new FileOutputStream(imageFilePath)) {fos.write(imageBytes);System.out.println("Page " + (i + 1) + " Image saved: " + imageFilePath);}
}

5. 总结

通过 Apache PDFBox,我们可以轻松地从 PDF 文档中提取文本和图像。上面的示例代码展示了如何遍历 PDF 文件的每一页,提取其中的文本内容,并且提取页面中所有的图像资源并保存为文件。这种方法对于处理 PDF 报告、提取嵌入图像或处理表单数据非常有用。

希望本文的示例能够帮助你更好地使用 PDFBox 处理 PDF 文件。如果你有更多问题或需求,欢迎与我们讨论!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/71298.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

MongoDB 7 分片副本集升级方案详解(下)

#作者&#xff1a;任少近 文章目录 1.4 分片升级1.5 升级shard11.6 升级shard2,shard31.7 升级mongos1.8重新启用负载均衡器1.9 推荐MongoDB Compass来验证数据 2 注意事项&#xff1a; 1.4 分片升级 使用“滚动”升级从 MongoDB 7.0 升级到 8.0&#xff0c;即在其他成员可用…

AlmaLinux release 9.4 (Seafoam Ocelot)安装包 build失败

pip 安装失败 显示 build 失败 Building wheels for collected packages: cymem, murmurhashBuilding wheel for cymem (pyproject.toml) ... errorerror: subprocess-exited-with-error Building wheel for cymem (pyproject.toml) did not run successfully.│ exit code: …

CMS DTcms 靶场(弱口令、文件上传、tasklist提权、开启远程桌面3389、gotohttp远程登录控制)

环境说明 攻击机kali:192.168.111.128 信息收集 主机发现 ┌──(root㉿kali-plus)-[~/Desktop] └─# nmap -sP 192.168.111.0/24 Starting Nmap 7.94SVN ( https://nmap.org ) at 2024-11-23 14:57 CST Nmap scan report for 192.168.111.1 Host is up (0.00039s latenc…

vue3.x 的 toRef详细解读

在 Vue 3.x 中&#xff0c;toRef 是一个用于创建响应式引用的工具函数。它可以将一个响应式对象的某个属性转换为一个独立的 ref 对象&#xff0c;同时保持与原始属性的响应式连接。以下是 toRef 的详细解读和示例。 1. toRef 的作用 核心功能 toRef 用于从响应式对象&#x…

Leetcode 424-替换后的最长重复字符

给你一个字符串 s 和一个整数 k 。你可以选择字符串中的任一字符&#xff0c;并将其更改为任何其他大写英文字符。该操作最多可执行 k 次。 在执行上述操作后&#xff0c;返回 包含相同字母的最长子字符串的长度。 题解 可以先做LCR 167/Leetcode 03再做本题 滑动窗口&…

箭头函数的this指向谁

先看1个重要原则&#xff1a; 由Vue管理的函数&#xff0c;一定不要写箭头函数&#xff0c;箭头函数的this就不再是Vue实例了 箭头函数的 this 指向在定义时确定&#xff0c;继承自外层作用域&#xff08;即定义时的上下文&#xff09;的 this&#xff0c;且无法通过 call、app…

Linux下的Python开发环境

以下是在Ubuntu 22.04上安装XFCE桌面、配置中文环境、中文输入法、远程桌面&#xff1b;安装anaconda、PyCharm、谷歌浏览器等的步骤&#xff1a; 首先&#xff0c;正常安装完毕 Ubuntu 22.04 Linux。如果选择某些云平台的ECS服务器&#xff0c;可以用十几秒钟完成Ubuntu 22.0…

key-value---键值对

定义 键值对由两部分组成&#xff0c;一个是 “键”&#xff08;key&#xff09;&#xff0c;另一个是 “值”&#xff08;value&#xff09;。“键” 是用于标识和访问 “值” 的唯一标识符&#xff0c;就像是一把钥匙&#xff0c;而 “值” 则是与该键相关联的数据或信息&…

【实战项目】BP神经网络识别人脸朝向----MATLAB实现

(꒪ꇴ꒪ )&#xff0c;Hello我是祐言QAQ我的博客主页&#xff1a;C/C语言&#xff0c;数据结构&#xff0c;Linux基础&#xff0c;ARM开发板&#xff0c;网络编程等领域UP&#x1f30d;快上&#x1f698;&#xff0c;一起学习&#xff0c;让我们成为一个强大的攻城狮&#xff0…

Javascript中null、NaN、undefined区别(JS空值、Javascript空值)(?.链操作符)

文章目录 概述null的本质undefined的两面性系统层面的undefined开发者层面的undefined NaN的特殊性数值运算的异常标识NaN的独特比较行为 深入比较类型比较相等性比较 实践建议变量初始化错误检测属性检查&#xff08;链操作符&#xff09; 性能考虑 概述 JavaScript中的null、…

Java 运行时常量池笔记(详细版

&#x1f4da; Java 运行时常量池笔记&#xff08;详细版&#xff09; Java 的运行时常量池&#xff08;Runtime Constant Pool&#xff09;是 JVM 方法区的一部分&#xff0c;用于存储编译期生成的字面量和符号引用。它是 Java 类文件常量池的运行时表示&#xff0c;具有动态…

STM32 HAL库USART串口中断编程:演示数据丢失

目录 一、开发环境 二、配置STM32CubeMX 三、代码实现与部署 四、运行结果&#xff1a; ​五、注意事项 上面讨论过,HAL_UART_Receive最容易丢数据了,可以考虑用中断来实现,但是HAL_UART_Receive_IT还不能直接用,容易数据丢失,实际工作中不会这样用,本文介绍STM32F103 HAL库函数…

Javascript网页设计案例:通过PDF.js实现一款PDF阅读器,包括预览、页面旋转、页面切换、放大缩小、黑夜模式等功能

前言 目前功能包括&#xff1a; 切换到首页。切换到尾页。上一页。下一页。添加标签。标签管理页面旋转页面随意拖动双击后还原位置 其实按照自己的预期来说&#xff0c;有很多功能还没有开发完&#xff0c;配色也没有全都搞完&#xff0c;先发出来吧&#xff0c;后期有需要…

缺陷检测之图片标注工具--labme

一、labelme简介 Labelme是开源的图像标注工具&#xff0c;常用做检测&#xff0c;分割和分类任务的图像标注。 它的功能很多&#xff0c;包括&#xff1a; 对图像进行多边形&#xff0c;矩形&#xff0c;圆形&#xff0c;多段线&#xff0c;线段&#xff0c;点形式的标注&a…

Kafka集群,常见MQ面试问题

Kafka 名词介绍 Topic: 消息队列&#xff0c;生产者和消费者面向的都是一个TopicBroker: 一个Kafka服务器就是一个Broker&#xff0c;一个集群由多个Broker组成。一个Broker可以容纳多个TopicProducer: 消息生产者&#xff0c;向Kafka Broker发生消息的客户端Consumer: 消息消…

Unity DeepSeek API 聊天接入教程(0基础教学)

Unity DeepSeek API 聊天接入教程(0基础教学) 1.DeepSeek 介绍 DeepSeek是杭州深度求索人工智能基础技术研究有限公司推出的一款大语言模型。2025年1月20日&#xff0c;DeepSeek-R1正式上线&#xff0c;和当前市面上的主流AI相比&#xff0c;它在仅有极少标注数据的情况下&am…

DeepSeek-R1 蒸馏 Qwen 和 Llama 架构 企业级RAG知识库

“DeepSeek-R1的输出&#xff0c;蒸馏了6个小模型”意思是利用DeepSeek-R1这个大模型的输出结果&#xff0c;通过知识蒸馏技术训练出6个参数规模较小的模型&#xff0c;以下是具体解释&#xff1a; - **知识蒸馏技术原理**&#xff1a;知识蒸馏是一种模型压缩技术&#xff0c;核…

el-input无法输入0.0001的小数,自动转换为0在vue3中的bug

今天遇到个bug&#xff0c;el-input中只能输入0.1或者输入0.1再加上00成为0.001&#xff0c;不能直接输入0.001&#xff0c;否则自动转换为0。需要去掉 v-model.number后面的 .number 源代码&#xff1a; <el-table-column label"实发数量" width"120"…

Spring事务原理 一

Spring事务管理有 声明式事务 和 编程式事务 两种方式&#xff0c;实现对数据库操作的ACID控制。其核心思想是将事务管理与业务逻辑解耦&#xff0c;开发者通过简单注解或配置即可管理复杂事务。 开启Spring事务&#xff0c;本质上就是在Spring容器中增加了一个Advisor&#x…

一周学会Flask3 Python Web开发-Debug模式开启

锋哥原创的Flask3 Python Web开发 Flask3视频教程&#xff1a; 2025版 Flask3 Python web开发 视频教程(无废话版) 玩命更新中~_哔哩哔哩_bilibili 默认情况&#xff0c;项目开发是普通模式&#xff0c;也就是你修改了代码&#xff0c;必须重启项目&#xff0c;新代码才生效&…