springboot集成pdfbox解析pdf文件

springboot集成pdfbox解析pdf文件

  • 1、引入依赖
  • 2、获取PDF文件
  • 3、获取需要的字段信息
  • 4、获取多字段时,步骤3需要优化,以下为优化后代码

1、引入依赖

<dependency><groupId>org.apache.pdfbox</groupId><artifactId>pdfbox</artifactId><version>2.0.24</version> <!-- 请检查最新版本 -->
</dependency>

2、获取PDF文件

 String filePath = "C:\\xx\\a.pdf"; // pdf的路径PDDocument document = PDDocument.load(new File(filePath));PDFTextStripper pdfStripper = new PDFTextStripper();// 排序文本行按其位置pdfStripper.setSortByPosition(true);//获取整个pdf文本内容String text = pdfStripper.getText(document);document.close();

3、获取需要的字段信息

    private Map<String,String> pdfStr(String invoiceInfo) {Map<String,String> map=new HashMap<>();//因解析出的括号不确定为中文还是英文,统一替换为英文字符invoiceInfo = invoiceInfo.replaceAll("(","(").replaceAll(")",")");// 定义正则表达式模式Pattern patternInvoiceNumber = Pattern.compile("发票号码:(\\d+)");// 创建Matcher对象Matcher matcherInvoiceNumber = patternInvoiceNumber.matcher(invoiceInfo);// 提取数据if (matcherInvoiceNumber.find()) {map.put("invoiceNumber",matcherInvoiceNumber.group(1));}return map;}

4、获取多字段时,步骤3需要优化,以下为优化后代码

public static Map<String, String> pdfStr(String invoiceInfo) {// 提取数据Map<String, String> result = new HashMap<>();invoiceInfo = invoiceInfo.replaceAll("(", "(").replaceAll(")", ")");// 定义正则表达式模式Map<String, String> patterns = new HashMap<>();patterns.put("invoiceNumber", "发票号码:(\\d+)");patterns.put("invoiceDate", "开票日期:(\\d{4}年\\d{1,2}月\\d{1,2}日)");patterns.put("buyerName", "购 名称:(.+?) 销 名称:(.+?)\n");patterns.put("itemDetails", "税 额\\s+(.*?)合 计");patterns.put("total", "\\(小写\\)¥(\\d+(\\.\\d+)?)");patterns.put("batchNumber", "批号:(.+?)/");patterns.put("productionDate", "生产日期:(\\d{4}-\\d{1,2}-\\d{1,2})/");patterns.put("expirationDate", "有效期至:(\\d{4}-\\d{1,2}-\\d{1,2})/");patterns.put("taxIncludedPrice", "含税单价:(\\d+(\\.\\d+)?)");patterns.put("manufacturer", "生产厂家:(.+?)/");patterns.put("approvalNumber", "批准文号:(.+?)/");patterns.put("issuer", "开票人:(.+)");for (Map.Entry<String, String> entry : patterns.entrySet()) {Pattern pattern = Pattern.compile(entry.getValue(), Pattern.DOTALL);Matcher matcher = pattern.matcher(invoiceInfo);if (matcher.find()) {result.put(entry.getKey(), matcher.group(1).trim());}}// 处理项目名称、规格型号、单位、数量、单价、金额、税率/征收率、税额if (result.containsKey("itemDetails")) {String[] details = result.get("itemDetails").replace("\n", " ").split(" ");if (details.length >= 8) {result.put("productName", details[0].trim() + (details.length > 8 ? details[8].trim() : ""));result.put("specification", details[1].trim());result.put("unit", details[2].trim());result.put("quantity", details[3].trim());result.put("unitPrice", details[4].trim());result.put("amount", details[5].trim());result.put("taxRate", details[6].trim());result.put("taxAmount", details[7].trim());}}return result;}

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/57566.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

iconfont图标放置在某个元素的最右边

在网页设计中&#xff0c;如果你想要将iconfont图标放置在某个元素的最右边&#xff0c;你可以通过CSS来实现这个布局。以下是一些基本的CSS代码示例&#xff0c;它们可以帮助你根据不同的布局需求将图标放置在最右边&#xff1a; 内联元素&#xff08;如<span>&#xff…

perl读取目录,写入文件

perl读取目录&#xff0c;写入文件 此脚本有两个输入参数&#xff0c;第一个参数为需要打印的文件目录&#xff0c;第二个参数为打印后的文件名&#xff1b; 该脚本名称为out_file_full_path #!/bin/perluse 5.010; my $dir $ARGV[0]; # 此为第一个参数&#xff1b; opendi…

Unreal Engine5安装Niagara UI Renderer插件

系列文章目录 文章目录 系列文章目录前言一、如何下载安装Niagara UI Renderer插件 前言 在2024.10.24号的今天发现unreal engine官网已经没有虚幻商城了&#xff0c;取而代之的是FAB ‌虚幻商城已经停止运营&#xff0c;Epic Games推出了新的数字资产商店FAB。‌ Epic Games…

Python URL编码

在 Python 中&#xff0c;可以使用 urllib.parse模块对 URL 进行编码。 一、依赖安装 pip install urllib 二、URL编码 from urllib.parse import quoteurl rhttps://myshop.com/shop/shopList?query query {"id":14,"pageSize":10,"pageNum&quo…

【论文+源码】基于SSM+VUE的大学生兼职管理系统

创建一个大学生兼职管理系统&#xff0c;结合 SSM&#xff08;Spring Spring MVC MyBatis&#xff09;框架和 Vue.js 前端框架&#xff0c;可以分为几个主要步骤来实现。 第一部分&#xff1a;环境准备 1. 开发环境准备 Java JDK&#xff1a;确保已安装 Java 8 或更高版本。…

2024软考网络工程师笔记 - 第8章.网络安全

文章目录 网络安全基础1️⃣网络安全威胁类型2️⃣网络攻击类型3️⃣安全目标与技术 &#x1f551;现代加密技术1️⃣私钥密码/对称密码体制2️⃣对称加密算法总结3️⃣公钥密码/非对称密码4️⃣混合密码5️⃣国产加密算法 - SM 系列6️⃣认证7️⃣基于公钥的认证 &#x1f552…

从0开始深度学习(19)——参数管理

在选择了模型架构&#xff0c;并设置了超参数之后&#xff0c;就进入了训练阶段&#xff0c;此时&#xff0c;我们的目标是找到使损失函数最小化的模型参数值。 经过训练后&#xff0c;我们将需要使用这些参数来做出未来的预测。 此外&#xff0c;有时我们希望提取参数&#xf…

电子商务类型

常见电子商务类型及其代表性的例子&#xff1a; B2B&#xff08;Business to Business&#xff09; 定义&#xff1a;B2B 模式是指企业与企业之间的商业交易。在这种模式下&#xff0c;企业通过电子商务平台相互提供产品或服务。 特点&#xff1a; 大宗交易&#xff1a;通常…

数据结构 ——— 顺序表和链表的区别以及各自的优缺点

目录 顺序表和链表的区别 一、存储空间上 二、下标的随机访问 三、任意位置插入或者删除元素 四、添加数据 五、应用场景 六、缓存利用率 顺序表和链表的优缺点 顺序表的缺点 链表的优点&#xff08;和顺序表的缺点对应&#xff09; 顺序表的优点 链表的缺点&#…

背包九讲——完全背包问题

目录 完全背包问题 问题定义 动态规划解法 状态转移方程 初始化 遍历顺序 三种解法&#xff1a; 朴素版——枚举k 进阶版——dp正推&#xff08;一维滚动数组&#xff09; 背包问题第三讲——完全背包问题 背包问题是一类经典的组合优化问题&#xff0c;通常涉及在限定…

简介openwrt系统下/etc/config/network文件生成过程

openwrt的network文件&#xff0c;或者说在/etc/config下的文件&#xff0c;都是动态生成的。 脚本的函数定义在package/base-files/files/lib/functions中&#xff0c;有以下几个文件&#xff1a; libraSVN:~/Wang_SP4/openwrt-d03dc49/package/base-files/files/lib/functi…

【Linux笔记】Linux命令与使用

博文将不断学习补充 学习参考博文&#xff1a; Linux命令大全&#xff1a;掌握常用命令&#xff0c;轻松使用Linux操作系统-CSDN博客 文件或目录操作命令 zip # zip是使用最多的文档压缩格式 # 方便跨平台使用&#xff0c;但是压缩率不是很高 zip指令未安装 安装zip yum ins…

python实战项目47:Selenium采集百度股市通数据

python实战项目47:Selenium采集百度股市通数据 一、思路分析二、完整代码一、思路分析 这里以获取百度股市通股评下的投票数据为例,页面中的其他数据同理。由于此页面数据是js动态加载的,所以采用Selenium获取数据。思路很简单,通过Selenium打开页面,然后定位到“股评”选…

Python闭包和修饰器

Python闭包和装饰器详解 1. 闭包&#xff08;Closure&#xff09; 闭包是Python中一个重要的概念&#xff0c;涉及嵌套函数和变量的作用域。 概念&#xff1a; 内外函数嵌套&#xff1a;闭包的形成通常涉及到一个外部函数和一个内部函数。内函数引用外函数作用域下的非全局变…

没有B柱?极氪MIX太大胆了!

文 | AUTO芯球 作者 | 雷慢 极氪又给国产车长脸了&#xff0c; 极氪MIX上市&#xff0c;创造了多个行业先例&#xff0c; 估计把合资看得一愣一愣的&#xff0c; 哪见过这样的每月都有新技术、黑科技冒出来&#xff0c; 我看完整个发布会就一个感想&#xff0c; 家里有小…

数据结构——哈夫曼树及其应用(哈夫曼编码)

判断树&#xff1a;用来描述分类过程的二叉树 哈夫曼树&#xff08;最优二叉树&#xff09;的基本概念 路径&#xff1a;从树中一个结点到另一个结点之间的分支构成这两个结点间的路径。 结点的路径长度&#xff1a;两结点间路径上的分支数。 结点的路径长度计算&#xff1…

PDF文件为什么不能编辑是?是啥原因导致的,有何解决方法

PDF文件格式广泛应用于工作中&#xff0c;但有时候我们可能遇到无法编辑PDF文件的情况。这可能导致工作效率降低&#xff0c;特别是在需要修改文件内容时显得尤为棘手。遇到PDF不能编辑时&#xff0c;可以看看是否以下3个原因导致的。 一、文件受保护 有些PDF文件可能被设置了…

JS为什么会阻塞页面渲染?

我看到一个很有意思的教学&#xff0c;我觉得实在是太牛了。我迫不及待要跟大家分享一下了。 来&#xff0c;接下来我为大家讲解一下为什么JS会阻塞页面渲染 首先讲这个大家要有简单的事件循环的概念 后面的文章会简单的为大家介绍一下这些概念 我给大家上一段代码&#xf…

leetcode动态规划(十二)-最后一块石头的重量

题目 1049.最后一块石头的重量 有一堆石头&#xff0c;用整数数组 stones 表示。其中 stones[i] 表示第 i 块石头的重量。 每一回合&#xff0c;从中选出任意两块石头&#xff0c;然后将它们一起粉碎。假设石头的重量分别为 x 和 y&#xff0c;且 x < y。那么粉碎的可能结…

GORM框架中的预加载功能Preload详解

一、适用性 在使用 GORM 进行数据库操作时&#xff0c;Preload 是一种非常有用的功能&#xff0c;它用于预加载与某个模型相关联的其他模型。下面是关于 Preload 的适用性以及为什么外键字段一般需要 Preload 的一些详细说明。 1. Preload 的适用性 适用于外键字段&#xff1…