批量读取pdf发票中二维码的信息

如下代码Java类:

import com.alibaba.excel.EasyExcel;
import com.alibaba.excel.ExcelWriter;
import com.alibaba.excel.annotation.ExcelProperty;
import com.alibaba.excel.write.builder.ExcelWriterBuilder;
import com.alibaba.excel.write.metadata.WriteSheet;
import com.alibaba.excel.write.metadata.style.WriteCellStyle;
import com.alibaba.excel.write.style.HorizontalCellStyleStrategy;
import com.alibaba.excel.write.style.column.LongestMatchColumnWidthStyleStrategy;
import com.google.zxing.BinaryBitmap;
import com.google.zxing.MultiFormatReader;
import com.google.zxing.NotFoundException;
import com.google.zxing.Result;
import com.google.zxing.client.j2se.BufferedImageLuminanceSource;
import com.google.zxing.common.HybridBinarizer;
import lombok.Data;
import lombok.extern.slf4j.Slf4j;
import org.apache.pdfbox.Loader;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.rendering.ImageType;
import org.apache.pdfbox.rendering.PDFRenderer;
import org.apache.poi.ss.usermodel.BorderStyle;import java.awt.image.BufferedImage;
import java.io.File;
import java.io.IOException;
import java.util.ArrayList;
import java.util.List;
import java.util.Objects;/*** pdf电子发票二维码解析** @author 单红宇* @since 2025-01-02 09:00:16*/
@Slf4j
@Data
public class FapiaoPDFQRcodeParser {/*** folderPath*/private String folderPath;/*** outputPath*/private String outputPath;/*** 入口** @param args args*/public static void main(String[] args) {String folderPath = "D:\\Downloads\\fapiao";FapiaoPDFQRcodeParser fapiaoPDFQrcodeParser = new FapiaoPDFQRcodeParser();fapiaoPDFQrcodeParser.setFolderPath(folderPath);fapiaoPDFQrcodeParser.processFolder(folderPath);}/*** 递归处理所有pdf发票** @param folder             folder* @param resultCodeDataList qrCodes* @param errorDataList      errorDataList*/private void processFolderRecursively(File folder, List<QrCodeData> resultCodeDataList, List<ErrorData> errorDataList) {if (folder.isDirectory()) {for (File file : Objects.requireNonNull(folder.listFiles())) {if (file.isDirectory()) {processFolderRecursively(file, resultCodeDataList, errorDataList);} else if (file.isFile() && file.getName().toLowerCase().endsWith(".pdf")) {log.info("Processing: {}", file.getAbsolutePath());String fileName = file.getAbsolutePath().substring(this.getFolderPath().length() + 1);try {resultCodeDataList.addAll(extractQRCodesFromPdf(file, fileName, errorDataList));} catch (IOException e) {errorDataList.add(new ErrorData(fileName, e.getMessage()));}}}}}/*** 开始处理发票文件夹** @param folderPath folderPath*/private void processFolder(String folderPath) {File folder = new File(folderPath);List<QrCodeData> resultList = new ArrayList<>();List<ErrorData> errorDataList = new ArrayList<>();processFolderRecursively(folder, resultList, errorDataList);// 使用EasyExcel写入Excel文件// 创建ExcelWriter对象,指定文件名和文件类型(这里假设是xlsx)ExcelWriterBuilder writerBuilder =EasyExcel.write(this.getOutputPath()).registerWriteHandler(this.getHorizontalCellStyleStrategy()).registerWriteHandler(new LongestMatchColumnWidthStyleStrategy());// 如果需要自定义一些全局配置,可以继续链式调用writerBuilder的其他方法try (ExcelWriter excelWriter = writerBuilder.build()) {// 构建ExcelWriter// 写入第一个sheetWriteSheet writeSheet1 = EasyExcel.writerSheet("Codes").head(QrCodeData.class).build();excelWriter.write(resultList, writeSheet1);// 写入第二个sheetWriteSheet writeSheet2 = EasyExcel.writerSheet("Errors").head(ErrorData.class).build();excelWriter.write(errorDataList, writeSheet2);} catch (Exception e) {log.error("输出Excel异常", e);}}/*** 设置单元格样式** @return HorizontalCellStyleStrategy*/private HorizontalCellStyleStrategy getHorizontalCellStyleStrategy() {// 设置边框样式WriteCellStyle headWriteCellStyle = new WriteCellStyle();WriteCellStyle contentWriteCellStyle = new WriteCellStyle();// 设置边框BorderStyle borderStyle = BorderStyle.THIN;headWriteCellStyle.setBorderTop(borderStyle);headWriteCellStyle.setBorderBottom(borderStyle);headWriteCellStyle.setBorderLeft(borderStyle);headWriteCellStyle.setBorderRight(borderStyle);contentWriteCellStyle.setBorderTop(borderStyle);contentWriteCellStyle.setBorderBottom(borderStyle);contentWriteCellStyle.setBorderLeft(borderStyle);contentWriteCellStyle.setBorderRight(borderStyle);// 创建水平样式策略return new HorizontalCellStyleStrategy(headWriteCellStyle, contentWriteCellStyle);}/*** 提取pdf中的发票二维码** @param pdfFile       pdfFile* @param fileName      fileName* @param errorDataList errorDataList* @return List* @throws IOException IOException*/private List<QrCodeData> extractQRCodesFromPdf(File pdfFile, String fileName, List<ErrorData> errorDataList) throws IOException {List<QrCodeData> qrCodes = new ArrayList<>();try (PDDocument document = Loader.loadPDF(pdfFile)) {PDFRenderer pdfRenderer = new PDFRenderer(document);for (int page = 0; page < document.getNumberOfPages(); ++page) {BufferedImage bim = pdfRenderer.renderImageWithDPI(page, 300, ImageType.RGB);try {qrCodes.addAll(decodeQRCode(bim, fileName));} catch (NotFoundException e) {log.error("解析二维码发生异常", e);errorDataList.add(new ErrorData(fileName, e.getMessage()));}}}return qrCodes;}/*** 解析二维码为数据对象** @param image    image* @param fileName fileName* @return List*/private List<QrCodeData> decodeQRCode(BufferedImage image, String fileName) throws NotFoundException {List<QrCodeData> result = new ArrayList<>();MultiFormatReader multiFormatReader = new MultiFormatReader();BinaryBitmap binaryBitmap = new BinaryBitmap(new HybridBinarizer(new BufferedImageLuminanceSource(image)));Result zxingResult = multiFormatReader.decode(binaryBitmap);// 假设二维码内容直接包含三个值,用逗号分隔String[] data = zxingResult.getText().split(",");if (data.length > 5) {result.add(new FapiaoPDFQRcodeParser.QrCodeData(data[3], data[4], data[5], fileName));}return result;}/*** 所有发票解析后输出的excel路径** @return String*/public String getOutputPath() {if (outputPath == null) {outputPath = folderPath + File.separator + "output.xlsx";}return outputPath;}/*** 二维码数据对象** @author 单红宇* @since 2025-01-02 09:00:16*/@Datastatic class QrCodeData {/*** invoiceNumber*/@ExcelProperty("发票号码")private String invoiceNumber;/*** amount*/@ExcelProperty("金额")private String amount;/*** date*/@ExcelProperty("日期")private String date;/*** fileName*/@ExcelProperty("文件名")private String fileName;/*** QrCodeData** @param invoiceNumber invoiceNumber* @param amount        amount* @param date          date* @param fileName      fileName*/public QrCodeData(String invoiceNumber, String amount, String date, String fileName) {this.invoiceNumber = invoiceNumber;this.amount = amount;this.date = date.replace("-","").replace("/", "");this.fileName = fileName;}}/*** 错误数据内容** @author 单红宇* @since 2025-01-02 09:00:16*/@Datastatic class ErrorData {/*** fileName*/@ExcelProperty("文件名")private String fileName;/*** errorMessage*/@ExcelProperty("错误信息")private String errorMessage;public ErrorData(String fileName, String errorMessage) {this.errorMessage = errorMessage;this.fileName = fileName;}}
}

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/65937.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

计算机网络-L2TP Over IPSec基础实验

一、概述 上次我们进行了标准L2TP的配置&#xff0c;但是在最后我们在进行业务流量访问时看到流量是没有进行加密的&#xff0c;这就导致可能得安全风险&#xff0c;所以这里其实可以退像GRE那样调用IPSec框架来进行加密保护。 拓扑 数据不加密 现在需要配置IPSec&#xff0c;然…

STLG_01_03_程序设计C语言 - 语法基础

C语言的语法基础是理解和使用C语言的关键。C语言的语法相对简洁&#xff0c;但功能强大。以下是C语言语法基础的主要内容&#xff1a; 一. 基本结构 1. 预处理指令&#xff1a;预处理指令以#开头&#xff0c;用于包含头文件、定义宏、条件编译等。 #include <stdio.h> …

C#控件开发4—仪表盘

目录 思路&#xff08;GDI绘图&#xff09;1.定义属性2.绘制图形3.最后生成&#xff08;自定义各种监控值显示&#xff09;End 如何让温度、湿度、压力等有量程的监控值如仪表盘&#xff08;DashBoard&#xff09;一样显示&#xff1f; 思路&#xff08;GDI绘图&#xff09; 定…

【内含代码】Spring Boot整合深度学习框架DJL

“ Deep Java Library是一个用于处理大规模数据处理和分析的强大工具包&#xff0c;它提供了丰富的数据结构和算法实现&#xff0c;支持高效的并行计算和分布式处理。Deep Java Library的设计目标是简化大规模数据处理任务的复杂性&#xff0c;提供高性能的计算能力&#xff0c…

ThinkPHP 8高效构建Web应用-第一个简单的MVC应用示例

【图书介绍】《ThinkPHP 8高效构建Web应用》-CSDN博客 《2025新书 ThinkPHP 8高效构建Web应用 编程与应用开发丛书 夏磊 清华大学出版社教材书籍 9787302678236 ThinkPHP 8高效构建Web应用》【摘要 书评 试读】- 京东图书 使用VS Code开发ThinkPHP项目-CSDN博客 我们先实现一…

数字化供应链创新解决方案在零售行业的应用研究——以开源AI智能名片S2B2C商城小程序为例

摘要&#xff1a; 在数字化转型的浪潮中&#xff0c;零售行业正经历着前所未有的变革。特别是在供应链管理方面&#xff0c;线上线下融合、数据孤岛、消费者需求多样化等问题日益凸显&#xff0c;对零售企业的运营效率与市场竞争力构成了严峻挑战。本文深入探讨了零售行业供应…

React基础知识学习

学习React前端框架是一个系统而深入的过程&#xff0c;以下是一份详细的学习指南&#xff1a; 一、React基础知识 React简介 React是一个用于构建用户界面的JavaScript库&#xff0c;由Facebook开发和维护。它强调组件化和声明式编程&#xff0c;使得构建复杂的用户界面变得更…

RabbitMQ - 4 ( 22000 字 RabbitMQ 入门级教程 )

一&#xff1a; RabbitMQ 高级特性 前面主要讲解了 RabbitMQ 的概念和应用。RabbitMQ 实现了 AMQP 0-9-1 规范&#xff0c;并在此基础上进行了多项扩展。在 RabbitMQ 官方网站中详细介绍了其特性&#xff0c;我们将其中一些重要且常用的特性挑选出来进行讲解。 1.1 消息确认 …

mac m2 安装 docker

文章目录 安装1.下载安装包2.在downloads中打开3.在启动台打开打开终端验证 修改国内镜像地址小结 安装 1.下载安装包 到官网下载适配的安装包&#xff1a;https://www.docker.com/products/docker-desktop/ 2.在downloads中打开 拖过去 3.在启动台打开 选择推荐设置 …

开发小技巧分享 01:JSON解析工具

1.百度词条 JSON&#xff08;JavaScript Object Notation&#xff0c;JavaScript对象表示法&#xff09;是基于ECMAScript的一个子集设计的&#xff0c;是一种开放标准的文件格式和数据交换格式&#xff0c;它易于人阅读和编写&#xff0c;同时也易于机器解析和生成。JSON独立于…

QT--------网络

实现思路 主机信息查询&#xff1a; 使用 QHostInfo 类可以查询主机名和 IP 地址信息。QNetworkInterface 类可以获取本地网络接口的信息&#xff0c;包括 IP 地址、子网掩码、广播地址等。 TCP 通信&#xff1a; 使用 QTcpServer 类实现 TCP 服务器端程序设计。使用 QTcpSock…

智能边缘计算×软硬件一体化:开启全场景效能革命新征程(企业开发者作品)

边缘智能技术快速迭代&#xff0c;并与行业深度融合。它正重塑产业格局&#xff0c;催生新产品、新体验&#xff0c;带动终端需求增长。为促进边缘智能技术的进步与发展&#xff0c;拓展开发者的思路与能力&#xff0c;挖掘边缘智能应用的创新与潜能&#xff0c;高通技术公司联…

C++ 设计模式:模板方法(Template Method)

链接&#xff1a;C 设计模式 链接&#xff1a;C 设计模式 - 策略模式 链接&#xff1a;C 设计模式 - 观察者模式 模板方法&#xff08;Template Method&#xff09;是一种行为设计模式&#xff0c;它定义了一个操作中的算法的骨架&#xff0c;而将一些步骤延迟到子类中。通过这…

docker Error response from daemon

问题 Error response from daemon: Get "https://index.docker.io/v1/search?qnginx&n25": read tcp 192.168.50.233:54354->54.198.86.24:443: read: connection reset by peer Unable to find image redis:latest locally docker: Error response from d…

数据挖掘——模型的评价

数据挖掘——模型的评价 模型的评价混淆矩阵ROC曲线如何构建ROC曲线 模型过分拟合和拟合不足减少泛化误差 模型的评价 混淆矩阵 准确率 a d a b c d \frac{ad}{abcd} abcdad​ T P T N T P T N F P F N \frac{TPTN}{TPTNFPFN} TPTNFPFNTPTN​ 其他度量&#xff1a; …

ubuntu 22.04安装ollama

1. 顺利的情况 按照官网的提示&#xff0c;执行下面的命令&#xff1a; curl -fsSL https://ollama.com/install.sh | sh如果网络畅通&#xff0c;github访问也没有问题&#xff0c;那就等待安装完成就行 2. 不顺利的情况 由于众所周知的情况&#xff0c;国内网络访问githu…

常用的数据结构API概览

List ArrayList 1、在初始化一个ArrayList的时候&#xff0c;如果我想同时set一些值 比如存放int[ ] List<int[]> list new ArrayList(Arrays.asList(new int[]{intervals[0][0],intervals[0][1]}));//或者int[] temp new int[]{intervals[0][0],intervals[0][1]}…

Pycharm 中 virtualenv、pipenv、conda 虚拟环境的用法

文章目录 前言虚拟环境的通俗介绍虚拟环境和非虚拟环境该怎么选?通过 Virtualenv 方式创建虚拟环境通过 Pipenv 方式创建虚拟环境通过 Conda 方式创建虚拟环境前言 在网上找了好一些资料,发现介绍 Pycharm 虚拟环境的不多,查了一些资料,并做个总结。 本文主要是介绍 Pycha…

OceanBase到MySQL实时同步方案

概述 本方案基于OceanBase Binlog服务&#xff0c;采用数据库实时复制软件Beedup订阅捕获OceanBase数据库的Binlog事件&#xff0c;复制软件将Binlog事件还原为MySQL支持的DML或DDL&#xff0c;然后交由MySQL数据库执行。 配置Binlog任务 启用OceanBase Binlog服务&#xff…

【数据库系统概论】绪论--复习

1. 数据库的四个基本概念 数据&#xff1a;指经过处理的、可用于计算机操作的原始信息&#xff08;或者也可以理解成是——描述事务的符号&#xff0c;数字、图像、符号、音频、视频、文字、图形等都可以是数据&#xff09;。数据库&#xff1a;是长期存储在计算机内有组织、可…