pdf内容三张以上转图片,使用spire.pdf.free

一、依赖

   <spire.pdf.free.version>9.13.0</spire.pdf.free.version><itextpdf.version>5.5.13</itextpdf.version><dependency><groupId>e-iceblue</groupId><artifactId>spire.pdf.free</artifactId><version>${spire.pdf.free.version}</version></dependency><dependency><groupId>com.itextpdf</groupId><artifactId>itextpdf</artifactId><version>${itextpdf.version}</version></dependency>

二、思路:

①问题:

1、spire.pdf.free只能免费转换每个PDF的前三页

2、转换速度慢

3、多线程合并后页数顺序问题

②解决

1、将PDF文档根据页数截断为多个PDF,每个PDF最多三页

2、使用线程池多线程异步处理

3、map里的索引

三、代码:

1、 转换的类

package com.shiqiao.nev.business.infra.adapter.pdftoPic;import com.itextpdf.text.Document;
import com.itextpdf.text.DocumentException;
import com.itextpdf.text.pdf.PdfCopy;
import com.itextpdf.text.pdf.PdfImportedPage;
import com.itextpdf.text.pdf.PdfReader;
import com.spire.pdf.PdfDocument;
import com.spire.pdf.graphics.PdfImageType;import javax.imageio.ImageIO;
import java.awt.image.BufferedImage;
import java.io.ByteArrayInputStream;
import java.io.ByteArrayOutputStream;
import java.io.IOException;
import java.io.InputStream;
import java.util.ArrayList;
import java.util.List;
import java.util.concurrent.ExecutorService;
import java.util.concurrent.Future;public class PdfToPicConverter {private final byte[] pdfFileByteStream;private final Integer pageCount;private List<InputStream> picResult;public PdfToPicConverter(InputStream pdfFile) {try {pdfFileByteStream = inputStreamToByteArray(pdfFile);} catch (Exception e) {throw new RuntimeException("pdf文件转换为字节流失败", e);}PdfDocument pdf = new PdfDocument();pdf.loadFromStream(new ByteArrayInputStream(pdfFileByteStream));pageCount = pdf.getPages().getCount();}public PdfToPicConverter(byte[] pdfFile) {pdfFileByteStream = pdfFile;PdfDocument pdf = new PdfDocument();pdf.loadFromStream(new ByteArrayInputStream(pdfFileByteStream));pageCount = pdf.getPages().getCount();}public List<InputStream> convertToPictures(ExecutorService executorService) {picResult = new ArrayList<>();// 每三页为一组int groupSize = 3;int numGroups = (pageCount + groupSize - 1) / groupSize;List<Future<List<InputStream>>> futures = new ArrayList<>();for (int i = 0; i < numGroups; i++) {int startPage = i * groupSize;int endPage = Math.min(startPage + groupSize, pageCount);if (executorService != null) {futures.add(executorService.submit(() -> convertGroup(startPage, endPage)));}}// 等待所有任务完成并合并结果for (Future<List<InputStream>> future : futures) {try {picResult.addAll(future.get());} catch (Exception e) {throw new RuntimeException("图片转换失败", e);}}return picResult;}private InputStream splitPDFFile(byte[] pdfFileByteStream, int from, int end) {Document document = null;PdfCopy copy = null;try (ByteArrayInputStream bais = new ByteArrayInputStream(pdfFileByteStream);ByteArrayOutputStream baos = new ByteArrayOutputStream()) {PdfReader reader = new PdfReader(bais);int n = reader.getNumberOfPages();if (end == 0 || end > n) {end = n;}document = new Document(reader.getPageSize(1));copy = new PdfCopy(document, baos);document.open();for (int j = from + 1; j <= end; j++) {  // 注意这里j从from+1开始document.newPage();PdfImportedPage page = copy.getImportedPage(reader, j);copy.addPage(page);}document.close();return new ByteArrayInputStream(baos.toByteArray());} catch (IOException | DocumentException e) {throw new RuntimeException("PDF文件拆分失败", e);}}private List<InputStream> convertGroup(int startPage, int endPage) {InputStream inputStream = splitPDFFile(pdfFileByteStream, startPage, endPage);PdfDocument pdf = new PdfDocument();pdf.loadFromStream(inputStream);int end = endPage - startPage;List<InputStream> groupResult = new ArrayList<>();for (int i = 0; i < end; i++) {BufferedImage image = pdf.saveAsImage(i, PdfImageType.Bitmap, 500, 500);try (ByteArrayOutputStream baos = new ByteArrayOutputStream()) {ImageIO.write(image, "PNG", baos);groupResult.add(new ByteArrayInputStream(baos.toByteArray()));} catch (IOException e) {throw new RuntimeException("图片保存失败", e);}}pdf.close();return groupResult;return new ArrayList<>();}protected byte[] inputStreamToByteArray(InputStream inputStream) throws IOException {int bufferSize = 4096;byte[] buffer = new byte[bufferSize];int bytesRead;ByteArrayOutputStream baos = new ByteArrayOutputStream();while ((bytesRead = inputStream.read(buffer)) != -1) {baos.write(buffer, 0, bytesRead);}return baos.toByteArray();}
}

2、使用的地方

  public List<FileDTO> pdfToPng(byte[] filebyte, String fileName) {List<FileDTO> fileDTOS = new ArrayList<>();PdfToPicConverter pdfToPicConverter = new PdfToPicConverter(filebyte);List<InputStream> inputStreams = pdfToPicConverter.convertToPictures(pdfCovertPicExectorPool);inputStreams.forEach((e) -> {// 生成文件名String pgnNames = "fileName"+inputStreams.indexOf(e) + ".png";FileDTO fileDTO = new FileDTO(e, pgnNames);fileDTOS.add(fileDTO);});return fileDTOS;}

四、spire.pdf.free 的下载:maven仓库里进去然后点官网就能下jar包了

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/56574.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

下载并安装 WordPress 中文版

下载并安装 WordPress 中文版 1. 安装 LAMP 环境(Linux, Apache, MySQL, PHP)1. 安装 Apache2. 安装 MySQL3. 安装 PHP1. 下载并安装 WordPress 中文版1. 下载 WordPress2. 配置文件权限3 . 创建 MySQL 数据库4 . 配置 WordPress1. 安装 LAMP 环境(Linux, Apache, MySQL, PH…

Android Studio简易项目|随机选择器(类似转盘)

一、背景 为了强化对flowlayout流式布局的理解和简易安卓项目架构结构的理解&#xff0c;写一个小项目&#xff0c;随机选择器&#xff0c;控制可见等 二、项目代码 2.1流式布局 <?xml version"1.0" encoding"utf-8"?> <LinearLayout xmlns…

爬虫实战(黑马论坛)

1.定位爬取位置内容&#xff1a; # -*- coding: utf-8 -*- import requests import time import re# 请求的 URL 和头信息 url https://bbs.itheima.com/forum-425-1.html headers {user-agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like…

【存储设备专栏 2.3 -- 环回设备和块设备区别与联系】

> 请阅读【嵌入式及芯片开发学必备专栏】< 文章目录 环回设备和块设备区环回设备&#xff08;Loop Device&#xff09;定义用途示例 块设备&#xff08;Block Device&#xff09;定义用途示例 区别总结 环回设备和块设备区 在 Linux 系统中&#xff0c;存储设备常通过设…

基于Java实现(PC)大学班级事务管理系统

courseDesign_Java Java 课设 要求 本次设计要求利用 Java 实现 C/S 模式的大学班级内日常事务管理系统&#xff08;PC 版&#xff0c;应用于校内网有线网络访问&#xff0c;暂不开发移动端&#xff09;&#xff0c;不得依赖现有的建模框架&#xff0c;使用 swings 技术完成如…

华为OD机试 - 爱吃蟠桃的孙悟空 - 二分查找(Python/JS/C/C++ 2024 E卷 100分)

华为OD机试 2024E卷题库疯狂收录中&#xff0c;刷题点这里 专栏导读 本专栏收录于《华为OD机试真题&#xff08;Python/JS/C/C&#xff09;》。 刷的越多&#xff0c;抽中的概率越大&#xff0c;私信哪吒&#xff0c;备注华为OD&#xff0c;加入华为OD刷题交流群&#xff0c;…

决策树和集成学习的概念以及部分推导

一、决策树 1、概述 决策树是一种树形结构&#xff0c;树中每个内部节点表示一个特征上的判断&#xff0c;每个分支代表一个判断结果的输出&#xff0c;每个叶子节点代表一种分类结果 决策树的建立过程&#xff1a; 特征选择&#xff1a;选择有较强分类能力的特征决策树生成…

闯关leetcode——110. Balanced Binary Tree

大纲 题目地址内容 解题代码地址 题目 地址 https://leetcode.com/problems/balanced-binary-tree/description/ 内容 Given a binary tree, determine if it is height-balanced. A height-balanced binary tree is a binary tree in which the depth of the two subtrees…

决策树算法新手入门:从基础理论到Python实现

决策树新手入门详细教程 一、数学基础1. 信息熵(1) 基本定义(2) 条件熵(3) 有关定律 2. 信息增益 二、决策树的组成1. 决策节点2. 叶子节点3. 决策树的深度 三、决策树的建立&#xff08;基于信息增益&#xff09;—— ID31. 计算根节点的信息熵2. 计算属性的信息增益(1) 职业(…

linux之rm使用技巧

对于包含乱码的文件或目录名&#xff0c;在Linux中删除它们可能会有些棘手&#xff0c;但还是可以通过一些方法来实现。下面是一些处理这种情况的方法&#xff1a; 方法1: 使用通配符 如果这些乱码文件或目录的名字有共同的特征&#xff08;例如都是乱码&#xff09;&#xf…

ModuleNotFoundError: No module named ‘pdfminer.high_level‘

解决办法&#xff1a; pip uninstall pdfminer pip install pdfminer.six 如果还报错&#xff1a;重启计算机 参考资料&#xff1a;https://blog.csdn.net/xigewang_/article/details/132319419

【升华】python基础包NumPy学习

NumPy是使用Python进行科学计算的基础软件包。除其他外&#xff0c;它包括&#xff1a; 功能强大的N维数组对象。精密广播功能函数。集成 C/C和Fortran 代码的工具。强大的线性代数、傅立叶变换和随机数功能。 # 1、安装包 $ pip install numpy# 2、进入python的交互式界面 $…

策略模式-实现方式三

一 枚举类 Getter public enum AuthTypeEnum {QCT_PASSWORD("qct_password", "密码"),MOBILE("mobile", "验证码");public final String code;public final String desc;AuthTypeEnum(String code, String desc) {this.code code;th…

蓄电池在线监测:保障电力安全的智能之选---安科瑞 吴雅芳

一、蓄电池在线监测的重要性 随着科技的飞速发展&#xff0c;蓄电池在各个领域的应用日益广泛&#xff0c;从通信、电力到金融、医疗等行业&#xff0c;蓄电池都扮演着至关重要的角色。然而&#xff0c;蓄电池在使用过程中也面临着诸多问题。 蓄电池老化可能导致鼓胀、短路、漏…

React 子组件调用父组件的方法,以及互相传递数据

<script type"text/babel" data-type"module"> import React, { StrictMode, useState } from react; import { createRoot } from react-dom/client;const ParentComponent () > {const [message, setMessage] useState("")//父组件…

【火山引擎】 Chat实践 | 大模型调用实践 | python

目录 一 前期工作 二 Doubao-pro-4k_test实践 一 前期工作 1 已在火山方舟控制台在线推理页面创建了推理接入点 ,接入大语言模型并获取接入点 ID。 2 已参考安装与初始化中的步骤完成 SDK 安装和访问凭证配置

基于SSM的个性化商铺系统【附源码】

基于SSM的个性化商铺系统 效果如下&#xff1a; 用户登录界面 app首页界面 商品信息界面 店铺信息界面 用户功能界面 我的订单界面 后台登录界面 管理员功能界面 用户管理界面 商家管理界面 店铺信息管理界面 商家功能界面 个人中心界面 研究背景 研究背景 科学技术日新月异…

Java设计模式六大原则

Java设计模式的六大原则是面向对象设计中的基本准则&#xff0c;帮助开发人员构建更灵活、可维护和可扩展的系统。这些原则包括单一职责原则&#xff08;SRP&#xff09;、开闭原则&#xff08;OCP&#xff09;、里氏替换原则&#xff08;LSP&#xff09;、依赖倒置原则&#x…

fiber的原理

React Fiber 的主要原理包括动态优先级、可中断的工作、增量渲染和协作式多任务 React Fiber 是 React 16 引入的一种新的协调&#xff08;reconciliation&#xff09;引擎&#xff0c;它旨在提高 React 应用的性能和响应性。Fiber 的核心原理主要包括以下几个方面&#xff1a…

GitLab 发布安全补丁版本 17.3.2, 17.2.5, 17.1.7

本分分享极狐GitLab 补丁版本 17.4.2, 17.3.5, 17.2.9 的详细内容。这几个版本包含重要的缺陷和安全修复代码&#xff0c;我们强烈建议所有私有化部署用户应该立即升级到上述的某一个版本。对于极狐GitLab SaaS&#xff0c;技术团队已经进行了升级&#xff0c;无需用户采取任何…