java解析PDF、WORD获取其中的表格以及文本内容

近期因工作需要需要解析PDF,需要把PDF中的文本和表格分离,最终要实现的目标是PDF中的文本内容放一块,表格内容放一块,以list的形式存储。解析PDF的技术有很多,经过多次尝试发现使用AdobeAcrobat可以实现表格和文本分离。

注意事项:

1、下载AdobeAcrobat进行安装
       链接:https://pan.baidu.com/s/1Ki2H4gxDaKj5z8Dli3amCg 
       提取码:ckfx

2、使用时如果有报jacob的错把jacob-1.18-M1-x64.dll、jacob-1.18-M1-x86.dll这两个文件放到Java>jdk1.8.0_271>bin目录下

3、引入依赖:

     <dependency><groupId>jacob</groupId><artifactId>jacob</artifactId><version>1.1.8</version></dependency> <dependency><groupId>org.jsoup</groupId><artifactId>jsoup</artifactId><version>1.17.2</version></dependency>

工具类如下(内附PDF的文件转换方法以及获取纯文本和纯表格的测试方法):

package com.ylx.test.util;import java.io.BufferedReader;
import java.io.File;
import java.io.FileInputStream;
import java.io.FileNotFoundException;
import java.io.IOException;
import java.io.InputStreamReader;
import java.nio.file.Files;
import java.nio.file.Paths;
import java.util.ArrayList;
import java.util.List;
import java.util.concurrent.Callable;
import java.util.concurrent.ExecutorService;
import java.util.concurrent.Executors;
import java.util.concurrent.Future;
import java.util.concurrent.TimeUnit;
import java.util.regex.Matcher;
import java.util.regex.Pattern;import org.apache.commons.lang.StringUtils;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import org.springframework.stereotype.Component;import com.jacob.activeX.ActiveXComponent;
import com.jacob.com.ComThread;
import com.jacob.com.Dispatch;
import com.jacob.com.Variant;
/*** * 2024年4月18日下午3:53:36*/
@Component
public class PdfToHtmlAdobe {public static void main(String[] args) throws Exception {/*** 将PDF转成html* */String filepath = "E:\\工作\\";String htmlpath = "E:\\gongzuo\\zjk\\html_file\\";String filename = "cehi";Integer fileType = 1;//1.pdf,2wordString ext = ".pdf";filedata(filepath, filename,htmlpath,fileType,ext);/*** 获取纯文本* */String htmlFilePath = "E:\\gongzuo\\html_file\\ceshi.html";List<String> dlList = getDLList(htmlFilePath);for (int i = 0; i < dlList.size(); i++) {System.out.println("第"+i+"条:"+dlList.get(i));}/*** 获取所有表格* */List<String> bgList = getAllTable(htmlFilePath);for (int i = 0; i < bgList.size(); i++) {System.out.println("第"+i+"条:"+bgList .get(i));}}public static String getRemoveTableStr(String htmlFilePath) throws IOException {String content = new String(Files.readAllBytes(Paths.get(htmlFilePath)),"GBK");String specialStr = removeContentStyle(content);// 使用 Jsoup 解析 HTML 字符串Document doc = Jsoup.parse(specialStr);// 获取纯文本String plainText = doc.text();
//		System.out.println(plainText);return plainText;}/*** 获取所有的Table* @param htmlFilePath* @return* @throws IOException* 2024年4月19日下午3:36:39*/public static List<String> getAllTable(String htmlFilePath) throws IOException {List<String> bgList = new ArrayList<>();// 加载 HTML 文件File input = new File(htmlFilePath);try {// 解析 HTML 文件Document doc = Jsoup.parse(input, null);// 选择所有的表格元素Elements tables = doc.select("table");// 遍历每个表格元素for (Element table : tables) {// 获取当前表格中的所有行Elements rows = table.select("tr");//创建StringBuilder类的实例StringBuilder builder = new StringBuilder();// 遍历每行for (Element row : rows) {// 输出行内容
//                    System.out.println("行内容:");
//                    System.out.println(row.text());//将获取的text写入StringBuilder容器builder.append(row.text());builder.append("\r\n");}
//                System.out.println("-----------------------------------------------");
//                System.out.println(builder.toString());
//                System.out.println("-----------------------------------------------");bgList.add(builder.toString());}} catch (IOException e) {e.printStackTrace();}return bgList;}/*** 获取以10个逗号为一个段落的list* @param content* @return* 2024年4月19日下午2:04:17* @throws IOException */public static List<String> getDLList(String htmlFilePath) throws IOException {/*** 删除Table表格* */String content = getRemoveTableStr(htmlFilePath);
//		System.out.println(content);
//        String[] jhArr = content.split("。");
//        List<String> dlList = new ArrayList<String>();//10个句号为一个段落
//        String jhStrTen=new String();
//        int lastDl=0;
//        for (int i = 0; i < jhArr.length; i++) {
//        	if (i % 10 == 0 && i>0) {
//        		dlList.add(jhStrTen);
//        		if (jhArr.length-i>10) {
//        			jhStrTen="";
//				}
//        		if (jhArr.length-i<=10 && lastDl==0) {
//					lastDl = 1;
//					jhStrTen = "";
//				}
//			}else{
//				jhStrTen = jhStrTen +jhArr[i]+"。";
//				if ((i+1) == jhArr.length) {
//					dlList.add(jhStrTen);
//				}
//			}
//		}List<String> dlList = new ArrayList<>();int index = 0;while (index < content.length()) {int endIndex = index + 1; // 初始化结束索引for (int i = 0; i < 10; i++) {endIndex = content.indexOf("。", endIndex + 1); // 查找句号if (endIndex == -1) {break; // 如果没有找到句号,跳出循环}}if (endIndex == -1) {endIndex = content.length(); // 如果不满十个句号,结束索引为字符串长度}dlList.add(content.substring(index, endIndex)); // 将段落添加到列表中index = endIndex + 1; // 更新起始索引}return dlList;}/*** @param filepath  存放PDF的文件目录* @param filename  不带后缀名的PDF文件* @throws Exception* 2024年4月18日下午3:31:55*/public static void filedata(String fileDir, String filename,String htmlPath,Integer fileType,String ext) throws Exception{final ExecutorService exec = Executors.newFixedThreadPool(1);  Callable<String> call = new Callable<String>() {  public String call() throws Exception {  //开始执行耗时操作  if (fileType==1) {//文件路径不存在则进行创建FileUtils.createPath(htmlPath);if (!FileUtils.isFileExists(htmlPath + filename + ".docx")) {PDFtoWord(fileDir + filename + ".PDF", htmlPath + filename + ".docx");}if (!FileUtils.isFileExists(htmlPath + filename + ".html")) {wordToHtml(htmlPath + filename + ".docx", htmlPath + filename + ".html");}}if (fileType==2){//文件路径不存在则进行创建FileUtils.createPath(htmlPath);if (!FileUtils.isFileExists(htmlPath + filename + ".html")) {wordToHtml(fileDir + filename + ext, htmlPath + filename + ".html");}}return "线程执行完成.";}  };  try {Future<String> future = exec.submit(call);String obj = future.get(1000 * 600, TimeUnit.MILLISECONDS); //任务处理超时时间设为 1 秒  System.out.println("文件转换:" + obj);} catch (Exception e) {//关闭AcrobatString command = "taskkill /f /im Acrobat.exe";  Runtime.getRuntime().exec(command);throw e;} finally {// 关闭线程池  exec.shutdown(); }}public static boolean wordToHtml(String inPath, String toPath) {ComThread.InitSTA();//初始化com的线程// 启动wordActiveXComponent axc = new ActiveXComponent("Word.Application");boolean flag = false;try {// 设置word不可见axc.setProperty("Visible", new Variant(false));Dispatch docs = axc.getProperty("Documents").toDispatch();// 打开word文档Dispatch doc = Dispatch.invoke(docs,"Open",Dispatch.Method,new Object[] { inPath, new Variant(false), new Variant(true) },new int[1]).toDispatch();// 作为html格式保存到临时文件Dispatch.invoke(doc, "SaveAs", Dispatch.Method, new Object[] {toPath, new Variant(8) }, new int[1]);Variant f = new Variant(false);Dispatch.call(doc, "Close", f);axc.invoke("Quit", new Variant[] {});flag = true;return flag;} catch (Exception e) {e.printStackTrace();return flag;} finally {ComThread.Release();//关闭com的线程   真正kill进程}}public static boolean PDFtoWord(String source, String target) {ComThread.InitSTA();//初始化com的线程// pdfActiveX PDDoc对象 主要建立PDF对象ActiveXComponent app = null ;try {File inPath = new File(source);File outPath = new File(target);app = new ActiveXComponent("AcroExch.PDDoc");// PDF控制对象Dispatch pdfObject = app.getObject();long start = System.currentTimeMillis();// 打开PDF文件,建立PDF操作的开始Dispatch.call(pdfObject, "Open", new Variant(inPath.getAbsolutePath()));Variant jsObj = Dispatch.call(pdfObject, "GetJSObject");Dispatch.call(jsObj.getDispatch(), "SaveAs", outPath.getPath(), "com.adobe.acrobat.docx");app.invoke("Close");// 关闭PDFapp.invoke("Close", new Variant[] {});long end = System.currentTimeMillis();} catch (Exception e) {System.out.println(e.getMessage());} finally {ComThread.Release();//关闭com的线程   真正kill进程}return true;}public static String chineseDate(String chineseDate){String aa4 = chineseDate.substring(chineseDate.indexOf("年")-2, chineseDate.indexOf("年"));String aa1 = chineseDate.substring(chineseDate.indexOf("年"),chineseDate.indexOf("月")+1);String aa2 = chineseDate.substring(chineseDate.indexOf("月")+1,chineseDate.indexOf("日"));String aa3 = chineseDate.substring(chineseDate.indexOf("日"));aa1 = aa1.replaceAll("十二", "12");aa1 = aa1.replaceAll("十一", "11");aa1 = aa1.replaceAll("十", "10");aa1 = aa1.replaceAll("一", "1");aa1 = aa1.replaceAll("二", "2");aa1 = aa1.replaceAll("三", "3");aa1 = aa1.replaceAll("四", "4");aa1 = aa1.replaceAll("五", "5");aa1 = aa1.replaceAll("六", "6");aa1 = aa1.replaceAll("七", "7");aa1 = aa1.replaceAll("八", "8");aa1 = aa1.replaceAll("九", "9");aa1 = aa1.replaceAll("零", "0");aa1 = aa1.replaceAll("〇", "0");aa1 = aa1.replaceAll("○", "0");aa1 = aa1.replaceAll("O", "0");aa1 = aa1.replaceAll("", "0");aa4 = aa4.replaceAll("十二", "12");aa4 = aa4.replaceAll("十一", "11");aa4 = aa4.replaceAll("十", "10");aa4 = aa4.replaceAll("一", "1");aa4 = aa4.replaceAll("二", "2");aa4 = aa4.replaceAll("三", "3");aa4 = aa4.replaceAll("四", "4");aa4 = aa4.replaceAll("五", "5");aa4 = aa4.replaceAll("六", "6");aa4 = aa4.replaceAll("七", "7");aa4 = aa4.replaceAll("八", "8");aa4 = aa4.replaceAll("九", "9");aa4 = aa4.replaceAll("零", "0");aa4 = aa4.replaceAll("〇", "0");aa4 = aa4.replaceAll("○", "0");aa4 = aa4.replaceAll("O", "0");aa4 = aa4.replaceAll("", "0");return 20+aa4+aa1+chineseNumber(aa2)+aa3;}/*** 中文數字转阿拉伯数组【十万九千零六十  --> 109060】* @param chineseNumber* @return*/private static String chineseNumber(String chineseNumber){int result = 0;int temp = 1;//存放一个单位的数字如:十万int count = 0;//判断是否有chArrchar[] cnArr = new char[]{'一','二','三','四','五','六','七','八','九'};char[] chArr = new char[]{'十','百','千','万','亿'};for (int i = 0; i < chineseNumber.length(); i++) {boolean b = true;//判断是否是chArrchar c = chineseNumber.charAt(i);for (int j = 0; j < cnArr.length; j++) {//非单位,即数字if (c == cnArr[j]) {if(0 != count){//添加下一个单位之前,先把上一个单位值添加到结果中result += temp;temp = 1;count = 0;}// 下标+1,就是对应的值temp = j + 1;b = false;break;}}if(b){//单位{'十','百','千','万','亿'}for (int j = 0; j < chArr.length; j++) {if (c == chArr[j]) {switch (j) {case 0:temp *= 10;break;case 1:temp *= 100;break;case 2:temp *= 1000;break;case 3:temp *= 10000;break;case 4:temp *= 100000000;break;default:break;}count++;}}}if (i == chineseNumber.length() - 1) {//遍历到最后一个字符result += temp;}}return String.valueOf(result);}/***  读取本地html文件里的html代码* @return*/public static String toHtmlString(File file) {// 获取HTML文件流StringBuffer htmlSb = new StringBuffer();try {BufferedReader br = new BufferedReader(new InputStreamReader(new FileInputStream(file), "GBK"));while (br.ready()) {htmlSb.append(br.readLine());}br.close();// 删除临时文件//file.delete();} catch (FileNotFoundException e) {e.printStackTrace();} catch (IOException e) {e.printStackTrace();}// HTML文件字符串String htmlStr = htmlSb.toString();// 返回经过清洁的html文本return htmlStr;}/*** 符合以特定字符串开头 ,以特定字符串结尾的所有结果*/public static String getSpecialStr(String line, String pattern) {// 创建 Pattern 对象Pattern r = Pattern.compile(pattern);// 创建 matcher 对象Matcher m = r.matcher(line);String str = "";if (m.find()) {str = m.group(2);}if (StringUtils.isEmpty(str)) {return str;} else {return str.substring(0, str.length() - 1);}}/*** 清除文件中的table** @param content*            公告内容* @return 字符串结果集*/public static String removeContentStyle(String content) {String regEx = "<table(.*?)</table>";Pattern p = Pattern.compile(regEx);Matcher m = p.matcher(content);if (m.find()) {content = m.replaceAll("");}
//            String regEx2 = " style=\"([\\s\\S]*?)\"";
//            Pattern p2 = Pattern.compile(regEx2);
//            Matcher m2 = p2.matcher(content);
//            if (m2.find()) {
//                    content = m2.replaceAll("");
//            }
//            String regEx3 = " border=\"(.*?)\"";
//            Pattern p3 = Pattern.compile(regEx3);
//            Matcher m3 = p3.matcher(content);
//            if (m3.find()) {
//                    content = m3.replaceAll(" border=\"1\" ");
//            }
//
//            String regEx4 = " class=.*?\\>";
//            Pattern p4 = Pattern.compile(regEx4);
//            Matcher m4 = p4.matcher(content);
//            if (m4.find()) {
//                    content = m4.replaceAll("\\>");
//            }
//            String regEx5 = "\\<!--(.*?)--\\>";
//            Pattern p5 = Pattern.compile(regEx5);
//            Matcher m5 = p5.matcher(content);
//            if (m5.find()) {
//                    content = m5.replaceAll("");
//            }
//            String regEx6 = "\\<o:p(.*?)/o:p\\>";
//            Pattern p6 = Pattern.compile(regEx6);
//            Matcher m6 = p6.matcher(content);
//            if (m6.find()) {
//                    content = m6.replaceAll("");
//            }
//            String regEx7 = "\\<!(.*?)\\>";
//            Pattern p7 = Pattern.compile(regEx7);
//            Matcher m7 = p7.matcher(content);
//            if (m7.find()) {
//                    content = m7.replaceAll("");
//            }
//            String regEx8 = "\\<font(.*?)\\>";
//            Pattern p8 = Pattern.compile(regEx8);
//            Matcher m8 = p8.matcher(content);
//            if (m8.find()) {
//                    content = m8.replaceAll("");
//            }return content;}}

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/4545.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

06 华三防火墙的如何进入web页面?

1 AI 思路 要进入华三防火墙的Web页面,你需要按照以下步骤操作: 确定防火墙的IP地址:首先,你需要知道你的华三防火墙的IP地址。通常,你可以从网络管理员或者设备本身获取这个信息。 打开浏览器:在你的电脑上打开一个网页浏览器,例如Chrome、Firefox或者Edge等。 输入UR…

系统服务(22年国赛)—— DHCPDHCP Relay(中继)

前言&#xff1a;原文在我的博客网站中&#xff0c;持续更新数通、系统方面的知识&#xff0c;欢迎来访&#xff01; 系统服务&#xff08;22年国赛&#xff09;—— DHCP&&DHCP Relay(中继)https://myweb.myskillstree.cn/94.html 目录 一、题目 DHCP AppSrv 二…

Linux学习之路 -- 进程篇 -- 自定义shell的编写

前面介绍了进程程序替换的相关知识&#xff0c;接下来&#xff0c;我将介绍如何基于前面的知识&#xff0c;编写一个简单的shell&#xff0c;另外本文的所展示的shell可能仅供参考。 目录 <1>获取用户的输入和打印命令行提示符 <2>切割字符串 <3>执行这个…

第 4 篇 : Netty客户端互发图片和音/视频

说明 因为图片和音/视频不能确定其具体大小, 故引入MinIO。客户端之间只发送消息, 通过上传/下载来获取额外信息 1. MinIO搭建(参考前面文章), 并启动 2. 登录MinIO创建3个Bucket: image、voice、video 3. 客户端改造 3.1 修改 pom.xml <?xml version"1.0" …

苍穹外卖绕过微信支付

经过以下改动可实现&#xff1a; 1、不用微信支付端口 2、弹出支付成功的界面 3、数据库修改支付成功后的数据 #在OrderServiceImpl.java里加入Autowiredprivate OrderService orderService; #在OrderServiceImpl.java里的payment函数做以下改动 #图片里有&#xff0c;红色为原…

2024李卜常识王小晨申论类比刷题课

2024年&#xff0c;李卜常识与王小晨申论类比刷题课成为备考公务员考试的热门选择。李卜老师以其深厚的学识&#xff0c;为学员们剖析常识的精髓&#xff1b;而王小晨老师则通过类比刷题的方式&#xff0c;帮助学员们掌握申论的技巧。这两门课程相互补充&#xff0c;让学员们在…

构造 v-for 循环时 :key 和 v-bind:key 的区别

问题&#xff1a; 构造 v-for 循环时 :key 和 v-bind:key 的区别&#xff1a; 分析&#xff1a; 构造 v-for 循环时 :key 和 v-bind:key 的区别&#xff1a; 示例如下所示&#xff1a; 1、:key <my-component v-for"item in items" :key"item.id">…

03-JAVA设计模式-观察者模式

观察者模式 什么是观察者模式 Java中的观察者模式是一种常见的设计模式&#xff0c;它允许对象&#xff08;观察者&#xff09;订阅另一个对象&#xff08;被观察者&#xff09;的状态变化&#xff0c;并在状态变化时自动得到通知。 核心&#xff1a; 观察者模式主要用于1&a…

手搓带头双向循环链表(C语言)

目录 List.h List.c ListTest.c 测试示例 带头双向循环链表优劣分析 List.h #pragma once#include <stdio.h> #include <stdlib.h> #include <assert.h>typedef int LTDataType;typedef struct ListNode {struct ListNode* prev;struct ListNode* next…

如何提升WordPress网站安全

上周遇到Hostease的客户反馈他想要提升wordpress网站的安全性。提升WordPress网站安全是网站所有者必须重视的事项。以下是一些有效的安全措施&#xff0c;可帮助您保护WordPress网站免受潜在威胁&#xff1a; 1.选择可靠的WordPress主机 选择一个可靠的WordPress主机提供商至…

关于文档中心的英文快捷替换方案

背景&#xff1a;文档中心需要接入国际化&#xff0c;想节省时间做统一英文方案处理&#xff1b; 文档中心是基于vuepress框架编写的&#xff1b; 1、利用百度翻译 API 的接口去做底层翻译处理&#xff0c;https://api.fanyi.baidu.com/需要在该平台上注册账号&#xff0c;个人…

git .gitignore忽略非必要文件提交

1 简介 对于经常使用Git的朋友来说&#xff0c;.gitignore配置一定不会陌生。这种方式通过在项目的某个文件夹下定义.gitignore文件&#xff0c;在该文件中定义相应的忽略规则&#xff0c;来管理当前文件夹下的文件的Git提交行为。 .gitignore文件是可以提交到公有仓库中&…

unittest自动化测试框架详解

一、单元测试的定义 1. 什么是单元测试&#xff1f; ​ 单元测试是指&#xff0c;对软件中的最小可测试单元在与程序其他部分相隔离的情况下进行检查和验证的工作&#xff0c;这里的最小可测试单元通常是指函数或者类&#xff0c;一般是开发来做的&#xff0c;按照测试阶段来…

Java和JDK的关系;以及JDK版本

一、Java和JDK的关系&#xff1a; Java是一门面向对象的编程语言&#xff0c;而JDK&#xff08;Java Development Kit&#xff09;则是开发Java应用程序所需的软件开发工具包。Java语言本身与JDK之间存在紧密的依赖关系&#xff0c;具体如下&#xff1a; Java语言&#xff1a;…

大模型实战提示工程 1—常用的大语言模型参数说明

1. 常用的大语言模型参数说明 使用提示词时,会通过 API 或直接与大语言模型进行交互。我们可以通过配置一些参数以获得不同的提示结果。调整这些设置对于提高响应的可靠性非常重要,我们可能需要进行一些实验才能找出适合您的用例的正确设置。以下是一些常见的参数设置: 1.…

【数据结构】单链表的尾插法

尾插法是一种在链表末尾插入新元素的方法&#xff0c;它的核心思想是保持链表的尾部指针&#xff08;或称为尾节点&#xff09;&#xff0c;这样可以在常数时间内完成尾部插入操作。尾插法的主要步骤如下&#xff1a; 创建新节点&#xff1a;首先&#xff0c;根据需要插入的数据…

Java使用POI库对excel进行操作

excel转为图片 这个操作是要根据excel一行一行画出来的 package com.gxuwz.zjh.util;import java.awt.BasicStroke; import java.awt.Color; import java.awt.Font; import java.awt.FontMetrics; import java.awt.Graphics2D; import java.awt.RenderingHints; import java.…

day5 c++

#include <iostream> using namespace std; class Person { public:string name;int *age;//Person():name(name),age(new int(100)){cout<<"无参构造"<<endl;}Person(string name,int age):name(name),age(new int(100)){cout <<"P的有…

mysql--分库分表分区浅析

一、简介 MySQL分库分表是一种常用的数据库架构优化方法&#xff0c;特别适用于数据量大、访问压力高的情况。通过将数据分布到多个数据库或表中&#xff0c;可以提高系统的可扩展性、性能和管理效率。以下是MySQL分库分表的一些关键应用场景和考虑因素。 应用场景 提升查询性能…

C语言经典例题-5

1.交换数组 将数组A中的内容和数组B中的内容进行交换。(数组大小一样) #include <stdio.h>void swap(int arr1[],int arr2[], int sz) {int tmp 0;for (int i 0;i < sz;i){tmp arr1[i];arr1[i] arr2[i];arr2[i] tmp;} }void print(int arr1[], int arr2[], int…