JAVA table word,实战 | Java读取Word,包含表格!

ae9cc299bad383c6e6db7fb97ece8345.png

本文转载自微信公众号「JAVA日知录」,作者单一色调。转载本文请联系JAVA日知录公众号。

不能每天都发鸡汤呀,今天分享一篇开发实战。

业务需求

我们有这样一个需求,需要抽取出WORD文档中的内容,然后组装成特定的json格式发送给第三方引擎接口,输入协议如下:

{

"tables": [

{

"cells": [

{

"col": 1,

"row_span": 1,

"row": 1,

"col_span": 1,

"content":"车辆名称"

}

],

"id": 0,

"row_num": 2

}

],

"paragraps": [

{

"para_id": 1,

"content":"Hello,JAVA日知录"

}

]

}

这个输入格式一看就是需要我们分段落和表格读取word中的内容,既然需求已定,那就直接开始动手写代码吧。

基于POI实现

把 “java如何读取word” 拿到百度去搜索,答案基本都是利用POI来实现。当然利用POI确实可以实现按段落和表格提取出内容并组装成上述格式,但是在实践过程中有下面2个问题:

需要分别处理两种格式docx、docPOI使用不同的API来读取docx和doc,所以读取逻辑我们需要编写两次。

POI读取doc的段落时会把表格的内容也读取出来 这个问题比较坑,poi有单独的方法读取文档中所有表格,但是在读取doc格式段落文档的时候会把表格内容也读取出来,所以我们需要用如下方法排除掉表格:

//读取doc

HWPFDocument doc = new HWPFDocument(stream);

Range range = doc.getRange();

//读取段落

intnum = range.numParagraphs();

Paragraph para;

for(inti=0; i

para = range.getParagraph(i);

//排除表格内容

if (!para.isInTable()) {

System.out.println(para.text());

}

}

考虑以上两种原因,我们最后并没有采取POI来实现word内容提取功能,而是采用第二种方法,即利用 Spire.Doc for Java 来实现。

Spire.Doc for Java

Spire.Doc for Java 是一款专业的 Java Word 组件,开发人员使用它可以轻松地将 Word 文档创建、读取、编辑、转换和打印等功能集成到自己的 Java 应用程序中。

作为一款完全独立的组件,Spire.Doc for Java 的运行环境无需安装 Microsoft Office。官网地址是 https://www.e-iceblue.cn/,我们项目中使用的开源免费版。

首先我们修改maven仓库地址

com.e-iceblue

http://repo.e-iceblue.com/nexus/content/groups/public/

引入对应的jar包

e-iceblue

spire.doc.free

3.9.0

读取word,这里展示的是测试类

publicclass SpireApplication {

publicstaticvoid main(String[] args) {

String path = "D:\\testDoc22.doc";

spireParaghDoc(path);

spireForTableOfDoc(path);

}

//读取段落

publicstaticvoid spireParaghDoc(String path) {

Document doc = new Document(path);

for(inti = 0; i 

Sectionsection= doc.getSections().get(i);

for(intj = 0; j 

Paragraph paragraph = section.getParagraphs().get(j);

System.out.println(paragraph.getText());

}

}

}

//读取表格

publicstaticvoid spireForTableOfDoc(String path) {

Document doc = new Document(path);

for(inti = 0; i 

Sectionsection= doc.getSections().get(i);

for(intj = 0; j 

DocumentObject obj = section.getBody().getChildObjects().get(j);

if (obj.getDocumentObjectType() == DocumentObjectType.Table) {

Tabletable= (Table) obj;

for(intk = 0; k 

TableRow rows=table.getRows().get(k);

for(intp = 0; p 

for(inth = 0; h 

Paragraph f = rows.getCells().get(p).getParagraphs().get(h);

System.out.println(f.getText());

}

}

}

}

}

}

}

}

通过上面代码我们就可以按段落和表格读取WORD中的内容,而后根据系统业务要求的格式进行封装即可。

【编辑推荐】

【责任编辑:武晓燕 TEL:(010)68476606】

点赞 0

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/500203.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于matlab的频域辨识,基于Lab VIEW的控制系统频域分析研究

在系统设计和构成之前,必须对系统进行分析、综合和预测研究,从而得出系统的性能评价指标,如控制精度、响应速度和系统稳定性等。一般来说,我们可以从两个方面来对系统的性能进行分析,一是时域,二是频域,它们是从不同的侧面,以被研究系统的传递函数为依据,来研究系统的特性,关于…

php培训出生做微电影网站的,微电影分享网站织梦整站源码

使用说明:1、模板在目录下【themes】-【default】文件夹中2、logo等图片在【statics】-【images】中安装教程:1、传到空间,由于有很多人反应安装后首页样式都乱的,(强烈要求安装到根目录,如:127.0.0.1 / ww…

mysql分列查询,Mysql导出问题,乱码问题,为分列问题解决!!!

前言:本文可以先阅读完再跟着做。Mysql查询出的数据导出为csv最近遇到同学的一个需求,要求差寻一些数据然后导出给他,因为之前也有做过类似的事情,觉得可以一下就搞定,但是居然出现乱码又出现没有分列的情况&#xff0…

微信你scope 参数错误 php,微信开发: scope参数错误或没有scope权限解决方法

scope为snsapi_userinfo 未关注者点击授权提示 scope参数错误或没有scope权限解决方法出现这种错误网上查出现有的原因是:订阅号没有相关的权限账号没有认证,没有相关的权限那么这里遇到问题两种都不是。开发账号是 服务号,而且也是认证号。解决方法:错…

oracle什么时候用in,Oracle Study之---Oracle IN和NOT IN的使用

Oracle Study之---Oracle IN和NOT IN的使用NOT IN 与 IN 的区别:------------------------------------------------------------------------------------------------------not In 相当于<> all,如果 Not In 后面跟的是子查询的话&#xff0c;子查询中只要包含一个 nu…

oracle中having作用,oracle中having与where的区别

1、where 不能放在group by 的后面2、HAVING 是跟GROUP BY 连在一起用的&#xff0c;放在GROUP BY 后面&#xff0c;此时的作用相当于WHERE3.WHERE 后面的条件中不能有聚集函数&#xff0c;比如SUM(),AVG()等&#xff0c;而HAVING 可以where 条件group by 某个或某几个字段gro…

linux系统支持u盘格式,linux下U盘格式化

第一步&#xff0c;手动将挂在的U盘分区卸载&#xff1a;umount /dev/sdbumount /dev/sdb1第二步&#xff0c;准备格式化U盘&#xff0c;这里要提一句&#xff0c;U盘要被格式化成为fat格式&#xff0c;而用到的命令是mkfs.vfat这个命令要注意&#xff0c;根据你要格式化分区格…

Linux怎么查看保存的密码,在Linux中查看已保存的WiFi密码

在安装流行操作系统时&#xff0c;如 Windows 10、Ubuntu、macOS 等&#xff0c;都会要求用户提前输入 WiFi 密码。特别是 Ubuntu 系统&#xff0c;在配置安装向导时就可以连接 WiFi&#xff0c;以方便在系统安装过程就从网络获取最新更新&#xff0c;并在安装完成后就为用户提…

怎么判断linux22端口是否通,在Linux环境下使用SSH判断端口是否通(示例代码)

在Linux环境下使用SSH判断端口是否通在windows/linux环境下&#xff0c;可以使用telnet判断端口状态&#xff0c;但有时候在Linux环境下没有telnet&#xff0c;所以可以使用ssh判断端口状态。一、ssh使用方法&#xff1a;命令&#xff1a;ssh -v -p port [email protected]说明…

linux磁盘管理的命令行,Linux磁盘管理命令介绍

fdisk [options] device常用选项有&#xff1a;d删除一个分区n创建一个分区p显示分区信息t修改分区的系统idw保存分区表并推出q退出不保存创建分区时&#xff0c;如果分区数目大于4个&#xff0c;就要建立扩展分区&#xff0c;如果没有把全部磁盘容量给扩展分区&#xff0c;那…

linux 网卡 巨帧,Linux Kernel e1000e驱动巨型帧处理绕过安全检查漏洞

发布日期&#xff1a;2009-12-29更新日期&#xff1a;2010-01-13受影响系统&#xff1a;Linux kernel 2.6.32.3描述&#xff1a;--------------------------------------------------------------------------------BUGTRAQ ID: 37523CVE(CAN) ID: CVE-2009-4538Linux Kernel是…

linux将访问日志切成每天,最简单自动切割 nginx 访问日志示例

网站上线后&#xff0c;没怎么注意过日志&#xff0c;有一天需要查日志时&#xff0c;才发现竟然有 100 多个 G&#xff0c;一个文本文件竟然有 100 多个G&#xff0c;这也太大了。nginx 是一个非常轻量的 web 服务器&#xff0c;体积小、性能高、速度快等诸多优点。但不足的是…

linux脚本实现红绿灯,javascript 如何实现红绿灯效果呢?

摘要:下文讲述js实现红绿灯效果的方法分享&#xff0c;如下所示:实现思路:1.使用setinterval 重复调用颜色输出函数2.使用promise实现例://使用setInterval实现循环调用函数var n 0;function setRYG () {if (n % 3 0) { console.log(red) }else if (n % 3 1) { console.log(…

linux下如何启动vsftp服务,如何在Ubuntu 18.04上使用VSFTP快速设置FTP服务器

如果您需要配置一个FTP服务器快速启动运行&#xff0c;那么VSFTP的易用性是无与伦比的。如果你想将应用程序迁移到最新版本Ubuntu Linux服务器中&#xff0c;并且需要快速启动并运行FTP服务器。如何操作&#xff1f;这实际上非常简单。这里将使用VSFTP服务器向您展示如何做到这…

红帽linux kvm,初识RedHat虚拟化—KVM

redhat虚拟化之KVM初识虚拟化简介&#xff1a;虚拟化是指计算机元件在虚拟的基础上而不是真实的基础上运行。虚拟化技术可以扩大硬件的容量&#xff0c;简化软件的重新配置过程。CPU的虚拟化技术可以单CPU模拟多CPU并行&#xff0c;允许一个平台同时运行多个操作系统&#xff0…

Linux中的软件源详解,Ubuntu Linux 软件源详解

中国台湾 台湾大学更新服务器(推荐网通用户使用&#xff0c;强烈推荐此源&#xff0c;比较完整)&#xff1a;deb http://Ubuntu.csie.ntu.edu.tw/ubuntu/ gutsy main restricted universe multiversedeb-src http://ubuntu.csie.ntu.edu.tw/ubuntu/ gutsy main restricted univ…

c 语言差错编码实验结果,C语言程序设计实验报告(四).doc11111111111111111.doc

C语言程序设计实验报告(四).doc11111111111111111C语言程序设计实验报告姓 名吴文重学 号52系 别数学系班级2班主讲教师徐时芳指导教师徐时芳实验日期2011-11-8专业10数本二班课程名称C语言程序设计同组实验者一、实验名称&#xff1a;实验四、循环结构程序设计实验目的&#x…

c语言在键盘输入abc回车,C语言期末考试试卷子商务1111、21.doc

C语言期末考试试卷子商务1111、21(所有题目答案请写在答题纸上)一、单项选择题(每题2分, 共60分)键盘输入为“123 ABC”时&#xff0c;下列程序的输出为_______#inclde int main( void ){char str[80];gets(str);puts(str);return 0;}A&#xff0e;123 ABCB&#xff0e;struct …

9 10次c语言上机作业答案,C语言第五次上机作业参考答案

该楼层疑似违规已被系统折叠 隐藏此楼查看此楼#include#define N 3void average(int x[N][10]);void findgood(int x[N][10]);void findfail(int x[N][10]);void main(){//0:学号,1-5:成绩,6:平均分,7:第一门平均分,8:是否及格,9:是否优秀int stu[N][10]{0},i,j,s[N]{0};printf…

c语言 回合制小游戏,一个回合制小游戏的设计笔记

发在这的目的&#xff1a;1.做个记录2.与人交流讨论场景&#xff1a;二维方格组成的场景&#xff0c;一个格子里只能有一个单位&#xff0c;每个单位都会占据自己的格子。行为&#xff1a;每个回合里&#xff0c;每个单位都有一定的行为点数&#xff0c;单位的任何行为都需要消…