JAVA table word,实战 | Java读取Word,包含表格!

ae9cc299bad383c6e6db7fb97ece8345.png

本文转载自微信公众号「JAVA日知录」,作者单一色调。转载本文请联系JAVA日知录公众号。

不能每天都发鸡汤呀,今天分享一篇开发实战。

业务需求

我们有这样一个需求,需要抽取出WORD文档中的内容,然后组装成特定的json格式发送给第三方引擎接口,输入协议如下:

{

"tables": [

{

"cells": [

{

"col": 1,

"row_span": 1,

"row": 1,

"col_span": 1,

"content":"车辆名称"

}

],

"id": 0,

"row_num": 2

}

],

"paragraps": [

{

"para_id": 1,

"content":"Hello,JAVA日知录"

}

]

}

这个输入格式一看就是需要我们分段落和表格读取word中的内容,既然需求已定,那就直接开始动手写代码吧。

基于POI实现

把 “java如何读取word” 拿到百度去搜索,答案基本都是利用POI来实现。当然利用POI确实可以实现按段落和表格提取出内容并组装成上述格式,但是在实践过程中有下面2个问题:

需要分别处理两种格式docx、docPOI使用不同的API来读取docx和doc,所以读取逻辑我们需要编写两次。

POI读取doc的段落时会把表格的内容也读取出来 这个问题比较坑,poi有单独的方法读取文档中所有表格,但是在读取doc格式段落文档的时候会把表格内容也读取出来,所以我们需要用如下方法排除掉表格:

//读取doc

HWPFDocument doc = new HWPFDocument(stream);

Range range = doc.getRange();

//读取段落

intnum = range.numParagraphs();

Paragraph para;

for(inti=0; i

para = range.getParagraph(i);

//排除表格内容

if (!para.isInTable()) {

System.out.println(para.text());

}

}

考虑以上两种原因,我们最后并没有采取POI来实现word内容提取功能,而是采用第二种方法,即利用 Spire.Doc for Java 来实现。

Spire.Doc for Java

Spire.Doc for Java 是一款专业的 Java Word 组件,开发人员使用它可以轻松地将 Word 文档创建、读取、编辑、转换和打印等功能集成到自己的 Java 应用程序中。

作为一款完全独立的组件,Spire.Doc for Java 的运行环境无需安装 Microsoft Office。官网地址是 https://www.e-iceblue.cn/,我们项目中使用的开源免费版。

首先我们修改maven仓库地址

com.e-iceblue

http://repo.e-iceblue.com/nexus/content/groups/public/

引入对应的jar包

e-iceblue

spire.doc.free

3.9.0

读取word,这里展示的是测试类

publicclass SpireApplication {

publicstaticvoid main(String[] args) {

String path = "D:\\testDoc22.doc";

spireParaghDoc(path);

spireForTableOfDoc(path);

}

//读取段落

publicstaticvoid spireParaghDoc(String path) {

Document doc = new Document(path);

for(inti = 0; i 

Sectionsection= doc.getSections().get(i);

for(intj = 0; j 

Paragraph paragraph = section.getParagraphs().get(j);

System.out.println(paragraph.getText());

}

}

}

//读取表格

publicstaticvoid spireForTableOfDoc(String path) {

Document doc = new Document(path);

for(inti = 0; i 

Sectionsection= doc.getSections().get(i);

for(intj = 0; j 

DocumentObject obj = section.getBody().getChildObjects().get(j);

if (obj.getDocumentObjectType() == DocumentObjectType.Table) {

Tabletable= (Table) obj;

for(intk = 0; k 

TableRow rows=table.getRows().get(k);

for(intp = 0; p 

for(inth = 0; h 

Paragraph f = rows.getCells().get(p).getParagraphs().get(h);

System.out.println(f.getText());

}

}

}

}

}

}

}

}

通过上面代码我们就可以按段落和表格读取WORD中的内容,而后根据系统业务要求的格式进行封装即可。

【编辑推荐】

【责任编辑:武晓燕 TEL:(010)68476606】

点赞 0

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/500203.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

mysql分列查询,Mysql导出问题,乱码问题,为分列问题解决!!!

前言:本文可以先阅读完再跟着做。Mysql查询出的数据导出为csv最近遇到同学的一个需求,要求差寻一些数据然后导出给他,因为之前也有做过类似的事情,觉得可以一下就搞定,但是居然出现乱码又出现没有分列的情况&#xff0…

微信你scope 参数错误 php,微信开发: scope参数错误或没有scope权限解决方法

scope为snsapi_userinfo 未关注者点击授权提示 scope参数错误或没有scope权限解决方法出现这种错误网上查出现有的原因是:订阅号没有相关的权限账号没有认证,没有相关的权限那么这里遇到问题两种都不是。开发账号是 服务号,而且也是认证号。解决方法:错…

Linux怎么查看保存的密码,在Linux中查看已保存的WiFi密码

在安装流行操作系统时,如 Windows 10、Ubuntu、macOS 等,都会要求用户提前输入 WiFi 密码。特别是 Ubuntu 系统,在配置安装向导时就可以连接 WiFi,以方便在系统安装过程就从网络获取最新更新,并在安装完成后就为用户提…

linux 网卡 巨帧,Linux Kernel e1000e驱动巨型帧处理绕过安全检查漏洞

发布日期:2009-12-29更新日期:2010-01-13受影响系统:Linux kernel 2.6.32.3描述:--------------------------------------------------------------------------------BUGTRAQ ID: 37523CVE(CAN) ID: CVE-2009-4538Linux Kernel是…

linux下如何启动vsftp服务,如何在Ubuntu 18.04上使用VSFTP快速设置FTP服务器

如果您需要配置一个FTP服务器快速启动运行,那么VSFTP的易用性是无与伦比的。如果你想将应用程序迁移到最新版本Ubuntu Linux服务器中,并且需要快速启动并运行FTP服务器。如何操作?这实际上非常简单。这里将使用VSFTP服务器向您展示如何做到这…

红帽linux kvm,初识RedHat虚拟化—KVM

redhat虚拟化之KVM初识虚拟化简介:虚拟化是指计算机元件在虚拟的基础上而不是真实的基础上运行。虚拟化技术可以扩大硬件的容量,简化软件的重新配置过程。CPU的虚拟化技术可以单CPU模拟多CPU并行,允许一个平台同时运行多个操作系统&#xff0…

Linux中的软件源详解,Ubuntu Linux 软件源详解

中国台湾 台湾大学更新服务器(推荐网通用户使用,强烈推荐此源,比较完整):deb http://Ubuntu.csie.ntu.edu.tw/ubuntu/ gutsy main restricted universe multiversedeb-src http://ubuntu.csie.ntu.edu.tw/ubuntu/ gutsy main restricted univ…

pc版android sd卡,告别瓶颈:安卓闪存(SD卡)I/O优化

告别瓶颈:安卓闪存(SD卡)I/O优化闪存(SD卡)调度器现在电脑的瓶颈往往不是什么内存CPU,而且吱吱嘎嘎的硬盘。在安卓机上,情况十分类似——虽然安卓机和SSD一样使用闪存,但没有专门的主控,速度好不到哪里去。由于成本限制…

android 常用开发插件,Android Studio 开发利器【常用插件】

1.ADB IdeaADB操作快捷菜单,快速清除数据,重启应用,卸载应用等快捷键:Windows: CtrlAltShiftAMac OSX: CtrlShiftA当然,你可以在KeyMap处修改为自己喜欢的按键。2.postfix支持Log,Toast,Logd的快速书写3.AndroidCodeGe…

android mov转mp4格式转换,如何在线将MOV文件转换成MP4文件?

Renee Video Editor-功能强大的视频编辑软件免费 软件免费试用(仅限非商业用途)。视频剪辑 支持简易剪辑、批量剪辑、高级剪辑。操作简单 界面简洁,只需简单几步即可快速完成操作。功能强大软件还支持剪切、裁剪、旋转、转换、合并、特效、水印、字幕等多种功能。格…

html5文章页面,文章页面的设计《 HTML5 与 Bootstrap 应用实例 》

文章页面的设计跟主页差不多,页头,底部边栏,还有页脚都是一样的,不同是,页面的主内容区域分成两部分 ... 左边占用 8 个网格宽度,显示文章的内容,比如标题,正文,文章的评…

qwebkit 服务器调用本地html方法,用qt的QWebkit类调用谷歌地图

先说下,我这悲剧的一天,用qt5.0.2这个版本搞了一个上午都没有搞出来,无赖呀。。。突然想了下,还是换个版本吧!就用qt4.7.4版本了,哎哟喂,居然就调出来了呢!其实网上的文章大多是复制…

win7设置定时锁定计算机,Win7系统锁定计算机怎么设置?Win7系统锁定计算机的设置方法...

相信大家都知道,长时间不操作计算机,计算机就会自动进入锁定状态,不过,最近有Win7系统用户表示不想让计算机自动进入锁定状态。那么,Win7系统锁定计算机怎么设置呢?下面,我们就一起往下看看Win7…

计算机考试用英语怎么说,“全国大学生计算机等级考试一级”英语怎么说?

“全国大学生计算机等级考试一级”的英文:National College Computer Grade Examination Level 1examination 读法 英 [ɪg,zmɪneɪʃ(ə)n; eg-] 美 [ɪgzməneʃən]作名词的意思是: 考试;检查;查问短语:1、medica…

计算机专业在湖南录取分数,计算机科学与技术专业分数线各大学排名(湖南)

摘要:导读:计算机科学与技术专业分数线多少?招生考试网小编根据各个大学在湖南的录取分数线,整理了 计算机科学与技术专业分数线排名 供填报志愿的考生和家长参考: 计算机科学与技术专导读:计算机科学与技术…

win8 必须重新启动计算机才能关闭用户账户控制,windows8中怎么关闭用户账户控制(UAC)仅针对单个用户...

1、登陆 Windows 8 Metro 界面,单击左下角桌面图标,如下图:2、登录桌面后,使用组合热键“Windows X键”调出快捷菜单(如果桌面已经调出控制面板图标,直接双击打开),左键单击控制面板,如下图&am…

电子数字计算机最早应用于哪个领域,2013计算机一级B考试模拟试题及答案(2)...

无忧考网为大家收集整理了《2013计算机一级B考试模拟试题及答案(2)》供大家参考,希望对大家有所帮助!!!1).已知“装”字的拼音输入吗是“zhang”,而“大”字的拼音输入码是“da”,它们的国标码的长度的字节…

计算机管理扫不出我的独显,win10正式版系统下检测不到独立显卡的解决方法

通常很多电脑中都会有独立显卡,具备单独的显存,不占用系统内存,而且技术上领先于集成显卡,能够提供更好的显示效果和运行性能,然而有win10正式版系统用户却反应说遇到检测不到独立显卡的情况,但是自己电脑明…

计算机硬件结构控制信息,计算机硬件的基本结构

在当前的信息社会中,计算机扮演着非常重要的角色. 以下是Baifen编辑器汇编的计算机硬件基本结构的内容. 欢迎阅读!电子数字计算机首先作为一种计算工具出现. 不难想象,如果计算机能够在没有人工干预的情况下自动完成计算,那么它必…

KVO和KVC简介

一、Key-Value-Observing--KVO(键值观察者模式)(1)简介:此机制可以在一个类中监听另外一个类的属性变化,包括我们自己的类和已有的Cocoa类库中的类。当被监听的类的属性发生了变化时,观察者会收到通知,可以针对属性变化添加自己的…