aspose通过开始和结束位置关键词截取word另存为新文件

 关键词匹配实体类:

@Data
@EqualsAndHashCode(callSuper = false)
public class TextConfig implements Serializable {private static final long serialVersionUID = 1L;/*** 开始关键词,多个逗号分隔*/private String textStart ;/*** 结束关键词,多个逗号分隔*/private String textEnd ;/*** 包含关键词,多个逗号分隔*/private String textInclude ;/*** 不包含关键词,多个逗号分隔*/private String textExclude ;}
import com.aspose.words.*;
import lombok.Data;
import lombok.EqualsAndHashCode;
import lombok.SneakyThrows;
import lombok.extern.slf4j.Slf4j;
import org.apache.commons.io.FileUtils;
import java.io.*;
import java.nio.charset.StandardCharsets;
import java.util.List;
import java.util.*;@EqualsAndHashCode(callSuper = false)
@Slf4j
@Data
public class WordResolve extends Document {/*** 查找文本类型另存为word* @param filePathName  文件保存路径* @param copyFirst     是否复制关键词开始节点* @param copyLast      是否复制关键词结束节点*/@SneakyThrowspublic File findBetweenFile(TextConfig textConfig, String filePathName, boolean copyFirst, boolean copyLast) {List<Paragraph> paragraphs = getAllParagraph();Integer[] sec = findBetweenIndex(textConfig,getAllText());if(sec == null){return null;}Document doc = new Document();Body body = doc.getFirstSection().getBody();body.removeAllChildren();NodeImporter importer = new NodeImporter(this, doc, ImportFormatMode.KEEP_SOURCE_FORMATTING);Paragraph first = paragraphs.get(sec[0]);Paragraph last = paragraphs.get(sec[1]);List<CompositeNode<?>> parentNodes = new ArrayList<>(20);boolean startCopying = false;//读取文档的所有节点NodeCollection<?> allNodeList = this.getChildNodes(NodeType.ANY, true);for (int i = 0, j = allNodeList.getCount(); i < j; i++) {Node node = allNodeList.get(i);try{if (node == first) {startCopying = true;if(!copyFirst){continue;}}if (node == last && !copyLast) {// 到达结束节点后停止复制break;}if (startCopying) {boolean append = true;for (CompositeNode<?> parentNode : parentNodes) {NodeCollection<?> childNodes = parentNode.getChildNodes(node.getNodeType(), true);if(childNodes.contains(node)){append = false;break;}}if(append){try{body.appendChild(importer.importNode(node, true));}catch (Exception e){log.error("插入节点出错:{}",e.getMessage());//ignore}}}if (node == last) {// 到达结束节点后停止复制break;}}finally {if(startCopying && node.isComposite()){CompositeNode<?> compositeNode = (CompositeNode<?>) node;if(!parentNodes.contains(compositeNode)){parentNodes.add(compositeNode);}}}}File file = FileUtils.getFile(filePathName);doc.save(filePathName);return file;}/*** 查找文本类型解析规则的开始结束段落索引* @param   strings word全部段落,每个段落的文本*/public Integer[] findBetweenIndex(TextConfig textConfig, List<String> strings){String textStart = textConfig.getTextStart();String textEnd = textConfig.getTextEnd();//规定开始关键词必须包含哪些文字,多个逗号分隔(作为附加判断,可为空)textInclude = StringUtil.defaultString(textConfig.getTextInclude(), "").replace(",", "");//规定结束关键词必须不包含哪些文字,多个逗号分隔(作为附加判断,可为空)textExclude = StringUtil.defaultString(textConfig.getTextExclude(), "").replace(",", "");String[] in = StringUtil.isBlank(textInclude) ? null : textInclude.split(",");String[] out = StringUtil.isBlank(textExclude) ? null : textExclude.split(",");//满足开始位置和结束位置的全部关键词索引List<Integer> startArr = new ArrayList<>();List<Integer> endArr = new ArrayList<>();for (int i = 0; i < strings.size(); i++) {String text = strings.get(i);if (text.contains(textStart)) {startArr.add(i);}if (text.contains(textEnd)) {endArr.add(i);}}//进行包含和非包含的判断过滤if(!startArr.isEmpty() && !endArr.isEmpty()){for (Integer start : startArr) {for (Integer end : endArr) {//中间至少隔了一个段落if(start + 1 < end){StringJoiner jo = new StringJoiner("\n");for (int i = start + 1; i < end; i++) {jo.add(strings.get(i));}String word = jo.toString();boolean match = true;if(in != null){for (String s : in) {if(!word.contains(s)){match = false;break;}}}if(match && out != null){for (String s : out) {if(word.contains(s)){match = false;break;}}}if(match){return new Integer[]{start,end};}}}}}return null;}/*** 拿到文档全部段落文本*/public List<String> getAllText(){List<String> strings = new ArrayList<>();getAllParagraph().forEach(a-> strings.add(StringTool.safeToString(a.getText(), "")));return strings;}/*** 拿到文档全部段落*/public List<Paragraph> getAllParagraph(){if(allParagraph == null){allParagraph = findNodeByType(NodeType.PARAGRAPH, Paragraph.class);}return allParagraph;}
}

使用方式:

word文档内容如下:

要截取标题三和标题四之间的内容,生成新的word,代码如下:

public class Test {public static void main(String[] args) throws Exception{//验证license//new AsposeLicense().validate();//读取word文件WordResolve word = new WordResolve(new File("C:\\Users\\zhou\\Desktop\\测试.docx"));TextConfig detail = new TextConfig();detail.setTextStart("poi导出大数据量问题、写入速度慢");detail.setTextEnd("国密验签失败");File betweenFile = word.findBetweenFile(detail, "C:\\Users\\zhou\\Desktop\\betweenFile.docx", false, false);System.out.println(betweenFile);}}

 截取保存的文件如下:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/592121.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【操作系统xv6】学习记录4 -CPU上下文:进程上下文、线程上下文、中断上下文

什么是cpu上下文 CPU 寄存器和程序计数器就是 CPU 上下文&#xff0c;因为它们都是 CPU 在运行任何任务前&#xff0c;必须的依赖环境。 什么是 CPU 上下文切换 先把前一个任务的 CPU 上下文&#xff08;也就是 CPU 寄存器和程序计数器&#xff09;保存起来&#xff0c;然后…

Flutter+Go_Router+Fluent_Ui仿阿里网盘桌面软件开发跨平台实战-买就送仿小米app开发

Flutter是谷歌公司开发的一款开源、免费的UI框架&#xff0c;可以让我们快速的在Android和iOS上构建高质量App。它最大的特点就是跨平台、以及高性能。 目前 Flutter 已经支持 iOS、Android、Web、Windows、macOS、Linux 的跨平台开发。 Flutter官方介绍&#xff0c;目前Flutte…

ubuntu系统没有网络图标的解决办法

参考文章:https://blog.csdn.net/qq_56922632/article/details/132309643 1. 执行关闭网络服务的命令&#xff0c;关闭网络服务sudo service NetworkManager stop2. 删除网络的状态文件sudo rm /var/lib/NetworkManager/NetworkManager.state3. 修改网络的配置文件sudo vi /etc…

冒泡排序-排序算法

前言 如果有6个人站成一排&#xff0c;要将他们按从矮到高的顺序排列。你可能有多种方式来完成。但是如果其中有一个人特别高&#xff0c;比他身边的人高&#xff0c;在队伍中特别明显&#xff0c;你可以轻易看出那个最高的需要和身边的人交换位置&#xff0c;这是冒泡排序的核…

二叉树的前序遍历 、二叉树的最大深度、平衡二叉树、二叉树遍历【LeetCode刷题日志】

目录 一、二叉树的前序遍历 方法一&#xff1a;全局变量记录节点个数 方法二&#xff1a;传址调用记录节点个数 二、二叉树的最大深度 三、平衡二叉树 四、二叉树遍历 一、二叉树的前序遍历 方法一&#xff1a;全局变量记录节点个数 计算树的节点数: 函数TreeSize用于…

案例086:基于微信小程序的影院选座系统

文末获取源码 开发语言&#xff1a;Java 框架&#xff1a;SSM JDK版本&#xff1a;JDK1.8 数据库&#xff1a;mysql 5.7 开发软件&#xff1a;eclipse/myeclipse/idea Maven包&#xff1a;Maven3.5.4 小程序框架&#xff1a;uniapp 小程序开发软件&#xff1a;HBuilder X 小程序…

履机乘变,轻舟便楫:源启分布式PaaS深度赋能企业级技术平台建设

导语 源启分布式PaaS平台围绕应用视角为用户提供应用运行的全生命周期管控能力&#xff0c;提供注册中心、服务路由、网关、服务治理等中间件技术支持&#xff0c;实现应用之间的联通&#xff0c;解决客户多厂商产品不兼容、产品组合不可选择、孤岛效应等问题&#xff0c;满足…

ros2 基础学习12 分布式通信

智能机器人的功能繁多&#xff0c;全都放在一个计算机里&#xff0c;经常会遇到计算能力不够、处理出现卡顿等情况&#xff0c;如果可以将这些任务拆解&#xff0c;分配到多个计算机中运行岂不是可以减轻压力&#xff1f; 这就是分布式系统&#xff0c;可以实现多计算平台上的任…

android开发百度地图api实现定位图标随手机方向转动

该功能的实现依赖于手机中的传感器元件如陀螺仪、加速度计等&#xff0c;具体开发详见android的官方开发文档&#xff1a; 传感器概览 | Android 开发者 | Android Developershttps://developer.android.com/guide/topics/sensors/sensors_overview?hlzh-cn要自定义一个传…

Hive学习(13)lag和lead函数取偏移量

hive里面lag函数 在数据处理和分析中&#xff0c;窗口函数是一种重要的技术&#xff0c;用于在数据集中执行聚合和分析操作。Hive作为一种大数据处理框架&#xff0c;也提供了窗口函数的支持。在Hive中&#xff0c;Lag函数是一种常用的窗口函数&#xff0c;可以用于计算前一行…

《动手学深度学习》学习笔记 第6章 卷积神经网络

本系列为《动手学深度学习》学习笔记 书籍链接&#xff1a;动手学深度学习 笔记是从第四章开始&#xff0c;前面三章为基础知道&#xff0c;有需要的可以自己去看看 关于本系列笔记&#xff1a; 书里为了让读者更好的理解&#xff0c;有大篇幅的描述性的文字&#xff0c;内容很…

[足式机器人]Part2 Dr. CAN学习笔记-自动控制原理Ch1-9PID控制器

本文仅供学习使用 本文参考&#xff1a; B站&#xff1a;DR_CAN Dr. CAN学习笔记-自动控制原理Ch1-9PID控制器&#xff09; P —— Proportional I —— Integral D —— Derivative 当前误差/过去误差/误差的变化趋势 K p ⋅ e K_{\mathrm{p}}\cdot e Kp​⋅e&#xff1a;比…

golang并发编程-channel

在golang 并发编程里&#xff0c;经常会听到一句话&#xff1a;不要通过共享内存进行通信&#xff0c;通过通信来共享内存。下面我们会介绍下channel, 通过源码的方式去了解channel是怎么工作的。 基本结构 流程图 代码解读 type hchan struct {qcount uint // …

Qt(三):udp组播的发送与接收

1. 创建UDP套接字 使用QUdpSocket类创建一个UDP套接字。 udpSendnew QUdpSocket(this);udpRecenew QUdpSocket(this); 2. 绑定套接字 绑定套接字到一个本地地址和端口。可以使用bind()函数来完成。 如果要在组播中发送数据&#xff0c;可以将套接字绑定到一个通配符地址&#…

uniapp中uview组件丰富的Code 验证码输入框的使用方法

目录 基本使用 #自定义提示语 #保持倒计时 API #Props #Methods #Event 基本使用 通过ref获取组件对象&#xff0c;再执行后面的操作&#xff0c;见下方示例。 通过seconds设置需要倒计的秒数(默认60)通过ref调用组件内部的start方法&#xff0c;开始倒计时通过监听cha…

智慧旅游手机APP开发解决方案

我国的旅游市场已经逐渐地走向饱和&#xff0c;想要发展&#xff0c;就必须要寻求新的发展模式。本项目就是抓住贵州的交通飞速发展的契机&#xff0c;以高速为主线&#xff0c;高速周边的景点、酒店为依托&#xff0c;高速维修为辅线&#xff0c;借助今天得到广泛应用的智能移…

SpringBoot整合多数据源,并支持动态新增与切换

SpringBoot整合多数据源&#xff0c;并支持动态新增与切换 一、概述 在项目的开发过程中&#xff0c;遇到了需要从数据库中动态查询新的数据源信息并切换到该数据源做相应的查询操作&#xff0c;这样就产生了动态切换数据源的场景。为了能够灵活地指定具体的数据库&#xff0…

【深度学习:SENet】信道注意力和挤压激励网络(SENet):图像识别的新突破

【深度学习&#xff1a;SENet】信道注意力和挤压激励网络&#xff08;SENet&#xff09;&#xff1a;图像识别的新突破 为什么有效如何实现工作原理应用案例 挤压和激励网络&#xff08;SENets&#xff09;为卷积神经网络&#xff08;CNN&#xff09;引入了一个新的构建模块&am…

克服幻觉:提升语言模型在自然语言处理中的准确性与可靠性

随着语言模型&#xff08;LLM&#xff09;在自然语言处理&#xff08;NLP&#xff09;中的应用日益普及&#xff0c;它们在文本生成、机器翻译、情感分析等许多任务中展现出惊人的能力。然而&#xff0c;这些模型也常常显示出一个被称作“幻觉”&#xff08;hallucination&…

扫拖一体机哪个牌子好用?2024旗舰洗地机总结

近年来&#xff0c;家庭清洁的方式发生了翻天覆地的变化。在这场前所未有的洗地机创新浪潮中&#xff0c;消费者们迎来了更为便捷高效的家庭清洁解决方案。然而&#xff0c;随着市场竞争的激烈&#xff0c;面对众多品牌和型号的家用洗地机&#xff0c;究竟哪款扫拖一体机好用呢…