【昕宝爸爸小模块】什么是POI,为什么它会导致内存溢出?

在这里插入图片描述


➡️博客首页       https://blog.csdn.net/Java_Yangxiaoyuan


       欢迎优秀的你👍点赞、🗂️收藏、加❤️关注哦。


       本文章CSDN首发,欢迎转载,要注明出处哦!


       先感谢优秀的你能认真的看完本文,有问题欢迎评论区交流,都会认真回复!


什么是POI,为什么它会导致内存溢出

  • ✅ 一、什么是POI
    • ✅1.1 Excel并没看到的那么小
    • ✅1.2 POI的溢出原理
  • ✅ 二、拓展知识仓
    • ✅2.1 几种Workbook格式
    • ✅2.2 SXSSFWorkbook是什么
    • ✅2.3 SXSSFWorkbook有哪些优点和缺点


✅ 一、什么是POI


Apache POl,是一个非常流行的文档处理工具,通常大家会选择用它来处理Excel文件。但是在实际使用的时候经常会遇到内存溢出的情况,那么,为啥他会导致内存溢出呢?


✅1.1 Excel并没看到的那么小


我们通常见到的xlsx文件,其实是一个个压缩文件。它们把若千个XML格式的纯文本文件压缩在一起,Excel就是读取这些压缩文件的信息,最后展现出一个完全图形化的电子表格。


所以,如果我们把xlsx文件的后缀更改为.zip或 .rar,再进行解压缩,就能提取出构成Excel的核心源码文件。解压会发现解压后的文件中有3个文件夹和1个XML格式文件:


在这里插入图片描述


_rels 文件夹看里面数据像是一些基础的配置信息,比如 workbook 文件的位置等信息一般不会去动它。


docProps 文件夹下重要的文件是一个app.xml,这里面主要存放了 sheet 的信息,如果想添加或编辑 sheet 需要改这个文件,其他文件都是一些基础信息的数据,比如文件所有者,创建时间等。


x文件夹是最重要的一个文件夹里面存放了Sheet 中的数据,行和列的格式,单元格的格式,sheet的配置信息等等信息。


所以,实际上我们处理的xlsx文件实际上是一个经过高度压缩的文件格式,背后是有好多文件支持的。所以,我们看到的一个文件可能只有2M,但是实际上这个文件未压缩情况下可能要比这大得多。


在这里插入图片描述


也就是说,POI在处理的时候,处理的实际上并不只是我们看到的文件大小,实际上比它的大小要大好几倍。


这是为什么明明我们处理的文件只有100多兆,但是实际却可能占用1G内存的其中一个原因。当然这只是其中一个原因,还有一个原因,我们就需要深入到POI的源码中来看了


✅1.2 POI的溢出原理


我们拿POI的文件读取来举例,一般来说文件读取出现内存溢出的情况更多一些。以下是一个POI文件导出的代码示例:


import org.apache.poi.ss.usermodel.*;
import org.apache.poi.xssf.usermodel.XSSFWorkbook;
import java.io.File;
import java.io.FileInputStream;
import java.io.IOException;public class ExcelReadTest {public static void main(String[] args) {//指定要读取的文件路径String filename = "example.xlsx";try (FileInputStream fileInputStream = new FileInputStream(new File(filename))) {//创建工作簿对象Workbook workbook = new XSSFWorkbook(fileInputStream);// 获取第一个工作表Sheet sheet = workbook.getSheetAt(0);//遍历所有行for (Row row : sheet) {// 遍历所有单元格for (Cell cell : row) {Thread.sleep(100); //添加注释:暂停程序执行100毫秒// 根据不同数据类型处理数据switch (cell.getCellType()) {case STRING:System.out.print(cell.getStringCellValue() + "\t"); //添加注释:输出单元格的字符串值break;case NUMERIC:if (DateUtil.isCellDateFormatted(cell)) {System.out.print(cell.getDateCellValue() + " t"); //添加注释:输出单元格的日期值} else {System.out.print(cell.getNumericCellValue() + " t"); //添加注释:输出单元格的数值}break;case BOOLEAN:System.out.print(cell.getBooleanCellValue() + " t"); //添加注释:输出单元格的布尔值break;case FORMULA:System.out.print(cell.getCellFormula() +"t"); //添加注释:输出单元格的公式break;default:System.out.print(""); //添加注释:不做任何操作}}System.out.println(); //添加注释:换行}} catch (IOException e) {e.printStackTrace();} catch (InterruptedException e) {throw new RuntimeException(e);}}
}

这里面用到了一个关键的XSSFWorkbook类,


public XSSFWorkbook(InputStream is) throws IOException {this(PackageHelper.open(is);
}
public static OPCPackage open(InputStream is) throws IOException {try {return OPCPackage.open(is);}catch (InvalidFormatException e) {throw new POIXMLException(e);}
}

最终会调用到OPCPackage.open方法,看看这个方法是怎么实现的:


/***  Open a package.** * Note - uses quite a bit more memory than (@link #open(String)}, which* doesn't need to hold the whole zip file in memory, and can take advantage* of native methods* *aparam in**           The InputStream to read the package from*           * @return A PackageBase object* * * @throws InvalidFormatException* *               Throws if the specified file exist and is not valid. *               
* @throws IOException If reading the stream fails
*/public static OPCPackage open(InputStream in) throws InvalidFormatException,IOException {OPCPackage pack = new ZipPackage(in,PackageAccess.READ_WRITE);try {if (pack.partList == nul1) {(pack.getParts();}}catch (InvalidFormatException  RuntimeException e) {IOUtils.close0uietly(pack);throw e;}
return pack;
}

这行代码的注释中说了:这个方法会把整个压缩文件都加载到内存中。也就是把整个 Excel 文档加载到内存中,可想而知,这在处理大型文件时是肯定会导致导致内存溢出的。


也就是说我们使用的XSSFWorkbook (包括HSSFWorkbook也同理) 在外理Excel的过程中会将整个Excel都加载到内存中,在文件比较大的时候就会导致内存溢出。


✅ 二、拓展知识仓


✅2.1 几种Workbook格式

POI中提供了很多种Workbook API来操作Excel,有的适合大文件读写,有的不适合。


SSFWorkbook

  • 用于处理Excel的.xsl格式(即Excel 97-2003)。

XSSFWorkbook

  • 用于处理 Excel 的.xlsx 格式(即 Excel 2007 及以后版本的)支持更大的数据集和更多的功能,如更好的样式和公式支持。但是相对于HSSFWorkbook,它在处理大数据集时可能占用更多内存。

SXSSFWorkbook


  • 用于处理xlsx 格式。它是 XSSFWorkbook 的流式版本,专门设计用于处理大数据集。通过将数据写入临时文件而非全部保留在内存中,显著减少内存消耗。特别适合用于创建大型数据集的 Excel 文件。

✅2.2 SXSSFWorkbook是什么


SXSSFWorkbook是Apache POI库中的一个类,用于处理大型Excel文件的写入,特别是当数据量可能非常大,以至于无法全部装入内存时。它是XSSFWorkbook的一个流式(streaming)版本,主要用于生成大数据量的Excel文件(.xlsx格式)。


SXSSFWorkbook的工作原理是,它只会将最新的几行数据(这个数量是可配置的)保存在内存中。当新的行被添加到工作表时,最旧的行将被写入到磁盘上的临时文件中,并从内存中删除。这样,SXSSFWorkbook可以用有限的内存处理几乎无限的数据量。


需要注意的是,一旦数据被写入到磁盘上的临时文件中,就不能再修改这些数据。此外,由于SXSSFWorkbook使用了流式写入技术,它的写入速度可能会受到磁盘速度的影响。


总的来说,如果你的应用程序需要生成大数据量的Excel文件,并且你担心内存溢出的问题,那么SXSSFWorkbook可能是一个很好的选择。


✅2.3 SXSSFWorkbook有哪些优点和缺点


SXSSFWorkbook是Apache POI库中的一个类,用于以流方式处理Excel文件的写入,特别是针对无法全部装入内存的大数据量场景。以下是SXSSFWorkbook的主要优点和缺点:


优点

  1. 内存友好:SXSSFWorkbook使用了一种基于硬盘的临时存储方式,将数据写入临时文件,而不是将所有数据存储在内存中。这使得它可以处理非常大的数据集,而不会导致内存溢出。
  2. 高性能:由于SXSSFWorkbook使用了临时文件存储数据,它可以有效地处理大量的数据。它避免了在内存中处理大量数据所带来的性能问题。
  3. 低内存占用:相较于XSSFWorkbook,SXSSFWorkbook在处理大型数据集时,占用的内存更少。这使得它在处理大数据量时表现更好。

缺点

  1. 模板限制:SXSSFWorkbook不支持使用现有的XLSX文件作为模板,因为它是基于流式写入的,无法预先加载整个模板文件到内存中。因此,它不能使用模板打印。
  2. IO操作开销:在写磁盘过程中,SXSSFWorkbook可能会消耗较多的IO操作时间。这可能导致内存中产生很多对象,但原来的对象可能还没有完整写入磁盘中。
  3. 功能限制:相比XSSFWorkbook,SXSSFWorkbook在某些高级功能方面可能有所限制,例如复杂的样式或公式支持可能不完全相同。另外,因为它使用到了硬盘,当数据到达硬盘以后,无法完成数据的克隆或者公式计算,sheet.clone()等方法已经无法被支持。

这些优缺点可能会随着Apache POI库的更新而发生变化。在使用SXSSFWorkbook时,建议查阅最新的官方文档以获取最准确的信息

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/650510.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

时间编程相关的API

1》time -- 获取日历时间 日历时间&#xff1a;1970年1月1日距离现在的秒数 #include <time.h> time_t time(time_t *timer): 获取当前的系统时间&#xff0c;并以time_t类型返回。 2》将日历时间转化为本地时间 localtime #include <time.h> struct tm *localtim…

【CentOS】Linux 文件权限与权限修改

目录 1、Linux 中的文件属性 2、如何修改文件属性与权限 3、目录权限与文件权限的区别 4、Linux 中的文件扩展名 用户与用户组是Linux文件权限的重要组成部分。 首先&#xff0c;一定要明确用户与用户组的概念&#xff1a; Linux 一般将文件可读写的身份分为三个类别&#…

亚马逊测评,完善的自养号系统需要具备哪些要求

在亚马逊等跨境电商平台的严格审查下&#xff0c;许多卖家和买家都遭到了封号。这些封号事件对依赖线上销售的小型卖家造成了巨大的冲击。我们发现大部分账号被封的原因在于底层环境搭建不当。 无论是在亚马逊还是其他跨境电商平台&#xff0c;如ebay、速卖通、虾皮、Lazada等…

Docker深入解析:从基础到实践

Docker基础知识 Docker是什么&#xff1a;定义和核心概念解释 Docker是一个开源项目&#xff0c;它诞生于2013年&#xff0c;旨在自动化应用程序的部署过程&#xff0c; 让应用程序能够在轻量级的、可移植的、自给自足的容器中运行。这些容器可以在几乎任何机器上运行&#xf…

【接口测试】接口测试要注意的问题

愿万事胜意 文章目录 1. 在你们项目中接口测试用例你是怎么设计的2. 接口测试用例你是怎么设计的3. 分页查询接口测试要注意什么3. 接口测试流程4. 接口测试的过程中发现过哪些bug5. 一个接口请求不通该如何排查6. 接口测试中是怎么校验接口返回结果是否正确7. 为什么做接口测试…

顶顶通呼叫中心中间件利用自动外呼进入机器人的压力测试配置流程

文章目录 前言呼入进入机器人配置流程创建线路创建线路组呼入配置 创建自动外呼任务1. 实现“一端放音&#xff0c;另一端进入机器人”操作创建拨号方案—“模拟放音”呼叫路由—“internal”启用拨号方案—“模拟放音”队列外呼配置 2. 实现“两端都进入机器人”操作队列外呼配…

线扫相机使用教程

一.线扫相机的采集原理 在现有的工业 2D 相机中&#xff0c;主要有两种类型的相机&#xff0c;面阵相机和线扫相机。这两种相机有其 各自的特点。 面阵相机&#xff1a;主要用于采集较小尺寸的产品&#xff0c;特别是长度方向较小的产品。其采集原理是通过 单次或多次曝光&…

git-开发命令

commit命令&#xff1a; 使用方式&#xff1a;git commit -m "commit message"含义与用途&#xff1a;commit命令用于将修改的内容提交到本地代码库。每次提交都会生成一个新的commit&#xff0c;记录了修改的内容、作者、时间等信息。commit命令常用于保存代码的版本…

Docker容器操作 Docker创建并运行Nginx、Redis

容器操作的命令如图&#xff1a; 容器命令 # 创建并运行一个容器&#xff0c;运行成功后会返回容器id docker run# 暂停&#xff0c;将容器挂起&#xff0c;内存暂存&#xff0c;CPU不再执行 docker pause # 恢复运行&#xff0c;内存恢复&#xff0c;CPU恢复 docker unpause#…

iText操作pdf

最近有个任务是动态的创建pdf根据获取到的内容&#xff0c;百度到的知识点都比较零散&#xff0c;官方文档想必大家也不容易看懂。下文是我做出的汇总 public class CreatePdfUtils {public static void create(){//准备File file new File("C:\\code\\base-project-back…

[力扣 Hot100]Day15 轮转数组

题目描述 给定一个整数数组 nums&#xff0c;将数组中的元素向右轮转 k 个位置&#xff0c;其中 k 是非负数。 出处 思路 好像是某一年的考研题&#xff0c;原地逆序后k项&#xff0c;再逆序前n-k项&#xff0c;再逆序整个数组即可。空间复杂度O(1)&#xff0c;时间复杂度O(…

【深度学习】sdxl中的 tokenizer tokenizer_2 区别

代码仓库&#xff1a; https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0/tree/main 截图&#xff1a; 为什么有两个分词器 tokenizer 和 tokenizer_2&#xff1f; 在仔细阅读这些代码后&#xff0c;我们了解到 tokenizer_2 主要是用于 refiner 模型的。 #…

12000 份发财红包封面免费送

发财红包封面又来啦 寓意新年加薪发财 两个红包封面&#xff0c;各6000份&#xff0c;共12000份 剩余额度全打光&#xff0c;够诚意吧 附送原图&#xff08;阿里通义万相生成&#xff09; 祝大家 春节快乐&#xff0c;新年涨薪发财 龙年行大运&#xff0c;万事皆如愿 使用说明 …

微信小程序(十七)自定义组件生命周期(根据状态栏自适配)

注释很详细&#xff0c;直接上代码 上一篇 新增内容&#xff1a; 1.获取手机状态栏的高度 2.验证attached可以修改数据 3.动态绑定样式数值 源码&#xff1a; myNav.js Component({lifetimes:{//相当于vue的created,因为无法更新数据被打入冷宫created(){},//相当于vue的mount…

Redis学习——入门篇④

Redis学习——入门篇④ 6. Redis集群&#xff08;cluster&#xff09;6.1 Redis集群是什么&#xff0c;能干什么6.2 Redis集群的槽位-分片6.2.1 槽位6.2.2 分片6.2.3 优点 6.3 slot槽位映射 分区&#xff0c;一般业界有 3 种解决方案6.3.1 哈希取余分区算法6.3.1.1 哈希取余分区…

JVM篇:垃圾回收

如何判断对象可以被回收 Java中对象能否被回收&#xff0c;是根据兑现是否被引用来决定的。如果对象被引用了&#xff0c;说明该对象还在使用&#xff0c;不允许被回收 main栈帧中demo变量存储着Demo实例对象的地址&#xff0c;与Demo实例对象建立了连接关系此时Demo实例对象可…

HTML/JS实现漂亮的时钟效果(附带源码)

实例代码如下&#xff1a; <!DOCTYPE html> <html lang"en"> <head> <meta charset"UTF-8"> <meta name"viewport" content"widthdevice-width, initial-scale1.0"> <title>漂亮的时钟效果</…

wsl下安装ros2问题: Unable to locate package ros-humble-desktop 解决方案

❗ 问题 在wsl&#xff08;Ubuntu 22.04版本&#xff09;下安装ros的过程中&#xff0c;在执行命令 $ sudo apt install ros-humble-desktop一直弹出报错&#xff1a;Unable to locate package ros-humble-desktop 前面设置编码和添加源的过程中一直没有出现其他问题&#…

react mui textfield marquee 跑马灯效果实现

网上找了一圈包括stackoverflow, 也没有找到mui textfield marquee的实现方式&#xff0c;结合gpt实现了下&#xff0c;效果是&#xff0c;如果这个文字不超过textfield本身&#xff0c;则不滚动&#xff0c;否则在鼠标悬浮的时候滚动&#xff0c;并且滚动的距离应该是比较恰到…

C++ transform算法中toupper的使用

C transform算法中toupper的使用 前言 用到这样一个函数&#xff0c;将小写字符串转为大写。 // 一开始个人是这样写的&#xff0c;这样没问题 std::transform(res.begin(), res.end(), res.begin(),[](unsigned char c) { return std::toupper(c); }); // 然后&#xff0c;…