.NET导出Excel的四种方法及评测

前言

导出Excel是.NET的常见需求,开源社区、市场上,都提供了不少各式各样的Excel操作相关包。本文,我将使用NPOI、EPPlus、OpenXML、Aspose.Cells四个市面上常见的库,各完成一个导出Excel示例。然后对其代码风格和性能做一个横向比较。最后我将说出我自己的感想。

文中所有的示例代码可以在这里下载:https://github.com/sdcb/blog-data/tree/master/2019/20190824-dotnet-excel-compare

NPOI

NPOI源自于Java的Apache POI(https://poi.apache.org/),目前最新版本是2.4.1。NPOI是开源项目,作者是华人(https://github.com/tonyqus/),项目地址是:https://github.com/tonyqus/npoi。

几年前大家导出Excel都使用COM,但COM不方便,这个组件的推出无疑弥补了.NET在Excel方面组件的空白,大家都说比COM好用。

NPOI还加入了.NET Core Community组织,项目地址是:https://github.com/dotnetcore/NPOI。

EPPlus

EPPlus是另一个开源的Excel操作库,目前最新版本是4.5.3.2。Github地址是:https://github.com/JanKallman/EPPlus。

EPPlus仅依赖基础类库BCL,完全没有第三方包依赖,也是.NET原生库。

EPPlus只支持导出Office 2007之后的格式,也就是xlsx。这已经是存在12年的格式了,但如果有客户想要导出xls,EPPlus将不支持。

OpenXML

OpenXML的NuGet包全称是DocumentFormat.OpenXml:是微软推出的较为低层的Excel操作库,最新稳定版本是2.9.1。OpenXML也是开源项目,地址是:https://github.com/OfficeDev/Open-XML-SDK。

从该项目的名字可以看出,OpenXML比较涉及底层,因此很容易令人浮想联翩,感觉它的性能、速度很可能是最快的,但真的如此吗?

Aspose.Cells

这是Aspose Pty Ltd公司推出的Excel操作库。它是众多Aspose File Format API产品其中之一。目前最新版本是19.8.0(基于年/月)。Aspose提供了应有尽有的文件格式支持,除了.NET外,Aspose还提供了C++和Java的包。

据我所知Aspose的客户支持服务也不错,客户提出的问题经常可以在下一次发布时解决。

Aspose.Cells是不开源,付费的库,但提供无限期的试用,据[官方网站](https://docs.aspose.com/display/cellsnet/Licensing#Licensing-EvaluationVersionLimitations)显示,试用版将

  • 限制打开文件数量100个

  • 限制使用Aspose.Cells.GridWeb功能

  • 生成的Excel将添加如下水印:640?wx_fmt=png

但经过我的试用,无论是并行还是串行,都没找到限制打开文件数量100个的限制。因此,“试用版”对我们的物理限制,就只有这个水印了(当然加了这个水印,客户肯定也不会有好表情?)。

Excel-COM

COM是随着Excel安装而自带的库,Excel的包名叫Microsoft.Office.Interop.Excel。本文不会深入解析,具体可以看[这篇文档](https://docs.microsoft.com/en-us/dotnet/csharp/programming-guide/interop/how-to-access-office-onterop-objects)。

我想要多说两句的是,COM的old-fashion(过时)不是没有原因的,据我所知COM有以下缺点:

  • 调用时会启动一个进程外的excel.exe,可能因为它为是专门为Office设计的(不是为.NET集成设计的)

  • 要求目标环境安装相关软件,没安装将无法运行

  • 显然也没办法跨平台

  • 使用了大量动态/多参数接口,对开发不是很友好

  • 不像托管内存,COM对资源释放也有要求,具体参见[这篇文章](https://www.breezetree.com/blog/common-mistakes-programming-excel-with-c-sharp)

横向比较


NPOI
EPPlus
OpenXML
Aspose
包依赖
有1个

封装程度正常
正常
低层
正常
支持格式
完善
仅xlsx
仅xlsx
完善
开源协议
Apache-2.0
LGPLMIT
不开源‍
收费类型
免费
免费
免费
收费

评测说明

版本与数据

所有代码的版本号基于上文中提到的最新稳定版本:


最新稳定版本号
NPOI
2.4.1
EPPlus
4.5.3.2
OpenXML2.9.1
Aspose.Cells
19.8.0

数据全部基于我上篇文章使用的6万条/10列的数据,总共数据量19,166 KB。所有数据可以从这里下载:https://github.com/sdcb/blog-data/tree/master/2019/20190821-generate-lorem-data

环境

项目
CPUE3-1230 v3 @ 3.30GHz
内存
24GB DDR3-1600 MHz (8GBx3) 
 操作系统Windows 10 1903 64位
电源选项已设置为“高性能”‍
软件
LINQPad 6.0.18
运行时环境
.NET Core 3.0-preview8-28405-07

注意,LINQPad设置了optimize+,代码都是优化后执行的;代码都指定了Util.NewProcess = true;,确保每次运行都会在新进程中运行,不会互相影响。

我的性能测试函数介绍

IEnumerable<object> Measure(Action action, int times = 5)	
{	return Enumerable.Range(1, times).Select(i =>	{	var sw = Stopwatch.StartNew();	long memory1 = GC.GetTotalMemory(true);	long allocate1 = GC.GetTotalAllocatedBytes(true);	{	action();	}	long allocate2 = GC.GetTotalAllocatedBytes(true);	long memory2 = GC.GetTotalMemory(true);	sw.Stop();	return new	{	次数 = i, 	分配内存 = (allocate2 - allocate1).ToString("N0"),	内存提高 = (memory2 - memory1).ToString("N0"), 	耗时 = sw.ElapsedMilliseconds,	};	});	
}

除了时间,内存占用实际也是非常非常重要、但容易被人忽略的性能指标。大家都以为“内存不值钱”,但——

  • 一旦访问量大,内存就会瞬间上涨,导致频繁GC,导致性能下降;

  • 内存高也会导致服务器分页,这时性能就会急剧下降;

  • 吞吐量下降会导致队列排满,此时服务器就会报503等错误,客户就发现服务器“宕机了”。

(提示:除非你的客户真的愿意多花钱再升级一下服务器,否则不要提“内存不值钱”。)

在我的性能测试函数中,使用了如下两个函数来测试内存占用:

  • GC.GetTotalAllocatedBytes(true) 获取分配内存大小

  • GC.GetTotalMemory(true) 获取占用内存大小

占用内存可能会比分配内存小,因为存在垃圾回收(GC),但GC会影响性能。

通过调用Measure函数,可以测得传入的action的耗时和内存占用。默认会调用5次,可以从5次测试结果中取出能反映性能的值。

测试基准

string Export<T>(List<T> data, string path)	
{	PropertyInfo[] props = typeof(User).GetProperties();	string noCache = null;	for (var i = 0; i < props.Length; ++i)	{	noCache = props[i].Name;	}	for (var i = 0; i < data.Count; ++i)	{	for (var j = 0; j < props.Length; ++j)	{	noCache = props[j].GetValue(data[i]).ToString();	}	}	return noCache;	
}

注意:

  • 我有意使用了反射,这符合我们导出Excel代码简单、易学、好用、好扩展的愿意;

  • 我有意使用了泛型T,而不是实际类型,这也让这些代码容易扩展;

  • 里面的noCache用来规避编译器优化删除代码的行为

测试结果:

次数
分配内存
内存提高
耗时
1
9,863,5208,712
156
29,852,5920
138
39,852,5920147
4
9,873,0969,240
136
59,853,936776
133

可见,基于反射操作6万/10列数据,每次需要分配约9MB内存,但这些内存都会被快速GC,最终内存提高较少。这些使用反射的代码运行耗时在130ms-150ms左右。

各个库的使用和性能表现

NPOI

void Export<T>(List<T> data, string path)	
{	IWorkbook workbook = new XSSFWorkbook();	ISheet sheet = workbook.CreateSheet("Sheet1");	var headRow = sheet.CreateRow(0);	PropertyInfo[] props = typeof(User).GetProperties();	for (var i = 0; i < props.Length; ++i)	{	headRow.CreateCell(i).SetCellValue(props[i].Name);	}	for (var i = 0; i < data.Count; ++i)	{	var row = sheet.CreateRow(i + 1);	for (var j = 0; j < props.Length; ++j)	{	row.CreateCell(j).SetCellValue(props[j].GetValue(data[i]).ToString());	}	}	using var file = File.Create(path);	workbook.Write(file);	
}

注意:

  • 里面用到了XSSFWorkBook,其中XSSF这个前缀是从Java的POI库传过来的,全称是XML SpreadSheet Format。

    这种前缀在NPOI包中很常见。

  • XSSFWorkbook提供了bool Dispose()方法,但它未实现(因此千万别调用它):

    640?wx_fmt=png

性能测试结果:

次数
分配内存
内存提高
耗时
1
1,598,586,416537,0486590
21,589,239,7287,712
10155
31,589,232,056-5,36810309
4
1,589,237,0647,144
10355
51,589,245,0009,56010594

分配内存稳定在1.48GB的样子,首次内存会提高524KB左右,后面趋于稳定。首次耗时6秒多,后面稳定在10秒多。

EPPlus

void Export<T>(List<T> data, string path)	
{	using var stream = File.Create(path);	using var excel = new ExcelPackage(stream);	ExcelWorksheet sheet = excel.Workbook.Worksheets.Add("Sheet1");	PropertyInfo[] props = typeof(User).GetProperties();	for (var i = 0; i < props.Length; ++i)	{	sheet.Cells[1, i + 1].Value = props[i].Name;	}	for (var i = 0; i < data.Count; ++i)	{	for (var j = 0; j < props.Length; ++j)	{	sheet.Cells[i + 2, j + 1].Value = props[j].GetValue(data[i]);	}	}	excel.Save();	
}

注意,不同于NPOI/Aspose.Cells,EPPlus的下标是基于1的(而不是0)。

次数
分配内存
内存提高
耗时
1
534,970,328156,0483248
2533,610,23214,8962807
3533,595,9367,6482853
4
533,590,7764,408
2742
5533,598,44011,2802759

分配内存约508MB,耗时首次稍长,约3.2秒,后面稳定在2.7-2.8秒。

OpenXML

void Export<T>(List<T> data, string path)	
{	using SpreadsheetDocument excel = SpreadsheetDocument.Create(path, SpreadsheetDocumentType.Workbook);	WorkbookPart workbookPart = excel.AddWorkbookPart();	workbookPart.Workbook = new Workbook();	WorksheetPart worksheetPart = workbookPart.AddNewPart<WorksheetPart>();	worksheetPart.Worksheet = new Worksheet(new SheetData());	Sheets sheets = excel.WorkbookPart.Workbook.AppendChild<Sheets>(new Sheets());	Sheet sheet = new Sheet	{	Id = excel.WorkbookPart.GetIdOfPart(worksheetPart),	SheetId = 1,	Name = "Sheet1"	};	sheets.Append(sheet);	SheetData sheetData = worksheetPart.Worksheet.GetFirstChild<SheetData>();	PropertyInfo[] props = typeof(User).GetProperties();	{    // header	var row = new Row() { RowIndex = 1 };	sheetData.Append(row);	row.Append(props.Select((prop, i) => new Cell	{	CellReference = ('A' + i - 1) + row.RowIndex.Value.ToString(),	CellValue = new CellValue(props[i].Name),	DataType = new EnumValue<CellValues>(CellValues.String),	}));	}	sheetData.Append(data.Select((item, i) => 	{	var row = new Row { RowIndex = (uint)(i + 2) };	row.Append(props.Select((prop, j) => new Cell	{	CellReference = ('A' + j - 1) + row.RowIndex.Value.ToString(),	CellValue = new CellValue(props[j].GetValue(data[i]).ToString()),	DataType = new EnumValue<CellValues>(CellValues.String),	}));	return row;	}));	excel.Save();	
}

注意,因为`OpenXML`比较偏低层,东西比较复杂,所以我们慢慢说:

  • 对于一些对象,它需要创建相应的Part,如WorksheetPart;

  • Excel可以使用SharedStringTable来共享变量值,适合相同字符串非常多的场景。

    但此示例共享变量值收益很低,但会极大地增加代码复杂性(普通用户可能很难写出),因此本示例未使用SharedStringTable;

  • 它基于单元格位置标识,如B3(第三行第二列),因此索引方式比EPPlus/NPOI都要复杂;

  • 代码示例中使用'A' + i - 1来计算位置标识,因此这个示例不能用于超过26列(字母数)的数据;

  • 代码使用LINQ(而不是循环)来枚举所有行/列,可以让代码在已经非常复杂的情况下,更简洁一点;

    经测试,将LINQ改成for循环对性能结果变化影响极其微小。

测试结果如下:

次数
分配内存
内存提高
耗时
1
556,937,896145,8324009
2555,981,2163123783
3555,985,9362,7603884
4
555,984,3841,8723869
5555,989,1203,8803704

内存占用约530MB左右,第一次比后面多1MB的样子,耗时3.7-4.0秒之间。

Aspose.Cells

void Export<T>(List<T> data, string path)	
{	using var excel = new Workbook();	Worksheet sheet = excel.Worksheets["Sheet1"];	PropertyInfo[] props = typeof(User).GetProperties();	for (var i = 0; i < props.Length; ++i)	{	sheet.Cells[0, i].Value = props[i].Name;	}	for (var i = 0; i < data.Count; ++i)	{	for (var j = 0; j < props.Length; ++j)	{	sheet.Cells[i + 1, j].Value = props[j].GetValue(data[i]);	}	}	excel.Save(path);	
}

注意,Aspose.Cells像Excel软件一样,提供了Sheet1/Sheet2/Sheet3三个默认的工作表,因此取这三个工作表时,不要创建,而是取出来。

性能测试结果如下:

次数
分配内存
内存提高
耗时
1
404,004,9443,619,5203316
2357,931,6486,0482078
3357,934,7447,2162007
4
357,933,3766,2802017
5357,933,3606,4242007

Aspose.Cells首次占用内存385MB,用于3.3秒,后面每次降低为内存341MB,用时2.0秒。

总结

四种导出Excel库的横向评测数据如下,数据取5次数值的内存消耗中位数

,百分比以EPPlus的测试数据为100%基准:

次数
分配内存
内存占比
耗时‍
耗时占比
基准(仅反射)
9,853,9361.85%1334.82%
NPOI1,589,237,064297.83%10355375.32%
EPPlus533,598,440100%2759100%
OpenXML
555,985,936104.19%3884140.78%
Aspose357,933,36067%200772.74%

可以得出以下结论:

  1. Demo基于反射,但反射总损耗的性能不高,内存、耗时均不超过5%;

  2. NPOI的性能表现是所有项目中最差的,每次需要分配1.5GB的内存和超过10秒的耗时;

  3. EPPlus表现不错,内存和耗时在开源组中表现最佳;

  4. 收费的Aspose.Cells表现最佳,内存占用最低,用时也最短;

  5. 较为底层的OpenXML表现非常一般,比EPPlus要差,更不能与收费的Aspose相提并论;

我的感想

在真的愿意尝试一下之前,人们很容易相信自己的直觉。底层库,通常能带来更大的可扩展性,能做出上层库很难做的事来。底层库有时性能会更快,就像更底层的C/C++比上层的JavaScript更快一样。但事情也不都如此,如

  • 更高层的React.js能在性能上将较底层的DOM操作比下去

  • 数据库基于集合的操作也比基于游标的操作要快得多

在导出Excel这个例子中,我了解到Excel的xlsx格式是非常复杂的、多个xml的集合。如果基于xml做抽象——也是很正常的做法,拼出6万/10列的数据,需要至少60万个xml标签做拼接,很显然这需要分配/浪费大量内存,因此性能上不来。

我基于以下几点无责任猜测:Aspose内部可能没xml做抽象,而是纯数据做抽象(就像React.js那样),然后再统一写入到Excel文件。因此性能可以达到其它库达不到的目标:

  1. Aspose.Cells对xml等实现相关技术只字未提(可能因为要支持多种文件格式);

  2. Aspose.Cells是先在内存中创建,再写入文件/流(NPOI也是);

  3. Aspose.Cells创建Excel时要求客户直接使用Workbook类(NPOI也是);

  4. Aspose.Cells完全隐藏了Excel的位置(如B3)信息,下标从0开始(NPOI也是)

比较这几点,NPOI也与Aspose.Cells有几分相似,但导出不到6MB的`Excel`它内存分配居然高达1.5GB,是后者的444%!毕竟迭代更新了这么多年了,代码质量我相信应该没问题。因此我再次无责任推测:这可能因为它是从Java那边移植过来的。

我的选择/推荐

在我做这个性能评测前,我一直使用的是EPPlus,因为我不喜欢NPOI有第三方依赖,也不喜欢NPOI那些“XSSF”之类的前缀命名,也显然不会去费心思写那么多费力不讨好的OpenXML代码。

更别提这次评测发现EPPlus的性能确实不错,唯一的缺点就是它单元格下标从1开始的设计。即便如此,我还是首选推荐EPPlus。

近期也经常使用Aspose.Cells这种商业库,它的功能强大,API清晰好用,这个评测也证明它的性能卓越。除了高昂(https://purchase.aspose.com/pricing/cells/net)的价格,没别的缺点了。乃有钱客户/老板的不二之选!

出处:微信公众号【DotNet骚操作】原文链接:https://www.cnblogs.com/sdflysha/p/20190824-dotnet-excel-compare.html

觉得好看,请点这里↓↓↓

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/314180.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

[2021.1.27多校省选模拟10]染色(min-max容斥/二项式反演)

[2021.1.27多校省选模拟10]染色 突然发现我对概率期望的理解不是很好。。。 部分分1:可以直接进行状压dp,然后按照题意模拟即可。 部分分2:首先可以发现这个问题是min_max容斥形式,然后对于min(T)的问题,我们将问题转…

[2021.1.27多校省选模拟10]跑步(线段树合并)

[2021.1.27多校省选模拟10]跑步 经典的树上启发式合并题目,维护对应子树的从当前点到子树内一个节点这个链待定,其他部分已经确定的方案数,这个东西按照对应点到根节点的路径点权和为下标存在一个权值线段树中,然后维护这个权值线…

ASP.NET Core 双因素验证2FA 实战经验分享

必读本文源码核心逻辑使用AspNetCore.Totp,为什么不使用AspNetCore.Totp而是使用源码封装后面将会说明。为了防止不提供原网址的转载,特在这里加上原文链接:双因素认证双因素身份认证就是通过你所知道再加上你所能拥有的这二个要素组合到一起…

结合“性能监视器” 排查、处理性能瓶颈导致应用吞吐率等指标上不去的问题...

双11备战前夕,总绕不过性能压测环节,TPS 一直上不去 / 不达标,除了代码上的问题外,服务器环境、配置、网络、磁盘、CPU 亦是导致性能瓶颈的重要一环,本文旨在分享最近项目性能压测过程中的排查经验,文中的表…

秒半价,限四天!Vostro极致轻薄全能本,助你全能全开!

在信息化时代,电脑就是你工作和创业的“合伙人”!每天比别人多处理几件任务、每天比别人快20分钟,每天比别人少重启和崩溃几次,日积月累获益多到算不过来!小编四处打探,有三款王者电脑重磅优惠,…

【活动】侬好上海,Microsoft Reactor来啦

在美国纽约、旧金山和雷德蒙德,在英国伦敦,在澳大利亚悉尼,在以色列特拉维夫,分别都有这样一处专为开发者打造的宝地,在这些地方:❖ 经常举办各种免费的技术讲座,与大家分享最新技术和产品❖ 频…

A. [2021.1.29多校省选模拟11]最大公约数(杜教筛/数论)

A. [2021.1.29多校省选模拟11]最大公约数 这是一个杜教筛的经典题目,最后我们只需要筛一下1∗xμ(x)1*x\mu(x)1∗xμ(x)这个函数的前缀和即可,然后看到有111这个函数,我们下意识应该想到的就是μ\muμ,然后又有xμ(x)x\mu(x)xμ(x…

.NET Core 小程序开发零基础系列(2)——小程序服务通知(模板消息)

基于上一篇文件“.NET Core 小程序开发零基础系列(1)——开发者启用并校验牵手成功”的反映,个人觉得效果很不错,大家对公众号开发还是有很大需求的,同时也收到了很多同学的问题,后面我也会通过实战性文章慢…

[PowerShell]人人都值得学一点PowerShell实现自动化(2)有哪些可用的场景及方式?

部分读者反应太多知识要学了,学完一轮又一轮,笔者也不想单单为了制造学习而学习,所有Excel催化剂所发布的内容,都是笔者所亲自使用到的,当然很多领域也没有深挖到很底的程度。PowerShell使用场景虽然说PowerShell也是在…

[2021.1.13多校省选模拟2]T1(动态规划/轮廓线dp)

[2021.1.13多校省选模拟2]T1 一个经典的轮廓线dp,可以发现一定可以找到一条轮廓将这个图形分开,然后使得左半部分由左边处理,右半部分由右边处理,然后我们只需要处理这个折线即可,具体实现需要处理前缀和的前缀最大值&…

[PowerShell]人人都值得学一点PowerShell实现自动化(1)在VisualStudio上使用PowerShell...

最近学PowerShell的知识比较多,也开始有一点点可以分享的知识给大家输出,学一门语言,理当首先找准一个好用的IDE来帮助我们提高学习效率,本文给大家介绍如何在宇宙第一的IDE-Visual Studio上写PowerShell脚本。关于PowerShell的基…

[2021.1.17多校省选模拟4]T1(莫比乌斯反演/组合数学/枚举倍数)

[2021.1.17多校省选模拟4]T1 一般人都会想着去枚举直线的斜率,但是枚举斜率之后就会产生多条直线,并且这些直线的长度不一,难以快速求解,所以我们考虑换一种方法枚举。 枚举最远点对的横纵坐标之差,这样很容易计算这…

程序员35岁不转型就退休,是真的吗?

周六下午,DevOps群里,有人贴出来这么一张图:据说,这张图来自于谷歌,Google程序员之间存在这一条鄙视链,站在顶端的是C工程师,其次是Java工程师,再次是Python工程师,接下来…

.net测试篇之Moq框架简单使用

Moq简介Moq是.net平台下的一个非常流行的模拟库,只要有一个接口它就可以动态生成一个对象,底层使用的是Castle的动态代理功能.它的流行赖于依赖注入模式的兴起,现在越来越多的分层架构使用依赖注入的方式来解耦层与层之间的关系.最为常见的是数据层和业务逻辑层之间的依赖注入,…

A. 树与路径(树论/多项式/分治FFT)

A. 树与路径 首先考虑一个dp的方法,对于这种链划分的题目,有一个很重要的思想就是按照每个点的角度考虑,实际上链划分就是匹配问题,每个点只能出一条边和入一条边,所以我们拆点之后就是匹配,这也是网络流最…

.NET Core on K8S学习实践系列文章索引(持续更新)

近期在学习Kubernetes,基于之前做笔记的习惯,已经写了一部分文章,因此给自己立一个2019年的flag:完成这个《.NET Core on K8S学习实践》系列文章!这个系列会持续更新,先发个草稿列表,后续更新&a…

TomatoLog-1.1.0实现ILoggerFactory

TomatoLogTomatoLog 是一个基于 .NETCore 平台的产品。The TomatoLog 是一个中间件,包含客户端、服务端,非常容易使用和部署。客户端实现了ILoggerFactory,使用服务注入成功后即可使用,对业务入侵非常小,也支持通过客户…

Docker(二)-在Docker中部署Nginx实现负载均衡(视频)

一、前言在前面的文章中我们已经介绍了如何在Centos7系统中安装Docker以及利用Docker进行Asp.Net Core应用的部署。在本文中,我们将继续介绍利用Docker部署Nginx服务实现负载均衡,我们通过视频方式向大家进行演示。注:查看公众号历史文章&…

P4389 付公主的背包(生成函数/多项式)

P4389 付公主的背包 https://www.luogu.com.cn/problem/solution/P4389 经典生成函数问题 求解无限背包问题,我们可以将每个物品看作一个多项式,那么最后的结果就是这些多项式的卷积的系数,然后我们实际上就可以考虑分治NTT了,但…