Excel催化剂开源第31波-pdf相关功能实现及类库介绍

在Excel催化剂刚推出的pdf相关功能中,反馈很热烈,不止是用户层面好多人喜欢,也听到在.NET开发群里有询问pdf在winform上展现的功能诉求,一段时间没写开源篇,生怕大家以为Excel催化剂太小气了,不再开发了,赶紧趁着还有余温,补上一篇pdf相关的技术要点和好用轮子简介

pdf转图片

pdf转图片的功能,找了好久,百度肯定是没答案的了,或者找到的都是一堆堆的软文,指向云csdn下载破解版dll,这种事情在我大中华出现多了,也不足为怪了。

在google上也找了好大一圈,好多的方案还是不好用或者没看懂,其中一个方案是要求以COM的方式云调用Adobe的pdf软件,这肯定没有吸引力的,虽然我大中国是很有办法找Adobe的破解版软件,但听说Adobe咬起人来,比狼还要狠,动不动罚你个天价不为奇,程序员就不要往这里靠了。

最后,在github上一个很无名的小项目上抄到了代码,不敢独占,也献上了一个宝贵星星。

640?wx_fmt=png
github上的示例

调用的是PdfiumViewer轮子。这个轮子又依赖于PDFium轮子,PDFium好像分86和64两个版本。

640?wx_fmt=png
源代码节录

直接在nuget上搜PDFium会有多个版本,用PdfiumViewer搜索,好像可以搜索到不分86和64的版本,现在用着是它,没测试过32位机器是否不会出问题。

640?wx_fmt=png
PdfiumViewer关键词下好像有一个86和64合成版

PdfiumViewer更多的用途可以在winform上显示pdf文档,这里只是借用了人家直接pdf转图片的小部分功能。

pdf抽取表格内容

同样最后在github上找到了,寻找过程也是很曲折,不展开了。大家用到时,不妨多多给原作者打个星星。

640?wx_fmt=png
github上的轮子

这个类库的调用,有点奇怪,他拿到Table后,不能很方便地取到Table上的内容,结果只能用Table.ToString()拿到文本,再自己云拆解。里面提供的Table的行、列坐标,貌似测试了好久,不能用来在itextSharp上提取到数据。

pdf提取内容

这个用的是itextSharp,但听说这个是开源有限制的,5.0高版本的不能用在商业软件上。有大牛可以用最后的开源无限制版本写一下提取文本的代码给我下就最好,现在暂时还是用着人家5.0的版本,在中国应该问题不大吧,还好Excel催化剂是免费的,应该不算是商业用途吧。求专业人士指导下。网络上的代码都是基于5.0写出来的,实在抄不到4.x版本的代码。

代码很简单,随便一搜就有,包括百度,可能文章长度有限制就不帖代码了。

pdf提取图片

这个也是用的itextSharp,厚道点,这里直接给大家贴代码,不用花时间找了。

        public static Dictionary<string, System.Drawing.Image> ExtractImages(string filename)
        {
            var images = new Dictionary<string, System.Drawing.Image>();
            using (var reader = new PdfReader(filename))
            {
                var parser = new PdfReaderContentParser(reader);
                ImageRenderListener listener = null;
                for (var i = 1; i <= reader.NumberOfPages; i++)
                {
                    parser.ProcessContent(i, (listener = new ImageRenderListener()));
                    var index = 1;
                    if (listener.Images.Count > 0)
                    {

                        foreach (var pair in listener.Images)
                        {
                            images.Add(string.Format("{0}_Page_{1}_{2}{3}",
                                System.IO.Path.GetFileNameWithoutExtension(filename), i.ToString("D3"), index.ToString("D3"), pair.Value), pair.Key);
                            index++;
                        }
                    }
                }
                return images;
            }
        }
    }
  internal class ImageRenderListener : IRenderListener
    {

        Dictionary<System.Drawing.Image, string> images = new Dictionary<System.Drawing.Image, string>();

        public Dictionary<System.Drawing.Image, string> Images
        {
            get { return images; }
        }

        public void BeginTextBlock() { }
        public void EndTextBlock() { }
        public void RenderImage(ImageRenderInfo renderInfo)
        
{
            try
            {
                PdfImageObject image = renderInfo.GetImage();
                PdfName filter = (PdfName)image.Get(PdfName.FILTER);
                if (filter != null)
                {
                    System.Drawing.Image drawingImage = image.GetDrawingImage();
                    string extension = ".";
                    if (filter == PdfName.DCTDECODE)
                    {
                        extension += PdfImageObject.ImageBytesType.JPG.FileExtension;
                    }
                    else if (filter == PdfName.JPXDECODE)
                    {
                        extension += PdfImageObject.ImageBytesType.JP2.FileExtension;
                    }
                    else if (filter == PdfName.FLATEDECODE)
                    {
                        extension += PdfImageObject.ImageBytesType.PNG.FileExtension;
                    }
                    else if (filter == PdfName.LZWDECODE)
                    {
                        extension += PdfImageObject.ImageBytesType.CCITT.FileExtension;
                    }
                    this.Images.Add(drawingImage, extension);
                }
            }
            catch (Exception)
            {

            }
        }

        public void RenderText(TextRenderInfo renderInfo)
        
{

        }


    }

图片转pdf

这个也是用的itextSharp,因为想做到按图片大小来调整当前页的尺寸,测试了好久,还是厚道着给大家献上劳动成果吧。

        private static void InsertPicToPdf(string saveFilePath, List<(string FilePath, float Width, float Height, byte[] ImageData)> listImageInfo)
        
{
            var firstImage = listImageInfo.FirstOrDefault();
            var rec = new Rectangle(firstImage.Width, firstImage.Height);

            Document doc = new Document(rec, 0000);
            PdfWriter.GetInstance(doc, new FileStream(saveFilePath, FileMode.Create));
            doc.Open();
            var firstImagePage = iTextSharp.text.Image.GetInstance(firstImage.ImageData);
            firstImagePage.ScalePercent(24F);
            doc.Add(firstImagePage);

            int ipage = 0;
            foreach (var item in listImageInfo.Skip(1))
            {
                ipage++;
                if (ipage > 1)
                {
                    doc.NewPage();
                }

                var rectangle = new Rectangle(item.Width, item.Height);
                doc.SetPageSize(rectangle);
                doc.SetMargins(0000);
                var inertImage = iTextSharp.text.Image.GetInstance(item.ImageData);
                inertImage.ScalePercent(24F);
                doc.Add(inertImage);

            }

            doc.Close();
        }

  private static List<(string FilePath, float width, float Height, byte[] ImageData)> GetImageInfos(List<string> filePaths)
        {
            List<(string FilePath, float width, float Height, byte[] ImageData)> listImageInfo = new List<(string FilePath, float width, float Height, byte[] ImageData)>();
            foreach (var picPath in filePaths)
            {
                string ext = Path.GetExtension(picPath).ToLower();
                ImageFormat imageFormat = ext == ".png" ? ImageFormat.Png : ext == ".bmp" ? ImageFormat.Bmp : ext == ".gif" ? ImageFormat.Gif : ImageFormat.Jpeg;
                System.Drawing.Image image = System.Drawing.Image.FromFile(picPath);
                float height = image.Height * 0.24F;
                float width = image.Width * 0.24F;

                MemoryStream mstream = new MemoryStream();
                image.Save(mstream, imageFormat);
                byte[] byData = new Byte[mstream.Length];
                mstream.Position = 0;
                mstream.Read(byData, 0, byData.Length);
                mstream.Close();

                listImageInfo.Add((picPath, width, height, byData));

            }
            return listImageInfo;
        }

搞了好久老是错位,最终才测试出第2页时不要NewPage才行。

                if (ipage > 1)
                {
                    doc.NewPage();
                }

代码出处的作者,大概意思是pdf的分辨率是72pi,不是打印机的300pi,所以要缩小为原大小的24%,打印效果才比较好。

                System.Drawing.Image image = System.Drawing.Image.FromFile(picPath);
                float height = image.Height * 0.24F;
                float width = image.Width * 0.24F;

结语

Excel催化剂不是什么造轮子大户,只会到处找轮子,水平也有限,但还是尽上微博之力,给一些水平也是一般的后来者带去一点点的便利,希望大家喜欢,也期待整个分享的社区文化越来越好。我助人人,人人助我。

技术交流QQ群

QQ群名:Excel催化剂开源讨论群, QQ群号:788145319

640?wx_fmt=png
Excel催化剂开源讨论群二维码

关于Excel催化剂

Excel催化剂先是一微信公众号的名称,后来顺其名称,正式推出了Excel插件,插件将持续性地更新,更新的周期视本人的时间而定争取一周能够上线一个大功能模块。Excel催化剂插件承诺个人用户永久性免费使用!

Excel催化剂插件使用最新的布署技术,实现一次安装,日后所有更新自动更新完成,无需重复关注更新动态,手动下载安装包重新安装,只需一次安装即可随时保持最新版本!

Excel催化剂插件下载链接:https://pan.baidu.com/s/1Iz2_NZJ8v7C9eqhNjdnP3Q

640?wx_fmt=png
联系作者
640?wx_fmt=png
公众号

取名催化剂,因Excel本身的强大,并非所有人能够立马享受到,大部分人还是在被Excel软件所虐的阶段,就是头脑里很清晰想达到的效果,而且高手们也已经实现出来,就是自己怎么弄都弄不出来,或者更糟的是还不知道Excel能够做什么而停留在不断地重复、机械、手工地在做着数据,耗费着无数的青春年华岁月。所以催生了是否可以作为一种媒介,让广大的Excel用户们可以瞬间点燃Excel的爆点,无需苦苦地挣扎地没日没夜的技巧学习、高级复杂函数的烧脑,最终走向了从入门到放弃的道路。

最后Excel功能强大,其实还需树立一个观点,不是所有事情都要交给Excel去完成,也不是所有事情Excel都是十分胜任的,外面的世界仍然是一个广阔的世界,Excel只是其中一枚耀眼的明星,还有其他更多同样精彩强大的技术、工具等。*Excel催化剂也将借力这些其他技术,让Excel能够发挥更强大的爆发!

关于Excel催化剂作者

姓名:李伟坚,从事数据分析工作多年(BI方向),一名同样在路上的学习者。
服务过行业:零售特别是鞋服类的零售行业,电商(淘宝、天猫、京东、唯品会)

技术路线从一名普通用户,通过Excel软件的学习,从此走向数据世界,非科班IT专业人士。
历经重重难关,终于在数据的道路上达到技术平原期,学习众多的知识不再太吃力,同时也形成了自己的一套数据解决方案(数据采集、数据加工清洗、数据多维建模、数据报表展示等)。

擅长技术领域:Excel等Office家族软件、VBA&VSTO的二次开发、Sqlserver数据库技术、Sqlserver的商业智能BI技术、Powerbi技术、云服务器布署技术等等。

2018年开始职业生涯作了重大调整,从原来的正职工作,转为自由职业者,暂无固定收入,暂对前面道路不太明朗,苦重新回到正职工作,对Excel催化剂的运营和开发必定受到很大的影响(正职工作时间内不可能维护也不可能随便把工作时间内的成果公布于外,工作外的时间也十分有限,因已而立之年,家庭责任重大)。

和广大拥护者一同期盼:Excel催化剂一直能运行下去,我所惠及的群体们能够给予支持(多留言鼓励下、转发下朋友圈推荐、小额打赏下和最重点的可以和所在公司及同行推荐推荐,让我的技术可以在贵司发挥价值,实现双赢(初步设想可以数据顾问的方式或一些小型项目开发的方式合作)。


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/316669.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

CF1526D Kill Anton(暴力)

前言 我的证明&#xff1a;这似乎非常对啊。 。。。 解析 直观感受&#xff1a;字母交错出现非常愚蠢。 然后就猜对了 为什么&#xff1f; 考虑两个相同但不相邻的字符 Ti,TjT_i,T_jTi​,Tj​&#xff0c;对应位置为 pi,pjp_i,p_jpi​,pj​。 夹在中间的字符 kkk 无非三种可…

Minimum spanning tree HDU - 6954

Minimum spanning tree HDU - 6954 题意&#xff1a; 给定n-1个点&#xff0c;编号从2到n&#xff0c;两点a和b之间的边权重为lcm&#xff08;a&#xff0c;b&#xff09;。请找出它们形成的最小生成树。 2<n<10000000 题解&#xff1a; 这题一看就眼熟。。。这不是去…

[小技巧]ASP.NET Core中如何预压缩静态文件

原文地址&#xff1a;Pre-compressed static files with ASP.NET Core作者&#xff1a;Gunnar Peipman译者&#xff1a;Lamond Lu译文&#xff1a;https://www.cnblogs.com/lwqlun/p/10552131.html示例代码&#xff1a;https://github.com/lamondlu/CompressedStaticFileSample…

CF1494F Delete The Edges(欧拉回路)

前言 走远了走远了… 一直在想翻转一条链的奇偶性怎么做&#xff0c;但没有意识到最后一定是个菊花。 解析 一状态就是走一个欧拉回路&#xff0c;合法性更容易刻画&#xff0c;所以考虑反过来想&#xff0c;如何用状态二的走法删去一些边&#xff0c;使得剩下的图存在欧拉路…

【学习笔记】简单的连通性状压DP——插头DP(不学以为是天书)

文章目录哈希链表插头DP概念括号表示法 / 最小表示法例题洛谷插头dp板题CITYParkIITonys TourEfficient Tree[CQOI2015]标识设计哈希链表 众所周知&#xff0c;哈希是有冲突的可能性的&#xff0c;而且在状态数越多&#xff0c;冲突的概率就越高。目前掌握的处理方案有多哈希&…

H - Maximal submatrix HDU - 6957

H - Maximal submatrix HDU - 6957 题意&#xff1a; 给定一个n行m列的矩阵&#xff0c;求每列上面积不减的最大子矩阵 对于每个测试用例&#xff0c;打印一个表示最大子矩阵的整数 题解&#xff1a; 要求求一个最大面积的满足每列非递减的矩阵&#xff0c;这怎么想&#…

[NewLife.XCode]实体类详解

NewLife.XCode是一个有10多年历史的开源数据中间件&#xff0c;由新生命团队(2002~2019)开发完成并维护至今&#xff0c;以下简称XCode。整个系列教程会大量结合示例代码和运行日志来进行深入分析&#xff0c;蕴含多年开发经验于其中。开源地址&#xff1a;https://github.com/…

CF662C Binary Table(FWT_XOR卷积)

problem 洛谷链接 solution 第二次做的时候发现自己还是不会。发现自己没有写过题解&#xff0c;看来当时是没有完全搞懂的。 nnn 与 mmm 的量级相差很大&#xff0c;nnn 的范围是完全可以状压的。 不妨考虑枚举最后翻转了哪些行&#xff0c;将操作状压为一个数 XXX。 显然…

AT5662 [AGC040D] Balance Beam(二分)

前言 人类智慧&#xff0c;不可思议。 解析 考虑画出两个人的 S−TS-TS−T 折线图&#xff0c;那么答案如何表示&#xff1f; 可以理解成把 BBB 的图像不断下移&#xff0c;直到与 AAA 的图像只剩一个交点&#xff0c;此时在 xxx 轴的截矩就是答案。 设平移后 BBB 图像与 x…

Counting Triangles

Counting Triangles 题意&#xff1a; 给你一个完全图&#xff0c;每个边被赋值为0或1&#xff0c;问这个完全图中有多少个完美三角形&#xff1f; 完美三角形定义&#xff1a;三角形的三边都为0或1 题解&#xff1a; 正着求不好求&#xff0c;我们可以倒着想 不考虑完美&a…

程序员过关斩将--论商品促销代码的优雅性

点击上方蓝色字体&#xff0c;关注我们菜菜哥&#xff0c;YY说你帮她解决了几个问题&#xff0c;也帮我解决一个呗原来是D妹子&#xff0c;来坐我身边&#xff0c;说下情况我的项目是个电商项目&#xff0c;现在产品狗要给商品做活动正常呀我一个新手初来咋到顶不住压力了&…

[WC2018]州区划分(FWT_OR卷积)

problem 洛谷链接 solution 显然题目指向&#xff1a;存在欧拉回路的州划分是不合法的。 当且仅当这个州是 联通 的且 内部没有奇数度数的点 时&#xff0c;这个州不合法。 因为 nnn 非常小&#xff0c;我们可以枚举每一种州划分方案&#xff0c;判断是否合法&#xff0c;…

P5469 [NOI2019] 机器人(拉格朗日插值、区间dp)

解析 打表可得&#xff0c;有效状态大概只有 O(m)O(nlog⁡n)O(m)O(n\log n)O(m)O(nlogn) 种。 枚举最靠右的最大值位置&#xff0c;不难得到 O(mV)O(mV)O(mV) 的做法。 期望得分 505050 分。 考虑如何做 l0,r109l0,r10^9l0,r109。&#xff0c;发现前缀和后所有的 dpi,i,xxdp_…

Math(牛客多校第三场)

Math 题意&#xff1a; 问你有多少对(x,y),1<x<y<n,满足(x2 y2)%(xy1) 0 题解&#xff1a; 这种题。。。直接打表芜湖~ 通过打表发现&#xff1a;满足情况的为(i,i * i * i),但是也有不和谐的声音出现&#xff1a;当x8时&#xff0c;会出现两个&#xff0c;一个…

[NewLife.XCode]增删改查入门

NewLife.XCode是一个有10多年历史的开源数据中间件&#xff0c;由新生命团队(2002~2019)开发完成并维护至今&#xff0c;以下简称XCode。整个系列教程会大量结合示例代码和运行日志来进行深入分析&#xff0c;蕴含多年开发经验于其中。开源地址&#xff1a;https://github.com/…

P5472 [NOI2019] 斗主地(期望、数学)

前言 我咋连表都没打啊。 too vegetable。 解析 题目给出的洗牌形式看着并不好看&#xff0c;合理猜测可以发现&#xff0c;这其实就等价于所有可能情况等概率出现。 然后就不会了 打表可以发现&#xff1a;当 tp1 时&#xff0c;dp 数组是一个等差数列。当 tp2 时&#xff…

[HNOI2012]集合选数(思维构造 + 状压dp)

problem 题目链接 solution 从最小一个数 xxx 开始&#xff0c;将其 2x,3x2x,3x2x,3x 放入&#xff0c;再将 2(2x),3(2x),2(3x),3(3x)2(2x),3(2x),2(3x),3(3x)2(2x),3(2x),2(3x),3(3x) 放入&#xff0c;以此类推 …\dots… 将其合并为一个集合。重复又找一个最小未进入集合的…

在实际项目中使用LiteDB NoSQL数据库

LiteDB 是一个 NoSQL 数据库&#xff0c;特点是 MongoDB like 和 0 配置。100% 原汁原味的 C# 开发, Release 只有一个 DLL&#xff0c;官方有一下适用场景&#xff1a;移动App&#xff0c;桌面小应用程序&#xff0c;特有的文件格式&#xff0c;小型的 Web 应用&#xff0c;需…

2021牛客暑期多校训练营3

2021牛客暑期多校训练营3 题号题目知识点AGuess and liesBBlack and whiteCMinimum grid二分图匹配DCountEMath数论打表找规律F24dian模拟GYu Ling(Ling YueZheng) and Colorful TreeHLing Qiu, Luna and Triple BackpackIKuriyama Mirai and Exclusive OrJCounting Triangles…

P4769 [NOI2018] 冒泡排序(组合数学)

前言 这里是线性做法。 在题解里几句话说清楚的性质愣是推了一上午。 too vegetable 解析 考虑怎样的排列是不合法的。 一个排列如果不合法&#xff0c;也就是在某次交换时其中一个元素距离目标的距离没有减少反而增大了&#xff0c;那么以后这个数一定会再换回来&#xff0…