掌握iText:轻松处理PDF文档-进阶篇

简体中文写入

iText本身对简体中文的支持有限,但可以通过引入额外的字体包来增强其对简体中文的支持。例如,可以使用iTextAsian.jar这个亚洲字体包,它包含了几种简单的亚洲字体,其中包括简体中文字体。只需要将iTextAsian.jar放到类路径下,并在报表文件中设置相应的字体,就能够正常显示中文信息。如果想要使用其他的自定义的字体,则需要进行相应的扩展。

第一种:使用iTextAsian.jar中的简体中文字体

@Test
public void test8() {Font font = FontFactory.getFont("STSong-Light", "UniGB-UCS2-H", BaseFont.EMBEDDED, 12, Font.NORMAL);Document document = new Document();try {PdfWriter.getInstance(document, new FileOutputStream("d:/test/hello.pdf"));document.open();document.add(new Paragraph("白日依山尽,黄河入海流。", font));document.add(new Paragraph("欲穷千里目,更上一层楼。", font));document.close();} catch (DocumentException e) {e.printStackTrace();} catch (FileNotFoundException e) {e.printStackTrace();}
}

第二种:自定义字体

  1. 下载字体:从字体天下网下载一个字体,需要注意的是在商业应用中版权问题,就下载这个吧,看着不错;

  1. 使用自定义的字体也很简单,即在使用字体之前要先注册一下,注册完成后就可以使用了。
@Test
public void test9() {URL resource = getClass().getClassLoader().getResource("HongLeiXingShuJianTi-2.otf");FontFactory.register(resource.getPath(), "HongLeiXingShuJianTi-2.otf");Font font = FontFactory.getFont("HongLeiXingShuJianTi-2.otf", BaseFont.IDENTITY_H, BaseFont.EMBEDDED, 20, Font.NORMAL);Document document = new Document();try {PdfWriter.getInstance(document, new FileOutputStream("d:/test/hello.pdf"));document.open();document.add(new Paragraph("白日依山尽,黄河入海流。", font));document.add(new Paragraph("欲穷千里目,更上一层楼。", font));document.close();} catch (DocumentException e) {e.printStackTrace();} catch (FileNotFoundException e) {e.printStackTrace();}
}

读取文本和图片

iText并没有直接从pdf中提取图片的api,但这并不代表不能提取图片,可以这样做

读取目标文档截图:

步骤

  1. 定义一个pdf阅读器;
  2. 再定义一个pdf内容解析器,构造方法接受一个pdf阅读器作为参数;
  3. 逐行进行内容解析,这里需要实现RenderListener接口,RenderListener接口有两个重要方法:renderText()和renderImage()

renderText(TextRenderInfo renderInfo): 这个方法在文本渲染时被调用。TextRenderInfo对象包含了关于文本渲染的所有信息,包括文本、字体、颜色等等。你可以通过这个方法来控制文本的渲染方式,例如设置文本的颜色、字体等。

renderImage(ImageRenderInfo renderInfo): 这个方法在图像渲染时被调用。ImageRenderInfo对象包含了关于图像渲染的所有信息,包括图像的路径、宽度和高度等。你可以通过这个方法来控制图像的渲染方式,例如设置图像的大小、位置等。

@Test
public void test10() {try {PdfReader pdfReader = new PdfReader(new FileInputStream("d:/test/hello.pdf"));int numberOfPages = pdfReader.getNumberOfPages();PdfReaderContentParser parser = new PdfReaderContentParser(pdfReader);for (int i = 0; i < numberOfPages; i++) {int finalI = i;parser.processContent(i + 1, new RenderListener() {@Overridepublic void beginTextBlock() {}@Overridepublic void renderText(TextRenderInfo renderInfo) {System.out.println("---start text---");String text = renderInfo.getText();System.out.println(text);System.out.println("---end text---");}@Overridepublic void endTextBlock() {}@Overridepublic void renderImage(ImageRenderInfo renderInfo) {System.out.println("---start image---:");PdfImageObject image = null;try {image = renderInfo.getImage();} catch (IOException e) {e.printStackTrace();}byte[] imageAsBytes = image.getImageAsBytes();String fileType = image.getFileType();String imageName = "d:/test/" + (finalI + 1) + "." + fileType;FileUtil.writeBytes(imageAsBytes, imageName);System.out.println("imageName:" + imageName);System.out.println("---end image---");}});}} catch (IOException e) {e.printStackTrace();}
}

总结

注意:目标文档中,先是两行文本内容,然后才是一张图片。但是从提取日志来看,先提取出来的是图片,然后才是文本内容,因此,这里虽然可以从pdf中提取到图片,但是图片和文本的顺序是不能保证的,需要特别注意哦。

读取表格

读取目标文档截图:

很遗憾,使用iText从pdf文档中读取表格内容,并没有像poi读取word中表格一样,可以逐行读取的API,读取表格内容和读取文本是一样的,不能读取出表格的样式内容。如图:

上一篇:掌握iText:轻松处理PDF文档-基础篇-CSDN博客

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/212192.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

springboot 启动之后报错:Unsatisfied dependency through field ‘bbbClient’

springboot 启动之后报错&#xff1a;UnsatisfiedDepencyException:Error creating bean with name ‘aaaServiceImpl’: Unsatisfied dependency through field ‘bbbClient’。 这两天一直在进行着日常 debugger 查看代码。可是发生了一个挺“灵异”的事件。那就是我看的项目…

46. 全排列

46. 全排列 原题链接&#xff1a;完成情况&#xff1a;解题思路&#xff1a;参考代码&#xff1a;_46全排列_构建数组回溯_46全排列_直接构建 错误经验吸取 原题链接&#xff1a; 46. 全排列 https://leetcode.cn/problems/permutations/description/ 完成情况&#xff1a;…

codeforces D.In Love

思路 用两个 m u l t i s e t multiset multiset 分别存 l , r l,r l,r 。你也可以写平衡树在 l l l 的 m u l t i s e t multiset multiset 里去查询是否存在比最小的 r r r 大的 l l l 。 Think Twice, Code Once #include<bits/stdc.h> #define il inline #d…

小模型学习(1)-人脸识别

【写作背景】因为最近一直在研究大模型&#xff0c;在与客户进行交流时&#xff0c;如果要将大模型的变革性能力讲清楚&#xff0c;就一定要能将AI小模型的一些原理和效果讲清楚&#xff0c;进而形成对比。当然这不是一件简单的事情&#xff0c;一方面大模型分析问题的的本质原…

Mybatis分页插件PageHelper

PageHelper是什么&#xff1f; 是MyBatis提供的分页插件&#xff0c;可以支持MySQL、Oracle等六种数据库。 集成方式如下&#xff1a; 1 引入依赖 <!-- https://mvnrepository.com/artifact/com.github.pagehelper/pagehelper --> <dependency><groupId>co…

反射加载SDK完成统一调用

文章目录 1、需求背景2、接口抽象类具体实现类3、疑问4、存在的问题5、通过反射加载SDK并完成调用5、补充&#xff1a;关于业务网关7、补充&#xff1a;关于SDK的开发 关键点&#xff1a; 接口抽象类&#xff08;半抽象半实现&#xff09;具体实现类业务网关反射加载SDK&#…

JAVA如何调用python

以下代码想通过测试&#xff0c;必须有一个前提&#xff1a;电脑上安装了Python环境。不太习惯说废话&#xff0c;直接上代码了。 以下是用于测试的python代码&#xff08;mytest.py&#xff09;&#xff1a; # 因为用户到了参数处理&#xff0c;所以需要引用 import argpars…

Java学习手册——第五篇数据类型

数据类型&#xff1a;是数据化的基石&#xff0c;如果没有数据类型怎么表示呢&#xff1f;比如年龄可以用整数&#xff1a;18岁。如果有更好的表示方式大家可以留言哟~ 在举个例子就是姓名&#xff0c;我们需要用字符串的形式来表示。这就是数据类型的魅力&#xff0c;而又有同…

TS基础语法

前言&#xff1a; 因为在写前端的时候&#xff0c;发现很多UI组件的语法都已经开始使用TS语法&#xff0c;不学习TS根本看不到懂&#xff0c;所以简单的学一下TS语法。为了看UI组件的简单代码&#xff0c;不至于一脸懵。 一、安装node 对于windows来讲&#xff0c;node版本高…

电脑出现这些现象,说明你的固态硬盘要坏了

与传统机械硬盘&#xff08;HDD&#xff09;相比&#xff0c;固态硬盘&#xff08;SSD&#xff09;速度更快、更稳定、功耗更低。但固态硬盘并不是完美无瑕的&#xff0c;由于颗粒写入机制&#xff0c;可能会在七到十年的预期寿命之前出现故障。所以用户最好为最终故障做好准备…

网页设计中增强现实的兴起

目录 了解增强现实 增强现实的历史背景 AR 和网页设计的交叉点 AR 在网页设计中的优势 增强参与度和互动性 个性化的用户体验 竞争优势和品牌差异化 AR 在网页设计中的用例 结论 近年来&#xff0c;增强现实已成为一股变革力量&#xff0c;重塑了我们与数字领域互动的方式。它被…

【FMCW毫米波雷达设计 】 — FMCW波形

原书&#xff1a;FMCW Radar Design 1 引言 本章研究驱动FMCW雷达的主要波形:线性调频(LFM)波形。我们研究信号的行为及其性质。随后&#xff0c;本章讨论了匹配滤波理论&#xff0c;并研究了压缩这种波形的技术&#xff0c;特别是所谓的拉伸处理&#xff0c;它赋予FMCW雷达极…

DOS 批处理 (二)

DOS 批处理 1. 基础 DOS 命令1.1 基础命令1.2 文件系统操作1.3 文件夹管理1.4 文件管理1.5 网络相关1.6 系统管理1.7 IF、FOR和NETIFFORNET 1. 基础 DOS 命令 command /? 查找帮助DOS命令不区分命令字母的大小写 C:\Users\Administrator>echo 1 1 C:\Users\Administrator…

基于SSM框架的仓库管理系统

基于SSM框架的仓库管理系统 文章目录 基于SSM框架的仓库管理系统 一.引言二.系统设计三.技术架构四.功能实现五.界面展示六.源码获取 一.引言 现代商业环境中&#xff0c;仓库管理对于企业的运营效率和客户满意度至关重要。传统的手工管理方式已经无法满足日益复杂的仓储需求。…

【Spring】SpringBoot日志

SpringBoot日志 日志概述日志使用打印日志获取日志对象使用日志对象打印日志日志框架介绍门面模式SLF4J框架介绍(simple logging facade for java) 日志格式说明日志级别日志级别的分类日志级别的使用 日志配置配置日志级别日志持久化配置日志文件的路径和文件名配置日志文件的…

【刷题篇】动态规划(六)

文章目录 1、最大子数组和2、环形子数组的最大和3、乘积最大子数组4、乘积为正数的最长子数组长度5、 等差数列划分6、最长湍流子数组 1、最大子数组和 给你一个整数数组 nums &#xff0c;请你找出一个具有最大和的连续子数组&#xff08;子数组最少包含一个元素&#xff09;&…

【Unity动画】Avatar Mask

创建 Avatar Mask可以设置那一部分骨骼运动和不运动 然后放在状态机里面的层中来混合 【后续完善】

深入探索 Rust 宏编程

Rust 宏提供了一种强大的方法来编写抽象和重用代码,它们在 Rust 编程中扮演着重要的角色。本文将深入探索 Rust 宏的概念、类型、使用方法以及如何实现自定义宏,以提供一个全面的 Rust 宏编程指南。 Rust 宏简介 宏是 Rust 中的一种元编程工具,它们在编译时运行,用于生成…

linux安装node

文章目录 安装node 安装node 一次手操记录 - 首先安装wget yum install -y wget - 下载nodejs最新的tar包 wget https://cdn.npm.taobao.org/dist/node/v12.12.0/node-v12.12.0-linux-x64.tar.xz - 解压包 tar -xvf node-v12.12.0-linux-x64.tar.xz - 部署bin文件 先确认你no…

30 张图解 HTTP 常见的面试题

前言 在面试过程中&#xff0c;HTTP 被提问的概率还是比较高的 我搜集了 5 大类 HTTP 面试常问的题目&#xff0c;同时这 5 大类题跟 HTTP 的发展和演变关联性是比较大的&#xff0c;通过问答 图解的形式由浅入深的方式帮助大家进一步的学习和理解 HTTP 协议。 HTTP 基本概…