Java使用IText生产PDF时,中文标点符号出现在行首的问题处理

Java使用IText生成PDF时,中文标点符号出现在行首的问题处理

使用itext 5进行html转成pdf时,标点符号出现在某一行的开头 但这种情况下显然不符合中文书写的规则,主要问题出在itext中的DefaultSplitCharacter类,该方法主要用来判断字符是否为可拆分字符。

itext 版本:5.5.13

解决办法:
1、可以通过修改源码的方式,可以参考
如何修改jar包源码以及解决iText生成pdf时中文标点存在行首问题

2、如果不想修改源码,也可以在自己项目中创建与itext中DefaultSplitCharacter相同的包路径,并在该包下重新DefaultSplitCharacter类,能这样处理的原因,与类的加载顺序有关。
在这里插入图片描述

package com.itextpdf.text.pdf;import com.itextpdf.text.SplitCharacter;public class DefaultSplitCharacter implements SplitCharacter {/*** An instance of the default SplitCharacter.*/public static final SplitCharacter DEFAULT = new DefaultSplitCharacter();// line of text cannot start or end with this characterstatic final char u2060 = '\u2060'; // - ZERO WIDTH NO BREAK SPACE// a line of text cannot start with any following characters in// NOT_BEGIN_CHARACTERS[]static final char u30fb = '\u30fb'; // ・ - KATAKANA MIDDLE DOTstatic final char u2022 = '\u2022'; // • - BLACK SMALL CIRCLE (BULLET)static final char uff65 = '\uff65'; // ・ - HALFWIDTH KATAKANA MIDDLE DOTstatic final char u300d = '\u300d'; // 」 - RIGHT CORNER BRACKETstatic final char uff09 = '\uff09'; // ) - FULLWIDTH RIGHT PARENTHESISstatic final char u0021 = '\u0021'; // ! - EXCLAMATION MARKstatic final char u0025 = '\u0025'; // % - PERCENT SIGNstatic final char u0029 = '\u0029'; // ) - RIGHT PARENTHESISstatic final char u002c = '\u002c'; // , - COMMAstatic final char u002e = '\u002e'; // . - FULL STOPstatic final char u003f = '\u003f'; // ? - QUESTION MARKstatic final char u005d = '\u005d'; // ] - RIGHT SQUARE BRACKETstatic final char u007d = '\u007d'; // } - RIGHT CURLYstatic final char uff61 = '\uff61'; // 。 - HALFWIDTH IDEOGRAPHIC FULL STOPstatic final char uff70 = '\uff70'; // ー - HALFWIDTH KATAKANA-HIRAGANA PROLONGED SOUND MARKstatic final char uff9e = '\uff9e'; // ゙ - HALFWIDTH KATAKANA VOICED SOUND MARKstatic final char uff9f = '\uff9f'; // ゚ - HALFWIDTH KATAKANA SEMI-VOICED SOUND MARKstatic final char u3001 = '\u3001'; // 、 - IDEOGRAPHIC COMMAstatic final char u3002 = '\u3002'; // 。 - IDEOGRAPHIC FULL STOPstatic final char uff0c = '\uff0c'; // , - FULLWIDTH COMMAstatic final char uff0e = '\uff0e'; // . - FULLWIDTH FULL STOPstatic final char uff1a = '\uff1a'; // : - FULLWIDTH COLONstatic final char uff1b = '\uff1b'; // ; - FULLWIDTH SEMICOLONstatic final char uff1f = '\uff1f'; // ? - FULLWIDTH QUESTION MARKstatic final char uff01 = '\uff01'; // ! - FULLWIDTH EXCLAMATION MARKstatic final char u309b = '\u309b'; // ゛ - KATAKANA-HIRAGANA VOICED SOUND MARKstatic final char u309c = '\u309c'; // ゜ - KATAKANA-HIRAGANA SEMI-VOICED SOUND MARKstatic final char u30fd = '\u30fd'; // ヽ - KATAKANA ITERATION MARKstatic final char u2019 = '\u2019'; // ’ - RIGHT SINGLE QUOTATION MARKstatic final char u201d = '\u201d'; // ” - RIGHT DOUBLE QUOTATION MARKstatic final char u3015 = '\u3015'; // 〕 - RIGHT TORTOISE SHELL BRACKETstatic final char uff3d = '\uff3d'; // ] - FULLWIDTH RIGHT SQUARE BRACKETstatic final char uff5d = '\uff5d'; // } - FULLWIDTH RIGHT CURLY BRACKETstatic final char u3009 = '\u3009'; // 〉 - RIGHT ANGLE BRACKETstatic final char u300b = '\u300b'; // 》 - RIGHT DOUBLE ANGLE BRACKETstatic final char u300f = '\u300f'; // 』 - RIGHT WHITE CORNER BRACKETstatic final char u3011 = '\u3011'; // 】 - RIGHT BLACK LENTICULAR BRACKETstatic final char u00b0 = '\u00b0'; // ° - DEGREE SIGNstatic final char u2032 = '\u2032'; // ′ - PRIMEstatic final char u2033 = '\u2033'; // ″ - DOUBLE PRIMEstatic final char[] NOT_BEGIN_CHARACTERS = new char[] { u30fb, u2022, uff65, u300d, uff09, u0021, u0025, u0029,u002c, u002e, u003f, u005d, u007d, uff61, uff70, uff9e, uff9f, u3001, u3002, uff0c, uff0e, uff1a, uff1b,uff1f, uff01, u309b, u309c, u30fd, u2019, u201d, u3015, uff3d, uff5d, u3009, u300b, u300f, u3011, u00b0,u2032, u2033, u2060 };// a line of text cannot end with any following characters in// NOT_ENDING_CHARACTERS[]static final char u0024 = '\u0024'; // $ - DOLLAR SIGNstatic final char u0028 = '\u0028'; // ( - LEFT PARENTHESISstatic final char u005b = '\u005b'; // [ - LEFT SQUARE BRACKETstatic final char u007b = '\u007b'; // { - LEFT CURLY BRACKETstatic final char u00a3 = '\u00a3'; // £ - POUND SIGNstatic final char u00a5 = '\u00a5'; // ¥ - YEN SIGNstatic final char u201c = '\u201c'; // “ - LEFT DOUBLE QUOTATION MARKstatic final char u2018 = '\u2018'; // ‘ - LEFT SINGLE QUOTATION MARKstatic final char u300a = '\u300a'; // 《 - LEFT DOUBLE ANGLE BRACKETstatic final char u3008 = '\u3008'; // 〈 - LEFT ANGLE BRACKETstatic final char u300c = '\u300c'; // 「 - LEFT CORNER BRACKETstatic final char u300e = '\u300e'; // 『 - LEFT WHITE CORNER BRACKETstatic final char u3010 = '\u3010'; // 【 - LEFT BLACK LENTICULAR BRACKETstatic final char u3014 = '\u3014'; // 〔 - LEFT TORTOISE SHELL BRACKETstatic final char uff62 = '\uff62'; // 「 - HALFWIDTH LEFT CORNER BRACKETstatic final char uff08 = '\uff08'; // ( - FULLWIDTH LEFT PARENTHESISstatic final char uff3b = '\uff3b'; // [ - FULLWIDTH LEFT SQUARE BRACKETstatic final char uff5b = '\uff5b'; // { - FULLWIDTH LEFT CURLY BRACKETstatic final char uffe5 = '\uffe5'; // ¥ - FULLWIDTH YEN SIGNstatic final char uff04 = '\uff04'; // $ - FULLWIDTH DOLLAR SIGNstatic final char[] NOT_ENDING_CHARACTERS = new char[] { u0024, u0028, u005b, u007b, u00a3, u00a5, u201c, u2018,u3008, u300a, u300c, u300e, u3010, u3014, uff62, uff08, uff3b, uff5b, uffe5, uff04, u2060 };@Overridepublic boolean isSplitCharacter(int start, int current, int end, char[] cc, PdfChunk[] ck) {// Note: If you don't add an try/catch and there is an issue with// isSplitCharacter(), iText silently fails and// you have no idea there was a problem.try {char c = getCharacter(current, cc, ck);int next = current + 1;if (next < cc.length) {char charNext = getCharacter(next, cc, ck);for (char not_begin_character : NOT_BEGIN_CHARACTERS) {if (charNext == not_begin_character) {return false;}}}for (char not_ending_character : NOT_ENDING_CHARACTERS) {if (c == not_ending_character) {return false;}}if (c <= ' ' || c == '-' || c == '\u2010') {return true;}if (c < 0x2002)return false;return ((c >= 0x2002 && c <= 0x200b)|| (c >= 0x2e80 && c < 0xd7a0)|| (c >= 0xf900 && c < 0xfb00)|| (c >= 0xfe30 && c < 0xfe50)|| (c >= 0xff61 && c < 0xffa0));} catch (Exception ex) {ex.printStackTrace();}return true;}/*** Returns a character int the array (Note: modified from the iText default* version with the addition null check of '|| ck[Math.min(position, ck.length -* 1)] == null'.** @param position position in the array* @param ck       chunk array* @param cc       the character array that has to be checked* @return the character*/protected char getCharacter(int position, char[] cc, PdfChunk[] ck) {if (ck == null || ck[Math.min(position, ck.length - 1)] == null) {return cc[position];}return (char) ck[Math.min(position, ck.length - 1)].getUnicodeEquivalent(cc[position]);}
}

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/612373.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

04- OpenCV:Mat对象简介和使用

目录 1、Mat对象与IplImage对象 2、Mat对象使用 3、Mat定义数组 4、相关的代码演示 1、Mat对象与IplImage对象 先看看Mat对象&#xff1a;图片在计算机眼里都是一个二维数组&#xff1b; 在OpenCV中&#xff0c;Mat是一个非常重要的类&#xff0c;用于表示图像或矩阵数据。…

⭐Unity 将电脑打开的窗口画面显示在程序中

1.效果&#xff1a; 下载资源包地址&#xff1a; Unity中获取桌面窗口 2.下载uWindowCapturev1.1.2.unitypackage 放入Unity工程 3.打开Single Window场景&#xff0c;将组件UwcWindowTexture的PartialWindowTitle进行修改&#xff0c;我以腾讯会议为例 感谢大家的观看&#xf…

CSS3实现轮播效果

在我们不使用JS的情况下&#xff0c;是否也可以实现轮播功能呢&#xff1f; 答应是可以的 上代码&#xff1a; <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><title>轮播</title><style>.boss…

激活函数整理

sigmoid函数 import torch from d2l import torch as d2l %matplotlib inline ​ xtorch.arange(-10,10,0.1,requires_gradTrue) sigmoidtorch.nn.Sigmoid() ysigmoid(x) ​ d2l.plot(x.detach(),y.detach(),x,sigmoid(x),figsize(5,2.5)) sigmoid函数连续、光滑、单调递增&am…

python爬取诗词名句网-三国演义,涉及知识点:xpath,requests,自动识别编码,range

页面源代码: <!DOCTYPE html> <html lang="zh"> <head><script src="https://img.shicimingju.com/newpage/js/all.js"></script><meta charset="UTF-8"><title>《三国演义》全集在线阅读_史书典籍_…

RV1126边缘计算AI盒子,支持4-6路1080p视频,2T 算力

1 产品概述 信迈推出基于瑞芯微Rockchip RV1126架构的AI边缘计算主板&#xff0c;RV1126芯片是四核ARM Cortex-A7,1.5GHz&#xff0c; RSIC-V 200MHz CPU &#xff0c;NPU2.0Tops。AI边缘计算主板外围接口丰富&#xff0c;拥有超强扩展性&#xff0c;可广泛应用在智慧安防、工…

docker一键安装

1.把docker_compose_install文件夹放在任意路径&#xff1b; 2.chmod -R 777 install.sh 3.执行./install.sh 兼容&#xff1a;CentOS7.6、麒麟V10服务器版、统信UOS等操作系统。 下载地址&#xff08;本人上传&#xff0c;免积分下载&#xff09;&#xff1a;https://downlo…

JS逆向之加密参数定位

文章目录 前言加密参数的处理步骤加密参数的定位方法搜索断点XHR断点DOM断点EVENT断点 hook 前言 当我们对网络请求进行抓包分析之后&#xff0c;需要用开发者工具对加密参数进行全局搜索。当搜索不到加密参数的时候&#xff0c;应该采取什么解决方法去定位。 还有一个应用场…

【动态规划】C++ 算法458:可怜的小猪

作者推荐 视频算法专题 涉及知识点 动态规划 数学 力扣458:可怜的小猪 有 buckets 桶液体&#xff0c;其中 正好有一桶 含有毒药&#xff0c;其余装的都是水。它们从外观看起来都一样。为了弄清楚哪只水桶含有毒药&#xff0c;你可以喂一些猪喝&#xff0c;通过观察猪是否…

TDengine 签约西电电力

近年来&#xff0c;随着云计算和物联网技术的迅猛发展&#xff0c;传统电力行业正朝着数字化、信息化和智能化的大趋势迈进。在传统业务基础上&#xff0c;电力行业构建了信息网络、通信网络和能源网络&#xff0c;致力于实现发电、输电、变电、配电和用电的实时智能联动。在这…

13.若依代码自动生成功能详解

文章目录 1.代码自动生成功能2.功能的使用3. 代码的导出和使用 1.代码自动生成功能 基于若依的目录结构&#xff0c;若依本身提供了代码生成功能&#xff0c;可以根据数据库表的内容&#xff0c;生成一些基本的CRUD的前后端的功能。本文将生成过程中的一些注意事项&#xff0c…

html 原生网页使用ElementPlus 日期控件el-date-picker换成中文

项目&#xff1a; 原生的html,加jQuery使用不习惯&#xff0c;新html页面导入vue3,element plus做界面&#xff0c;现在需要把日历上英文切成中文。 最终效果&#xff1a; 导入能让element plus日历变成中文脚本&#xff1a; elementplus, vue3对应的js都可以通过创建一个vu…

2023年12月 C/C++(一级)真题解析#中国电子学会#全国青少年软件编程等级考试

C/C++编程(1~8级)全部真题・点这里 第1题:数的输入和输出 输入一个整数和双精度浮点数,先将浮点数保留2位小数输出,然后输出整数。 时间限制:1000 内存限制:65536 输入 一行两个数,分别为整数N(不超过整型范围),双精度浮点数F,以一个空格分开。 输出 一行两个数,分…

首次落地零担快运!商用车自动驾驶跑出交付加速度

即将迈入2024年&#xff0c;还活着的自动驾驶玩家&#xff0c;身上有两个显著标签&#xff1a;选对了细分赛道、会玩。 10月以来&#xff0c;Cruise宣布在美国德州奥斯汀、休斯顿、亚利桑那州凤凰城和加州旧金山全面停止所有自动驾驶出租车队运营服务&#xff0c;通用汽车计划…

Spark与云存储的集成:S3、Azure Blob Storage

在现代数据处理中&#xff0c;云存储服务如Amazon S3和Azure Blob Storage已成为存储和管理数据的热门选择。与此同时&#xff0c;Apache Spark作为大数据处理框架也备受欢迎。本文将深入探讨如何在Spark中集成云存储服务&#xff0c;并演示如何与S3和Azure Blob Storage进行互…

Java 对象的内存布局

目录 一. 前言 二. Java 对象的内存布局 三. Java 对象结构 3.1. 对象头 3.1.1. Mark Word 3.1.2. 类型指针&#xff08;Class Metadata Pointer&#xff09; 3.1.3. 数组长度&#xff08;Length&#xff09; 3.2. 实例数据 3.3. 对齐填充&#xff08;Padding&#xf…

【Github-Action】GithubAction 环境下,如何将临时生成的文件推送至指定分支。

通过这篇文章你可以掌握如何将github action 环境下临时生成的文件推送至指定分支&#xff0c;并且可以打开利用github开放的api做各种强大或有趣的事情的视野和思路。 如果你对github-action感兴趣&#xff0c;还可以看这篇文章&#xff0c; 这篇文章教会你如何开发Github Act…

牛刀小试---二分查找(C语言)

题目&#xff1a;在给定的升序数组中查找指定的数字n&#xff0c;并输出其下标 代码举例&#xff1a; #include <stdio.h> int main() {int arr[] { 1,2,3,4,5,6,7,8,9,10 };//给定的升序数组int left 0;//定义左下标int right sizeof(arr) / sizeof(arr[0]) - 1;//…

Hive基础知识(七):Hive 数据类型全解

1. 基本数据类型 对于 Hive 的 String 类型相当于数据库的 varchar 类型&#xff0c;该类型是一个可变的字符串&#xff0c;不过它不能声明其中最多能存储多少个字符&#xff0c;理论上它可以存储2GB 的字符数。 2. 集合数据类型 Hive 有三种复杂数据类型 ARRAY、MAP 和 STRUCT…

08、Kafka ------ 消息存储相关的配置-->消息过期时间设置、查看主题下的消息存活时间等配置

目录 消息存储相关的配置★ 消息的存储介绍★ 消息过期时间及处理方式演示&#xff1a;log.cleanup.policy 属性配置 ★ 修改指定主题的消息保存时间演示&#xff1a;将 test2 主题下的消息的保存时间设为10个小时1、先查看test2主题下的配置2、然后设置消息的保存时间3、然后再…