你可以稍微改变坐标系,但最有可能的事情不会变得更加优雅.
首先……
首先让我们澄清一些误解:
你假设
In PDFBox, PDRectangle objects’ default origin (0,0) seems to be the lower-left corner of a page.
对于所有情况都不是这样,仅仅是经常.
包含显示的页面区域(在纸上或屏幕上)的区域通常由相关页面的CropBox条目定义:
CropBox rectangle (Optional; inheritable) A rectangle, expressed in default user space units, that shall define the visible region of default user space.
When the page is displayed or printed, its contents shall be clipped (cropped) to this rectangle and then shall be imposed on the output medium in some implementation-defined manner.
… The positive x axis extends horizontally to the right and the positive y axis vertically upward, as in standard mathematical practice (subject to alteration by the Rotate entry in the page dictionary).
… In PostScript, the origin of default user space always corresponds to the lower-left corner of the output medium. While this convention is common in PDF documents as well, it is not required; the page dictionary’s CropBox entry can specify any rectangle of default user space to be made visible on the medium.
因此,原点(0,0)可以在任何地方,它可以在页面的左下角,左上角,中间或甚至远离显示的页面区域.
通过旋转入口,该区域甚至可以旋转(旋转90°,180°或270°).
将原点(如您所观察到的)放在左下方仅按惯例完成.
此外,您似乎认为坐标系是不变的.实际情况并非如此,您可以通过这些操作大幅度转换用户空间坐标系,您可以平移,旋转,镜像,倾斜和/或缩放它!
因此,即使在开始时坐标系是通常的坐标系,原点在左下方,x轴向右,y轴向上,也可以在某种程度上改变为页面内容描述中的奇怪的东西.绘制矩形新的PDRectangle(0,0,100,100)可能会在页面中心右侧产生一些菱形形式.
你可以做什么…
如您所见,PDF用户空间中的坐标是一个非常动态的问题.你可以做些什么来驯服情况,取决于你使用矩形的上下文.
不幸的是,你在描述你所做的事情时非常模糊.因此,这也有些模糊.
协调页面内容
如果要在现有页面上绘制一些矩形,首先需要一个页面内容流来写入,即PDPageContentStream实例,并且应该以保证原始用户空间坐标系没有受到干扰的方式准备它. .通过使用带有三个布尔参数的构造函数将所有它们设置为true来获得这样的实例:
PDPageContentStream contentStream = new PDPageContentStream(doc, page, true, true, true);
然后,您可以将变换应用于坐标系.您希望左上角是原点,x值向下增加.如果页面的裁剪框告诉您左上角有坐标(xtl,ytl),则应用
contentStream.concatenate2CTM(new AffineTransform(1, 0, 0, -1, xtl, ytl));
从这里你有一个你想要的坐标系,原点左上角和y坐标镜像.
但要注意一件事:如果你要绘制文本,不仅文本插入点y坐标是镜像的,而且文本本身除非你通过添加一个镜像文本矩阵来抵消它!因此,如果您想添加更多文本,这可能不如您想要的那么优雅.
协调注释
如果您不想在内容流中使用矩形,而是添加注释,则不受上述转换的影响,但您也无法使用它.
因此,在此上下文中,您必须按原样拍摄裁剪框并相应地变换矩形.
为什么PDFBox文本提取坐标是这样的
基本上用于以正确的顺序将文本行放在一起并正确排序行,您不需要这样一个奇怪的情况,而是一个简单的稳定坐标系.一些PDFBox开发人员为此选择了左上角,y增加向下的变体,因此TextPosition坐标已经标准化为该方案.
在我看来,更好的选择是使用默认的用户空间坐标,以便更容易地重复使用坐标.因此,您可能希望尝试使用textPosition.getTextMatrix().getTranslateX(),textPosition.getTextMatrix().getTranslateY()以获取TextPosition textPosition