解析 pdfminer layout.py LAParams类及其应用实例

解析 pdfminer layout.py LAParams类及其应用实例

    • 引言
    • 类的定义
      • 1. `line_overlap`
      • 2. `char_margin`
      • 3. `word_margin`
      • 4. `line_margin`
      • 5. `boxes_flow`
      • 6. `detect_vertical`
      • 7. `all_texts`
    • 类的初始化
    • 参数验证
    • 类的表示
    • 总结

引言

在这篇文章中,我们将解析一个叫做 LAParams 的类。这个类主要用于布局分析,帮助我们理解文本的结构。我们将使用简单的语言和示例来解释每个参数的含义和作用。

类的定义

首先,我们来看一下 LAParams 类的定义:

class LAParams:"""Parameters for layout analysis:param line_overlap: If two characters have more overlap than this theyare considered to be on the same line. The overlap is specifiedrelative to the minimum height of both characters.:param char_margin: If two characters are closer together than thismargin they are considered part of the same line. The margin isspecified relative to the width of the character.:param word_margin: If two characters on the same line are further apartthan this margin then they are considered to be two separate words, andan intermediate space will be added for readability. The margin isspecified relative to the width of the character.:param line_margin: If two lines are are close together they areconsidered to be part of the same paragraph. The margin isspecified relative to the height of a line.:param boxes_flow: Specifies how much a horizontal and vertical positionof a text matters when determining the order of text boxes. The valueshould be within the range of -1.0 (only horizontal positionmatters) to +1.0 (only vertical position matters). You can also pass`None` to disable advanced layout analysis, and instead return textbased on the position of the bottom left corner of the text box.:param detect_vertical: If vertical text should be considered duringlayout analysis:param all_texts: If layout analysis should be performed on text infigures."""

这个类包含了七个参数,用于控制布局分析的不同方面。接下来我们逐一解释这些参数。

1. line_overlap

解释
line_overlap 参数用于判断两个字符是否在同一行。如果两个字符有超过一定比例的重叠部分,就认为它们在同一行上。

示例
想象你在写字,如果两个字母的底部重叠了很多,就说明它们在同一行。例如:

A
B  <- 这两个字母不在同一行
A
A  <- 这两个字母有很多重叠,说明它们在同一行

2. char_margin

解释
char_margin 参数用于判断两个字符是否属于同一行。如果两个字符之间的距离小于这个边距,就认为它们在同一行。

示例
如果两个字母靠得很近,它们就会被认为在同一行。例如:

A B <- 这两个字母在同一行
A    B <- 这两个字母距离太远,不在同一行

3. word_margin

解释
word_margin 参数用于判断同一行上的两个字符是否属于不同的单词。如果它们之间的距离大于这个边距,就认为它们是不同的单词。

示例
如果两个字母之间的距离很大,它们会被认为是不同的单词。例如:

A B <- 这两个字母是同一个单词
A     B <- 这两个字母是不同的单词

4. line_margin

解释
line_margin 参数用于判断两行是否属于同一个段落。如果两行之间的距离小于这个边距,就认为它们是同一个段落。

示例
如果两行文字之间的距离很小,它们会被认为是同一个段落。例如:

第一行文字
第二行文字 <- 这两行属于同一个段落
第一行文字第二行文字 <- 这两行不属于同一个段落

5. boxes_flow

解释
boxes_flow 参数用于指定在确定文本框顺序时,水平和垂直位置的重要性。值的范围是 -1.0 到 +1.0,-1.0 表示只有水平位置重要,+1.0 表示只有垂直位置重要。

示例
如果 boxes_flow 设置为 -1.0,表示我们主要关注文本的水平位置:

A  B  C
D  E  F <- 这种情况下,文本顺序是 “A B C D E F”

如果 boxes_flow 设置为 +1.0,表示我们主要关注文本的垂直位置:

A
B
C
D
E
F <- 这种情况下,文本顺序是 “A D B E C F”

6. detect_vertical

解释
detect_vertical 参数用于决定是否在布局分析过程中考虑垂直文本。

示例
如果有垂直方向的文字,这个参数可以帮助识别:

A
B
C <- 这是一段垂直文字

7. all_texts

解释
all_texts 参数用于决定是否对图表中的文本进行布局分析。

示例
如果有一张图片上有文字,这个参数可以帮助识别这些文字:

[图表]图表中的文字

类的初始化

接下来,我们看一下类的初始化方法:

def __init__(self,line_overlap: float = 0.5,char_margin: float = 2.0,line_margin: float = 0.5,word_margin: float = 0.1,boxes_flow: Optional[float] = 0.5,detect_vertical: bool = False,all_texts: bool = False,
) -> None:print("LAParams __init__() start...")self.line_overlap = line_overlapself.char_margin = char_marginself.line_margin = line_marginself.word_margin = word_marginself.boxes_flow = boxes_flowself.detect_vertical = detect_verticalself.all_texts = all_textsself._validate()print("LAParams __init__() complete...")

初始化方法中,我们将各个参数赋值给类的属性,并调用了一个 _validate 方法来验证 boxes_flow 参数。

参数验证

def _validate(self) -> None:if self.boxes_flow is not None:boxes_flow_err_msg = ("LAParam boxes_flow should be None, or a " "number between -1 and +1")if not (isinstance(self.boxes_flow, int) or isinstance(self.boxes_flow, float)):raise TypeError(boxes_flow_err_msg)if not -1 <= self.boxes_flow <= 1:raise ValueError(boxes_flow_err_msg)

_validate 方法确保 boxes_flow 参数的值在 -1 到 1 之间,否则会抛出错误。

类的表示

最后,我们看一下类的表示方法:

def __repr__(self) -> str:return ("<LAParams: char_margin=%.1f, line_margin=%.1f, ""word_margin=%.1f all_texts=%r>"% (self.char_margin, self.line_margin, self.word_margin, self.all_texts))

这个方法返回一个字符串,显示当前参数的值,便于调试和查看。

总结

通过这种方式,我们可以使用 LAParams 类来分析文本的布局,帮助我们更好地理解文本的结构。希望小学生们通过这个简单的解释,能够对编程和布局分析有一个初步的了解。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/868706.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Lumen 9/10 版本中使用 Laravel Lang

安装 composer require --dev laravel-lang/common:^4.1注册/加载 方式一&#xff08;推荐&#xff09; bootstrap/app.php 中取消注释 $app->register(App\Providers\AppServiceProvider::class); app/Providers/AppServiceProvider.php 的 register 方法中添加&#x…

[C++][ProtoBuf][Proto3语法][一]详细讲解

目录 1.字段规则2.消息类型的定义与使用1.定义2.使用 3.enum类型1.语法2.定义时注意3.代码 1.字段规则 消息的字段可以⽤下⾯⼏种规则来修饰&#xff1a; singular&#xff1a;消息中可以包含该字段零次或⼀次(不超过⼀次) proto3语法中&#xff0c;字段默认使⽤该规则 repeat…

从入门到精通:网络基础详解

前言 在现代社会&#xff0c;网络技术已经成为我们日常生活和工作中不可或缺的一部分。从简单的网页浏览到复杂的分布式系统&#xff0c;网络技术都扮演着至关重要的角色。通过这篇文章&#xff0c;读者将从入门到精通&#xff0c;全面掌握网络编程的理论和实践。 重点摘要 …

【Spring Boot】Spring AOP中的环绕通知

目录 一、什么是AOP?二、AOP 的环绕通知2.1 切点以及切点表达式2.2 连接点2.3 通知&#xff08;Advice&#xff09;2.4 切面(Aspect)2.5 不同通知类型的区别2.5.1 正常情况下2.5.2异常情况下 2.6 统一管理切点PointCut 一、什么是AOP? Aspect Oriented Programming&#xff…

if语句如果侧边栏没有值就填满,否则为width: 180px

要实现这个逻辑&#xff0c;我们可以使用JavaScript&#xff08;配合CSS&#xff09;来根据侧边栏&#xff08;我们假设是一个具有特定ID或类的DOM元素&#xff09;的内容或值来决定其宽度。 HTML 假设你的侧边栏有一个ID为sidebar&#xff1a; <div id"sidebar&quo…

STM32学习历程(day5)

EXTI外部中断 中断 中断就是在主程序运行过程中 出现了特定的中断触发条件&#xff08;中断源&#xff09;&#xff0c;CPU会暂停当前的程序&#xff0c;去处理中断程序 处理完会返回被暂停的位置 继续运行原来的程序。 中断优先级 当有多个中断源同时申请中断时 CPU会根据…

【面试八股总结】线程基本概念,线程、进程和协程区别,线程实现

一、什么是线程&#xff1f; 线程是“轻量级进程”&#xff0c;是进程中的⼀个实体&#xff0c;是程序执⾏的最小单元&#xff0c;也是被系统独立调度和分配的基本单位。 线程是进程当中的⼀条执行流程&#xff0c;同⼀个进程内多个线程之间可以共享代码段、数据段、打开的文件…

王老师 linux c++ 通信架构 笔记(二)配置服务器为固定的 ip 地址、远程登录、安装 gcc g++ 与虚拟机文件夹共享

&#xff08;7&#xff09;本条目开始配置 linux 的固定 ip 地址&#xff0c;以作为服务器使用&#xff1a; 首先解释 linux 的网口编号&#xff1a; linux 命令 cd &#xff1a; change directory 改变目录。 ls &#xff1a; list 列出某目录下的文件 根目录文件名 / etc &a…

JAVA基础-----final关键字

一、前言 final关键字的含义&#xff1a; final在Java中是一个保留的关键字&#xff0c;可以声明成员变量、方法、类以及本地变量。一旦你用final修饰&#xff0c;你将不能改变被修饰的代码&#xff0c;编译器会检查代码&#xff0c;如果你试图将变量再次初始化的话&#xff0…

I 2U-Net:具有丰富信息交互的双路径 U-Net 用于医学图像分割| 文献速递-基于深度学习的多模态数据分析与生存分析

Title 题目 I 2U-Net: A dual-path U-Net with rich information interaction for medical image segmentation I 2U-Net&#xff1a;具有丰富信息交互的双路径 U-Net 用于医学图像分割 01 文献速递介绍 在计算机视觉领域&#xff0c;医学图像分割是一个主要挑战&#xff…

用python画一个爱心

1 问题 Python是一种常见的计算机编程语言&#xff0c;如何用python简单的画一个爱心呢&#xff1f; 2 方法 利用turtle库以及简单规范代码将爱心画出。 代码清单 1 from turtle import *pensize(1)pencolor(red)fillcolor(pink)speed(5)up()goto(-30,100)down()begin_fill()l…

【IMU】 椭球拟合标定加计Bias、Scale

椭球拟合简介 MESE IM&#xff35;中&#xff0c;x,y,z轴的度量单位并不相同&#xff0c;假设各轴之间相互直。 加计静止状态&#xff08;也就是只受重力的状态下&#xff09;&#xff0c;各个姿态只受重力的&#xff0c;x,y,z轴值&#xff08;假设x,y,z轴相互垂直并且度量单…

TCP的p2p网络模式

TCP的p2p网络模式 1、tcp连接的状态有以下11种 CLOSED&#xff1a;关闭状态LISTEN&#xff1a;服务端状态&#xff0c;等待客户端发起连接请求SYN_SENT&#xff1a;客户端已发送同步连接请求&#xff0c;等待服务端相应SYN_RECEIVED&#xff1a;服务器收到客户端的SYN请请求&…

Qt QChart 图表库详解及使用

文章目录 Qt QChart 图表库详解及使用一、Qt Charts 概述二、安装 Qt Charts1. 在项目中添加 Qt Charts三、Qt Charts 的基本使用1. 创建一个简单的折线图2. 添加图例和自定义样式四、Qt Charts 的交互功能1. 启用缩放和平移2. 启用数据点选择五、Qt Charts 的高级特性1. 多轴绘…

EPICS数据库示例

本文目标是使用EPICS数据库示例帮助新手理解如何使用不同的示例。 1、使用seq和mbbo的简单选择器 这个简单示例展示了如何使用一个mbbo和一个seq来旋转哪个值将被设置到一个PV。 # 这个mbbo记录将选择将运行seq的哪段 record(mbbo, "CHOOSE") {field(VAL, "…

ArcGIS中国工具(ArcGISCTools)等插件使用体验

ArcGIS中国工具&#xff08;ArcGISCTools&#xff09;的主要功能 1. 接合图表生成 这个功能允许用户生成标准分幅图的行政区边框注记&#xff0c;并在打印时自动加入。这对于需要制作标准地图的用户非常实用。 2. 图框工具 图框工具可以帮助用户创建和管理地图的图框&#…

Qt creator 控件转到槽 报错 The class containing “Ui:Dialog“ could not be found in

今天调试程序&#xff0c;发现主界面控件转到槽&#xff0c;报错如下图&#xff1a; 问题表现为&#xff1a;只有主窗口控件有这个错误&#xff0c;其他子窗口正常。 解决&#xff1a; 在网上搜这个报错信息&#xff0c;都没有一个很好的解决办法。 最后发现是我在子窗口中要…

Java根据经纬度获取两点之间的距离

Java根据经纬度获取两点之间的距离&#xff0c;最近在实现类似于钉钉打卡签到的需求&#xff0c;因为对精度要求不是很高&#xff0c;所以可以通过一个球面距离的公式来求两点距离&#xff0c;这里将地球当成一个球体&#xff0c;实际上地球是一个不规则的球体&#xff0c;所以…

[Vue3 + TS + Vite] 获取网页选中内容的字符串格式或HTML格式

获取网页选中内容的字符串格式 let selected_text_by_mouse: any// 获取选中的文字 const mouse_selected_text(event:MouseEvent)>{const selection window.getSelection();if(selection && selection.rangeCount > 0){const content selection.toString();s…

C++继承(一文说懂)

目录 一&#xff1a; &#x1f525;继承的概念及定义1.1 继承的概念1.2 继承定义1.2.1 定义格式1.2.2 继承关系和访问限定符1.2.3 继承基类成员访问方式的变化 二&#xff1a;&#x1f525;基类和派生类对象赋值转换三&#xff1a;&#x1f525;继承中的作用域四&#xff1a;&a…