使用正则表达式提取PDF文件页数的实现方案

文章目录

    • 背景介绍
    • 实现原理
    • 代码实现
      • 1. 基础函数结构
      • 2. 页数提取逻辑
      • 3. 使用示例
    • 正则表达式解析
    • 优点与局限性
      • 优点
      • 局限性
    • 错误处理建议
    • 性能优化建议
    • 最佳实践建议
    • 总结
    • 参考资源

背景介绍

在Web应用开发中,我们经常需要获取上传PDF文件的页数信息。虽然可以使用pdf.js等第三方库,但这些库通常比较重量级。本文将介绍一种使用正则表达式直接解析PDF文件内容来获取页数的轻量级方案。

实现原理

PDF文件虽然是二进制格式,但其内部结构是基于文本的。PDF文件中通常包含类似 /N 10/Count 10 这样的标记来记录总页数。我们可以通过正则表达式来匹配这些标记并提取页数信息。

代码实现

1. 基础函数结构

typescript
const getPdfPageCount = (file: File): Promise<number> => {
return new Promise((resolve, reject) => {
const reader = new FileReader();
reader.onload = (e) => {
// 解析逻辑
};
reader.onerror = () => reject(new Error("读取文件失败"));
reader.readAsText(file);
});
};

2. 页数提取逻辑

typescript
reader.onload = (e) => {
try {
const content = e.target?.result as string;
// 方法1: 匹配 /N 格式
const matches = content.match(/\/N\s+(\d+)/);
if (matches && matches[1]) {
const pageCount = parseInt(matches[1], 10);
if (pageCount > 0) {
return resolve(pageCount);
}
}
// 方法2: 匹配 /Count 格式
const countMatches = content.match(/\/Count\s+(\d+)/);
if (countMatches && countMatches[1]) {
const pageCount = parseInt(countMatches[1], 10);
if (pageCount > 0) {
return resolve(pageCount);
}
}
reject(new Error("无法获取PDF页数"));
} catch (error) {
reject(error);
}
};

3. 使用示例

typescript
const beforeUpload = async (file) => {
try {
const pageCount = await getPdfPageCount(file);
console.log("PDF页数:", pageCount);
} catch (error) {
console.error("获取页数失败:", error);
}
};

正则表达式解析

  1. /\/N\s+(\d+)/

    • /N: 匹配字面值"/N"
    • \s+: 匹配一个或多个空白字符
    • (\d+): 捕获组,匹配一个或多个数字
  2. /\/Count\s+(\d+)/

    • /Count: 匹配字面值"/Count"
    • \s+: 匹配一个或多个空白字符
    • (\d+): 捕获组,匹配一个或多个数字

优点与局限性

优点

  1. 实现简单,代码量少
  2. 无需引入额外依赖
  3. 性能较好,只需读取文件文本内容
  4. 适用于大多数标准PDF文件

局限性

  1. 可能无法处理某些特殊格式的PDF文件
  2. 对于加密或受保护的PDF文件可能无效
  3. 依赖PDF文件内部结构的一致性

错误处理建议

  1. 添加超时处理
typescript
const timeoutPromise = new Promise((, reject) => {
setTimeout(() => reject(new Error("获取页数超时")), 5000);
});
try {
const pageCount = await Promise.race([getPdfPageCount(file), timeoutPromise]);
} catch (error) {
// 处理错误
}
  1. 优雅降级
typescript
try {
const pageCount = await getPdfPageCount(file);
// 使用页数
} catch (error) {
console.warn("无法获取页数,继续上传流程");
// 继续处理
}

性能优化建议

  1. 限制读取大小
typescript
const content = e.target?.result as string;
const maxLength = Math.min(content.length, 5000); // 只读取前5000个字符
const partialContent = content.slice(0, maxLength);
  1. 缓存结果
typescript
const pageCountCache = new Map();
const getCachedPageCount = async (file: File) => {
const fileId = file.name + file.size; // 简单的文件标识
if (pageCountCache.has(fileId)) {
return pageCountCache.get(fileId);
}
const pageCount = await getPdfPageCount(file);
pageCountCache.set(fileId, pageCount);
return pageCount;
};

最佳实践建议

  1. 总是提供友好的错误提示
  2. 实现优雅降级,确保核心功能可用
  3. 添加适当的日志记录
  4. 考虑添加重试机制
  5. 注意内存使用,避免处理过大的文件

总结

使用正则表达式提取PDF页数是一种轻量级的解决方案,适用于大多数常见场景。虽然有一定局限性,但通过合理的错误处理和降级策略,可以在实际应用中很好地工作。对于要求更高的场景,可以考虑结合使用pdf.js等专业库。

参考资源

  1. PDF文件格式规范
  2. JavaScript FileReader API文档
  3. 正则表达式教程
  4. PDF.js项目文档

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/63862.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

sentinel学习笔记6-限流降级(上)

本文属于sentinel学习笔记系列。网上看到吴就业老师的专栏&#xff0c;写的好值得推荐&#xff0c;我整理的有所删减&#xff0c;推荐看原文。 https://blog.csdn.net/baidu_28523317/category_10400605.html sentinel 实现限流降级、熔断降级、黑白名单限流降级、系统自适应…

全面解析 Kubernetes 流量负载均衡:iptables 与 IPVS 模式

目录 Kubernetes 中 Service 的流量负载均衡模式 1. iptables 模式 工作原理 数据路径 优点 缺点 适用场景 2. IPVS 模式 工作原理 数据路径 优点 缺点 适用场景 两种模式的对比 如何切换模式 启用 IPVS 模式 验证模式 总结 Kubernetes 中 Service 的流量负载…

每日十题八股-2024年12月19日

1.Bean注入和xml注入最终得到了相同的效果&#xff0c;它们在底层是怎样做的&#xff1f; 2.Spring给我们提供了很多扩展点&#xff0c;这些有了解吗&#xff1f; 3.MVC分层介绍一下&#xff1f; 4.了解SpringMVC的处理流程吗&#xff1f; 5.Handlermapping 和 handleradapter有…

蓝桥杯嵌入式备赛教程(1、led,2、lcd,3、key)

一、工程模版创建流程 第一步 创建新项目 第二步 选择型号和管脚封装 第三步 RCC使能 外部时钟&#xff0c;高速外部时钟 第四步晶振时钟配置 由数据手册7.1可知外部晶振频率为24MHz 最后一项设置为80 按下回车他会自动配置时钟 第五步&#xff0c;如果不勾选可能程序只会…

详细解读sedex验厂

SEDEX验厂&#xff0c;即供货商商业道德信息交流认证&#xff08;Supplier Ethical Data Exchange&#xff09;&#xff0c;是一种表明企业遵守商业道德的认证。以下是对SEDEX验厂的详细解读&#xff1a; 一、SEDEX验厂概述 SEDEX是一家总部位于英国伦敦的非营利组织&#xf…

2.4 设备管理

文章目录 设备管理概述设备管理技术磁盘调度 设备管理概述 设备管理是操作系统中最繁杂、与硬件关系紧密的部分。 设备可以按照数据组织、资源分配、数据传输率分类。 数据组织&#xff1a;分为块设备&#xff08;ex. 磁盘&#xff09;、字符设备(ex. 打印机)。资源分配&#…

网络安全渗透有什么常见的漏洞吗?

弱口令与密码安全问题 THINKMO 01 暴力破解登录&#xff08;Weak Password Attack&#xff09; 在某次渗透测试中&#xff0c;测试人员发现一个网站的后台管理系统使用了非常简单的密码 admin123&#xff0c;而且用户名也是常见的 admin。那么攻击者就可以通过暴力破解工具&…

PSDK的编译与ROS包封装

本文档讲述在NIVIDIA开发板上使用大疆提供的Payload SDK获取无人机实时GPS信息的方法&#xff0c;以及基于Payload SDK发布ROS GPS话题信息的方法。 文章目录 0 实现目标1 Payload SDK1.1 PSDK 源码的编译1.2 PSDK 的使用 2 遥测数据的读取2.1 示例代码结构2.2 读取机载GPS信息…

模型 课题分离

系列文章 分享 模型&#xff0c;了解更多&#x1f449; 模型_思维模型目录。明确自我与他人责任。 1 课题分离的应用 1.1课题分离在心理治疗中的应用案例&#xff1a;李晓的故事 李晓&#xff0c;一位28岁的软件工程师&#xff0c;在北京打拼。他面临着工作、家庭和感情的多重…

1222面经

1&#xff0c;Kafka 如何保障顺序消费? Kafka 保障顺序消费主要通过以下几个关键机制和配置来实现&#xff1a; 分区策略 Kafka 将主题划分为多个分区&#xff0c;每个分区内的消息是天然有序的&#xff0c;其按照消息发送到分区的先后顺序进行存储和追加。生产者在发送消息…

sed命令中单引号的处理

sed中’‘之间的单引号&#xff08;即单引号之间的单引号字符&#xff09;&#xff0c;特殊处理需要’“”’ &#xff08;两个单引号中两个双引号再最里面是目标一个单引号&#xff09; 比如&#xff1a; sed -i s#<a id""img_logo"" href"http…

语音增强的损失函数选择

一、最优尺度不变信噪比&#xff08;OSISNR&#xff09;损失函数 参考&#xff1a;论文解读 --Optimal scale-invariant signal-to-noise ratio and curriculum learning for monaural multi-spea   最优尺度不变信噪比&#xff08;OSI-SNR&#xff09;是一种用于评估信号质量…

【置信区间】之Python实现

置信区间是统计学中的一个核心概念,用于估计总体参数(如均值、比例等)的取值范围。以下是对置信区间的详细解释: 一、定义与基本概念 定义:置信区间是指由样本统计量所构造的总体参数的估计区间。它给出了参数真实值有一定概率落在该区间内的范围,反映了测量值的可信程度…

大恒相机开发(3)—大恒相机工业检测的实际案例

大恒相机工业检测的实际案例 工业检测的实际案例图像采集性能优化技巧工业环境下的稳定性 工业检测的实际案例 以下是一些使用大恒相机进行工业检测的实际案例&#xff1a; 多特征光学成像系统&#xff1a; 在这个案例中&#xff0c;使用大恒相机构建了一个全方位、多特征的图…

Java基础面试题20:Java语言sendRedirect()和forward()方法有什么区别?

Java基础面试题&#xff1a;Java语言sendRedirect()和forward()方法有什么区别&#xff1f; 在 Java Web 开发中&#xff0c;sendRedirect() 和 forward() 是两个非常常用的方法&#xff0c;但它们有一些核心区别。我们来用最简单的方式给你解释清楚。 一、sendRedirect() 和 …

go官方日志库带色彩格式化

go默认的 log 输出的日志样式比较难看&#xff0c;所以通过以下方式进行了美化和格式化&#xff0c;而且加入了 unicode 的ascii码&#xff0c;进行色彩渲染。 package mainimport ("fmt""log""os""runtime""strings""…

Linux shell脚本用于常见图片png、jpg、jpeg、webp、tiff格式批量转PDF文件

Linux Debian12基于ImageMagick图像处理工具编写shell脚本用于常见图片png、jpg、jpeg、webp、tiff格式批量转PDF文件&#xff0c;”多个图片分开生成多个PDF文件“或者“多个图片合并生成一个PDF文件” 在Linux系统中&#xff0c;使用ImageMagick可以图片格式转换&#xff0c…

【C++语言】多态

一、多态的概念 多态的概念&#xff1a;通俗来说&#xff0c;就是多种形态&#xff0c;具体点就是去完成某种行为&#xff0c;当不同的对象去完成时会产生出不同的状态。 我们可以举一个例子&#xff1a; 比如买票这种行为&#xff0c;当普通人买票时&#xff0c;是全价买票&am…

Centos7配置webrtc-streamer环境

Centos7配置webrtc-streamer环境 安装webrtc-streamer0.7版本 升级gdb 1、yum安装2、查看gdb版本3.下载待升级的gdb版本4.QA 1、预编译的时候报错no acceptable C compiler found in $PATH2、make的时候报错[all-bfd] Error3、make的时候报错 升级GCC 1.源码编译升级gcc9.3.0…

Vue.js 响应接口

Vue.js 响应接口 引言 Vue.js,作为当前前端开发领域中的佼佼者,以其简洁、高效和灵活的特点,赢得了广大开发者的喜爱。其核心功能之一便是响应式系统,它使得数据与视图之间的同步变得异常简单。本文将深入探讨Vue.js的响应接口,解析其工作原理,并展示如何在实际项目中有…