pdf2htmlEX:pdf 转 html,医学指南精细化处理

pdf2htmlEX:pdf 转 html,医学指南精细化处理

      • 单文件转换
      • 多文件转换

 


代码:https://github.com/coolwanglu/pdf2htmlEX

拉取pdf2htmlEX 的 Docker:

docker pull bwits/pdf2htmlex
# 拉取 bwits/pdf2htmlex

不用进入容器,直接创建 3 个 文件夹

mkdir pdf2html
mkdir pdf2html/pdf_files    # 所有需要转换的pdf
mkdir pdf2html/html_files   # 用于存放转换好的 html 文件

单文件转换

  • 在 pdf_files 文件夹下面有一个 test_1.pdf,运行命令:
docker run -ti --rm -v ~/pdf2html:/pdf2html bwits/pdf2htmlex pdf2htmlEX --dest-dir /pdf2html/html_files /pdf2html/pdf_files/test_1.pdf

 

多文件转换

Docker命令本身并不支持在单个命令中处理多文件或使用通配符执行迭代。因此,您需要使用一些shell脚本逻辑来达到这个目的。

以下是一个在Linux环境下使用bash脚本处理目录中所有PDF文件的方法。

这段脚本将迭代 pdf_files 目录中的所有PDF文件,并对每个文件运行 bwits/pdf2htmlex 容器:

#!/bin/bash# 设定本地PDF文件的目录
PDF_DIR="/home/bobuser/pdf2html/pdf_files"# 设定HTML输出目录
HTML_DIR="/home/bobuser/pdf2html/html_files"# 遍历pdf_files目录中的所有PDF文件
for pdf in "$PDF_DIR"/*.pdf; doecho "转换文件:$(basename "$pdf")"# 运行Docker命令来转换当前PDF文件docker run -ti --rm -v /home/bobuser/pdf2html:/pdf2html bwits/pdf2htmlex pdf2htmlEX --dest-dir /pdf2html/html_files "/pdf2html/pdf_files/$(basename "$pdf")"
doneecho "所有PDF文件转换完成。"

将上述脚本保存到一个文件中,比如命名为 convert_pdfs.sh,然后执行以下步骤:

  1. 给予脚本执行权限:
    chmod +x convert_pdfs.sh
    
  2. 执行脚本:
    ./convert_pdfs.sh
    

这段脚本将对 pdf_files 目录中的每个PDF文件执行 pdf2htmlEX 命令,将结果输出到 html_files 目录。

这种方法假设所有PDF文件都存储在 /home/bobuser/pdf2html/pdf_files 目录中,并且输出的HTML文件将存储在 /home/bobuser/pdf2html/html_files 目录中。

 


转换后:

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/8175.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

认识设计模式SOLID原则

SOLID 是一个缩写词,代表面向对象编程 (OOP) 的五个设计原则,旨在促进更简单、更健壮和可更新的代码。 SOLID 缩写中的每个字母都代表了开发易于维护和随时间扩展的软件的原则。 SOLID原则是面向对象编程和设计的五项基本指导原则,由罗伯特C…

用HAL库改写江科大的stm32入门例子_9-1 串口发送

设置串口: 选项说明: 写一个串口发送函数: // serial send string function void serial_send_string(char *str) {HAL_UART_Transmit(&huart1, (uint8_t *)str, strlen(str), 1000); } main函数中调用发送信息: uint8_t dat…

极致设计!详解专业网页设计的全套步骤和流程

在当今的数字时代,拥有一个专业、易于使用和有吸引力的网页对任何企业或个人都至关重要。专业的网页设计是实现这一目标的关键步骤之一。本文将详细介绍专业的网页设计步骤和过程,以帮助您了解如何设计一个优秀的网页。 在介绍专业网页设计步骤和流程之…

GPU术语

SP(Streaming Processor)流处理器 流处理器是GPU最基本的处理单元,在fermi架构开始被叫做CUDA core。 SM(Streaming MultiProcessor) 一个SM由多个CUDA core组成。SM还包括特殊运算单元(SFU),共享内存(shared memory),寄存器文件(Register …

使用idea管理docker

写在前面 其实idea也提供了docker的管理功能,比如查看容器列表,启动容器,停止容器等,本文来看下如何管理本地的docker daemon和远程的dockers daemon。 1:管理本地 双击shift,录入service: …

C++算法题 - 二叉树层次遍历

目录 199. 二叉树的右视图637. 二叉树的层平均值102. 二叉树的层序遍历103. 二叉树的锯齿形层序遍历 199. 二叉树的右视图 LeetCode_link 给定一个二叉树的 根节点 root,想象自己站在它的右侧,按照从顶部到底部的顺序,返回从右侧所能看到的节…

Java性能优化(一):Java基础-ArrayList和LinkedList

引言 集合作为一种存储数据的容器,是我们日常开发中使用最频繁的对象类型之一。JDK为开发者提供了一系列的集合类型,这些集合类型使用不同的数据结构来实现。因此,不同的集合类型,使用场景也不同。 很多同学在面试的时候&#x…

自刷广告变现,APP收益如何提高

广告变现,是许多APP开发者和运营者追求的目标。然而,对于一些新手来说,如何进行广告变现,特别是如何去自刷广告变现,却是一个让人头疼的问题。实际上,只要在平台的规则内操作,自刷广告也是可以进…

Colibri for Mac v2.2.0激活版:专业级无损音乐播放器

Colibri for Mac是一款专为Mac用户设计的高分辨率无损音乐播放器。它基于BASS技术构建,为用户带来极致的音频体验。Colibri支持所有流行的无损和有损音频格式,如FLAC、MP3、AAC等,确保音乐播放的清晰度和完美度。其独特的清晰比特完美播放技术…

Android内核之Binder通信写操作:binder_thread_write用法实例(七十一)

简介: CSDN博客专家,专注Android/Linux系统,分享多mic语音方案、音视频、编解码等技术,与大家一起成长! 优质专栏:Audio工程师进阶系列【原创干货持续更新中……】🚀 优质专栏:多媒…

终端安全管理措施有哪些?好用终端安全管理软件推荐(建议收藏)

在当今数字化时代,信息安全已成为企业运营不可或缺的一部分。其中,终端安全为您详细介绍,并推荐几款好用的终端安全管理软件,帮助您更好地保护企业信息安全。管理是确保企业信息安全的重要环节。那么,终端安全管理措施…

Kettle连接Mysql数据库时报错——Driver class ‘org.gjt.mm.mysql.Driver‘ could not be found

一、问题描述 当我们使用ETL工具Kettle需要连接Mysql数据库进行数据清洗操作,在配置好Mysql的连接串内容后,点击【测试】按钮时报错【错误连接数据库 [MysqlTestConnection] : org.pentaho.di.core.exception.KettleDatabaseException: Error occurred while trying to conne…

搭建Springboot的基础开发框架-01

本系列专题虽然是按教学的深度来定稿的,但在项目结构和代码组织方面是按公司系统的要求来书定的。在本章中主要介绍下基础开发框架的功能。后续所有章节的项目全是在本基础框架的基础上演进的。 工程结构介绍 SpringbootSeries:父工程,定义一…

MyBatis高级扩展

五、MyBatis高级扩展 5.1 Mapper批量映射优化 需求Mapper 配置文件很多时&#xff0c;在全局配置文件中一个一个注册太麻烦&#xff0c;希望有一个办法能够一劳永逸。 配置方式Mybatis 允许在指定 Mapper 映射文件时&#xff0c;只指定其所在的包&#xff1a; <mappers&…

SystemVerilog/Verilog中的仿真延时建模之门延时

提到门延时,就必须重提分布延迟。 分布延迟指模块内信号从(逻辑门的输入到输出)或者(线网的延迟)。这里虽然简短一句话,却涵盖非常大的信息量。 一 门延迟种类 今天我们着重看门延迟。常见门延迟主要有三种: 注意!:如果信号从0/1/z变化到x,那么此时的门传输延迟为上…

C语言 函数概述

好 接下来 我们来讲函数 构建C程序的最佳方式 就是模块化程序设计 C语言中 最基本的程序模块被称为 函数 所以 这个知识点的重要性不言而喻 这里 我们讲个故事 诸葛亮六出祁山时 为了逼司马懿出战 派人送给力司马懿一件女人衣服 司马懿只是为使者 诸葛亮的饮食起居 使者感叹…

AI绘图神器!InstantStyle保留风格进行文本到图像生成

在今天的数字化时代&#xff0c;我们可以看到AI技术的应用已经渗透到生活的各个角落&#xff0c;尤其是在视觉艺术领域。最近&#xff0c;一个名为InstantStyle的全新框架引起了广泛关注&#xff0c;它是一个创新的文本到图像生成框架&#xff0c;其核心功能在于能够有效地分离…

【JVM】类加载机制及双亲委派模型

目录 一、类加载过程 1. 加载 2. 连接 a. 验证 b. 准备 c. 解析 3. 初始化 二、双亲委派模型 类加载器 双亲委派模型的工作过程 双亲委派模型的优点 一、类加载过程 JVM的类加载机制是JVM在运行时&#xff0c;将 .class 文件加载到内存中并转换为Java类的过程。它…

全面升级企业网络安全 迈入SASE新时代

随着数字化业务、云计算、物联网和人工智能等技术的飞速发展&#xff0c;企业的业务部署环境日渐多样化&#xff0c;企业数据的存储由传统的数据中心向云端和SaaS迁移。远程移动设备办公模式的普及&#xff0c;企业多分支机构的加速设立&#xff0c;也使得企业业务系统的用户范…

神器:jQuery一键转换为纯净JavaScript代码

我的新书《Android App开发入门与实战》已于2020年8月由人民邮电出版社出版&#xff0c;欢迎购买。点击进入详情 该工具将 jQuery 代码转换为现代、高效的 JavaScript。它允许您用纯 JavaScript 替换 jQuery&#xff0c;同时保持原始代码不变。 虽然 jQuery 一直是 Web 开发中…