pdf2htmlEX:pdf 转 html,医学指南精细化处理

pdf2htmlEX:pdf 转 html,医学指南精细化处理

      • 单文件转换
      • 多文件转换

 


代码:https://github.com/coolwanglu/pdf2htmlEX

拉取pdf2htmlEX 的 Docker:

docker pull bwits/pdf2htmlex
# 拉取 bwits/pdf2htmlex

不用进入容器,直接创建 3 个 文件夹

mkdir pdf2html
mkdir pdf2html/pdf_files    # 所有需要转换的pdf
mkdir pdf2html/html_files   # 用于存放转换好的 html 文件

单文件转换

  • 在 pdf_files 文件夹下面有一个 test_1.pdf,运行命令:
docker run -ti --rm -v ~/pdf2html:/pdf2html bwits/pdf2htmlex pdf2htmlEX --dest-dir /pdf2html/html_files /pdf2html/pdf_files/test_1.pdf

 

多文件转换

Docker命令本身并不支持在单个命令中处理多文件或使用通配符执行迭代。因此,您需要使用一些shell脚本逻辑来达到这个目的。

以下是一个在Linux环境下使用bash脚本处理目录中所有PDF文件的方法。

这段脚本将迭代 pdf_files 目录中的所有PDF文件,并对每个文件运行 bwits/pdf2htmlex 容器:

#!/bin/bash# 设定本地PDF文件的目录
PDF_DIR="/home/bobuser/pdf2html/pdf_files"# 设定HTML输出目录
HTML_DIR="/home/bobuser/pdf2html/html_files"# 遍历pdf_files目录中的所有PDF文件
for pdf in "$PDF_DIR"/*.pdf; doecho "转换文件:$(basename "$pdf")"# 运行Docker命令来转换当前PDF文件docker run -ti --rm -v /home/bobuser/pdf2html:/pdf2html bwits/pdf2htmlex pdf2htmlEX --dest-dir /pdf2html/html_files "/pdf2html/pdf_files/$(basename "$pdf")"
doneecho "所有PDF文件转换完成。"

将上述脚本保存到一个文件中,比如命名为 convert_pdfs.sh,然后执行以下步骤:

  1. 给予脚本执行权限:
    chmod +x convert_pdfs.sh
    
  2. 执行脚本:
    ./convert_pdfs.sh
    

这段脚本将对 pdf_files 目录中的每个PDF文件执行 pdf2htmlEX 命令,将结果输出到 html_files 目录。

这种方法假设所有PDF文件都存储在 /home/bobuser/pdf2html/pdf_files 目录中,并且输出的HTML文件将存储在 /home/bobuser/pdf2html/html_files 目录中。

 


转换后:

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/8175.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

富格林:学习辨别虚假预防欺诈亏空

富格林悉知,对于市场发布的虚假欺诈案例,投资者可注意了解其中受骗原因,总结因对的策略应对避免受害亏损。市场是多变复杂的,如果只是学习刻板的套路方法,只能应对正常交易,对于一些诱导虚假便可能无法避免…

认识设计模式SOLID原则

SOLID 是一个缩写词,代表面向对象编程 (OOP) 的五个设计原则,旨在促进更简单、更健壮和可更新的代码。 SOLID 缩写中的每个字母都代表了开发易于维护和随时间扩展的软件的原则。 SOLID原则是面向对象编程和设计的五项基本指导原则,由罗伯特C…

VIM命令常用

一、启动vim 以:和/开头的命令都有历史纪录,可以首先键入:或/然后按上下箭头来选择某个历史命令。 在命令行窗口中输入以下命令即可 vim 直接启动vim vim filename 打开vim并创建名为filename的文件 二、文件命令 打开单个文件vim file同时打开多个文件vim file1 …

用HAL库改写江科大的stm32入门例子_9-1 串口发送

设置串口: 选项说明: 写一个串口发送函数: // serial send string function void serial_send_string(char *str) {HAL_UART_Transmit(&huart1, (uint8_t *)str, strlen(str), 1000); } main函数中调用发送信息: uint8_t dat…

React 第二十五章 React.memo

React.memo 是 React 提供的一个高阶组件&#xff0c;用于对函数组件进行性能优化。 React.memo 的源码实际上就是返回一个 PureComponent 组件&#xff1a; function memo(FuncComp){return class Memo extends PureComponent{render(){return <>{FuncComp(this.props…

极致设计!详解专业网页设计的全套步骤和流程

在当今的数字时代&#xff0c;拥有一个专业、易于使用和有吸引力的网页对任何企业或个人都至关重要。专业的网页设计是实现这一目标的关键步骤之一。本文将详细介绍专业的网页设计步骤和过程&#xff0c;以帮助您了解如何设计一个优秀的网页。 在介绍专业网页设计步骤和流程之…

力扣:268. 丢失的数字(Java)

目录 题目描述&#xff1a;示例 1&#xff1a;示例 2&#xff1a;代码实现&#xff1a; 题目描述&#xff1a; 给定一个包含 [0, n] 中 n 个数的数组 nums &#xff0c;找出 [0, n] 这个范围内没有出现在数组中的那个数。 示例 1&#xff1a; 输入&#xff1a;nums [3,0,1]…

GPU术语

SP(Streaming Processor)流处理器 流处理器是GPU最基本的处理单元&#xff0c;在fermi架构开始被叫做CUDA core。 SM(Streaming MultiProcessor) 一个SM由多个CUDA core组成。SM还包括特殊运算单元(SFU)&#xff0c;共享内存(shared memory)&#xff0c;寄存器文件(Register …

GIS入门,不使用任何第三方库,纯JavaScript实现自定义多边形平滑曲线算法

前言 本章介绍一下不使用任何第三方库,纯JavaScript实现自定义多边形平滑曲线算法。 在此之前我们先了解一下几种多边形平滑算法。 在上一章中《常用的多边形平滑曲线算法介绍和JavaScript的多边形平滑曲线算法库chaikin-smooth的实现原理》,我们通过第三方库chaikin-smoo…

LeetCode热题100|动态规划Part.1|70.爬楼梯、118.杨辉三角、198.打家劫舍

70.爬楼梯 代码随想录原题&#xff0c;看这篇文章&#xff1a;C动态规划Part.1|动态规划理论基础、509.斐波那契数、70.爬楼梯、746.使用最小花费爬楼梯 118.杨辉三角 题目链接&#xff1a;118.杨辉三角 一刷代码 时间复杂度和空间复杂度都造到 O ( n u m R o w s 2 ) O(num…

使用idea管理docker

写在前面 其实idea也提供了docker的管理功能&#xff0c;比如查看容器列表&#xff0c;启动容器&#xff0c;停止容器等&#xff0c;本文来看下如何管理本地的docker daemon和远程的dockers daemon。 1&#xff1a;管理本地 双击shift&#xff0c;录入service&#xff1a; …

C++算法题 - 二叉树层次遍历

目录 199. 二叉树的右视图637. 二叉树的层平均值102. 二叉树的层序遍历103. 二叉树的锯齿形层序遍历 199. 二叉树的右视图 LeetCode_link 给定一个二叉树的 根节点 root&#xff0c;想象自己站在它的右侧&#xff0c;按照从顶部到底部的顺序&#xff0c;返回从右侧所能看到的节…

Java性能优化(一):Java基础-ArrayList和LinkedList

引言 集合作为一种存储数据的容器&#xff0c;是我们日常开发中使用最频繁的对象类型之一。JDK为开发者提供了一系列的集合类型&#xff0c;这些集合类型使用不同的数据结构来实现。因此&#xff0c;不同的集合类型&#xff0c;使用场景也不同。 很多同学在面试的时候&#x…

自刷广告变现,APP收益如何提高

广告变现&#xff0c;是许多APP开发者和运营者追求的目标。然而&#xff0c;对于一些新手来说&#xff0c;如何进行广告变现&#xff0c;特别是如何去自刷广告变现&#xff0c;却是一个让人头疼的问题。实际上&#xff0c;只要在平台的规则内操作&#xff0c;自刷广告也是可以进…

Colibri for Mac v2.2.0激活版:专业级无损音乐播放器

Colibri for Mac是一款专为Mac用户设计的高分辨率无损音乐播放器。它基于BASS技术构建&#xff0c;为用户带来极致的音频体验。Colibri支持所有流行的无损和有损音频格式&#xff0c;如FLAC、MP3、AAC等&#xff0c;确保音乐播放的清晰度和完美度。其独特的清晰比特完美播放技术…

VS2022Qt6通过ODBC连接MySQL

QSqlDatabase是Qt框架中用于管理数据库连接的类。它提供了一种在Qt应用程序中连接和操作数据库的方式。通过QSqlDatabase&#xff0c;可以连接到各种类型的数据库&#xff0c;并执行查询、插入、更新和删除等操作&#xff0c;Qt通过ODBC连接数据库的第一步就是初始化QSqlDataba…

通过os.dup sys.stdout.fileno捕获标准输出,判断pytorch算子是否fallback到了cpu

通过os.dup sys.stdout.fileno捕获标准输出,判断pytorch算子是否fallback到了cpu 一.代码 某种设备在运行pytorch算子时,如果不支持会自动fallback到cpu,输出的tensor.device却不是cpu,我希望能获取到这个状态。本文通过捕获标准输出,根据终端是否输出fallback字符串,判断是否触…

Android内核之Binder通信写操作:binder_thread_write用法实例(七十一)

简介&#xff1a; CSDN博客专家&#xff0c;专注Android/Linux系统&#xff0c;分享多mic语音方案、音视频、编解码等技术&#xff0c;与大家一起成长&#xff01; 优质专栏&#xff1a;Audio工程师进阶系列【原创干货持续更新中……】&#x1f680; 优质专栏&#xff1a;多媒…

终端安全管理措施有哪些?好用终端安全管理软件推荐(建议收藏)

在当今数字化时代&#xff0c;信息安全已成为企业运营不可或缺的一部分。其中&#xff0c;终端安全为您详细介绍&#xff0c;并推荐几款好用的终端安全管理软件&#xff0c;帮助您更好地保护企业信息安全。管理是确保企业信息安全的重要环节。那么&#xff0c;终端安全管理措施…

Kettle连接Mysql数据库时报错——Driver class ‘org.gjt.mm.mysql.Driver‘ could not be found

一、问题描述 当我们使用ETL工具Kettle需要连接Mysql数据库进行数据清洗操作,在配置好Mysql的连接串内容后,点击【测试】按钮时报错【错误连接数据库 [MysqlTestConnection] : org.pentaho.di.core.exception.KettleDatabaseException: Error occurred while trying to conne…