LLMs之PDF：MinerU(将PDF文件转换成Markdown和JSON格式)的简介、安装和使用方法、案例应用之详细攻略

MinerU的简介

0、日志

1、MinerU 的主要特点

2、已知问题

MinerU 安装和使用方法

1、MinerU的三种体验方式

T1、在线演示

T2、快速CPU演示

T3、GPU 使用

2、命令行使用

3、Python API 使用

MinerU的案例应用

科学文献处理

数据预处理

知识图谱构建

文档摘要

其他文本挖掘任务

MinerU的简介

2024年7月5日，MinerU是一个高质量的开源工具，用于将PDF文件转换成Markdown和JSON格式。它提供了一站式解决方案，能够高精度地提取PDF文档中的各种信息。

MinerU 项目诞生于InternLM的预训练过程中，旨在解决科学文献中的符号转换问题，并为大模型时代的技术发展做出贡献。它致力于提供高质量的PDF内容提取，目标是将PDF转换为机器可读的格式，例如Markdown和JSON，方便后续处理和应用。与商业产品相比，MinerU 仍在发展中，如果遇到问题或结果不理想，建议在GitHub issue中提交问题并附上相关的PDF文件。

MinerU是一个功能强大且易于使用的PDF转换工具，它能够高效地将PDF转换为Markdown和JSON格式，并支持多种高级功能，例如公式识别、表格识别和OCR。虽然还存在一些已知问题，但其不断更新迭代，并积极吸纳社区反馈，未来有望成为一个更加完善和强大的PDF处理工具。

GitHub地址：GitHub - opendatalab/MinerU: A high-quality tool for convert PDF to Markdown and JSON.一站式开源高质量数据提取工具，将PDF转换成Markdown和JSON格式。

0、日志

2024年11月22日发布0.10.0版本。引入了混合OCR文本提取功能，显著提高了在复杂文本分布场景（如密集公式、不规则跨度区域和图像表示的文本）中的解析性能。结合了文本模式中准确内容提取和更快速度的优势，以及在OCR模式中更精确的跨度/行区域识别。
2024年11月15日发布0.9.3版本。集成了RapidTable进行表格识别，将单表格解析速度提高了10倍以上，同时准确性更高，GPU内存使用率更低。
2024年11月6日发布0.9.2版本。集成了StructTable-InternVL2-1B模型以实现表格识别功能。
2024年10月31日发布0.9.0版本。这是一个主要的新版本，进行了广泛的代码重构，解决了许多问题，提高了性能，降低了硬件要求，并增强了可用性：重构了排序模块代码，使用layoutreader进行阅读顺序排序，确保在各种布局中保持高准确性。重构了段落拼接模块，实现了跨列、跨页、跨图形和跨表格场景的良好效果。重构了列表和目录识别功能，显著提高了列表块和目录块的准确性，以及相应文本段落的解析。重构了图形、表格和描述文本的匹配逻辑，大大提高了将标题和脚注与图形和表格匹配的准确性，并将描述文本的丢失率降低到接近零。为OCR添加了多语言支持，支持检测和识别84种语言。支持的语言列表请参见OCR语言支持列表。添加了内存回收逻辑和其他内存优化措施，显著降低了内存使用。启用所有加速功能（不包括表格加速（布局/公式/OCR））的内存需求从16GB降低到8GB，启用所有加速功能的内存需求从24GB降低到10GB。优化了配置文件功能开关，添加了独立的公式检测开关，在不需要公式检测时可以显著提高速度和解析结果。集成了PDF-Extract-Kit 1.0：添加了自研的doclayout_yolo模型，与原始解决方案相比，处理速度提高了10倍以上，同时保持了类似的解析效果，并且可以通过配置文件与layoutlmv3自由切换。将公式解析升级到unimernet 0.2.1，提高了公式解析的准确性，同时显著降低了内存使用。由于PDF-Extract-Kit 1.0的仓库变更，您需要重新下载模型。请参阅如何下载模型以获取详细步骤。
2024年9月27日发布0.8.1版本，修复了一些错误，并提供了在线演示和前端界面的本地化部署版本。
2024年9月9日：发布0.8.0版本，支持使用Dockerfile快速部署，并在Huggingface和Modelscope上推出演示。
2024年8月30日：发布0.7.1版本，添加了paddle tablemaster表格识别选项
2024年8月9日：发布0.7.0b1版本，简化了安装过程，添加了表格识别功能
2024年8月1日：发布0.6.2b1版本，优化了依赖冲突问题和安装文档
2024年7月5日：首次开源发布

1、MinerU 的主要特点

去除页眉、页脚、脚注、页码等干扰信息；以人类可读的顺序输出文本，适应单列、多列和复杂布局；保留原始文档结构，包括标题、段落、列表等；提取图像、图像描述、表格、表格标题和脚注；自动识别并转换公式为LaTeX格式；自动识别并转换表格为HTML格式；自动检测扫描版PDF和乱码PDF并启用OCR功能；OCR支持84种语言的检测和识别；支持多种输出格式，例如多模态和NLP Markdown、按阅读顺序排序的JSON以及丰富的中间格式；支持多种可视化结果，包括布局可视化和跨度可视化，方便确认输出质量；支持CPU和GPU环境；兼容Windows、Linux和Mac平台。

>> 高质量PDF提取工具：MinerU 是一款高质量的工具，能够将PDF文件转换成机器可读的格式，例如Markdown和JSON。这使得数据提取和进一步处理变得非常容易。

>> 多格式输出：支持多种输出格式，包括多模态和NLP Markdown、按阅读顺序排序的JSON以及丰富的中间格式。

>> 结构化保留：能够保留原始文档的结构，包括标题、段落、列表等，保证语义连贯性。

>> 全面信息提取：不仅提取文本，还能够提取图像、图像描述、表格、表格标题和脚注等信息。

>> 公式和表格转换：自动识别并转换文档中的公式为LaTeX格式，表格为HTML格式。

>> OCR支持：自动检测扫描版PDF和乱码PDF，并启用OCR功能，支持84种语言的检测和识别。

>> 布局处理能力强：能够处理单列、多列和复杂布局的文档，并按人类可读的顺序输出文本。针对复杂的文本分布场景（如密集公式、不规则跨度区域和图像表示的文本）的解析性能也有显著提升。

>> 多种优化：进行了大量的代码重构，解决了诸多问题，提升了性能，降低了硬件要求，并增强了易用性。包括内存优化，支持多种模型选择，并针对公式检测、表格识别等功能提供了独立开关，方便用户根据需求调整。

>> 多种运行环境支持：支持CPU和GPU环境，兼容Windows、Linux和Mac平台。

>> 开源且持续更新：项目开源，并持续更新和维护，不断改进性能和功能。