7月4日,2024 WAIC科学前沿全体会议在上海世博中心红厅隆重举行。上海人工智能实验室与商汤科技联合香港中文大学和复旦大学正式发布新一代大语言模型书⽣·浦语2.5(InternLM2.5),同时全链条工具体系迎来重磅升级,对于大模型数据处理环节,开源了全新的智能数据提取工具——MinerU,不仅能将混合了图片、表格、公式等在内的复杂多模态 PDF 文档精准转化为清晰、易于分析的 Markdown 格式,还能从包含广告等各种干扰信息的网页中快速解析、抽取正式内容,极大提高AI语料准备效率。快来一起看看!
在这个信息爆炸的时代,AI研究者常常面临着从海量文档中提取高质量数据的挑战。无论是学术文献、行业报告、会议PPT、课本、说明书还是合同单据,这些文档往往以PDF或网页的形式存在,内容复杂,格式多样,给AI语料的快速、精准提取带来了不小的难度。
如果你正寻求一种工具,能够一键将这些文档转化为易于分析和使用的格式,以支持AI大模型的研究和训练,那么你的需求即将得到满足。
MinerU来了!一款由OpenDataLab全新自研、专为多模态文档解析打造的智能数据提取工具,将彻底释放你的文档数据潜力。
MinerU,作为一款全能、开源的文档与网页数据提取工具,致力于简化您的数据处理流程。它不仅能将混合了图片、表格、公式等在内的多模态PDF文档精准转化为清晰、易于分析的Markdown格式;还能从包含广告等各种干扰信息的网页中快速解析、抽取正式内容;同时支持epud、mobi、docx等多种格式批量转化为Markdown……
它既是一个能让你轻松愉快完成复杂版面数据提取、文档转化的“高手”!更能凭借批量、快速、准确的性能,成为你的AI语料准备“得力助手”。接下来,让我们用2分钟时间,深入了解一下它的功能和特色。
一、MinerU的主要功能及特色
MinerU 目前由2个部分组成,分别提供不同功能:
● Magic-PDF PDF文档提取
● Magic-Doc 网页与电子书提取
01 快速识别与转换
MinerU中的Magic-PDF能够快速识别PDF版面元素,自动删除页眉、页脚、脚注等非正文内容,保留原文档的结构和格式,包括标题、段落、列表等,准确提取图片、表格和公式等多模态内容,并根据顺序,将文档转化为清晰、通顺、易读的Markdown格式。
公式再多的文档也不用担心,在OpenDataLab自研的公式识别模型加持下,Magic-PDF也能轻松地将其转化为Latex格式,效果远超其他开源工具。另外乱码PDF、扫描版PDF等也能自动识别并转换……还有很多惊喜能力,等你发现。
02 Web网页信息轻松提取
常见的文章、论坛、音乐、视频等类型网页信息提取,MinerU中的Magic-Doc可以轻松剔出广告等干扰信息,快速搞定正文、评论、歌词、视频文字详情等关键内容转化。
03 多种格式电子书、文献批量搞定
MinerU中的Magic-Doc,还可以快速将8种以上格式转化为Markdown,做到文本图片全适配,支持电子书或文献的格式包括:epud、mobi、pptx、docx、chm、azw、txt、rtf等。
04 源码全开放,支持二次开发
贯彻开源精神,助力高质量AI数据准备,集OpenDataLab自研成果于一体的MinerU,源码完全开放,支持二次开发、“魔改”。(“炼丹”大神狂喜)
二、MinerU部署及使用
MinerU完整部署及使用文档请访问:https://github.com/opendatalab/MinerU
MinerU能力已集成在新一代大语言模型书⽣·浦语2.5(InternLM2.5)中,可以与AI进行文档格式转化及内容问答交互,欢迎大家体验。
开源数据处理宝藏工具,尽在 OpenDataLab GitHub仓库:https://github.com/opendatalab
还有超好用的多模态标注工具 LabelU:https://github.com/opendatalab/labelU
多模态对话标注管理平台Label-LLM: https://github.com/opendatalab/LabelLLM
不要吝啬你的star!
更多精彩数据内容,尽在OpenDataLab:https://opendatalab.org.cn/