LLMs之gptpdf:gptpdf的简介、安装和使用方法、案例应用之详细攻略

LLMs之gptpdf:gptpdf的简介、安装和使用方法、案例应用之详细攻略

目录

gptpdf的简介

1、处理流程

第一步,使用 PyMuPDF 库,对 PDF 进行解析出所有非文本区域,并做好标记,比如:

第二步,使用视觉大模型(如 GPT-4o)进行解析,得到 markdown 文件。

gptpdf的安装和使用方法

1、安装

2、使用

解读test.py代码

3、API

gptpdf的案例应用


gptpdf的简介

gptpdf是一款主要使用视觉大语言模型(如 GPT-4o)将 PDF 解析为 markdown。我们的方法非常简单(只有293行代码),但几乎可以完美地解析排版、数学公式、表格、图片、图表等。每页平均价格仅需0.013 美元,我们使用 GeneralAgent lib 与 OpenAI API 交互。pdfgpt-ui 是一个基于 gptpdf 的可视化工具。

Github地址:GitHub - CosmosShadow/gptpdf: Using GPT to parse PDF

1、处理流程

第一步,使用 PyMuPDF 库,对 PDF 进行解析出所有非文本区域,并做好标记,比如:

第二步,使用视觉大模型(如 GPT-4o)进行解析,得到 markdown 文件。

gptpdf的安装和使用方法

1、安装

pip install gptpdf

2、使用

from gptpdf import parse_pdfapi_key = 'Your OpenAI API Key'
content, image_paths = parse_pdf(pdf_path, api_key=api_key)
print(content)

更多内容请见 test/test.py

地址:https://github.com/CosmosShadow/gptpdf/blob/main/test/test.py

解读test.py代码

import os# 从 .env 文件中加载环境变量
import dotenv
dotenv.load_dotenv()def test_use_api_key():from gptpdf import parse_pdfpdf_path = '../examples/attention_is_all_you_need.pdf'output_dir = '../examples/attention_is_all_you_need/'# 从环境变量中获取 OPENAI_API_KEY 和 OPENAI_API_BASEapi_key = os.getenv('OPENAI_API_KEY')base_url = os.getenv('OPENAI_API_BASE')# 手动提供 OPENAI_API_KEY 和 OPENAI_API_BASEcontent, image_paths = parse_pdf(pdf_path, output_dir=output_dir, api_key=api_key, base_url=base_url, model='gpt-4o', gpt_worker=6)# 输出解析后的内容和图像路径print(content)print(image_paths)# 同时会生成 output_dir/output.md 文件def test_use_env():from gptpdf import parse_pdfpdf_path = '../examples/attention_is_all_you_need.pdf'output_dir = '../examples/attention_is_all_you_need/'# 使用环境变量中的 OPENAI_API_KEY 和 OPENAI_API_BASEcontent, image_paths = parse_pdf(pdf_path, output_dir=output_dir, model='gpt-4o', verbose=True)# 输出解析后的内容和图像路径print(content)print(image_paths)# 同时会生成 output_dir/output.md 文件def test_azure():from gptpdf import parse_pdf# Azure API Keyapi_key = '8ef0b4df45e444079cd5a4xxxxx' # Azure API 基础 URLbase_url = 'https://xxx.openai.azure.com/' # Azure 部署的模型 ID 名称(不是 OpenAI 模型名称)model = 'azure_xxxx'pdf_path = '../examples/attention_is_all_you_need.pdf'output_dir = '../examples/attention_is_all_you_need/'# 使用提供的 Azure API Key 和基础 URLcontent, image_paths = parse_pdf(pdf_path, output_dir=output_dir, api_key=api_key, base_url=base_url, model=model, verbose=True)# 输出解析后的内容和图像路径print(content)print(image_paths)if __name__ == '__main__':# 取消注释以运行特定的测试函数# test_use_api_key()# test_use_env()test_azure()

3、API

parse_pdf(pdf_path, output_dir='./', api_key=None, base_url=None, model='gpt-4o', verbose=False)
将 pdf 文件解析为 markdown 文件,并返回 markdown 内容和所有图片路径列表。

  • pdf_path:pdf 文件路径

  • output_dir:输出目录。存储所有图片和 markdown 文件

  • api_key:OpenAI API 密钥(可选)。如果未提供,则使用 OPENAI_API_KEY 环境变量。

  • base_url:OpenAI 基本 URL。(可选)。如果未提供,则使用 OPENAI_BASE_URL 环境变量。

  • model:OpenAI API格式的多模态大模型,默认为 “gpt-4o”。 如果您需要使用其他模型,例如 qwen-vl-max (尚未测试)

    GLM-4V, 可以通过修改环境变量 OPENAI_BASE_URL 或 指定API参数 base_url 来使用。 (已经测试)

    您也可以通过将 base_url 指定为 https://xxxx.openai.azure.com/ 来使用 Azure OpenAI,api_key 是 Azure API 密钥,模型类似于 'azure_xxxx',其中 xxxx 是部署的模型名称(不是 openai 模型名称)(已经测试)

  • verbose:详细模式

  • gpt_worker: gpt解析工作线程数,默认为1. 如果您的机器性能较好,可以适当调高,以提高解析速度。

gptpdf的案例应用

持续更新中……

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/43176.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

离婚后,孩子就读私立高中的高昂学费谁承担?

江苏省南京市六合区人民法院审结一起抚养费纠纷案件,认定夫妻双方在决定孩子教育事务上均存在责任,为保障临近高考的未成年子女的切身利益,认定由夫妻双方按比例承担教育费。   2015年6月,李某与王某离婚,双方之子小…

PCL 有序点云的法线估计(使用积分图进行法线估计)

使用积分图进行法线估计 一、概述1.1 概念1.2 有序点云与无序点云1.2.1 有序点云1.2.2 无序点云1.3 代码讲解二、代码实现三、结果示例一、概述 1.1 概念 使用积分图进行法线估计:计算一个有序点云的法线,注意该方法只适用于有序点云。 1.2 有序点云与无序点云 有序点云与无…

MySQL安装时initializing database失败

问题页面: 解决方法: 1.勾选红框中的选项: 2.将下图红框中全部改为英文: 然后一路next就可以了。

cs231n作业1——KNN

参考文章:assignment1——KNN KNN 测试时分别计算测试样本和训练集中的每个样本的距离,然后选取距离最近的k个样本的标签信息来进行分类。 方法1:Two Loops for i in range(num_test):for j in range(num_train):dist X[i, :] - self.X…

vue3使用方式汇总

1、引入iconfont阿里图库图标: 1.1 进入阿里图标网站: iconfont阿里:https://www.iconfont.cn/ 1.2 添加图标: 1.3 下载代码: 1.4 在vue3中配置代码: 将其代码复制到src/assets/fonts/目录下&#xff1…

Mysql之Using index for skip scan

一、Using index for skip scan 在 MySQL 中,EXPLAIN 语句用于显示查询执行计划,帮助我们理解查询是如何被执行的,以及如何优化查询。其中,Extra 列提供了关于查询执行的一些额外信息。当 Extra 列显示 Using index for skip sca…

CF F. Alex‘s whims

原题链接:Problem - 1899F - Codeforces 题目大意:要求构建出一颗树,多次询问树的叶节点之间的距离有没有达到要求的距离,如果有直接输出-1 -1 -1,如果没有可以断开一条边和连上一条边,输出x y z&#xff…

mp4视频太大怎么压缩不影响画质,mp4文件太大怎么变小且清晰度高

在数字化时代,我们常常面临视频文件过大的问题。尤其是mp4格式的视频,文件大小往往令人望而却步。那么,如何在不影响画质的前提下,有效地压缩mp4视频呢?本文将为您揭秘几种简单实用的压缩技巧。 在分享和存储视频时&am…

Open3D 计算点云的欧式距离

目录 一、概述 1.1欧式距离定义 1.2作用和用途 二、代码实现 2.1关键函数 2.2完整代码 三、实现效果 3.1原始点云 3.2处理后点云 一、概述 在Open3D中,compute_point_cloud_distance函数用于计算两个点云之间的距离。具体来说,它计算的是源点云…

【计算机网络仿真】b站湖科大教书匠思科Packet Tracer——实验16 路由信息协议RIP

一、实验目的 1.验证RIP协议的作用; 二、实验要求 1.使用Cisco Packet Tracer仿真平台; 2.观看B站湖科大教书匠仿真实验视频,完成对应实验。 三、实验内容 1.构建网络拓扑; 2.验证RIP协议。 四、实验步骤 1.构建网络拓扑 …

sdbusplus:将文件描述符作为method的返回值

sdbusplus:通过文件描述符作为参数调用method_libsdbusplus-CSDN博客 介绍了使用文件描述符作为参数的方式 文件描述符也可以作为method的返回值,然后用来传递数据 服务器端: //s.cpp #include <sdbusplus/asio/connection.hpp> #include <sdbusplus/asio/object…

js list to tree

在JavaScript中&#xff0c;将列表转换为树结构是一种常见的操作&#xff0c;尤其是在处理需要层级展示的数据&#xff0c;如菜单、分类等。这通常涉及到递归函数和对象的引用。以下是一个简单的例子&#xff0c;展示了如何将一个扁平化的列表转换为多层级树结构。 假设我们有以…

【图像处理】Krita 一款开源免费专业图像处理软件分享

软件介绍 Krita 是一款专业级的图像处理软件&#xff0c;适合数字绘画和创作。它不仅支持栅格图像的细致编辑&#xff0c;还提供了强大的矢量图形工具&#xff0c;使得用户可以在同一个平台上完成多种类型的创作工作。同时具备一定的矢量图形编辑功能。Krita 的首要用途是绘画…

黑马点评商户缓存查询作业——Redis中查询商户类型

记录下自己在gpt帮助下完成的第一个需求~~~ 1. ShopTypeController 2. IShopTypeService 3. ShopTypeServiceImpl&#xff08;模仿ShopServiceImpl来写的&#xff09; 一共分为“1.redis中查询缓存”→“2.判断缓存是否存在&#xff0c;存在直接返回”→“3.缓存不存在则去查数…

2-28 基于matlab提取出频域和时域信号的29个特征

基于matlab提取出频域和时域信号的29个特征&#xff0c;主运行文件feature_extraction&#xff0c;fre_statistical_compute和time_statistical_compute分别提取频域和时域的特征&#xff0c;生成的29个特征保存在生成的feature矩阵中。程序已调通&#xff0c;可直接运行。 2-2…

C语言 printf 函数多种输出格式以及占位输出

一、输出格式 在C语言中&#xff0c;printf 函数提供了多种输出格式&#xff0c;用于控制不同类型数据的输出方式。 1.整数输出格式 %d&#xff1a;以十进制形式输出整数。 %o&#xff1a;以八进制形式输出整数&#xff08;无前导0&#xff09;。 %x 或 %X&#xff1a;以十六进…

JavaScript里方括号[]的使用

我们知道可用方括号来表示数组或者JSON对象的属性值&#xff0c;其实在特定场合&#xff0c;方括号还有妙用的。 比如我有数据源是一组JSON&#xff0c;其中有一个属性是时间字符串&#xff0c;我想对时间的小时、星期、日、月分别进行处理。每条JSON都各自生成一条新的JSON&am…

代码随想三刷动态规划篇9

代码随想三刷动态规划篇9 714. 买卖股票的最佳时机含手续费题目代码 714. 买卖股票的最佳时机含手续费 题目 链接 代码 class Solution {public int maxProfit(int[] prices, int fee) {//卖的时候-feeif(prices.length1){return 0;}int[][] dp new int[prices.length][2]…

EAI四个层次服务-系统架构师(二十六)

1、&#xff08;重点&#xff09;系统应用集成提供了4个不同层次服务&#xff0c;最上层服务是&#xff08;&#xff09;服务。 解析: EAI&#xff08;Enterprise Application Integration&#xff09;系统应用集成&#xff0c;相关概念。 实施EAI必须保证&#xff1a;应用程…

星间链路与星地链路

目录 一、星间链路 1.1 层内星间链路&#xff08;Intra-layer ISLs&#xff09; 1.2 层间星间链路&#xff08;Inter-layer ISLs&#xff09; 1.3 实现方式 1.3.1 微波链路 1.3.2 激光链路 二、星地链路 2.1 星地链路的关键特性 2.1.2 Ka信关站 2.1.2 Q/V信关站 2.1…