零代码编程：用Kimichat从PDF文件中批量提取图片

零代码编程：用Kimichat从PDF文件中批量提取图片

news/2025/4/28 19:03:24/文章来源:https://blog.csdn.net/AIGCTribe/article/details/138409026

一个PDF文件中，有很多图片，想批量提取出来，可以借助kimi智能助手。

在借助kimi智能助手中输入提示词：

你是一个Python编程专家，要完成一个网页爬取Python脚本的任务，具体步骤如下：

打开文件夹：E:\6451

读取里面的PDF文件；

将PDF文件里面的图片都保存到E:\6451

注意：图片体积较大，占用内存高，要将PDF文件中的图片分批次提取，而不是一次性提取所有图片

kim生成的Python源代码：

import fitz # PyMuPDF

import os

# 定义文件夹路径

folder_path = 'E:\\6451'

# 确保文件夹存在

if not os.path.exists(folder_path):

print(f"The folder {folder_path} does not exist.")

else:

# 读取文件夹中的所有PDF文件

for filename in os.listdir(folder_path):

if filename.lower().endswith('.pdf'):

pdf_path = os.path.join(folder_path, filename)

doc = fitz.open(pdf_path)

# 逐页提取图片

for page_number in range(len(doc)):

page = doc[page_number]

img_list = page.get_images(full=True)

# 分批次提取页面中的图片

for img_index, img in enumerate(img_list, start=1):

try:

xref = img[0]

info = doc.extract_image(xref)

image_bytes = info["image"]

# 为图片构造一个唯一的文件名

image_filename = f"{os.path.splitext(filename)[0]}_{page_number + 1}_img_{img_index}.png"

image_save_path = os.path.join(folder_path, image_filename)

# 保存图片

with open(image_save_path, "wb") as image_file:

image_file.write(image_bytes)

print(f"Image saved: {image_save_path}")

except Exception as e:

print(f"Error saving image from page {page_number + 1}: {e}")

# 释放内存

del page, img_list

# 关闭PDF文档

doc.close()

print(f"Finished extracting images from {filename}")

# 输出信息到屏幕

print("All images have been extracted from PDF files.")

# 确保屏幕输出信息

input("按任意键退出...")

在vscode中运行Python程序，成功提取所有图片：

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/834214.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

2024年融资融券利率最新变化，又降低了？

2024年融资融券利率最新变化，又降低了？

最近有很多朋友在问我问融资融券的业务，都是比较关心这个利率的问题。确实，做融资融券最重要的利率，利率低会节省很大一笔资金，今天在这边给大家对接一个上市券商，可以给到大家万一的交易佣金和5%的融资利率&#xff0…

阅读更多...

行业早报5.9

行业早报5.9

1.LG Display 一季度营收 5.253 万亿韩元，同比增长 19%； 2.郭明錤预测英伟达 2025 年第 4 季度量产新一代 R 系列 AI 芯片； 3.小鹏汽车 4 月交付量 9393 辆：同比增长 33%； 4.中国儒意 2.59 亿元收购有爱互娱&#xff0…

阅读更多...

乡村振兴规划设计一站式资料大全，能为乡村振兴从业者带来什么帮助？

乡村振兴规划设计一站式资料大全，能为乡村振兴从业者带来什么帮助？

乡村振兴规划设计一站式资料大全对于乡村振兴从业者来说，具有非常重要的帮助作用。这种资料大全通常包含了从政策解读、市场分析、规划设计、到实施策略等各个方面的详尽信息，能够极大地提升从业者的工作效率和专业能力。具体来说，乡村振兴规…

阅读更多...

Python selenium

Python selenium

1.搭建环境 1.安装： pip install msedge-selenium-tools 不要使用pip install selenium，我的电脑上没法运行 2.下载驱动 Microsoft Edge WebDriver |Microsoft Edge 开发人员 edge浏览器点设置---关于即可找到版本号，一定要下载对应版…

阅读更多...

【TypeScript类型兼容性简介以及使用方法】

【TypeScript类型兼容性简介以及使用方法】

TypeScript 的类型兼容性是指当一个类型被赋值给另一个类型时，是否满足赋值操作的条件。TypeScript 通过其结构化类型系统来进行类型兼容性的判断，即只要两个类型的结构相似，它们就是兼容的。在判断两个类型是否兼容时，TypeScri…

阅读更多...

实践精益理念：精益生产培训助力企业持续增长

实践精益理念：精益生产培训助力企业持续增长

在日益激烈的市场竞争中，企业如何寻找持续增长的动力，提升整体创新能力和核心竞争力？张驰咨询通过多年来的深入研究和实践，结合众多企业的实际情况，带来了精益生产培训的全新视角。在近期举办的一次精益生产培训中&am…

阅读更多...

五种算法（BWO、RUN、SO、HO、GWO）求解复杂城市地形下无人机路径规划，可以修改障碍物及起始点（MATLAB）

五种算法（BWO、RUN、SO、HO、GWO）求解复杂城市地形下无人机路径规划，可以修改障碍物及起始点（MATLAB）

一、算法介绍 （1）白鲸优化算法BWO 参考文献：Zhong C, Li G, Meng Z. Beluga whale optimization: A novel nature-inspired metaheuristic algorithm[J]. Knowledge-Based Systems, 2022, 109215. （2）龙格-库塔优化…

阅读更多...

服务器数据恢复—RAID5磁盘阵列两块盘离线的数据恢复过程

服务器数据恢复—RAID5磁盘阵列两块盘离线的数据恢复过程

服务器故障： 服务器中有一组由多块硬盘组建的raid5磁盘阵列，服务器阵列中2块硬盘先后掉线导致服务器崩溃。服务器数据恢复过程： 1、将故障服务器中所有磁盘编号后取出，由硬件工程师对掉线的两块磁盘进行物理故障检测&#xff0c…

阅读更多...

Hoot100-T6三数之和

Hoot100-T6三数之和

给你一个整数数组 nums ，判断是否存在三元组 [nums[i], nums[j], nums[k]] 满足 i ! j、i ! k 且 j ! k ，同时还满足 nums[i] nums[j] nums[k] 0 。请你返回所有和为 0 且不重复的三元组。注意：答案中不可以包含重复的三元组。示例 1…

阅读更多...

二层交换机与路由器连通上网实验

二层交换机与路由器连通上网实验

华为二层交换机与路由器连通上网实验二层交换机是一种网络设备，用于在局域网（LAN）中转发数据帧。它工作在OSI模型的第二层，即数据链路层。二层交换机通过学习和维护MAC地址表，实现了数据的快速转发和广播域的隔离。实…

阅读更多...

java数据结构之数组系统了解

java数据结构之数组系统了解

1.数组介绍数组就是一个存储数据的容器，容器的长度固定、存储元素的数据类型固定。跟变量加以区分：变量也可以存储数据，但是只能存一个值。当要存的数据比较多的时候，用变量就不方便了。我们就可以使用数组来存储。 1.1数组…

阅读更多...

并发编程实现

并发编程实现

一、并行编程 1、Parallel 类 Parallel类是System.Threading.Tasks命名空间中的一个重要类，它提供数据并行和任务并行的高级抽象。 For和ForEach Parallel类下的For和ForEach对应着普通的循环和遍历(普通的for和foreach)，但执行时会尝试在多个线程上…

阅读更多...

搜维尔科技：工作场所人体工程学分析-最大限度地提高员工生产力

搜维尔科技：工作场所人体工程学分析-最大限度地提高员工生产力

工作场所人体工程学分析-最大限度地提高员工生产力 - 增强工作场所安全和生产力：了解人体工程学评估在改善工作场所安全和提高企业生产力方面的关键作用搜维尔科技：工作场所人体工程学分析-最大限度地提高员工生产力

阅读更多...

maya可视化blendshape

maya可视化blendshape

目录 maya读取csv，驱动头模表情变化 python操作示例读取csv设置表情动画 maya 中文版怎么可视化blendshape 1. 创建Blend Shapes 2. 使用混合形状编辑器 3. 微调Blend Shapes 4. 高级可视化和调试 maya 英文版可视化blendshape 1. 创建Blend Shapes 2. …

阅读更多...

安防视频/视频汇聚系统EasyCVR视频融合云平台助力智能化酒店安防体系的搭建

安防视频/视频汇聚系统EasyCVR视频融合云平台助力智能化酒店安防体系的搭建

一、背景需求 2024年“五一”假期，全国文化和旅游市场总体平稳有序。文化和旅游部6日发布数据显示，据文化和旅游部数据中心测算，全国国内旅游出游合计2.95亿人次。“五一”假期县域市场酒店预订订单同比增长68%，而酒店作为一个高…

阅读更多...

SpringCloudAlibaba:4.3云原生网关higress的JWT 认证

SpringCloudAlibaba:4.3云原生网关higress的JWT 认证

概述简介 JWT是一种用于双方之间传递安全信息的简洁的、URL安全的声明规范。定义了一种简洁的，自包含的方法用于通信双方之间以Json对象的形式安全的传递信息，特别适用于分布式站点的单点登录（SSO）场景 session认证的缺点 1.安…

阅读更多...

怎么理解Mybatis的事务

怎么理解Mybatis的事务

对于数据库事务，我们都不陌生，数据库的事务（Transaction）是数据库管理系统执行过程中的一个逻辑单位，也是一个不可分割的工作单位。它包含一个或多个SQL语句，这些语句要么全部执行，要么全部不执…

阅读更多...

精准数据清理：掌握 MongoDB 删除集合的方法与最佳实践

精准数据清理：掌握 MongoDB 删除集合的方法与最佳实践

在 MongoDB 数据库管理中，数据清理是确保数据库性能和数据一致性的不可或缺的一环。而删除集合作为实现数据清理的关键步骤之一，其重要性不言而喻。然而，正确地执行集合删除操作需要谨慎对待，因为一旦删除，数据将永久丢…

阅读更多...

简单数据结构——栈和队列1(栈超全）（初始化，销毁，出栈入栈销毁实现，例题运用）

简单数据结构——栈和队列1(栈超全）（初始化，销毁，出栈入栈销毁实现，例题运用）

知识特点类似数据表链表，在逻辑上依次存储，但对比顺序表和链表有所限制，不能随便存储一定要先掌握顺序表的实现，本人博客有顺序表专栏大家可以自行查看，看懂顺序表专栏之后再来了解栈的实现会更容易懂。如果还没…

阅读更多...

使用DBeaver连接postgreSql提示缺少驱动

使用DBeaver连接postgreSql提示缺少驱动

重新安装电脑之后用dbeaver链接数据库的时候，链接PG库一直提示缺少驱动，当选择下载驱动的时候又非常非常慢经常失败，尝试了一下更改源然后下载库驱动就非常快了，当然也包括dbeaver的自动更新。方法：点击菜单栏【窗口…

阅读更多...

最新文章