AI网络爬虫：对网页指定区域批量截图

对网页指定区域批量截图，可以在deepseek的代码助手中输入提示词：

你是一个Python编程专家，一步一步的思考，完成一个对网页指定区域截图的python脚本的任务，具体步骤如下：

设置User-Agent:

Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36

找到Excel文件："F:\AI自媒体内容\课程列表.xlsx"

读取Excel文件的第1列，作为图片标题{pictitle};

读取Excel文件的第2列，这是URL，用Undetected-chromedriver加载网页进行渲染，让窗口最大化，等待20秒；

对打开的网页进行截图，截图的区域是屏幕左上角：（X: 0,y:80），屏幕右下角：（X:1495,y:987）；

截图保存为png图片格式，用{pictitle}作为图片文件名，保存到文件夹：“F:\AI自媒体内容\”；

截图完成后等待30秒；

注意：

每一步都要输出相关信息到屏幕；

在用{pictitle}命名文件名之前，先检查{pictitle}中是否有不符合window系统文件命名规格的特殊符号，如果有则删除掉其中的特殊符号；

源代码：

import pandas as pd

import undetected_chromedriver as uc

from PIL import Image

import re

import os

import time

# 设置User-Agent

user_agent = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36"

# 读取Excel文件

excel_path = "F:\AI自媒体内容\课程列表.xlsx"

df = pd.read_excel(excel_path)

# 设置截图保存的文件夹

save_folder = "F:\AI自媒体内容\\"

# 初始化undetected_chromedriver

options = uc.ChromeOptions()

options.add_argument(f'user-agent={user_agent}')

driver = uc.Chrome(options=options)

driver.maximize_window()

# 遍历Excel文件的每一行

for index, row in df.iterrows():

pictitle = row[0]

url = row[1]

# 检查pictitle是否有不符合window系统文件命名规格的特殊符号

pictitle = re.sub(r'[\\/:*?"<>|]', '', pictitle)

print(f"正在打开网页: {url}")

driver.get(url)

# 等待20秒

driver.implicitly_wait(20)

# 截图

print(f"正在截图: {pictitle}")

driver.save_screenshot('temp.png')

# 使用PIL库截取屏幕区域

im = Image.open('temp.png')

im = im.crop((0, 80, 1495, 987))

# 保存截图到指定文件夹

save_path = os.path.join(save_folder, f"{pictitle}.png")

im.save(save_path)

print(f"截图已保存到: {save_path}")

# 删除临时截图文件

os.remove('temp.png')

# 等待30秒

print("等待30秒...")

time.sleep(30)

# 关闭浏览器

driver.quit()

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/diannao/22026.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

AI网络爬虫：对网页指定区域批量截图

相关文章

基于深度学习的CT影像肺癌检测识别

Python中使用 xlrd + requests下载excel表中的jpg图像或mp4视频

线段交点检测：扫描线算法

Python面试宝典：Python中与调试技巧相关的面试笔试题（1000加面试笔试题助你轻松捕获大厂Offer）

LeetCode //C - 165. Compare Version Numbers

Spring Boot 开发 -- swagger3.0 集成

详解布隆过滤器，实现分布式布隆过滤器

ChatGPT Edu版本来啦：支持GPT-4o、自定义GPT、数据分析等

【UE5教程】使用蓝图显示鼠标

python-web应用程序-Django数据库

1.4 Unicode简介

云原生架构案例分析_3.某快递公司核心业务系统云原生改造

[Algorithm][动态规划][回文串问题][回文子串][最长回文子串][分割回文串Ⅳ]详细讲解

使用explain plan查看执行计划

Harmony开发 List/Scroll 组件最后一个item显示不全或布局显示不完整

基于Vue3的Uniapp实训项目|一家鲜花店

群体优化算法---蜂群优化算法应用于数据挖掘

The First项目报告：去中心化知识产权治理协议MON Protocol如何革新链游产业？

element-plus的Layout组件

深度学习（三）