网络爬虫实战 | 上传以及下载处理后的文件

以实现爬虫一个简单的(SimFIR (doctrp.top))网址为例,需要遵循几个步骤:

1. 分析网页结构

  • 首先,需要分析该网页的结构,了解图片是如何存储和组织的。这通常涉及查看网页的HTML源代码,可能还包括CSS和JavaScript文件。
  • 检查图片URL的模式,看看是否有规律可循,这将有助于编写爬虫时定位和下载图片。

2. 编写爬虫代码

  • 使用Python中的库,如requests来访问网页,BeautifulSoup来解析HTML。
  • 编写代码以遍历网页,定位图片链接,并将它们下载到您的本地存储。

3. 实现畸变矫正

  • 选择适合的畸变矫正算法。需要使用像OpenCV这样的图像处理库。
  • 编写代码以批量读取下载的图片,应用畸变矫正算法,并保存矫正后的图片。

4. 自动化和优化

  • 使整个过程自动化,以便只需运行一个脚本即可完成从爬取到矫正的整个流程。
  • 确保您的代码在处理大量数据时效率高并且稳定。

实战开始 

观察到红色框内"点击上传"处上传文件,然后点击按钮"Submit"实现文件上传;转换后的图片会显示在绿色框内,可点击"Download"按钮下载。

1)找到正确的URL

        通常这些信息可以从网络请求中找到,使用浏览器的开发者工具观察网络请求。在浏览器中打开开发者工具(通常可以通过按F12或右键检查来打开),然后尝试正常上传一个文件。在"网络"(Network)选项卡中,可以监控到所有由网页发出的HTTP请求。找到文件上传时的请求,可以看到请求的URL、方法、请求头和请求体等信息。这里的URL就是上传接口的URL。

可以看到几个请求:

  • 一个 data:image/jpeg;base64, 开头的请求,这是一个 Base64 编码的图片数据,可能是上传的图片。
  • 一个名为 predict 的请求,这很可能是触发图片处理的 API 调用。
  • 一个字体请求,看起来与图片上传和下载无关。
  • 一个 data:image/png;base64, 开头的请求,这可能是处理后的图片。

从这些信息来看,处理后的图片可能是直接作为 Base64 编码的数据嵌入在某个API响应中的。如果 predict 请求是用来处理图片的,那么需要查看这个请求的详细内容,包括它的响应体。响应体中可能包含了处理后的图片的 Base64 编码数据。

可以看到请求了predict的URL:


2)观察服务器期望的数据形式

        在编程过程中,可以打印print(response.text),观察服务器的期望。

session = requests.Session()
response = session.post("https://simfir.doctrp.top:20443/run/predict", json={'data': [base64.b64encode(image_file.read()).decode('utf-8')]}, verify=False)
# 检查响应
if response.ok:else:print('获取处理后的图片失败,状态码:', response.status_code)print(response.text)

        发现服务器期望在 data 字段中接收一个列表。这意味着需要将图片数据作为列表的元素发送,即使只有一个图片。服务器返回的是一个列表,那么从列表中提取图像数据。

        接受到的processed_image_data_list[0]在解码中无法正确解码图片,困惑我好久,最后注意到是因为前面包含了'data:image/png;base64,'字段,然后去除字段就可以正常编码了。

3)代码实现

注释详细,简单易懂:

import requests
import time
import base64
import os# 禁用由于未验证的SSL证书引发的警告
requests.packages.urllib3.disable_warnings()# 指定服务器的URL
url = 'https://simfir.doctrp.top:20443/'# 图片的本地路径,需要发送到服务器的图片
local_image_path = '1.jpg'# 处理图像的服务器端点
processed_image_endpoint = url + 'run/predict'# 创建一个会话,这在需要维持会话状态时很有用,例如进行多次请求
session = requests.Session()# 以二进制读取模式打开本地图片文件
with open(local_image_path, 'rb') as image_file:# 将图片文件编码为base64字符串,这是将二进制内容转换为可以通过JSON发送的文本格式的一种方式image_encoded = base64.b64encode(image_file.read()).decode('utf-8')# 准备请求数据,将编码的图片数据放入data字段中
data_to_send = {'data': [image_encoded]}# 向服务器发送POST请求,并附上编码的图片数据,verify=False表示忽略SSL证书验证
response = session.post(processed_image_endpoint, json=data_to_send, verify=False)# 检查响应状态码是否表明请求成功
if response.ok:# 假设服务器会返回JSON格式的响应,并且包含了处理后的图像数据processed_image_data_list = response.json().get('data')# 检查返回的数据是否是列表形式if processed_image_data_list and isinstance(processed_image_data_list, list):# 获取列表中的第一个元素,即处理后的图像数据encoded_data = processed_image_data_list[0]# 假设数据以data:image/png;base64,开头,这需要被移除encoded_data = encoded_data.split('data:image/png;base64,')[1].rstrip(' \n\r')# 输出编码后的数据,用于调试print(encoded_data)# 如果编码数据长度不是4的倍数,则添加必要的'='填充字符padding = '=' * (-len(encoded_data) % 4)encoded_data_with_padding = encoded_data + paddingtry:# 尝试对带填充字符的base64字符串进行解码image_data = base64.b64decode(encoded_data_with_padding)# 指定输出图像的路径output_image_path = os.path.join('output_image.png')# 将解码后的图像数据写入到文件中with open(output_image_path, 'wb') as file:file.write(image_data)# 打印成功消息print('转换后的图片已成功保存到', output_image_path)except base64.binascii.Error as e:# 如果解码失败,打印错误信息print("Base64 解码失败:", e)else:# 如果响应数据不是列表形式,打印错误信息print('响应中未找到列表形式的图片数据')
else:# 如果请求失败,打印状态码和错误信息print('获取处理后的图片失败,状态码:', response.status_code)print(response.text)

最终实现文件上传—> 处理文件—> 接收文件

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/684085.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

[Python进阶] 使用__import__函数动态导入模块

2.16 使用__import__函数动态导入模块 在Python中,__import__是一个内置函数,用于动态导入模块。它的语法如下: import(name, globalsNone, localsNone, fromlist(), level0) 其中,name是要导入的模块名称,globals和l…

基于FPGA的ECG信号滤波与心率计算verilog实现,包含testbench

目录 1.算法运行效果图预览 2.算法运行软件版本 3.部分核心程序 4.算法理论概述 4.1 ECG信号的特点与噪声 4.2 FPGA在ECG信号处理中的应用 4.3 ECG信号滤波原理 4.4 心率计算原理 4.5 FPGA在ECG信号处理中的优势 5.算法完整程序工程 1.算法运行效果图预览 其RTL结构如…

C++集群聊天服务器 muduo+nginx+redis+mysql数据库连接池 笔记 (下)

C集群聊天服务器 网络模块业务模块CMake构建项目 笔记 (上)-CSDN博客https://blog.csdn.net/weixin_41987016/article/details/135991635?spm1001.2014.3001.5501C集群聊天服务器 数据模块业务模块CMake构建项目 笔记 (上)-CSDN博…

QT-通信编码格式问题

这里写目录标题 一、项目场景1.QT客户端与服务端通信时,转化步骤如下:2.原数据示例3.转化后数据 二、问题描述1.采用Soap协议2.采用HTTP协议 三、原因分析四、解决方案 一、项目场景 1.QT客户端与服务端通信时,转化步骤如下: 1&…

free pascal:fpwebview 组件通过JSBridge调用本机TTS

从 https://github.com/PierceNg/fpwebview 下载 fpwebview-master.zip 简单易用。 先请看 \fpwebview-master\README.md cd \lazarus\projects\fpwebview-master\demo\js_bidir 学习 js_bidir.lpr ,编写 js_bind_speak.lpr 如下,通过JSBridge调用本机…

【软件设计模式之命令模式】

文章目录 一、命令模式简介1. 定义2. 核心概念a. 命令(Command)b. 接收者(Receiver)c. 调用者(Invoker)d. 客户端(Client) 二、命令模式的实际应用1. 命令模式的优点a. 解耦发起者和…

协调尺度:特征缩放在机器学习中的重要作用

目录 一、介绍 二、背景知识 三、了解功能缩放 四、特征缩放方法 五、特征缩放的重要性 六、实际意义 七、代码 八、结论 一、介绍 特征缩放是机器学习和数据分析预处理阶段的关键步骤,在优化各种算法的性能和效率方面起着至关重要的作用。本文深入探讨了特征缩放的…

什么是内存对齐?如何计算结构体类型的大小?

结构体内存对齐与结构体类型的大小 运行这样一段代码 我们想要计算这两个结构体类型的大小,而这个结构体类型里面成员变量有一个int类型和两个char类型,大小加起来应该是六个字节,但是我们打印出来发现,结果居然是12和8&#xff…

4.5 用qml实现横向滑动的多个页面

一、效果展示 带上main.qml,一共4个page。第4个page上面有一个按钮,点击则会直接返回的到首页,也就是第1个page。 二、main.qml中的代码 import QtQuick import QtQuick.Controls //若要使用控件,则导入该包ApplicationWindow …

记录 | ubuntu pyqt5 pycharm配置

Ubuntu16.04pycharmpyqt5安装与配置_ubuntu pycharm pyqt5-CSDN博客pycharm激活码 6ZUMD7WWWU-eyJsaWNlbnNlSWQiOiI2WlVNRDdXV1dVIiwibGljZW5zZWVOYW1lIjoiSmV0cyBHcm91cCIsImFzc2lnbmVlTmFtZSI6IiIsImFzc2lnbmVlRW1haWwiOiIiLCJsaWNlbnNlUmVzdHJpY3Rpb24iOiIiLCJjaGVja0NvbmN…

Apache httpd 换行解析漏洞复现(CVE-2017-15715)

Web页面&#xff1a; 新建一个一句话木马&#xff1a; 0.php <?php system($_GET[0]); ?> 上传木马&#xff0c; burpsuite 抓包。 直接上传是回显 bad file。 我们查看数据包的二进制内容&#xff08;hex&#xff09;&#xff0c;内容是以16进制显示的&#xff0c;…

【Go语言】第一个Go程序

第一个 Go 程序 1 安装 Go Go语言官网&#xff1a;Download and install - The Go Programming Language&#xff0c;提供了安装包以及引导流程。 以 Windows 为例&#xff0c;进入windows安装包下载地址&#xff1a;All releases - The Go Programming Language&#xff0c…

指针和句柄的区别和联系

句柄&#xff08;Handle&#xff09;和指针&#xff08;Pointer&#xff09;都是在计算机编程中用于引用内存地址的概念&#xff0c;但它们有一些关键的区别和联系。 区别&#xff1a; 指向对象的类型&#xff1a; 指针&#xff1a; 指针是直接存储一个变量或对象的内存地址的…

unity的重中之重:组件

检查器&#xff08;Hierarchy&#xff09;面板中的所有东西都是组件。日后多数工作都是和组件打交道&#xff0c;包括调参、自定义脚本组件。 文章目录 12 游戏的灵魂&#xff0c;脚本组件13 玩转脚本组件14 尽职的一生&#xff0c;了解组件的生命周期15 不能插队&#xff01;…

(力扣记录)1448. 统计二叉树中好节点的数目

数据结构&#xff1a;树&#x1f332; 时间复杂度&#xff1a;O(n) 空间复杂度&#xff1a;O(n) 代码实现&#xff1a; class Solution:def goodNodes(self, root: TreeNode) -> int:counter [0]def dfs(root, val):if not root: returnnext_val valif root.val > …

【蓝桥杯单片机入门记录】LED灯(附多个例程)

目录 一、LED灯概述 1.1 LED发光原理 1.2电路原理图 1.3电路实物图 1.4 开发板LED灯原理图 1.4.1共阳极LED灯操控原理&#xff08;本开发板&#xff09; &#xff08;非实际原理图&#xff0c;便于理解版本&#xff09;由图可以看出&#xff0c;每个LED灯的左边&#xf…

[OPEN SQL] 更新数据

UPDATE语句用于更新数据库表中的数据 本次操作使用的数据库表为SCUSTOM&#xff0c;其字段内容如下所示 航班用户(SCUSTOM) 需要操作更新以下数据 1.更新单条数据 语法格式 UPDATE <dbtab> FROM <wa>. UPDATE <dbtab> FROM TABLE <itab>. UPDATE &l…

Zeek实战—快速构建流量安全能力

第1章 网络流量与网络安全 1.2流量与网络 从宏观角度进行观察&#xff0c;如果将计算机网络看作一个整体&#xff0c;可以很容易抽象出它是由以下3个部分组成的。 1.网络终端。指连接在网络中的、能够产生或消费网络流量的软/硬件系统&#xff0c;是网络流量在正常情况下的…

Ps:曝光度

曝光度 Exposure命令在处理图像时&#xff0c;尤其是针对 32 位 HDR 图像&#xff0c;通常在线性颜色空间&#xff08;即灰度系数为 1.0&#xff09;中执行计算&#xff0c;这意味着它对图像的亮度进行直接和线性的调整。 这种处理方式特别适合处理高动态范围内容&#xff0c;因…

java常用API和库中的排序算法探讨

Java 在其标准库中提供了丰富的API和库来处理数组、集合、容器对象等的排序。以下是对这些常用API和库中的排序算法的介绍和详细讲解&#xff1a; 1. Arrays 类 java.util.Arrays 类提供了静态方法来对数组进行排序。它可以对基本数据类型数组以及对象数组进行排序。 对基本数…