Python网络爬虫实战——实验4:Python爬虫代理的使用

【实验内容】

本实验主要介绍在爬虫采集数据的过程中代理的使用。

【实验目的】

1、掌握代理使用的基本场景;
2、解决IP封锁问题;
3、提高爬虫访问效率;

【实验步骤】

步骤1选择代理服务提供商
步骤2配置爬虫使用代理
步骤3 采集数据生成json文件

步骤1选择代理服务提供商
(1) 代理的概念
代理(Proxy)是一种网络服务,它充当客户端和目标服务器之间的中介,接受来自客户端的请求并将其转发给目标服务器。代理可以修改、过滤、缓存请求,同时也可以隐藏客户端的真实IP地址。在网络爬虫和其他网络应用中,代理通常用于实现以下目的:

  • 隐藏真实IP地址
  • 绕过IP封锁提高访问速度和效率
  • 访问受限制的内容
  • 实现负载均衡

(2) 选择代理服务商
有许多代理服务商提供各种类型的代理服务,包括HTTP、HTTPS、Socks5等。以下是一些常见的代理服务商,它们提供了不同类型的代理,适用于各种需求。

  • 阿布云(Abuyun)
  • 快代理(Kuai Proxy)
  • 芝麻代理(ZhiMa Proxy)

本次实验以快代理为例。

注册登录账号后,选择购买如所示的代理(以隧道代理为例)。
-***************************************************************************
购买完成后回到账户管理页面,在我的订单可以看到刚刚购买的产品。
-***************************************************************************
步骤2配置爬虫使用代理
以四川政府采购中标数据为例(http://www.ccgp-sichuan.gov.cn/),在不使用代理对该网址进行高频率数据采集时,本机ip会被该网址进行屏蔽,返回空数据,此时就需要代理ip 的介入。
-*************************************************************************
配置代理ip,将其封装为一个函数,这样便于整个项目的使用。
-***************************************************************************

步骤3 采集数据生成json文件
(1) 获取子页面链接
分析该网址很容易发现该网页使用ajax发送请求返回数据,因此我们只需要对该接口发送请求就可以获得子页面的数据。在这里插入图片描述在这里插入图片描述/=====================================================================/
-************************************************************************
从返回的数据中解析出子链接、地区名、地区码,将其传递给parse_html解析页面。

(2) 解析子页面数据
/======================================================================================================================================/
-*********************************************************************
使用lxml.html的clean模块将返回的文本内容进行清理,去除掉

文件部分内容如下:
-*********************************************************************

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/649973.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Rust复合类型之元组

元组是一个有着固定(元素)长度的列表,每个元素的类型有可能是不同的。类型和元素都用小括号括起来,它们之间用逗号隔开。例如: fn main() { let itemname: (i32, f64, u8) (500, 6.4, 1); }元组可以使用.来访问其中的…

priority_queue模拟

文章目录 模拟priority_queue性质:成员函数:向上调整、向下调整push/pop/empty/top/size/empty成员变量 仿函数struct和class练习题堆的一些性质 模拟priority_queue 性质: 是容器适配器; 底层逻辑是堆,适配器是vect…

Android MVVM+Clean架构简介

本文主要介绍Android开发中MVVM Clean架构。 一、ViewModel ViewModel 类是一种业务逻辑或屏幕级状态容器。它用于将状态公开给界面,以及封装相关的业务逻辑。 它的主要优点是,它可以缓存状态,并可在配置更改后持久保留相应状态。这意味着在 …

音频筑基:窄带、宽带、超宽带、全带一次说透

音频筑基:窄带、宽带、超宽带、全带一次说透 窄带、宽带、超宽带、全带定义参考资料 音频信号中,经常遇到窄带、宽带等说法,本文进行一个小结归类。 窄带、宽带、超宽带、全带定义 窄带、宽带到全带,总体来说是,指对音…

Android JNI中设置全局的jbyteArray

在JNI的代码文件中声明一个全局变量,用来存储jbyteArray对象。你可以在JNI的头文件中定义该变量。 static jbyteArray globalByteArray;在JNI的某个函数中,将传递的jbyteArray对象赋值给全局变量。 JNIEXPORT void JNICALL Java_com_example_MyClass_set…

【遥感专题系列】影像信息提取之——基于专家知识的决策树分类

可以将多源数据用于影像分类当中,这就是专家知识的决策树分类器,本专题以ENVI中Decision Tree为例来叙述这一分类器。 本专题包括以下内容: 专家知识分类器概述知识(规则)定义ENVI中Decision Tree的使用 概述 基于知…

数据结构与算法——队列

概述 计算机科学中,queue 是以顺序的方式维护的一组数据集合,在一端添加数据,从另一端移除数据。添加的一端称为尾,移除的一端称为头。 功能 插入offer(value : E) : boolean  取值并移除poll() : E  取值peek() : E  判断…

LeetCode 40.组合总和 II

组合总和 II 给定一个候选人编号的集合 candidates 和一个目标数 target ,找出 candidates 中所有可以使数字和为 target 的组合。 candidates 中的每个数字在每个组合中只能使用 一次 。 注意:解集不能包含重复的组合。 方法一、回溯 由于题目要求解集…

实体识别与分类方法综述

目录 前言1 实体识别简介2 基于模板和规则的方法3 基于序列标注的方法3.1 常见序列标注模型3.2 模型参数估计和学习问题3.3 常见序列预测模型 4. 基于深度学习的实体识别方法5 基于预训练语言模型的实体识别5.1 BERT、GPT等预训练语言模型5.2 解码策略 6 特殊问题与挑战6.1 标签…

如何提高记忆力?

许多学员经常问我:为什么您的记忆力那么好?有没有什么方法,可以提高记忆力? 今天,我想好好聊聊这个问题。 当然,学习和记忆,是一个巨大的话题。这篇文章只是一个初探。希望能帮你打开一些视野&a…

关于java中static详解

关于java中static详解 我们接触static的时候不是在学习面向对象的时候接触的,是在学习方法的时候就有过接触,我们之前对static的了解只是静态的修饰,本篇文章我们对static这个修饰符做一个详细的理解😀。 static 如果在属性上&a…

深入理解Redis:如何设置缓存数据的过期时间及其背后的机制

目录 Redis 给缓存数据设置过期时间 Redis是如何判断数据是否过期的呢? 过期的数据的删除策略 Redis 内存淘汰机制 Redis 给缓存数据设置过期时间 一般情况下,我们设置保存的缓存数据的时候都会设置一个过期时间。为什么呢? 因为内存是有…

算法训练营Day48(动态规划9)

说明 今天就是打家劫舍的一天,这个系列不算难,可以一口气拿下。 198.打家劫舍 力扣(LeetCode)官网 - 全球极客挚爱的技术成长平台 class Solution:def rob(self, nums: List[int]) -> int:if len(nums) 0: # 如果没有房屋&a…

电流检测电路设计方案汇总

电流检测电路设计方案(一) 低端检流电路的检流电阻串联到地(图1),而高端检流电路的检流电阻是串联到高电压端(图2)。两种方法各有特点:低端检流方式在地线回路中增加了额外的线绕电…

​ElasticSearch

目录 简介 基本概念 倒排索引 FST 简介 ES是一个基于lucene构建的,分布式的,RESTful的开源全文搜索引擎。支持对各种类型的数据的索引;搜索速度快,可以提供实时的搜索服务;便于水平扩展,每秒可以处理 …

等保2.0 MySQL 5.7 配置修改

MySQL 5.7 等保2.0 配置修改 设置 connection_control 插件修改 root 用户名开启普通日志和二进制日志 设置 connection_control 插件 安装插件 # 登录数据库 mysql -u root -p# windows 下 INSTALL PLUGIN CONNECTION_CONTROL SONAME connection_control.dll INSTALL PLUGIN…

响应式Web开发项目教程(HTML5+CSS3+Bootstrap)第2版 例5-1事件处理

代码 <!doctype html> <html> <head> <meta charset"utf-8"> <title>事件处理</title> </head><body> <input id"btn" type"button" name"btn" value"提交" /> <…

深入理解ZooKeeper分布式锁

第1章&#xff1a;引言 分布式系统&#xff0c;简单来说&#xff0c;就是由多台计算机通过网络相连&#xff0c;共同完成任务的系统。想象一下&#xff0c;咱们平时上网浏览网页、看视频&#xff0c;背后其实都是一大堆服务器在协同工作。这些服务器之间需要协调一致&#xff…

【golang】slice赋值null slice不使用零值 | go slice append 头插 尾插

一、slice 传 null 1、如何禁止零值 众所周知go如果初始化都会自带零值效果 比如一个切片我们在传送过程中&#xff0c;如果被占位且不想传值为零值 我们就需要使用* 1.1、定义一个带零值的slice 定义如下&#xff1a; slice make([]float64, 5)这样会输出&#xff1a; [0,…

小游戏选型(二):第三方社交小游戏厂家对比,即构/声网/融云/云信等

前言&#xff1a; 上一篇文章我们主要介绍社交游戏化趋势&#xff0c;并分析了直播平台面临的买量贵、变现难等问题&#xff0c;探讨了小游戏作为新的运营变现玩法的优势。同时还列举了各大直播平台TOP5的小游戏。今天我们继续介绍小游戏系列内容&#xff0c;本文是该系列的第…