Python 爬虫如何伪装 Referer?从随机生成到动态匹配

一、Referer 的作用与重要性

Referer 是 HTTP 请求头中的一个字段,用于标识请求的来源页面。它在网站的正常运行中扮演着重要角色,例如用于统计流量来源、防止恶意链接等。然而,对于爬虫来说,Referer 也可能成为被识别为爬虫的关键因素之一。许多网站会检查 Referer 字段,如果发现请求头中缺少 Referer 或者 Referer 的值不符合预期,网站可能会拒绝服务或者返回错误信息。

因此,伪装 Referer 成为了爬虫开发者的重要任务。通过合理地设置 Referer,可以降低爬虫被检测到的风险,提高数据采集的成功率。

二、随机生成 Referer

随机生成 Referer 是一种简单但有效的伪装方法。通过生成一些常见的、看似合法的 Referer 值,可以欺骗网站的反爬虫机制。以下是一个使用 Python 实现随机生成 Referer 的示例代码:

import random# 定义一些常见的 Referer 值
referer_list = ["https://www.google.com","https://www.bing.com","https://www.baidu.com","https://www.sogou.com","https://www.yahoo.com","https://www.duckduckgo.com","https://www.yandex.com","https://www.bing.com/search?q=python+爬虫","https://www.google.com/search?q=python+爬虫","https://www.sogou.com/web?query=python+爬虫","https://www.baidu.com/s?wd=python+爬虫","https://www.yandex.com/search/?text=python+爬虫","https://www.duckduckgo.com/?q=python+爬虫"
]# 随机选择一个 Referer
def random_referer():return random.choice(referer_list)# 使用 requests 库发送请求
import requestsdef fetch_with_random_referer(url):headers = {"Referer": random_referer(),"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3"}response = requests.get(url, headers=headers)return response# 测试
url = "https://example.com"
response = fetch_with_random_referer(url)
print(response.status_code)
print(response.headers)

代码解析

  1. 定义 Referer 列表:我们定义了一个包含常见搜索引擎和搜索结果页面的 Referer 列表。这些 Referer 值看起来像是用户通过搜索引擎访问目标页面的来源。
  2. 随机选择 Referer:通过 <font style="color:rgba(0, 0, 0, 0.9);">random.choice()</font> 方法从列表中随机选择一个 Referer 值。
  3. 发送请求:使用 <font style="color:rgba(0, 0, 0, 0.9);">requests</font> 库发送 HTTP 请求时,将随机选择的 Referer 添加到请求头中。同时,我们还添加了一个常见的 <font style="color:rgba(0, 0, 0, 0.9);">User-Agent</font>,以进一步伪装请求。

优点

  • 简单易实现:随机生成 Referer 的方法非常简单,只需要定义一个 Referer 列表并随机选择即可。
  • 成本低:不需要复杂的逻辑和额外的资源,适合初学者快速上手。

缺点

  • 容易被识别:虽然随机生成的 Referer 可以欺骗一些简单的反爬虫机制,但对于复杂的网站,这种方法可能很容易被识别。因为随机生成的 Referer 可能与实际的用户行为模式不一致。

三、动态匹配 Referer

为了进一步提高伪装效果,我们可以采用动态匹配 Referer 的方法。动态匹配是指根据目标网站的页面结构和链接关系,动态生成合理的 Referer 值。这种方法需要对目标网站的结构进行分析,并根据实际的用户行为路径生成 Referer。

以下是一个动态匹配 Referer 的实现示例:

import requests
from bs4 import BeautifulSoup# 获取目标页面的链接
def get_links(url):headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3"}response = requests.get(url, headers=headers)soup = BeautifulSoup(response.text, "html.parser")links = []for link in soup.find_all("a", href=True):links.append(link["href"])return links# 动态生成 Referer
def dynamic_referer(url, links):# 选择一个与目标页面相关的链接作为 Refererreferer = random.choice(links)if not referer.startswith("http"):referer = url + refererreturn referer# 使用动态 Referer 发送请求
def fetch_with_dynamic_referer(url):links = get_links(url)referer = dynamic_referer(url, links)headers = {"Referer": referer,"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3"}response = requests.get(url, headers=headers)return response# 测试
url = "https://example.com"
response = fetch_with_dynamic_referer(url)
print(response.status_code)
print(response.headers)

代码解析

  1. 获取目标页面的链接:使用 <font style="color:rgba(0, 0, 0, 0.9);">requests</font><font style="color:rgba(0, 0, 0, 0.9);">BeautifulSoup</font> 库获取目标页面的 HTML 内容,并解析出页面中的所有链接。
  2. 动态生成 Referer:从获取到的链接列表中随机选择一个链接作为 Referer 值。如果链接是相对路径,则将其转换为绝对路径。
  3. 发送请求:将动态生成的 Referer 添加到请求头中,并发送请求。

优点

  • 伪装效果更好:动态生成的 Referer 更符合实际的用户行为模式,因为它是根据目标页面的实际链接关系生成的。
  • 适应性强:这种方法可以根据不同的目标网站动态调整 Referer,具有较强的适应性。

缺点

  • 实现复杂:需要对目标网站的结构进行分析,并且需要解析 HTML 内容,实现成本较高。
  • 性能问题:动态生成 Referer 的过程需要额外的网络请求和解析操作,可能会对爬虫的性能产生一定影响。

四、结合代理和 IP 池

除了伪装 Referer,结合代理和 IP 池可以进一步提高爬虫的伪装效果和稳定性。代理服务器可以隐藏爬虫的真实 IP 地址,而 IP 池可以提供多个代理 IP,避免因频繁访问而被封禁。

以下是一个结合代理和 IP 池的实现示例:

import random
import requests
from requests.auth import HTTPProxyAuth# 定义代理服务器信息
proxyHost = "www.16yun.cn"
proxyPort = "5445"
proxyUser = "16QMSOML"
proxyPass = "280651"# 构造代理地址
proxy_url = f"http://{proxyHost}:{proxyPort}"# 定义代理认证信息
proxy_auth = HTTPProxyAuth(proxyUser, proxyPass)# 动态生成 Referer(假设 get_links 和 dynamic_referer 函数已定义)
def get_links(url):headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3"}response = requests.get(url, headers=headers, proxies={"http": proxy_url, "https": proxy_url}, auth=proxy_auth)soup = BeautifulSoup(response.text, "html.parser")links = []for link in soup.find_all("a", href=True):links.append(link["href"])return linksdef dynamic_referer(url, links):referer = random.choice(links)if not referer.startswith("http"):referer = url + refererreturn referer# 使用动态 Referer 和代理发送请求
def fetch_with_proxy_and_referer(url):links = get_links(url)referer = dynamic_referer(url, links)headers = {"Referer": referer,"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3"}proxies = {"http": proxy_url,"https": proxy_url}response = requests.get(url, headers=headers, proxies=proxies, auth=proxy_auth)return response# 测试
url = "https://example.com"
response = fetch_with_proxy_and_referer(url)
print(response.status_code)
print(response.headers)

代码解析

  1. 定义代理 IP 池:定义一个包含多个代理 IP 的列表。
  2. 随机选择代理:通过 <font style="color:rgba(0, 0, 0, 0.9);">random.choice()</font> 方法从代理 IP 池中随机选择一个代理。
  3. 发送请求:将动态生成的 Referer 和随机选择的代理添加到请求中,并发送请求。

优点

  • 伪装效果更强:结合代理和 IP 池可以同时隐藏爬虫的真实 IP 地址和伪装 Referer,大大提高了伪装效果。
  • 稳定性更高:使用 IP 池可以避免因频繁访问而被封禁,提高了爬虫的稳定性。

总结

伪装 Referer 是 Python 爬虫中应对反爬虫机制的重要手段之一。通过随机生成 Referer 和动态匹配 Referer,可以有效降低爬虫被检测到的风险。结合代理和 IP 池,可以进一步提高爬虫的伪装效果和稳定性。在实际应用中,开发者需要根据目标网站的反爬虫机制和自身的需求,选择合适的伪装方法。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/78370.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Post-Processing PropertySource instance详解 和 BeanFactoryPostProcessor详解

PropertySourcesBeanFactoryPostProcessor详解 1. 核心概念 BeanFactoryPostProcessor 是 Spring 框架中用于在 BeanFactory 初始化阶段 对 Environment 中的 PropertySource 进行后处理的接口。它允许开发者在 Bean 创建之前 对属性源进行动态修改&#xff0c;例如添加、删除…

[C]基础13.深入理解指针(5)

博客主页&#xff1a;向不悔本篇专栏&#xff1a;[C]您的支持&#xff0c;是我的创作动力。 文章目录 0、总结1、sizeof和strlen的对比1.1 sizeof1.2 strlen1.3 sizeof和strlen的对比 2、数组和指针笔试题解析2.1 一维数组2.2 字符数组2.2.1 代码12.2.2 代码22.2.3 代码32.2.4 …

赛灵思 XCKU115-2FLVB2104I Xilinx Kintex UltraScale FPGA

XCKU115-2FLVB2104I 是 AMD Xilinx Kintex UltraScale FPGA&#xff0c;基于 20 nm 先进工艺&#xff0c;提供高达 1 451 100 个逻辑单元&#xff08;Logic Cells&#xff09;&#xff0c;77 721 600 bit 的片上 RAM 资源&#xff0c;以及 5 520 个 DSP 切片&#xff08;DSP48E…

CAPL编程_03

1_文件操作的相关函数&#xff1a; 读文本文件内容 读取文本文件操作的三部曲 1&#xff09;打开文件 —— openFileRead ( ) 2&#xff09;逐行读取 —— fileGetString ( ) 、fileGetStringSZ ( ) 3&#xff09;关闭文件 —— fileClose ( ) char content[100];…

2025年江西建筑安全员A证适合报考人群

江西建筑安全员A证适合报考人群 江西省建筑安全员A证&#xff08;建筑施工企业主要负责人安全生产考核合格证书&#xff09;主要面向建筑行业管理人员&#xff0c;适合以下人员报考&#xff1a; 1. 企业主要负责人 法人代表、总经理、分管安全副总&#xff1a;依法需持A证&a…

Docker安装(Ubuntu22版)

前言 你是否还在为Linux上配置Docker而感到烦恼&#xff1f; 你是否还在为docker search&#xff0c;docker pull连接不上&#xff0c;而感到沮丧&#xff1f; 本文将解决以上你的所有烦恼&#xff01;快速安装好docker&#xff01; Docker安装 首先&#xff0c;我们得先卸载…

Ubuntu18.04配置C++环境和Qt环境

Ubuntu18.04配置C环境和Qt环境 1、前言3.2 安装其他库3.3 查看有没有安装成功3.4测试C环境 4、配置Qt环境4.1 安装相关的库4.2 测试 5、总结 1、前言 记录一下Ubuntu18.04配置C环境和Qt环境的过程&#xff0c;方便自己日后回顾&#xff0c;也可以给有需要的人提供帮助。 # 2…

ACWing——算法基础课

置顶思考&#xff1a; 算法的本质是什么样的思想&#xff1f; 这种思想可以解决哪类问题&#xff1f; 有没有其他的解决思路&#xff1f; 关注数值范围&#xff0c;思考可不可以针对性解决问题&#xff1f; 目录 https://leetcode.cn/circle/discuss/RvFUtj/ 滑动窗口与双指针…

私钥连接服务器(已经有服务器私钥

前言&#xff1a;假设我们已经有了服务器的私钥&#xff0c;我们怎么配置呢&#xff1f; 下面我会从vsc的配置角度来写 ✅ 步骤一&#xff1a;准备工作 安装 VS Code&#xff08;如果还没装&#xff09; &#x1f449; https://code.visualstudio.com/ 安装插件&#xff1a;Re…

Redis LFU 策略参数配置指南

一、基础配置步骤‌ 设置内存上限‌ 在 redis.conf 配置文件中添加以下指令&#xff0c;限制 Redis 最大内存使用量&#xff08;例如设置为 4GB&#xff09;&#xff1a; maxmemory 4gb选择 LFU 淘汰策略‌ 根据键的作用域选择策略&#xff1a; # 所有键参与淘汰 maxmemory-…

嵌入式 C 语言面试核心知识点全面解析:基础语法、运算符与实战技巧

在嵌入式面试中&#xff0c;C 语言基础是重中之重。本文针对经典面试题进行详细解析&#xff0c;帮助新手系统掌握知识点&#xff0c;提升面试应对能力。 一、数据结构逻辑分类 题目 在数据结构中&#xff0c;从逻辑上可以把数据结构分为&#xff08; &#xff09;。 A、动态…

11.AOP开发

十一、AOP开发 1、Spring Boot实现 AOP 11.1.1、SpringBootAop简介 Spring Boot的AOP编程和Spring框架中AOP编程的唯一区别是&#xff1a;引入依赖的方式不同,其他内容完全一样 Spring Boot中AOP编程需要引入aop启动器&#xff1a; <!--aop启动器--> <dependency…

【网络入侵检测】基于源码分析Suricata的PCAP模式

【作者主页】只道当时是寻常 【专栏介绍】Suricata入侵检测。专注网络、主机安全,欢迎关注与评论。 1. 概要 👋 本文聚焦于 Suricata 7.0.10 版本源码,深入剖析其 PCAP 模式的实现原理。通过系统性拆解初始化阶段的配置流程、PCAP 数据包接收线程的创建与运行机制,以及数据…

.NET 10 中的新增功能

.NET 运行时 .NET 10 运行时引入了新功能和性能改进。 关键更新包括&#xff1a; 数组接口方法反虚拟化&#xff1a;JIT 现在可以取消虚拟化和内联数组接口方法&#xff0c;从而提高数组枚举的性能。数组枚举去抽象化&#xff1a;改进功能以通过枚举器减少数组迭代的抽象开销…

盲注命令执行(Blind Command Execution)

一、核心原理 1. 无回显命令执行的本质 盲命令执行&#xff08;Blind Command Execution&#xff09;是一种攻击形式&#xff0c;攻击者通过注入系统命令到Web应用或后端系统中&#xff0c;但无法直接获取命令执行结果。盲命令执行的本质在于攻击者无法直接看到执行结果&#x…

Linux多线程技术

什么是线程 在一个程序里的多执行路线就是线程。线程是进程中的最小执行单元&#xff0c;可理解为 “进程内的一条执行流水线”。 进程和线程的区别 进程是资源分配的基本单位&#xff0c;线程是CPU调度的基本单位。 fork创建出一个新的进程&#xff0c;会创建出一个新的拷贝&…

计算机组成原理实验(1) 算术逻辑运算单元实验

实验一 算术逻辑运算单元实验 一、实验目的 1、掌握简单运算器的数据传输方式 2、掌握74LS181的功能和应用 二、实验内容 1、不带进位位逻辑或运算实验 2、不带进位位加法运算实验 3、实验指导书2.15实验思考 三、实验步骤和结果 实验内容一&#xff1a;不带进位…

Android将启动画面实现迁移到 Android 12 及更高版本

如果在 Android 11 或更低版本中实现自定义启动画面&#xff0c;请迁移应用迁移到 SplashScreen API 以获取帮助 确保其在 Android 12 及更高版本中正确显示。 从 Android 12 开始&#xff0c;在所有应用的冷启动和温启动期间&#xff0c;系统都会应用 Android 系统的默认启动…

692. 前K个高频单词(map的练习)

目录 1、题目分析 2.解题思路 3.代码实现 4.总结 1、题目分析 2.解题思路 首先它给出我们一个string&#xff0c;让我们提取出它们中出现次数最多的。利用map将word一个一个存入其中&#xff0c;没有就插入&#xff0c;有了就1&#xff0c;这样我们就得到了key_value&#…

如何创建极狐GitLab 议题?

极狐GitLab 是 GitLab 在中国的发行版&#xff0c;关于中文参考文档和资料有&#xff1a; 极狐GitLab 中文文档极狐GitLab 中文论坛极狐GitLab 官网 创建议题 (BASIC ALL) 创建议题时&#xff0c;系统会提示您输入议题的字段。 如果您知道要分配给议题的值&#xff0c;则可…