探索Selenium的规避检测策略

Selenium之规避检测

背景

​ 目前很多大网站有对selenium采取了监测机制。在正常情况下我们用浏览器访问相关网站的window.navigator.webdriver的值为 undefined或者为false。而使用selenium访问则该值为true。我们如何伪装,防止被检测出来呢?

在这里插入图片描述

​ 这是正常浏览器访问,接下来我们看一下selenium的。

在这里插入图片描述

​ 怎么样,是不是被检测出来呢 ?被检测出来的话,可能会不给你数据,弹出一些警告等等,会影响网页的布局等等

应对措施:

使用随机的User-Agent:

​ 网站通常会根据User-Agent标识来判断请求是否来自真实的浏览器。通过设置随机的User-Agent,可以模拟多种浏览器行为。

from selenium import webdriver
from selenium.webdriver.chrome.options import Options
import random# 创建浏览器对象
options = Options()
options.add_argument("--disable-blink-features=AutomationControlled")# 设置随机User-Agent
user_agents = ["Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.71 Safari/537.36",# 添加其他User-Agent...
]
options.add_argument(f"user-agent={random.choice(user_agents)}")# 创建浏览器对象
driver = webdriver.Chrome(options=options)

​ 我们使用了Options对象来配置浏览器选项,通过add_argument()方法设置随机的User-Agent。您可以在user_agents列表中添加多个常见的浏览器User-Agent,然后使用random.choice()方法随机选择一个User-Agent作为请求头。

​ 当然我们也可以使用python自带的UA库,不需要自己找一些UA了。

from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from fake_useragent import UserAgent# 创建UserAgent对象
ua = UserAgent()# 生成随机User-Agent
user_agent = ua.random# 创建浏览器选项
options = Options()
options.add_argument(f"user-agent={user_agent}")# 创建浏览器对象
driver = webdriver.Chrome(options=options)
设置窗口大小和位置

​ 有些网站可能会根据窗口的大小和位置来检测自动化行为。可以使用set_window_size()set_window_position()方法设置浏览器窗口的大小和位置。

# 设置窗口大小和位置
driver.set_window_size(1024, 768)
driver.set_window_position(0, 0)

​ 通过设置合理的窗口大小和位置,可以使浏览器窗口看起来更像是由真实用户操作的。

延时操作

​ 加适量的延时操作可以模拟人类用户的行为模式。

import time
import random# 等待随机时间
time.sleep(random.uniform(1, 3))# 执行点击操作
element.click()# 等待一段时间
time.sleep(2)

​ 在执行某些操作之前等待一段随机的时间,或在执行点击操作后等待一小段时间,可以降低被检测的风险。

注入js脚本:

使用 execute_script() 方法修改 window.navigator.webdriver 的值。

from selenium import webdriver# 创建浏览器对象
driver = webdriver.Chrome()# 执行 JavaScript 代码修改 window.navigator.webdriver 的值
driver.execute_script("Object.defineProperty(navigator, 'webdriver', {get: () => undefined})")# 打开网页
driver.get("https://www.taobao.com")# 继续执行其他操作...# 关闭浏览器
driver.quit()
```

​ 在上述代码中,我们使用 execute_script() 方法执行 JavaScript 代码来修改 window.navigator.webdriver 的值为 undefined,以欺骗网站的检测机制。

使用 ChromeOptions 添加 excludeSwitches 选项:

from selenium import webdriver
from selenium.webdriver.chrome.options import Options# 创建浏览器选项
options = Options()# 添加 excludeSwitches 选项,禁用 webdriver
options.add_experimental_option("excludeSwitches", ["enable-automation"])# 创建浏览器对象
driver = webdriver.Chrome(options=options)# 打开网页
driver.get("https://www.taobao.com")# 继续执行其他操作...# 关闭浏览器
driver.quit()

在上述代码中,我们使用 add_experimental_option() 方法添加 excludeSwitches 选项,并设置为 ["enable-automation"],以禁用 WebDriver,从而绕过网站的检测。

终极策略:
from selenium.webdriver import ActionChains
from selenium.webdriver import Chrome
from selenium.webdriver.chrome.options import Optionschrome_options = Options()
chrome_options.add_argument("--disable-blink-features=AutomationControlled")
driver = Chrome('./chromedriver',options=chrome_options)
with open('./stealth.min.js') as f:js = f.read()
#进行js注入
driver.execute_cdp_cmd("Page.addScriptToEvaluateOnNewDocument", {"source": js
})driver.get('https://www.baidu.com')

大家如果想要这个js文件,可以上Github上找一下,这里我就分享了。

在这里插入图片描述

温馨提示:

​ 这些方法并不能保证适用于所有网站,因为不同的网站可能采取不同的检测机制。应该注意的是,规避网站的检测机制可能违反网站的使用条款或法律法规。在使用 Selenium 进行自动化脚本时,请确保遵守相关法律法规,并尊重网站的规则和限制。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/200202.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

POJ 3233 Matrix Power Series 动态规划(矩阵的幂)

一、题目大意 给出一个矩阵A, 输出矩阵B的每一项对M取余数的值。 二、解题思路 以二维矩阵为例,首先计算K2的情况,我们设结果矩阵为B 有如下表达式 那么不难看出,需要的矩阵其实就是以下的两个矩阵相乘后的左上角的N*N个 然后…

初识Linux——基本指令(详解)1

呀哈喽,我是结衣。 在学习数据结构的同时,也不要忘了Linux的学习啊。今天我们开始Linux的教学,在学习之前我们肯定要会搭建Linux的学习环境,在我们的以前的博客里是有讲解的,所以所以这里我们就不在多说,我…

UDP数据报套接字

文章目录 DatagramSocket APIDatagramPacket API示例一: 请求响应UDP服务端UDP客户端 DatagramSocket API Socket是操作系统中的一个概念,本质上是一种特殊的文件,Socket就属于把“网卡”这个设备给抽象成了文件。往 Socket 文件中写数据,就…

深入探讨Guava的缓存机制

第1章:引言 大家好,我是小黑,今天咱们聊聊Google Guava的缓存机制。缓存在现代编程中的作用非常大,它能提高应用性能,减少数据库压力,简直就是性能优化的利器。而Guava提供的缓存功能,不仅强大…

iptables入门

今天我的工作遇到了巡检网络配置的任务,这次巡检的主机都是运行十多年的机器,并不是新的firewalld,基本都是iptables,上学的时候以为这些都没人用,所以没有认真学习,现在需要用到了,所以写一篇文…

PostGIS学习教程九:空间连接

PostGIS学习教程九:空间连接 空间连接(spatial joins)是空间数据库的主要组成部分,它们允许你使用空间关系作为连接键(join key)来连接来自不同数据表的信息。我们认为“标准GIS分析”的大部分内容可以表示…

17.认识下Docker之docker的核心原理(2)

1.容器-我的小世界 不知道大家看没看过小说《完美时间》,里面石昊经常进入一个小世界在里面与世隔绝的修炼或者战斗,总之就是在一个完全封闭的空间里做他想做的事情而与外界隔离,不受侵扰。通过前面的分析我们知道,Namepace让应用…

SringBoot的启动原理,保姆级带你认识,让面试管对你刮目相看

SringBoot的启动原理,保姆级带你认识,让面试管对你刮目相看 一,介绍 graph TD; A[启动类] --> B[SpringApplication.run()] B --> C[创建SpringApplication实例] C --> D[初始化应用上下文] D --> E[加载应用配置] E --> F[…

树_二叉搜索树累加求和

//给出二叉 搜索 树的根节点,该树的节点值各不相同,请你将其转换为累加树(Greater Sum Tree),使每个节点 node 的新值等于原树中大于或等于 // node.val 的值之和。 // // 提醒一下,二叉搜索树满足下列约束…

【Vulnhub 靶场】【hacksudo: FOG】【简单 - 中等】【20210514】

1、环境介绍 靶场介绍:https://www.vulnhub.com/entry/hacksudo-fog,697/ 靶场下载:https://download.vulnhub.com/hacksudo/hacksudo-FOG.zip 靶场难度:简单 - 中等 发布日期:2021年05月14日 文件大小:1.3 GB 靶场作…

解决 vite 中 import.meta.globEager is not function 的问题

本人正在重构两年前搭建到一半的博客网站,相关依赖都很陈旧,用到了 npm-check-updates 检测项目可升级依赖: 升级完成后解决完依赖发现控制台报错 import.meta.globEager is not function解决方案: vite版本降至4.3.0 亲测有效&…

忽略python运行出现的大量警告

添加以下代码即可 import warnings warnings.filterwarnings(ignore)

App内存优化

一、内存优化介绍 1.背景介绍 内存是大问题但缺乏关注压实骆驼的最后一个稻草(堆栈溢出) 2.内存问题 内存抖动:锯齿状、GC导致卡顿内存泄露:可用内存减少、频繁GC内存溢出:OOM,程序异常 二、优化工具选…

FreeRTOS简介

FreeRTOS简介 文章目录 FreeRTOS简介前言一、什么是FreeRTOS?二、FreeRTOS的特点三、FreeRTOS的版本和参考资料1、FreeRTOS版本2、FreeRTOS源码获取3、FreeRTOS参考资料 四、FreeRTOS源码简介 前言 FreeRTOS是一个可以基于ROM运行的、可裁剪的、抢占式、实时多任务…

Photoshop最新版PS2024安装使用 Ver25.0.0

Photoshop,这个是长红了几十年的软件,我大概从它的3.0版本开始用,目前已迭代到25.0,但一直还在用CS4/11.0版本,一直秉持着够用即可的原则,因为不是专业的平面设计人员,能够简单PP图片就行。&…

C++智能指针及简单实现

C智能指针 堆内存、栈内存与静态内存静态内存栈内存堆内存 动态内存管理new、delete运算符智能指针实现智能指针 shared_ptr智能指针的线程安全问题解决 unique_ptrweak_ptr循环引用 思维导图本模块思路 动态内存管理 - cppreference.com 堆内存、栈内存与静态内存 静态内存 …

视觉测量基础

1. 相机模型 1.1 坐标系转换原理 世界坐标系(world Coords):点在真实世界中的位置,描述相机位置。 相机坐标系(Cameras Coords):以相机光学系统中心(镜头中心)为原点,建立相机坐标系。 图像物理坐标系(Film Coords):经过小孔成…

微服务实战系列之J2Cache

前言 经过近几天陆续发布Cache系列博文,博主已对业界主流的缓存工具进行了基本介绍,当然也提到了一些基本技巧。相信各位盆友看见这么多Cache工具后,在选型上一定存在某些偏爱: A同学说:不管业务千变万化,我对Redis的…

企业如何制定精准营销策略?

在当今的数字化时代,位置数据已经成为企业营销策略中不可或缺的一部分。通过收集和分析客户的位置数据,企业可以更好地了解客户的行为和需求,制定更精准的营销策略,从而提高营销效率。 首先,利用IP地址位置数据可以帮助…

手搓图片滑动验证码_JavaScript进阶

手搓图片滑动验证码 背景代码效果图展示网站 背景 在做前端项目开发的时候,少不了登录注册部分,既然有登录注册就少不了机器人验证,验证的方法有很多种,比如短信验证码、邮箱验证码、图片滑动、图片验证码等。 由于鄙人在开发中…