使用Selenium爬取目标网站被识别的解决之法

在进行网络数据抓取和爬取时,Selenium是一个常用的工具,它可以模拟人类用户的行为,自动化地操作浏览器进行页面的访问和数据的提取。然而,随着网站对爬虫的检测能力不断提升,很多爬虫程序在运行过程中经常会遭遇被目标网站识别的问题,导致爬取失败或者被封禁。本文将介绍Selenium爬虫技术的概述、优势,以及一些应对被识别的解决方案。

Selenium爬虫技术概述

Selenium是一个自动化测试工具,最初用于Web应用的功能测试,后来被广泛应用于网络爬虫领域。它支持多种浏览器,包括Chrome、Firefox、Safari等,可以模拟用户在浏览器中的操作,如点击、输入、下拉等,实现对网页的自动化访问和数据提取。

Selenium爬虫技术优势

  1. 模拟真实用户行为:Selenium可以模拟人类用户在浏览器中的操作,如鼠标点击、键盘输入等,让爬虫行为更加接近真实用户,降低被识别的概率。
  2. 支持JavaScript渲染页面:许多现代网站采用了JavaScript动态渲染页面的技术,传统的爬虫工具往往无法正确解析这类页面,而Selenium可以完美应对,保证数据的完整性和准确性。
  3. 灵活性高:Selenium提供了丰富的API接口和强大的定制能力,可以根据实际需求编写复杂的爬虫程序,应对各种场景的数据提取需求。

实现功能

在使用Selenium进行爬虫程序开发时,我们通常需要实现以下功能:

  1. 模拟登录:如果目标网站需要登录才能访问需要的数据,我们需要编写代码模拟登录过程,包括输入用户名密码、点击登录按钮等。
  2. 页面访问:通过Selenium可以自动打开浏览器,并访问目标网页,获取页面源代码或者特定元素的内容。
  3. 数据提取:利用Selenium提供的API,可以定位页面上的特定元素,并提取其中的文本、链接、图片等信息。
  4. 处理动态页面:许多网站采用了JavaScript技术动态加载数据,这就需要使用Selenium模拟用户操作,触发页面的JavaScript代码执行,然后再提取数据。

解决被识别的问题

尽管Selenium具有很多优势,但在实际使用中,仍然会遇到被目标网站识别的问题。以下是一些常见的解决方案:

  1. 使用随机延时:在爬取过程中,模拟用户的行为时可以加入一些随机的延时,让爬虫的行为更加像真实用户,减少被识别的可能性。
  2. 设置User-Agent:通过设置合理的User-Agent头信息,可以让爬虫看起来更像普通用户,降低被识别的风险。
  3. 使用代理IP:通过使用代理IP,可以隐藏真实的访问来源,增加爬虫的隐蔽性,降低被封禁的概率。
  4. 定期更新代码:目标网站的反爬虫策略可能会不断变化,定期更新爬虫程序的代码,适应新的反爬虫措施。

根据以上解决方案实现的完整代码过程如下:

from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.keys import Keys
import random
import time# 随机延时函数
def random_delay():delay = random.randint(1, 5)  # 随机生成1到5秒的延时time.sleep(delay)# 设置User-Agent头信息
def set_user_agent():user_agents = ["Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.150 Safari/537.36","Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.121 Safari/537.36","Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36",# 其他常见的User-Agent]options = Options()options.add_argument(f'user-agent={random.choice(user_agents)}')return options# 主程序
def main():url = "https://example.com"  # 替换为目标网站的URL# 设置Chrome浏览器选项chrome_options = set_user_agent()# 添加代理信息proxyHost = "www.16yun.cn"proxyPort = "5445"proxyUser = "16QMSOML"proxyPass = "280651"proxy_options = f"--proxy-server=http://{proxyUser}:{proxyPass}@{proxyHost}:{proxyPort}"chrome_options.add_argument(proxy_options)# 初始化Chrome浏览器driver = webdriver.Chrome(options=chrome_options)try:# 随机延时random_delay()# 访问目标网站driver.get(url)# 在这里可以继续编写爬取逻辑,如模拟点击、提取数据等print("爬取成功!")except Exception as e:print("爬取失败:", e)finally:# 关闭浏览器driver.quit()if __name__ == "__main__":main()

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/4457.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

[DEMO]给两个字符串取交集的词语

要求:2个英文字符串中,取相同的大于等于4个字母的词组 比如: 字符串1:" xingMeiLingabcdef WorldHello", 字符串2:"mnjqlup WorldLingLing xingMeiLingHello" 获取交接: [xingMeiLing…

Faiss:高效相似性搜索与聚类的利器

Faiss 是一个针对大规模向量集合的相似性搜索库,由 Facebook AI Research 开发。它提供了一系列高效的算法和数据结构,用于加速向量之间的相似性搜索,特别是在大规模数据集上。本文将介绍 Faiss 的原理、核心功能以及如何在实际项目中使用它。…

Vue3 中 defineProps 怎么设置默认值?

在 Vue3 中,我们经常需要使用 defineProps 来定义组件的属性,但是如何设置这些属性的默认值呢? 这是一个常见的问题,特别是在开发过程中,我们希望能够为组件的属性提供一些默认值,以便在未传递属性值时能够…

西湖大学赵世钰老师【强化学习的数学原理】学习笔记2节

强化学习的数学原理是由西湖大学赵世钰老师带来的关于RL理论方面的详细课程,本课程深入浅出地介绍了RL的基础原理,前置技能只需要基础的编程能力、概率论以及一部分的高等数学,你听完之后会在大脑里面清晰的勾勒出RL公式推导链条中的每一个部…

LangChain入门教程 - 基本问答

自己的学习记录,想到哪里写到哪里。下面用LC指代LangChain。更详细的内容请查看LangChain中文网。 LLM和ChatModel有什么区别? 这是使用LC首先会遇到的问题。 在 Langchain 中,ChatModel 和 LLM(Large Language Model&#xff…

鸿蒙原生应用元服务开发-Web管理位置权限

Web组件提供位置权限管理能力。开发者可以通过onGeolocationShow()接口对某个网站进行位置权限管理。Web组件根据接口响应结果,决定是否赋予前端页面权限。获取设备位置,需要开发者配置ohos.permission.LOCATION权限。 在下面的示例中,用户点…

BKP备份寄存器RTC实时时钟

文章目录 BKP简介相关引脚BKP基本结构 RTC简介RTC框图三种时钟源RTC基本结构 硬件电路RTC操作注意事项 BKP简介 BKP(Backup Registers)备份寄存器BKP可用于存储用户应用程序数据。当VDD(2.0~ 3.6V)电源被切断,他们仍然…

【数学题】俄罗斯竞赛题笔算开平方√446224

这里写目录标题 一级目录二级目录三级目录 一、题目二、解题方式1:设元配方三、解题方式2:逐位逼近①因式分解②数字范围分析③求十位③求个位④整理 四、解题方式3:逐位逼近2①因式分解②数字范围分析③假设个位是3,设十位m,则③…

学生管理系统代码

学生管理系统代码 好好看&#xff0c;好好学&#xff0c;知识点的部分看不懂就多查。 内容很多&#xff0c;仔细看。 #include <stdio.h> #include <stdlib.h> #define M 100 #define N 10//定义学生相关信息结构体 typedef struct stu {char sn[13];char name[9…

【QT】ROS2 Humble联合使用QT教程

【QT】ROS2 Humble联合使用QT教程 文章目录 【QT】ROS2 Humble联合使用QT教程1. 安装ROSProjectManager插件2. 创建ROS项目3.一个快速体验的demoReference 环境的具体信息如下&#xff1a; ubunt 22.04ros2 humbleQt Creator 13.0.0ROS ProjectManager 13.0.0 本文建立在已经…

3D头模加载

目录 psbody加载 psbody示例 trimesh加载 openmesh psbody加载 codetalker from psbody.mesh import Meshif cfg.dataset "BIWI":template_file os.path.join(cfg.data_root, "BIWI.ply")elif cfg.dataset "vocaset":template_file os…

git bash上传本地文件报错debug

报错信息 remote: error: Trace: 9621c90b124fcb8e353c79fc4011b62f684d0850872e2a5a9ee4bdf1e8092198 remote: error: See https://gh.io/lfs for more information. remote: error: File res_checkpoint/3_17_heart.pth is 357.69 MB; this exceeds GitHubs file size limit…

MT3030 天梯赛

跟MT3029战神小码哥类似&#xff0c;都是贪心堆。注意开long long 这里的堆顶为战斗力最小的&#xff0c;便于贪心的反悔操作。先按容忍度从大到小排序&#xff08;q中总容忍度取决于最小的容忍度&#xff09;&#xff0c;再向q中存数&#xff0c;存到不能容忍之后再把堆顶踢出…

深度学习-线性回归+基础优化算法

目录 线性模型衡量预估质量训练数据参数学习训练损失最小化损失来学习参数显式解 总结基础优化梯度下降选择学习率 小批量随机梯度下降选择批量大小 总结线性回归的从零开始实现实现一个函数读取小批量效果展示这里可视化看一下 线性回归从零开始实现线性回归的简洁实现效果展示…

MATLAB初学者入门(12)—— 模拟退火算法

模拟退火&#xff08;Simulated Annealing, SA&#xff09;是一种概率性搜索技术&#xff0c;用于寻找给定函数的全局最优解。该算法受到物理学中固体退火过程的启发&#xff0c;通过模拟物质冷却过程中粒子的随机运动&#xff0c;来逐步寻找优化解。它允许在搜索过程中偶尔接受…

【Java那些事】@TableField对字段的自动填充

问题&#xff1a;当你有个对象User时&#xff0c;这个User对象的属性还有类似createTime &#xff0c;updateTime的属性&#xff0c;每次创建这个对象都要设置createTime &#xff0c;updateTime&#xff0c;对这个对象User进行操作又要来更新它的updateTime&#xff0c;是不是…

静态住宅IP代理VS动态住宅IP代理,该如何选择?

在网络安全和数据采集领域&#xff0c;代理服务已经成为一个必不可少的工具。在IP代理服务中&#xff0c;静态住宅代理和动态住宅代理是两种常见的代理类型。今天就为大家详细介绍静态住宅代理与动态住宅代理的差异。 首先我们来看什么是静态住宅IP&#xff0c;这种IP地址可以被…

硅酸盐玻璃反应离子刻蚀在光学微系统的应用前景

引言 微光学元件和复杂光学微系统需要超精密制造工艺。最大容许粗糙度由所用波长λ的分数定义&#xff0c;例如λ或更好&#xff0c;而元件的整体尺寸和形状可以容易地达到毫米或厘米范围。在RIE过程中&#xff0c;材料传输是通过离子和反应气体与等离子体反应器表面的物理和化…

Spring Boot项目中的ASCII艺术字

佛祖保佑&#xff1a; ${spring-boot.formatted-version} ———————————————————————————————————————————————————————————————————— // _ooOoo_ …

贪心算法-活动选择问题背包问题

目录 活动选择问题 无重叠区间-Leetcode 435 分数背包问题--贪心解法 贪心法 0-1 背包问题 贪心法 贪心算法的局限 Set cover problem 活动选择问题 分析: /* 要在一个会议室举办n个活动 - 每个活动有它们各自的起始和结束时间 - 找出在时间上互不冲突的活动组合,能…