Selenium爬虫技术:如何模拟鼠标悬停抓取动态内容

爬虫代理

介绍

在当今数据驱动的世界中,抓取动态网页内容变得越来越重要,尤其是像抖音这样的社交平台,动态加载的评论等内容需要通过特定的方式来获取。传统的静态爬虫方法难以处理这些由JavaScript生成的动态内容,Selenium爬虫技术则是一种能够有效解决这一问题的工具。本文将以采集抖音评论为示例,介绍如何使用Selenium模拟鼠标悬停,抓取动态内容,并结合代理IP技术来应对反爬机制。

技术分析

Selenium简介

Selenium是一款流行的自动化测试工具,可以模拟用户在浏览器中的各种操作,包括点击、滚动、输入文字等。通过Selenium,我们可以加载JavaScript动态生成的页面内容,从而抓取到传统静态爬虫无法获取的数据。它支持多种浏览器(如Chrome、Firefox),并且可以与其他Python库(如BeautifulSoup、requests)配合使用。

模拟鼠标悬停

在一些复杂的网页中,某些内容需要鼠标悬停才能显示。抖音评论等部分动态内容可能需要通过这样的操作来触发加载。Selenium提供了ActionChains类,可以模拟鼠标的复杂操作,如悬停、拖动、双击等。

代理IP设置

为了规避网站的反爬机制,通常会使用代理IP进行多次请求。代理IP服务如“爬虫代理”提供了稳定的代理IP池,可以设置域名、端口、用户名和密码等信息。结合Selenium,我们可以在抓取时使用代理IP来保证请求的稳定性和隐匿性。

Cookie和User-Agent的设置

许多网站通过检测cookie和User-Agent来识别非正常用户行为。通过在Selenium中手动设置cookie和User-Agent,我们可以模拟真实用户的浏览行为,进一步降低被反爬虫策略识别的风险。

实现代码

下面我们将展示一个使用Selenium模拟鼠标悬停抓取抖音评论的代码示例,代码中包含了代理IP的配置、cookie和User-Agent的设置。

from selenium import webdriver
from selenium.webdriver.common.action_chains import ActionChains
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.by import By
import time# 配置代理IP 亿牛云爬虫代理加强版 www.16yun.cn
PROXY = "http://username:password@PROXY.16yun.cn:8100"  # 代理IP格式
chrome_options = Options()
chrome_options.add_argument(f'--proxy-server={PROXY}')# 设置User-Agent
user_agent = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36"
chrome_options.add_argument(f'user-agent={user_agent}')# 初始化Selenium WebDriver
driver = webdriver.Chrome(options=chrome_options)# 设置Cookie
driver.get("https://www.douyin.com")  # 访问抖音主页
cookies = {"name": "example_cookie","value": "cookie_value"
}
driver.add_cookie(cookies)  # 添加cookie
driver.refresh()  # 刷新页面,应用cookie# 模拟鼠标悬停,抓取动态评论
driver.get("https://www.douyin.com/some_video_url")  # 访问抖音指定视频的页面# 等待页面加载完毕
time.sleep(5)# 定位评论区元素
comment_section = driver.find_element(By.XPATH, '//*[@id="comment-section"]')# 模拟鼠标悬停以触发评论加载
actions = ActionChains(driver)
actions.move_to_element(comment_section).perform()  # 模拟悬停# 等待评论加载
time.sleep(5)# 抓取加载后的评论内容
comments = driver.find_elements(By.CLASS_NAME, 'comment-item')  # 假设评论项的class为'comment-item'for comment in comments:print(comment.text)# 关闭浏览器
driver.quit()

代码详解

  1. 代理IP的使用:通过Options中的--proxy-server参数,我们为Selenium设置了代理IP。代理IP格式为username:password@domain:port,在实际应用中,这些参数应来自代理服务提供商,如爬虫代理。
  2. User-Agent设置:通过chrome_options.add_argument指定了一个常见的User-Agent,模拟真实用户的浏览器访问行为。
  3. Cookie设置:在访问抖音主页后,通过driver.add_cookie添加了自定义的cookie。通常情况下,使用cookie可以模拟登录状态,获取更多权限和数据。
  4. 模拟鼠标悬停:使用Selenium的ActionChains类,通过move_to_element实现了鼠标悬停在指定的评论区上,触发JavaScript动态加载评论。
  5. 抓取评论:通过driver.find_elements定位所有的评论项,并输出其文本内容。实际中,可以根据网页结构调整选择器(如XPATH或class)。

结论

Selenium通过模拟真实用户的浏览操作,可以轻松应对现代网页中大量使用的动态内容加载问题。本文通过抖音评论的抓取示例,展示了如何使用Selenium实现鼠标悬停操作,并结合代理IP、cookie和User-Agent等技术来规避反爬机制。随着反爬技术的不断升级,爬虫技术也需要更加灵活和智能化。使用Selenium与其他爬虫技术结合,将是应对这些挑战的有效方案。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/56205.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

字典如何与选择器一起使用

背景:开发过程中会遇到某些字段需要做成下拉框。如下图: 组件 | Element里有select选择器这个组件可以实现下拉框的效果 我们可能会想到创一个辅助表来存储这些下拉数据像这样 这样虽然能实现,但是在实际开发中是不合理的,如果有…

个税自然人扣缴客户端数据的备份与恢复(在那个文件夹)

一,软件能够正常打开,软件中的备份与恢复功能 1,备份 您按照下面的方法备份一下哦~ 进入要备份的自然人软件,点击左侧系统设置→→系统管理→→备份恢复; 在备份设置里,点击“备份到选择路径”,…

WebGL编程指南 - 颜色与纹理续

设置纹理坐标(initVertexBuffers()) 从缓冲区到 attribute 变量的流程: // 顶点坐标 function initVertexBuffers(gl) {// 数据准备let verticesTexCoords new Float32Array([// 顶点坐标,纹理坐标-0.5, 0.5, 0.0, 1.0, -0.5, …

图像异常检测评估指标-分类性能

图像异常检测评估指标-分类性能 1. 混淆矩阵 混淆矩阵包括4个用于衡量分类算法性能的基本数值 四个字母代表的含义是:P(Positive)代表算法将样本预测为正类,N(Negative)代表算法将样本预测为负类&#xf…

ST7789读取ID错误新思路(以STC32G为例)

1.前言 前两天刚把ST7789写入搞定,这两天想折腾一下读取。最开始是读ID,先是用厂家送的程序,程序里面用的是模拟I8080协议,一切正常。后来我用STC32G的内置LCM模块,发现读取不出来。更神奇的是ID读不出来,…

[项目详解][boost搜索引擎#2] 建立index | 安装分词工具cppjieba | 实现倒排索引

目录 编写建立索引的模块 Index 1. 设计节点 2.基本结构 3.(难点) 构建索引 1. 构建正排索引(BuildForwardIndex) 2.❗构建倒排索引 3.1 cppjieba分词工具的安装和使用 3.2 引入cppjieba到项目中 倒排索引代码 本篇文章,我们将继续项…

【C++指南】类和对象(四):类的默认成员函数——全面剖析 : 拷贝构造函数

引言 拷贝构造函数是C中一个重要的特性,它允许一个对象通过另一个已创建好的同类型对象来初始化。 了解拷贝构造函数的概念、作用、特点、规则、默认行为以及如何自定义实现,对于编写健壮和高效的C程序至关重要。 C类和对象系列文章,可点击下…

GitLab+Jenkins 实现 Webhook 自动化触发构建

在持续集成和持续部署(CI/CD)过程中,如何实现代码提交后自动触发构建?今天,我们将通过GitLab与Jenkins的集成,利用Webhook实现自动化触发构建,为你的开发流程注入高效能量! 在每次代…

Java 多线程(六)—— 线程池 和 工厂模式

线程池 随着现代计算机的发展,任务越来越多,线程创建也逐渐增加,每次让操作系统创建线程这个开销就有点大,因此,我们诞生了线程池的概念,线程池里面有很多线程,这些线程可以被用户去调用执行任…

Java最全面试题->Java基础面试题->JavaSE面试题->异常面试题

文章目录 异常1.说一下Java中的异常体系?2.Error和Exception的区别3.写出你最常见的 5 个 RuntimeException?4.如何处理异常?5.try()里面有⼀个return语句, 那么后面的finally{}里面的代码会不会被执行?什么时候执行,…

C++ 进阶:类相关特性的深入探讨

⭐在对C 中类的6个默认成员函数有了初步了解之后,现在我们进行对类相关特性的深入探讨! 🔥🔥🔥【C】类的默认成员函数:深入剖析与应用(上) 【C】类的默认成员函数:深入剖…

初阶数据结构【3】--单链表(比顺序表还好的一种数据结构!!!)

本章概述 前情回顾单链表实现单链表彩蛋时刻!!! 前情回顾 咱们在上一章博客点击:《顺序表》的末尾,提出了一个问题,讲出了顺序表的缺点——有点浪费空间。所以,为了解决这个问题,我…

TypeScript 出现过的问题

不能将类型“unknown”分配给类型“string”。 不能直接将类型“unknown”分配给类型“string” /**** 【1 - 问题】会画红波浪线 ****/ window.document.title to?.meta?.title || /**** 【2 - 解决】解决红波浪线 ****/ const title: unknown to?.meta?.title || if …

QML 基本动画

在介绍完 QML 动画框架之后,现在我们来看看具体的动画及其用法。先从最常用的基本动画入手,这些动画包括:PropertyAnimation、ColorAnimation、Vector3dAnimation 和 PathAnimation 等,它们不仅能够帮助我们轻松地为应用程序添加动态效果,还能显著提升用户体验,使得界面更…

vue3 解决背景图与窗口留有间隙的问题

需要实现一个登录界面&#xff0c;login.vue的代码如下&#xff1a; <script> import { ref } from vue;export default {setup() {return {};}, }; </script><template><div id"login-container" class"login-container"><di…

中国古代数学的杰出研究成果之一 - 杨辉三角 - 怎么用go、C++进行编程解决

杨辉三角&#xff0c;又称帕斯卡三角形&#xff08;Pascals Triangle&#xff09;&#xff0c;是组合数学中的一个重要概念。它是一个三角形数组&#xff0c;其中每个数字是它上方左上方和右上方的数字之和。杨辉三角的每一行都代表了二项式展开式的系数&#xff0c;因此在数学…

利用 OBS 推送 WEBRTC 流到 smart rtmpd

webrtc whip 推流 & whep 拉流简介 RFC 定义 通用的 webrtc 对于 SDP 协议的交换已经有对应的 RFC 草案出炉了。这就是 WHIP( push stream ) & WHEP ( pull stream ) . WHIP RFC Link: https://www.ietf.org/archive/id/draft-ietf-wish-whip-01.html WHEP RFC Link:…

ubuntu 开启haproxy UI

一、修改haproxy.cfg nano /etc/haproxy/haproxy.cfg 添加一段 listen statsbind *:8080stats enablestats uri /uistats refresh 10sstats auth admin:123456stats admin if TRUE 重启 sudo systemctl restart haproxy 浏览器访问&#xff1a; http://192.168.31.182:80…

搜维尔科技:SenseGlove触觉反馈数据手套的用途和作用

无论是VR培训、遥控机器人、研究还是营销&#xff0c;我们的VR触觉手套都能让虚拟世界更具沉浸感和吸引力。借助我们的硬件和直观的软件开发工具&#xff0c;研究人员和开发人员可以创建真正的触觉交互。 VR培训 使用 SenseGlove进行虚拟现实训练可产生与现实训练类似的效果&a…

MySQL-CRUD-基础-(详解) ┗( ▔, ▔ )┛

目录 ❄️一、新增&#xff08;Create&#xff09;&#xff1a; ☑ 1、单行数据 全列插入&#xff1a; ☑ 2、指定列插入&#xff1a; ☑ 3、多行插入&#xff1a; ❄️二、查询&#xff08;Retrieve&#xff09;&#xff1a; ☑ 1、全列查询&#xff1a; ☑ 2、指定列查询&a…