Day:006(3 ) | Python爬虫:高效数据抓取的编程技术(爬虫工具)

 

 selenium调用js方法

        有时候我们需要控制页面滚动条上的滚动条,但滚动条并非页面上的元素,这个时候就需要借助js是来进行操作。

一般用到操作滚动条的会两个场景:

  1. 要操作的页面元素不在当前页面范围,无法进行操作,需要拖动滚动条
  2. 注册时的法律条文需要阅读,判断用户是否阅读的标准是:滚动条是否拉到最下方
调用js的方法 :
execute_script(script, *args)
滚动条回到顶部: 
js="document.getElementById('id').scrollTop=0"
driver.execute_script(js)
滚动条拉到底部:
js="document.documentElement.scrollTop=10000"
driver.execute_script(js)

        可以修改scrollTop 的值,来定位右侧滚动条的位置,0是最上面,10000是最底部

        以上方法在Firefox和IE浏览器上上是可以的,但是用Chrome浏览器,发现不管用。Chrome浏览器解决办法: 

js = "document.body.scrollTop=0"
driver.execute_script(js)
横向滚动条:
js = "window.scrollTo(100,400)"
driver.execute_script(js)

代码

from selenium.webdriver.chrome.service
import Service
from selenium import webdriver
from time import sleep
from lxml import etreedef test_scroll():# 创建驱动s = Service('./chromedriver.exe')# 创建浏览器driver = webdriver.Chrome(service=s)# 访问页面
driver.get("https://search.jd.com/Search?
keyword=%E6%89%8B%E6%9C%BA&enc=utf8&suggest=1.def.0.SAK7|MIXTAG_SAK7R,SAK7_M_A
M_L5385,SAK7_M_COL_R,SAK7_S_AM_R,SAK7_SC_PD_
R,SAK7_SM_PB_R,SAK7_SS_PM_R,tsabtest_base64_
U2VhcmNobGlzdF80MzkyfGJhc2U_tsabtest|&wq=sho
uji&pvid=24340a2def0e4e0cb510af07aa32c89d")# 拉动滚动条到底部js='document.documentElement.scrollTop=100000'driver.execute_script(js)sleep(1)# 创建一个etree对象,用于解析数据e = etree.HTML(driver.page_source)# 获取数据价格prices = e.xpath('//ul[@class="gl-warpclearfix"]/li/div/div/strong/i/text()')print(prices)print(len(prices))# 关闭浏览器sleep(3)driver.quit()if __name__ =='__main__':test_scroll()

selenium 等待元素

  • 网速慢
  • AJAX请求数据
  • 调试
强制等待 

使用 time.sleep

作用:当代码运行到强制等待这一行的时候,无论出于什么原因,都强制等待指定的时间,需要通过time模块实现

优点:简单

缺点:无法做有效的判断,会浪费时间 

隐式等待

chrome.implicitly_wait(time_num)



到了一定的时间发现元素还没有加载,则继续等待我们指定的时间,如果超过了我们指定的时间还没有加载就会抛出异常,如果没有需要等待的时候就已经加载完毕就会立即执行

优点: 设置一次即可

缺点:必须等待加载完成才能到后续的操作,或者等待超时才能进入后续的操作 

from selenium import webdriver
url = 'https://www.baidu.com/'
driver = webdriver.Chrome()
driver.get(url)
driver.implicitly_wait(10)
print(driver.find_element_by_class_name('next'))
print(driver.page_source)
显示等待

from selenium.webdriver.support.wait import WebDriverWait



指定一个等待条件,并且指定一个最长等待时间,会在这个时间内进行判断是否满足等待条件,如果成立就会立即返回,如果不成立,就会一直等待,直到等待你指定的最长等待时间,如果还是不满足,就会抛出异常,如果满足了就会正常返回

优点:专门用于对指定一个元素等待,加载完即可运行后续代码

缺点:多个元素都需要要单独设置等待 

url = 'https://www.guazi.com/nj/buy/'
driver = webdriver.Chrome()
driver.get(url)
wait = WebDriverWait(driver,10,0.5)
wait.until(EC.presence_of_element_located((By
.CLASS_NAME, 'next')))
print(driver.page_source)

selenium 参数使用

chrome59版本以后可以变成无头的浏览器,加以下参数

def test_headless():# 设置参数,将浏览器隐藏起来(无头浏览器)options = ChromeOptions()options.add_argument('--headless')# 设置驱动
service = Service('./chromedriver')# 启动Chrome浏览器driver =Chrome(service=service,options=options)# 访问页面driver.get('https://www.baidu.com')# 打印代码print(driver.page_source)# 关闭浏览器driver.quit()
 代理模式
def test_proxy1():# 设置参数,给浏览器设置代理options = ChromeOptions()# options.add_argument('--proxyserver=http://ip:port')options.add_argument('--proxyserver=http://221.199.36.122:35414')# 设置驱动service = Service('./chromedriver')# 启动Chrome浏览器driver =Chrome(service=service,options=options)# 访问页面 "134.195.101.16",driver.get('http://httpbin.org/get')# 打印代码print(driver.page_source)# 关闭浏览器driver.quit()def test_proxy2():from selenium.webdriver.common.proxy
import ProxyType,Proxy# 设置参数,给浏览器设置代理ip = 'http://113.76.133.238:35680'proxy = Proxy()proxy.proxy_type = ProxyType.MANUALproxy.http_proxy = ipproxy.ssl_proxy = ip# 关联浏览器capabilities =DesiredCapabilities.CHROMEproxy.add_to_capabilities(capabilities)# 设置驱动service = Service('./chromedriver')# 启动Chrome浏览器driver =Chrome(service=service,desired_capabilities=capabilities)# 访问页面 "134.195.101.16",driver.get('http://httpbin.org/get')# 打印代码print(driver.page_source)# 关闭浏览器driver.quit()
 防检测设置

 

from selenium.webdriver import Chrome
from selenium.webdriver import ChromeOptionsoptions = ChromeOptions()
options.add_experimental_option('excludeSwitches', ['enable-automation'])
options.add_experimental_option('useAutomati
onExtension', False)chrome = Chrome(chrome_options=options)chrome.execute_cdp_cmd("Page.addScriptToEval
uateOnNewDocument", {"source": """Object.defineProperty(navigator,
'webdriver', {get: () => false})"""
})chrome.get('http://httpbin.org/get')
info = chrome.page_sourceprint(info)
sleep(20)

使用 window.navigator.webdriver 检测 

Selenium实战案例 

from selenium.webdriver.chrome.service
import Service
from selenium.webdriver import Chrome
from selenium.webdriver.common.by import Byfrom lxml import etreedef spider_huya():# 创建一个驱动service = Service('./chromedriver.exe')# 创建一个浏览器driver = Chrome(service=service)# 设置隐式等待driver.implicitly_wait(5)# 访问网址driver.get('https://www.huya.com/g/lol')count = 1while True:# print('获取了第%d页' % count)# count += 1# 提取数据e = etree.HTML(driver.page_source)names =e.xpath('//i[@class="nick"]/@title')person_nums =e.xpath('//i[@class="js-num"]/text()')# 打印数据# for n,p in zip(names,person_nums):#     print(f'主播名:{n} 人气:{p}')# 找到下一页的按钮# try:#     next_btn =driver.find_element(By.XPATH,'//a[@class="laypage_next"]')#     next_btn.click()# except Exception as e:#     breakif
driver.page_source.find('laypage_next') ==-1:breaknext_btn =driver.find_element(By.XPATH,'//a[@class="laypage_next"]')next_btn.click()# 关闭浏览器driver.quit()if __name__ == '__main__':spider_huya()

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/808702.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

NotePad++ 快速生成SQL IN (‘’,‘’)

sql In(‘’,‘’)这种形式 第一步:AltC 鼠标放在第一行最左边 第二步 CtrlH $代表行末 第三步 去掉每行换行符 换行可能是"\n" 或者"\r"或者"\r\n" 结果:

容错组合导航

在初始值正确的情况下,惯性导航短期精度较高,但是其误差随着时间是累计的。如果要提高惯性导航的长期精度,就必须提高惯性器件的精度和初始读准精度,这必将大大提高成本。 如果将惯性导航与其他导航系统适当地组合起来&#xff0c…

熟练使用SpringBoot、SpringCloud、SpringCloud Alibaba 等微服务框架

一: Spring Boot 1. 什么是Spring Boot?它解决了什么问题? 答:Spring Boot是一个用于创建独立、生产级基于Spring的应用程序的框架。它简化了Spring应用程序的初始搭建以及开发过程,通过约定优于配置的方式&#xf…

Java泛型中 T 和 ? 傻傻分不清楚

1.定义: JDK5.0后,Java提供了泛型。 泛型是一种在编译时提供类型安全的方式,允许程序员在定义类、接口和方法时使用类型参数。这样,可以在不损失类型安全的情况下,创建可重用的代码。 泛型有两种主要的使用形式&#x…

linux学习:栈

目录 顺序栈 结构 初始化一个空顺序栈 压栈 出栈 例子 十进制转八进制 链式栈 管理结构体的定义 初始化 压栈 出栈 顺序栈 顺序栈的实现,主要就是定义一块连续的内存来存放这些栈元素,同时为了方便管理, 再定义一个整数变量来代表…

2024中国(宁波)国际宠物用品博览会

2024中国(宁波)国际宠物用品博览会 People&Pet Fair 2024 专注2B交易,关注人宠发展,它经济,势不可挡! 时间:2024年11月14-16日 地点:宁波国际会展中心 详询主办方陆先生 I38(前三位) …

水离子雾化壁炉与酒店大厅的氛围搭配

将水离子雾化壁炉与酒店大厅的氛围搭配是一个很好的主意,可以为大厅增添舒适、温馨的氛围,以下是一些建议: 迎宾区域:在酒店大厅的迎宾区域设置水离子雾化壁炉,作为客人抵达时的第一印象。壁炉的温馨效果可以让客人感到…

Java+BS +saas云HIS系统源码SpringBoot+itext + POI + ureport2数字化医院系统源码

JavaBS saas云HIS系统源码SpringBootitext POI ureport2数字化医院系统源码 医院云HIS系统是一种运用云计算、大数据、物联网等新兴信息技术的业务和技术平台。它按照现代医疗卫生管理要求,在特定区域内以数字化形式收集、存储、传递和处理医疗卫生行业的数据。通…

【应用】SpringBoot-自动配置原理

前言 本文简要介绍SpringBoot的自动配置原理。 本文讲述的SpringBoot版本为:3.1.2。 前置知识 在看原理介绍之前,需要知道Import注解的作用: 可以导入Configuration注解的配置类、声明Bean注解的bean方法;可以导入ImportSele…

前置递增和后置递增

前置递增 先让变量1&#xff0c;然后进行表达式运算 int a2 10;int b2 a2 *10;cout<<"a2"<<a2<<endl;cout<<"b2"<<b2<<endl;运行结果&#xff1a;a211 b2110 后置递增 后置递增&#xff0c;先进行表达式运算&…

Python pathlib中Path用法

Python pathlib中Path用法 文章目录 Python pathlib中Path用法 Path类是Python中 pathlib模块的主要组成部分之一&#xff0c;它提供了一种面向对象的方式来处理文件系统路径。 Path对象可以表示文件路径或目录路径&#xff0c;并且可以执行各种与路径相关的操作&#xff0c;…

异构超图嵌入的图分类 笔记

1 Title Heterogeneous Hypergraph Embedding for Graph Classification&#xff08;Xiangguo Sun , PictureHongzhi Yin , PictureBo Liu , PictureHongxu Chen , PictureJiuxin Cao , PictureYingxia Shao , PictureNguyen Quoc Viet Hung&#xff09;【WSDM 2021】 2 Co…

模拟移动端美团案例(react版)

文章目录 目录 概述 项目搭建 1.启动项目&#xff08;mock服务前端服务&#xff09; 2.使用Redux ToolTik(RTK)编写store(异步action) 3.组件触发action并渲染数据 一、渲染列表 ​编辑 二、tab切换类交互 三、添加购物车 四、统计区域功能实现 五、购物车列表功能实现 六、控制…

Leetcode算法训练日记 | day23

一、修剪二叉搜索树 1.题目 Leetcode&#xff1a;第 669 题 给你二叉搜索树的根节点 root &#xff0c;同时给定最小边界low 和最大边界 high。通过修剪二叉搜索树&#xff0c;使得所有节点的值在[low, high]中。修剪树 不应该 改变保留在树中的元素的相对结构 (即&#xff…

netty实现mqtt(IOT)

springbootnettymqtt服务端实现 springbootnettymqtt客户端实现 MQTT协议基本讲解(结合netty) 李兴华netty视频教程中mqtt讲解 EMQX官网、mqttx客户端 IOT云平台 simple&#xff08;6&#xff09;springboot netty实现IOT云平台基本的架构&#xff08;mqtt、Rabbitmq&…

2024/4/2—力扣—最小高度树

代码实现&#xff1a; /*** Definition for a binary tree node.* struct TreeNode {* int val;* struct TreeNode *left;* struct TreeNode *right;* };*/ struct TreeNode* buildTree(int *nums, int l, int r) {if (l > r) {return NULL; // 递归出口}struct…

<script setup>组件内的路由守卫

在 Vue 3 中&#xff0c;<script setup> 提供了更简洁的方式来编写组件逻辑&#xff0c;但这并不意味着不能在其中编写路由守卫。然而&#xff0c;路由守卫通常是在全局、路由独享或组件内&#xff08;在 Vue 2 中是通过 beforeRouteEnter、beforeRouteUpdate 和 beforeR…

钩子函数和副作用

Person: react中父组件想要获得子组件的state内容&#xff0c;可以如何实现 ChatGPT: 在React中&#xff0c;父组件可以通过props向子组件传递一个回调函数&#xff0c;子组件在适当的时机调用这个回调函数&#xff0c;并将需要传递的state内容作为参数传递给父组件。这样就…

Cohere推出全新升级版RAG大型AI模型:支持中文,搭载1040亿参数,现开源其权重!

4月5日&#xff0c;知名类ChatGPT平台Cohere在其官方网站上发布了一款全新的模型——Command R。 据官方消息&#xff0c;Command R拥有1040亿个参数&#xff0c;并且支持包括英语、中文、法语、德语在内的10种语言。这一模型的显著特点之一在于其对内置的RAG&#xff08;检索增…

论文复现:torch.max(p,1)

在 PyTorch 中&#xff0c;torch.max 函数用于计算张量&#xff08;tensor&#xff09;的最大值。当你对 torch.max 使用两个参数时&#xff0c;第一个参数是你要操作的张量&#xff0c;第二个参数是维度&#xff08;dimension&#xff09;沿着该维度进行操作。函数会返回两个对…