python结合Selenium

网站学习连接:操控元素的基本方法 | 白月黑羽 

安装Selenium

cmd窗口,cd命令进入pip安装路径“D:\python\Scripts”后,输入“pip install -U selenium”,安装最新版本的selenium,如图:

安装等待中,当出现“Successfully installed selenium...”表示Selenium已经安装成功。selenium-xx表示版本号。如图: 

114版本 

驱动下载在这个链接

120以后版本

驱动在这个链接,其中http状态码是200的才可以下载,驱动大版本一致就可以使用,不需一模一样

把驱动器chromedriver.exe存放到d:\tools目录下并设置环境变量

案例

from selenium import webdriver
from selenium.webdriver.chrome.webdriver import Service
# 创建 WebDriver 对象,指明使用chrome浏览器驱动
wd = webdriver.Chrome(service=Service(r'd:\tools\chromedriver.exe'))
# 调用WebDriver 对象的get方法 可以让浏览器打开指定网址
wd.get('https://www.baidu.com')
# 程序运行完会自动关闭浏览器,就是很多人说的闪退
# 这里加入等待用户输入,防止闪退
input()

定位操作元素(根据ID) 

from selenium import webdriver
from selenium.webdriver.common.by import By# 创建 WebDriver 对象
wd = webdriver.Chrome()# 调用WebDriver 对象的get方法 可以让浏览器打开指定网址
wd.get('https://www.byhy.net/_files/stock1.html')# 根据id选择元素,返回的就是该元素对应的WebElement对象
element = wd.find_element(By.ID, 'kw')# 通过该 WebElement对象,就可以对页面元素进行操作了
# 比如输入字符串到 这个 输入框里
element.send_keys('通讯')
element = wd.find_element(By.ID, 'go')
element.click()
wd.quit()

根据 class属性、tag名 选择元素

from selenium import webdriver
from selenium.webdriver.common.by import By# 创建 WebDriver 实例对象,指明使用chrome浏览器驱动
wd = webdriver.Chrome()# WebDriver 实例对象的get方法 可以让浏览器打开指定网址
wd.get('https://cdn2.byhy.net/files/selenium/sample1.html')# 根据 class name 选择元素,返回的是 一个列表
# 里面 都是class 属性值为 animal的元素对应的 WebElement对象
elements = wd.find_elements(By.CLASS_NAME, 'animal')
# 取出列表中的每个 WebElement对象,打印出其text属性的值
# text属性就是该 WebElement对象对应的元素在网页中的文本内容
for element in elements:print(element.text)

使用 find_elements 选择的是符合条件的 所有 元素, 如果没有符合条件的元素, 返回空列表

使用 find_element 选择的是符合条件的 第一个 元素, 如果没有符合条件的元素, 抛出 NoSuchElementException 异常

from selenium import webdriver
from selenium.webdriver.common.by import By# 创建 WebDriver 实例对象,指明使用chrome浏览器驱动
wd = webdriver.Chrome()# WebDriver 实例对象的get方法 可以让浏览器打开指定网址
wd.get('https://cdn2.byhy.net/files/selenium/sample1.html')# 根据 tag name 选择元素,返回的是 一个列表
# 里面 都是 tag 名为 div 的元素对应的 WebElement对
elements = wd.find_elements(By.TAG_NAME, 'div')
# 取出列表中的每个 WebElement对象,打印出其text属性的值
# text属性就是该 WebElement对象对应的元素在网页中的文本内容
for element in elements:print(element.text)
pass

通过WebElement对象选择元素 

WebDriver 对象 选择元素的范围是 整个 web页面, 而

WebElement 对象 选择元素的范围是 该元素的内部。

from selenium import webdriver
from selenium.webdriver.common.by import Bywd = webdriver.Chrome()wd.get('https://cdn2.byhy.net/files/selenium/sample1.html')element = wd.find_element(By.ID,'container')# 限制 选择元素的范围是 id 为 container 元素的内部。
spans = element.find_elements(By.TAG_NAME, 'span')
for span in spans:print(span.text)pass

等待元素出现

因为我们的代码执行的速度比 网站响应的速度 快。

网站还没有来得及 返回搜索结果,我们就执行了如下代码

from selenium import webdriver
from selenium.webdriver.common.by import By# 创建 WebDriver 对象
wd = webdriver.Chrome()# 调用WebDriver 对象的get方法 可以让浏览器打开指定网址
wd.get('https://www.byhy.net/_files/stock1.html')# 根据id选择元素,返回的就是该元素对应的WebElement对象
element = wd.find_element(By.ID, 'kw')# 通过该 WebElement对象,就可以对页面元素进行操作了
# 比如输入字符串到 这个 输入框里
element.send_keys('通讯')
element = wd.find_element(By.ID, 'go')
element.click()
# 等待 1 秒
from time import sleep
sleep(1)
element = wd.find_element(By.ID,'1')
print(element.text)
wd.quit()

Selenium提供了一个更合理的解决方案,是这样的:

当发现元素没有找到的时候, 并不立即返回 找不到元素的错误。

而是周期性(每隔半秒钟)重新寻找该元素,直到该元素找到,

或者超出指定最大等待时长,这时才 抛出异常(如果是 find_elements 之类的方法, 则是返回空列表)。

Selenium 的 Webdriver 对象 有个方法叫 implicitly_wait ,可以称之为 隐式等待 ,或者 全局等待 。

该方法接受一个参数, 用来指定 最大等待时长。

from selenium import webdriver
from selenium.webdriver.common.by import By# 创建 WebDriver 对象
wd = webdriver.Chrome()
wd.implicitly_wait(10)# 调用WebDriver 对象的get方法 可以让浏览器打开指定网址
wd.get('https://www.byhy.net/_files/stock1.html')# 根据id选择元素,返回的就是该元素对应的WebElement对象
element = wd.find_element(By.ID, 'kw')# 通过该 WebElement对象,就可以对页面元素进行操作了
# 比如输入字符串到 这个 输入框里
element.send_keys('通讯')
element = wd.find_element(By.ID, 'go')
element.click()element = wd.find_element(By.ID,'1')
print(element.text)
wd.quit()

获取元素属性

from selenium import webdriver
from selenium.webdriver.common.by import By# 创建 WebDriver 对象
wd = webdriver.Chrome()
wd.implicitly_wait(10)# 调用WebDriver 对象的get方法 可以让浏览器打开指定网址
wd.get('https://www.byhy.net/_files/stock1.html')element = wd.find_element(By.ID,'1')
print(element.text)
print(element.get_attribute('class'))
wd.quit()

要获取整个元素对应的HTML文本内容,可以使用 element.get_attribute('outerHTML')

如果,只是想获取某个元素 内部 的HTML文本内容,可以使用 element.get_attribute('innerHTML')

from selenium import webdriver
from selenium.webdriver.common.by import By# 创建 WebDriver 对象
wd = webdriver.Chrome()
wd.implicitly_wait(10)# 调用WebDriver 对象的get方法 可以让浏览器打开指定网址
wd.get('https://www.byhy.net/_files/stock1.html')element = wd.find_element(By.ID,'1')
print(element.get_attribute('outerHTML'))
print(element.get_attribute('innerHTML'))wd.quit()

CSS选择器

from selenium import webdriver
from selenium.webdriver.common.by import Bywd = webdriver.Chrome()wd.get('https://cdn2.byhy.net/files/selenium/sample1.html')element = wd.find_element(By.CSS_SELECTOR, '.plant')
print(element.get_attribute('outerHTML'))pass

子代使用> 后代使用空格 兄弟相邻使用+ 所有兄弟使用~  共用使用逗号隔开

根据属性获取元素

css 选择器支持通过任何属性来选择元素,语法是用一个方括号 [] 。

比如要选择上面的a元素,就可以使用 [href="http://www.miitbeian.gov.cn"] 。

这个表达式的意思是,选择 属性href值为 http://www.miitbeian.gov.cn 的元素。

from selenium import webdriver
from selenium.webdriver.common.by import Bywd = webdriver.Chrome()wd.get('https://cdn2.byhy.net/files/selenium/sample1.html')# 根据属性选择元素
element = wd.find_element(By.CSS_SELECTOR, '[href="http://www.miitbeian.gov.cn"]')# 打印出元素对应的html
print(element.get_attribute('outerHTML'))

验证选择器可以在谷歌浏览器右击检查选择element,然后Ctrl+F查找选择器是否存在

frame切换

from selenium import webdriver
from selenium.webdriver.common.by import Bywd = webdriver.Chrome()wd.get('https://cdn2.byhy.net/files/selenium/sample2.html')# 先根据name属性值 'innerFrame',切换到iframe中
wd.switch_to.frame('innerFrame')# 根据 class name 选择元素,返回的是 一个列表
elements = wd.find_elements(By.CLASS_NAME, 'plant')for element in elements:print(element.text)
pass

使用 WebDriver 对象的 switch_to 属性,像这样

wd.switch_to.frame(frame_reference)

其中, frame_reference 可以是 frame 元素的属性 name 或者 ID 。

比如这里,就可以填写 iframe元素的id ‘frame1’ 或者 name属性值 ‘innerFrame’。

怎么切换回原来的主html呢?很简单,写如下代码即可

wd.switch_to.default_content()

切换窗口

from selenium import webdriver
from selenium.webdriver.common.by import Bywd = webdriver.Chrome()
wd.implicitly_wait(10)wd.get('https://cdn2.byhy.net/files/selenium/sample3.html')# 点击打开新窗口的链接
link = wd.find_element(By.TAG_NAME, "a")
link.click()
# mainWindow变量保存当前窗口的句柄
mainWindow = wd.current_window_handle
for handle in wd.window_handles:# 先切换到该窗口wd.switch_to.window(handle)# 得到该窗口的标题栏字符串,判断是不是我们要操作的那个窗口if '必应' in wd.title:# 如果是,那么这时候WebDriver对象就是对应的该该窗口,正好,跳出循环,break
# wd.title属性是当前窗口的标题栏 文本
print(wd.title)
wd.find_element(By.ID, 'sb_form_q').send_keys("白月黑羽")
# 通过前面保存的老窗口的句柄,自己切换到老窗口
wd.switch_to.window(mainWindow)
wd.find_element(By.ID, 'outerbutton').click()
input('')

radio单选框

from selenium import webdriver
from selenium.webdriver.common.by import Bywd = webdriver.Chrome()
wd.implicitly_wait(5)
wd.get('https://cdn2.byhy.net/files/selenium/test2.html')
# 获取当前选中的元素
element = wd.find_element(By.CSS_SELECTOR,'#s_radio input[name="teacher"]:checked')
print('当前选中的是: ' + element.get_attribute('value'))# 点选 小雷老师
wd.find_element(By.CSS_SELECTOR,'#s_radio input[value="小雷老师"]').click()
input('')

checkbox复选框

from selenium import webdriver
from selenium.webdriver.common.by import Bywd = webdriver.Chrome()
wd.implicitly_wait(5)
wd.get('https://cdn2.byhy.net/files/selenium/test2.html')
# 先把 已经选中的选项全部点击一下
elements = wd.find_elements(By.CSS_SELECTOR,'#s_checkbox input[name="teacher"]:checked')for element in elements:element.click()# 再点击 小雷老师
wd.find_element(By.CSS_SELECTOR,"#s_checkbox input[value='小雷老师']").click()
input('')

select下拉框

from selenium import webdriver
from selenium.webdriver.common.by import By
# 导入Select类
from selenium.webdriver.support.ui import Selectwd = webdriver.Chrome()
wd.implicitly_wait(5)
wd.get('https://cdn2.byhy.net/files/selenium/test2.html')# 创建Select对象
select = Select(wd.find_element(By.ID, "ss_single"))# 通过 Select 对象选中小雷老师
select.select_by_visible_text("小雷老师")
input('')

multiple列表框 

from selenium import webdriver
from selenium.webdriver.common.by import By
# 导入Select类
from selenium.webdriver.support.ui import Selectwd = webdriver.Chrome()
wd.implicitly_wait(5)
wd.get('https://cdn2.byhy.net/files/selenium/test2.html')# 创建Select对象
select = Select(wd.find_element(By.ID, "ss_multi"))# 清除所有 已经选中 的选项
select.deselect_all()# 选择小雷老师 和 小凯老师
select.select_by_visible_text("小雷老师")
select.select_by_visible_text("小凯老师")
input('')

鼠标移动

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.action_chains import ActionChainsdriver = webdriver.Chrome()
driver.implicitly_wait(5)driver.get('https://www.baidu.com/')ac = ActionChains(driver)# 鼠标移动到元素上
ac.move_to_element(driver.find_element(By.CSS_SELECTOR, '[name="tj_briicon"]')
).perform()
pass

冻结界面

控制台输入:setTimeout(function(){debugger},5000) 

弹出框处理

from selenium import webdriver
from selenium.webdriver.common.by import Bydriver = webdriver.Chrome()
driver.implicitly_wait(5)
driver.get('https://cdn2.byhy.net/files/selenium/test4.html')# --- prompt ---
driver.find_element(By.ID, 'b3').click()# 获取 alert 对象
alert = driver.switch_to.alert# 打印 弹出框 提示信息
print(alert.text)# 输入信息,并且点击 OK 按钮 提交
alert.send_keys('web自动化 - selenium')
alert.accept()# 点击 Cancel 按钮 取消
driver.find_element(By.ID, 'b3').click()
alert = driver.switch_to.alert
alert.dismiss()

Xpath

from selenium import webdriver
from selenium.webdriver.common.by import Bywd = webdriver.Chrome()
wd.implicitly_wait(5)wd.get('https://cdn2.byhy.net/files/selenium/test1.html')elements = wd.find_elements(By.XPATH, '/html/body/div')
for element in elements:print('--------')print(element.get_attribute('outerHTML'))

‘//’ 符号也可以继续加在后面,比如,要选择 所有的 div 元素里面的 所有的 p 元素 ,不管div 在什么位置,也不管p元素在div下面的什么位置,则可以这样写 //div//p 

elements = driver.find_elements(By.XPATH, "//div//p")

如果使用CSS选择器,对应代码如下 

elements = driver.find_elements(By.CSS_SELECTOR,"div p")

如果,要选择 所有的 div 元素里面的 直接子节点 p , xpath,就应该这样写了 //div/p

如果使用CSS选择器,则为 div > p

根据id属性选择

选择 id 为 west 的元素,可以这样 //*[@id='west']     

如果是CSS的话,这样写:[id='west']

选择所有p里面id为west的元素,可以这样 //p[@id='west']

根据class属性选择

某类型第几个子元素

比如要选择 p类型第2个的子元素,就是://p[2]相当于CSS里面的p:nth-of-type(2)

注意:是p类型第2个子元素,而不是第2个子元素并且是p类型

input:nth-child(1)是input上面父节点div的第一个子节点

范围选择

选择父节点(/..)

注意点

from selenium import webdriver
from selenium.webdriver.common.by import Bywd = webdriver.Chrome()
wd.implicitly_wait(5)wd.get('https://cdn2.byhy.net/files/selenium/test1.html')china = wd.find_element(By.ID, 'china')
elements = china.find_elements(By.XPATH, './/p')
for element in elements:print(element.get_attribute('outerHTML'))print('--------')
pass

注意webElement使用XPATH,需要在前面加上. 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/234331.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ios微信小程序table头部与左侧固定双重滚动会抖动的坑,解决思路

正常情况是左右滑动时,左侧固定不动,上下滑动时表头不动;而且需求不是完整页面滚动。而是单独这个表滚动; 第一个坑是他有一个ios自带的橡胶上下回弹效果。导致滚动时整个表都跟着回弹; 这个是很好解决。微信开发官网…

比例化简C语言

分析:由于我们输出的数字只能小于L,所以我们就枚举所以的可能,在对每一种可能相除,在和原始数据相处的值做差,插值越小说明符合程度越大,保留更新更小的差值,直到最后输出最小的情况。&#xff…

Ansible的playbook脚本使用

本章注意介绍如何在ansible中写脚本 playbook的语法在写playbook时如何进行错误处理 ansible的许多模块都是在命令行中执行的,每次只能执行一个模块。如果需要执行多个模块,且要写判断语句,判断模块是否执行成功了,如果没成功会…

SpringBoot基于gRPC进行RPC调用

SpringBoot基于gRPC进行RPC调用 一、gRPC1.1 什么是gRPC?1.2 如何编写proto1.3 数据类型及对应关系1.4 枚举1.5 数组1.6 map类型1.7 嵌套对象 二、SpringBoot gRPC2.1 工程目录2.2 jrpc-api2.2.1 引入gRPC依赖2.2.2 编写 .proto 文件2.2.3 使用插件机制生产proto相关…

Java 基础学习(十四)Map集合与Set集合

1 Map集合 1.1 Map接口 1.1.1 Map接口概述 Map接口是一种双列集合。Map的每个元素都包含一个键对象Key和一个值对象Value ,键对象和值对象之间存在对应关系,这种关系称为映射(Mapping)。 Map接口中的元素,可以通过…

DC-6靶场

DC-6靶场下载: https://www.five86.com/downloads/DC-6.zip 下载后解压会有一个DC-3.ova文件,直接在vm虚拟机点击左上角打开-->文件-->选中这个.ova文件就能创建靶场,kali和靶机都调整至NAT模式,即可开始渗透 首先进行主…

【Transformer框架代码实现】

Transformer Transformer框架注意力机制框架导入必要的库Input Embedding / Out EmbeddingPositional EmbeddingTransformer EmbeddingScaleDotProductAttention(self-attention)MultiHeadAttention 多头注意力机制EncoderLayer 编码层Encoder多层编码块/前馈网络层…

【机器学习】密度聚类:从底层手写实现DBSCAN

【机器学习】Building-DBSCAN-from-Scratch 概念代码数据导入实现DBSCAN使用样例及其可视化 补充资料 概念 DBSCAN(Density-Based Spatial Clustering of Applications with Noise,具有噪声的基于密度的聚类方法)是一种基于密度的空间聚类算…

新手做抖店应该怎么做?应该注意些什么?踩坑避雷!

我是电商珠珠 新手做抖店,对于办理营业执照、选类目确定品,或是找达人这些,往往会在这上面吃很多亏。 我做抖店也已经三年了,关于抖店的玩法和规则这块也非常熟悉,这就来给大家讲讲我所踩的那些坑。 第一个&#xf…

自动化边坡监测设备是什么?

随着科技的不断进步,我们的生活和环境也在不断地发生变化。然而,自然灾害仍然是我们无法完全避免的风险。其中,边坡滑坡就是一种常见的自然灾害。为了保护人民的生命财产安全,科学家们研发出了自动化边坡监测设备。 WX-WY1 自动化…

亚信安慧AntDB数据库引领中文信息处理标准化创新

近期,亚信科技旗下的AntDB数据库再获殊荣,成功通过GB 18030-2022《信息技术中文编码字符集》最高实现级别(级别3)的检测认证,成为首批达到该认证标准的数据库产品之一。这一认证不仅是对AntDB数据库卓越技术实力的肯定…

算法02哈希法

算法01之哈希法 1.哈希法理论基础1.1哈希表(1)哈希表(2)哈希函数(3)哈希碰撞 1.2哈希法基本思想1.3哈希法适用场景与最常用的哈希结构 2.LeetCode242:有效的字母异位词(1&#xff09…

《每天一分钟学习C语言·三》

1、 scanf的返回值由后面的参数决定scanf(“%d%d”,& a, &b); 如果a和b都被成功读入,那么scanf的返回值就是2如果只有a被成功读入,返回值为1如果a和b都未被成功读入,返回值为0 如果遇到错误或遇到end of file,返回值为EOF…

另一种理解伦敦金支撑阻力位的方法

支撑阻力位一向被认为是做伦敦金交易不可或缺的分析工具,但很多人对它的原理并不清楚,甚至不太服气,觉得凭什么一根平平无奇的水平位,能带来所谓的“大作用”呢?下面我们不妨从另外一个角度来看一下伦敦金市场中的支撑…

23、Web攻防——Python考点CTF与CMS-SSTI模板注入PYC反编译

文章目录 一、PYC文件二、SSTI 一、PYC文件 pyc文件:python文件编译后生成的字节码文件(byte code),pyc文件经过python解释器最终会生成机器码运行。因此pyc文件是可以跨平台部署的,类似java的.class文件,…

金蝶EAS打印凭证,数据量多点的就会出错

金蝶EAS打印凭证,数据量多点的就会出错,约过100页,提示数据源有问题 经咨询工程师需修改java虚拟机内存。 打开eas客户端目录,运行set-url.bat 看到原来java虚拟机只配置了512M内存,把虚拟机内存修改为4096&#xff0…

如何解决苹果应用商城审核拒绝的Guideline 2.1 - Information Needed问题

当你的应用程序在苹果应用商城审核过程中被拒绝时,苹果会向您发送一封邮件,其中提供了关于拒绝原因的详细信息。本文将指导您如何正确处理Guideline 2.1 - Information Needed问题,并提供解决方案,以确保您的应用程序能够通过审核…

ansible的脚本—playbook剧本

一、playbook 1、简介 Playbook 剧本是由一个或多个play组成的列表。 play的主要功能在于将预定义的一组主机,装扮成事先通过ansible中的task定义好的角色。 Task实际是调用ansible的一个module,将多个play组织在一个playbook中,即可以让它…

系列十一(面试)、如何查看JVM的参数?

一、查看JVM的参数 1.1、概述 上篇文章介绍了JVM的参数类型,通过jinfo可以查看JVM的默认参数,本章介绍另外一种查看JVM参数的方式。 1.2、 分类 JVM中提供了三种方式查看JVM的参数信息,这三种方式又分为两类,即:查看默…