五、Selenium操作指南(二)

文章目录

  • 四、获取页面元素属性
    • (一)get_attribute获取属性
    • (二)获取文本
    • (三) 获取其他属性
  • 五、页面交互操作
    • (一)输入文本 send_keys()
    • (二)点击 click()
    • (三)清除文本 clear()
    • (四)回车确认 submit()
    • (五)单选
    • (六)多选
    • (七)下拉框
  • 六、多窗口切换
    • (一)Frame切换
    • (二)选项卡切换

四、获取页面元素属性

既然我们有很多方式来定位页面的元素,那么接下来就可以考虑获取以下元素的属性了,尤其是用Selenium进行网络爬虫的时候。

(一)get_attribute获取属性

以百度首页的logo为例,获取logo相关属性:

<img hidefocus="true" id="s_lg_img" class="index-logo-src" src="//www.baidu.com/img/PCtm_d9c8750bed0b3c7d089fa7d55720d6cf.png" width="270" height="129" onerror="this.src='//www.baidu.com/img/flexible/logo/pc/index.png';this.οnerrοr=null;" usemap="#mp">
from selenium import webdriver
import time  browser = webdriver.Chrome()browser.get(r'https://www.baidu.com')  logo = browser.find_element_by_class_name('index-logo-src')
print(logo)
print(logo.get_attribute('src'))# 关闭浏览器
browser.close()

输出:

<selenium.webdriver.remote.webelement.WebElement (session="e95b18c43a330745af019e0041f0a8a4", element="7dad5fc0-610b-45b6-b543-9e725ee6cc5d")>
https://www.baidu.com/img/PCtm_d9c8750bed0b3c7d089fa7d55720d6cf.png

(二)获取文本

<a class="title-content tag-width c-link c-font-medium c-line-clamp1" href="https://www.baidu.com/s?cl=3&amp;tn=baidutop10&amp;fr=top1000&amp;wd=%E5%90%84%E5%9C%B0%E8%B4%AF%E5%BD%BB%E5%8D%81%E4%B9%9D%E5%B1%8A%E5%85%AD%E4%B8%AD%E5%85%A8%E4%BC%9A%E7%B2%BE%E7%A5%9E%E7%BA%AA%E5%AE%9E&amp;rsv_idx=2&amp;rsv_dl=fyb_n_homepage&amp;sa=fyb_n_homepage&amp;hisfilter=1" target="_blank"><span class="title-content-index c-index-single c-index-single-hot1">1</span><span class="title-content-title">各地贯彻十九届六中全会精神纪实</span></a>

获取热榜的文本,用的是text属性,直接调用即可:

from selenium import webdriver
import time  browser = webdriver.Chrome()browser.get(r'https://www.baidu.com')  logo = browser.find_element_by_css_selector('#hotsearch-content-wrapper > li:nth-child(1) > a')
print(logo.text)
print(logo.get_attribute('href'))# 关闭浏览器
browser.close()

输出:

1各地贯彻十九届六中全会精神纪实
https://www.baidu.com/s?cl=3&tn=baidutop10&fr=top1000&wd=%E5%90%84%E5%9C%B0%E8%B4%AF%E5%BD%BB%E5%8D%81%E4%B9%9D%E5%B1%8A%E5%85%AD%E4%B8%AD%E5%85%A8%E4%BC%9A%E7%B2%BE%E7%A5%9E%E7%BA%AA%E5%AE%9E&rsv_idx=2&rsv_dl=fyb_n_homepage&sa=fyb_n_homepage&hisfilter=1

(三) 获取其他属性

除了属性和文本值外,还有id、位置、标签名和大小等属性。

from selenium import webdriver
import time  browser = webdriver.Chrome()browser.get(r'https://www.baidu.com')  logo = browser.find_element_by_class_name('index-logo-src')
print(logo.id)
print(logo.location)
print(logo.tag_name)
print(logo.size)# 关闭浏览器
browser.close()

输出:

6af39c9b-70e8-4033-8a74-7201ae09d540
{'x': 490, 'y': 46}
img
{'height': 129, 'width': 270}

五、页面交互操作

页面交互就是在浏览器的各种操作,比如上面演示过的输入文本、点击链接等等,还有像清除文本、回车确认、单选框与多选框选中等。

(一)输入文本 send_keys()

其实,在之前的小节中我们有用过此操作。

from selenium import webdriver
import time  browser = webdriver.Chrome()
browser.get(r'https://www.baidu.com')  
time.sleep(2)# 定位搜索框
input = browser.find_element_by_class_name('s_ipt')
# 输入python
input.send_keys('python')
time.sleep(2)# 关闭浏览器
browser.close()

(二)点击 click()

from selenium import webdriver
import time  browser = webdriver.Chrome()
browser.get(r'https://www.baidu.com')  
time.sleep(2)# 选中新闻按钮
click = browser.find_element_by_link_text('新闻')
# 点击之
click.click()
time.sleep(2)# 关闭浏览器全部页面
browser.quit()

(三)清除文本 clear()

from selenium import webdriver
import time  browser = webdriver.Chrome()
browser.get(r'https://www.baidu.com')  
time.sleep(2)# 定位搜索框
input = browser.find_element_by_class_name('s_ipt')
# 输入python
input.send_keys('python')
time.sleep(2)
# 清除python
input.clear()
time.sleep(2)# 关闭浏览器
browser.close()

(四)回车确认 submit()

比如,在搜索框输入文本python,然后回车就出查询操作结果的情况。

from selenium import webdriver
import time  browser = webdriver.Chrome()
browser.get(r'https://www.baidu.com')  
time.sleep(2)# 定位搜索框
input = browser.find_element_by_class_name('s_ipt')
# 输入python
input.send_keys('python')
time.sleep(2)
# 回车查询
input.submit()
time.sleep(5)# 关闭浏览器
browser.close()

(五)单选

单选比较好操作,先定位需要单选的某个元素,然后点击一下即可。

(六)多选

多选好像也比较容易,依次定位需要选择的元素,点击即可。

(七)下拉框

下拉框的操作相对复杂一些,需要用到Select模块。

from selenium.webdriver.support.select import Select
'''1、三种选择某一选项项的方法'''select_by_index()           # 通过索引定位;注意:index索引是从“0”开始。
select_by_value()           # 通过value值定位,value标签的属性值。
select_by_visible_text()    # 通过文本值定位,即显示在下拉框的值。'''2、三种返回options信息的方法'''options                     # 返回select元素所有的options
all_selected_options        # 返回select元素中所有已选中的选项
first_selected_options      # 返回select元素中选中的第一个选项                  '''3、四种取消选中项的方法'''deselect_all                # 取消全部的已选择项
deselect_by_index           # 取消已选中的索引项
deselect_by_value           # 取消已选中的value值
deselect_by_visible_text    # 取消已选中的文本值

六、多窗口切换

比如同一个页面的不同子页面的节点元素获取操作,不同选项卡之间的切换以及不同浏览器窗口之间的切换操作等等。

(一)Frame切换

Selenium打开一个页面之后,默认是在父页面进行操作,此时如果这个页面还有子页面,想要获取子页面的节点元素信息则需要切换到子页面进行擦走,这时候switch_to.frame()就来了。如果想回到父页面,用switch_to.parent_frame()即可。

(二)选项卡切换

我们在访问网页的时候会打开很多个页面,在Selenium中提供了一些方法方便我们对这些页面进行操作。

current_window_handle:获取当前窗口的句柄。
window_handles:返回当前浏览器的所有窗口的句柄。
switch_to_window():用于切换到对应的窗口。
from selenium import webdriver
import timebrowser = webdriver.Chrome()# 打开百度
browser.get('http://www.baidu.com')
# 新建一个选项卡
browser.execute_script('window.open()')
print(browser.window_handles)
# 跳转到第二个选项卡并打开知乎
browser.switch_to.window(browser.window_handles[1])
browser.get('http://www.zhihu.com')
# 回到第一个选项卡并打开淘宝(原来的百度页面改为了淘宝)
time.sleep(2)
browser.switch_to.window(browser.window_handles[0])
browser.get('http://www.taobao.com')

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/53019.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

kaggle平台free使用GPU

1、注册 请保证在【科学上网】条件下进入如下操作&#xff0c;只有在注册账户和手机号验证时需要。 step1&#xff1a;注册账户 进入kaggle官网&#xff1a;https://www.kaggle.com/&#xff0c;点击右上角【Register】进入注册页面 最好选择使用邮箱注册&#xff08;&#…

【例003】利用MATLAB绘制有趣平面图形

题目&#xff1a; 用 ezplot 画出由方程 sin ⁡ ( x 2 m y 2 1000 ) cos ⁡ ( x y ) \sin(x^2\frac{my^2}{1000})\cos(xy) sin(x21000my2​)cos(xy) 确定隐函数的图形。 求解&#xff1a; 我们分别取m为100&#xff0c;1000,10000不同的值&#xff0c;绘制不同情况下的图…

3.1 线性结构

令序列X、Y、Z的每个元素按顺序进栈&#xff0c;且每个元素进栈.出栈各一次&#xff0c;则不可能得到出栈序列&#xff08; &#xff09;。 A. XYZ B. XZY C. ZXY D. YZX 正确答案是 C。 解析 ZXY不可能得到这个序列&#xff0c;因为当Z最先出栈&#xff0c;说明X、Y已经入栈&a…

MySQL-进阶篇-锁(全局锁、表级锁、行级锁)

文章目录 1. 锁概述2. 全局锁2.1 介绍2.2 数据备份2.3 使用全局锁造成的问题 3. 表级锁3.1 表锁3.1.1 语法3.1.2 读锁3.1.3 写锁3.1.4 读锁和写锁的区别 3.2 元数据锁&#xff08;Meta Data Lock&#xff0c;MDL&#xff09;3.3 意向锁3.3.1 案例引入3.3.2 意向锁的分类 4. 行级…

数据分析中的上钻、下钻、切片和切块

“上钻”、“下钻”、“切片”、“切块”是数据分析和数据展示中的常见概念,尤其是在处理多维数据或数据仓库时。以下是每个术语的解释: 上钻(Drill Up): 这是指从数据的更详细层级上升到更概括的层级。比如,假设你有一个按时间划分的销售数据,当前在查看按月的销售情况…

推荐使用阿贝云免费云服务器、免费虚拟主机

官网地址&#xff1a;https://www.abeiyun.com 阿贝云的免费云服务器简直是我在互联网世界里的一大惊喜发现&#xff01; 首先&#xff0c;它的性能表现十分出色。服务器的响应速度超快&#xff0c;无论是访问网站还是运行应用&#xff0c;都能迅速给出反馈&#xff0c;几乎没…

蒙特卡罗方法算π

蒙特卡罗法就是在一块区域里撒随机点&#xff0c;看落在指定区域的点数 基于以下关系式&#xff0c;可以计算π&#xff0c;MATLAB代码如下 N10^7; xunifrnd(0,1,[1,N]); yunifrnd(0,1,[1,N]); frequencysum(y<1./(1x.^2)); area4*frequency/N

Java多线程入门介绍

在Java编程中&#xff0c;线程并发是一个核心且复杂的话题&#xff0c;它允许开发者利用现代多核处理器的计算能力&#xff0c;通过并行执行多个任务来优化应用程序的性能。然而&#xff0c;线程并发也带来了数据竞争、死锁、线程饥饿等问题&#xff0c;需要开发者深入理解并发…

day-45 全排列 II

思路 与上一题思路相同&#xff0c;代码也基本一致&#xff0c;只是需要全排列不重复 解题过程 可以利用Arrays.sort()函数将nums数组进行排序&#xff0c;这样相同的全排列数字的位置也会相同&#xff0c;可以利用List的contains()函数进行判断&#xff0c;如果不重复则加入答…

【MySQL数据库管理问答题】第7章 MySQL 安全

目录 1. 哪些常见的措施可以用来防范网络安全风险&#xff1f; 2. 请对安全套接字层&#xff08;SSL&#xff09;和传输层安全性&#xff08;TLS&#xff09;协议加以简要得说明。 3. 请对 ca.pem、server-cert.pem、server-key.pem、ca-key.pem、client-cert.pem、client-ke…

Java面试自我介绍

持续更新中 模块序号目录链接前言介绍1前言地址2介绍地址基础知识3计算机网络地址4操作系统地址5Java基础地址6Java并发地址7Java虚拟机地址中间件8Mysql地址9Redis地址10Elasticsearch地址11RabbitMQ地址12RocketMQ地址框架13分布式系统地址14MyBatis地址15Dubbo地址16Spring地…

【fastapi】fastapi的hello world

新建这样的目录结构 main.py的代码如下 from fastapi import FastAPI from fastapi.templating import Jinja2Templatesapp FastAPI()# 初始化 Jinja2 模板引擎 templates Jinja2Templates(directory"templates")app.get("/") async def home():contex…

《C++打造高效网络爬虫:突破数据壁垒》

在当今信息爆炸的时代&#xff0c;网络爬虫成为了获取大量数据的重要工具。而 C作为一种高效、强大的编程语言&#xff0c;在实现高效网络爬虫方面具有独特的优势。 首先&#xff0c;C的高效性能是实现高效网络爬虫的关键。与其他编程语言相比&#xff0c;C在运行速度和内存管…

网站建设完成后, 做seo必须知道的专业知识之--网络爬虫

网络爬虫&#xff0c;也称为网络蜘蛛或网络机器人&#xff0c;是一种能够自动浏览和采集互联网信息的程序。在大数据时代&#xff0c;网络爬虫技术在信息采集领域发挥着重要作用&#xff0c;通过自动化方式高效获取数据&#xff0c;广泛应用于搜索引擎、数据分析、金融数据采集…

Windows Edge浏览器的兼容性问题

针对Windows Edge浏览器的兼容性问题&#xff0c;我们可以采取一系列措施来尝试修复。以下是一系列详细的解决步骤和策略&#xff0c;旨在帮助用户解决在使用Edge浏览器时遇到的兼容性问题。 一、检查并更新Edge浏览器 1. 自动更新检查 打开Edge浏览器&#xff0c;点击右上角…

海外新闻稿发布:企业如何充分利用数字化媒体进行

在全球数字化进程加速的时代&#xff0c;企业要在激烈的国际市场中脱颖而出&#xff0c;利用数字化媒体进行海外新闻稿发布是一个不可或缺的战略。精确的策略和有效的执行能够帮助企业获得更高的曝光度和市场份额。以下将从多个角度探讨如何充分利用数字化媒体进行海外新闻稿发…

深度学习100问43:什么是过拟合

嘿&#xff0c;咱来聊聊过拟合是什么。 想象一下&#xff0c;有个机器学习的模型就像一个学生在准备考试。如果这个模型对训练数据就像学生把课本上的题目背得超级熟&#xff0c;在训练数据上表现得那叫一个棒&#xff0c;就像学生在做课本上的题时成绩超高。但是呢&#xff…

进阶SpringBoot之 Shiro(3)实现登录拦截和用户认证

Config 配置类添加 Shiro 的内置过滤器 anon&#xff1a;无需认证就能访问 authc&#xff1a;认证才能访问 user&#xff1a;拥有“记住我”功能才能使用 perms&#xff1a;拥有对某个资源的权限才能访问 role&#xff1a;拥有某个角色权限才能访问 package com.demo.shi…

深度学习项目实践——QQ聊天机器人(transformer)(三)功能实现的方法——NoneBot2插件结构与编写

深度学习项目实践——QQ聊天机器人&#xff08;transformer&#xff09;&#xff08;三&#xff09;功能实现的方法——NoneBot2插件结构与编写 在前两节中&#xff0c;我们详细讲解了QQ聊天的原理、QQ机器人的框架与环境配置的流程。本节将重点介绍NoneBot2的插件构成&#x…

[vue] jszip html-docx-js file-saver 图片,纯文本 ,打包压缩,下载跨域问题

npm install jszip file-saverimport JSZip from jszip; import FileSaver from file-saver;JSZip 创建JSZip实例&#xff1a; const zip new JSZip();创建文件&#xff1a;支持导出纯文本 zip.file("hello.txt", "Hello World\n");创建文件夹&#xf…