选择元素
对于百度搜索页面,如果我们想自动化输入“selenium”,怎么做呢?
这就是在网页中,操控界面元素。
web界面自动化,要操控元素,首先需要 选择
界面元素 ,或者说 定位
界面元素
就是 先告诉浏览器,你要操作哪个界面元素, 让它找到你要操作的界面元素。
我们必须要让浏览器 先找到元素,然后,才能操作元素。
选择元素的基本方法
对应web自动化来说, 就是要告诉浏览器,你要操作的界面元素是什么。
那么,怎么告诉浏览器呢?
方法就是:告诉浏览器,你要操作的这个 web 元素的特征。
就是告诉浏览器,这个元素它有什么与众不同的地方,可以让浏览器一下子找到它。
元素的特征怎么查看?
可以使用浏览器的开发者工具栏帮我们查看、选择 web 元素。点击F12出现开发者工具栏,我们要找的就是对应的html元素。
一、根据id属性选择元素
把 id 想象成元素的编号, 是用来在html中标记该元素的。
根据规范, 如果元素有id属性 ,这个id 必须是当前html中唯一的。
所以如果元素有id, 根据id选择元素是最简单高效的方式。
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
###创建一个控制浏览器的对象
###创建WebDriver类型的实例对象
wb = webdriver.Chrome(service=Service(r'D:\GoogleDownload\chromedriver-win64\chromedriver-win64\chromedriver.exe'))# 调用WebDriver 对象的get方法 可以让浏览器打开指定网址
wb.get('https://www.baidu.com')
###根据Id选择元素,返回的就是该元素对应的WebElement对象
element = wb.find_element(By.ID,'kw')
element.send_keys('selenium\n')
如果我们在这里
element.send_keys('selenium\n')
不使用回车来输入的话,可以通过先输入再点击,进行操作。“百度一下”的元素属性如下:
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
###创建一个控制浏览器的对象
###创建WebDriver类型的实例对象
wb = webdriver.Chrome(service=Service(r'D:\GoogleDownload\chromedriver-win64\chromedriver-win64\chromedriver.exe'))# 调用WebDriver 对象的get方法 可以让浏览器打开指定网址
wb.get('https://www.baidu.com')
###根据Id选择元素,返回的就是该元素对应的WebElement对象
element = wb.find_element(By.ID,'kw')
element.send_keys('selenium')element = wb.find_element(By.ID,'su')
element.click()
二、根据class选择元素
所有的植物元素都有个class属性 值为 plant。
所有的动物元素都有个class属性 值为 animal。
如果我们要选择 所有的 动物:使用 find_elements,如果没有符合条件的则返回空列表
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.service import Service
# 创建 WebDriver 实例对象,指明使用chrome浏览器驱动
###创建WebDriver类型的实例对象
wd = webdriver.Chrome(service=Service(r'D:\GoogleDownload\chromedriver-win64\chromedriver-win64\chromedriver.exe'))# WebDriver 实例对象的get方法 可以让浏览器打开指定网址
wd.get('https://cdn2.byhy.net/files/selenium/sample1.html')# 根据 class name 选择元素,返回的是 一个列表
# 里面 都是class 属性值为 animal的元素对应的 WebElement对象
elements = wd.find_elements(By.CLASS_NAME, 'animal')# 取出列表中的每个 WebElement对象,打印出其text属性的值
# text属性就是该 WebElement对象对应的元素在网页中的文本内容
for element in elements:print(element.text)
与find_elements不同,find_element 返回的就是第一个class 属性为 animal的元素,如果没有符合条件的则抛出异常。
三、根据tag选择元素
我们可以通过指定 参数为 By.TAG_NAME
,选择所有的tag名为 div的元素。
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.service import Servicewd = webdriver.Chrome(service=Service(r'D:\GoogleDownload\chromedriver-win64\chromedriver-win64\chromedriver.exe'))wd.get('https://cdn2.byhy.net/files/selenium/sample1.html')# 根据 tag name 选择元素,返回的是 一个列表
# 里面 都是 tag 名为 div 的元素对应的 WebElement对象
elements = wd.find_elements(By.TAG_NAME, 'div')# 取出列表中的每个 WebElement对象,打印出其text属性的值
# text属性就是该 WebElement对象对应的元素在网页中的文本内容
for element in elements:print(element.text)
四、通过WebElement对象选择元素
不仅 WebDriver对象有 选择元素 的方法, WebElement对象 也有选择元素的方法。
WebElement对象 也可以调用 find_elements
, find_element
之类的方法
WebDriver 对象 选择元素的范围是 整个 web页面, 而WebElement 对象 选择元素的范围是该元素的内部。前三种方法都是通过WebDriver实例化然后选择元素。
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.service import Servicewd = webdriver.Chrome(service=Service(r'D:\GoogleDownload\chromedriver-win64\chromedriver-win64\chromedriver.exe'))wd.get('https://cdn2.byhy.net/files/selenium/sample1.html')element = wd.find_element(By.ID,'container')# 限制 选择元素的范围是 id 为 container 元素的内部。
spans = element.find_elements(By.TAG_NAME, 'span')
for span in spans:print(span.text)
五、等待元素出现
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.service import Servicewd = webdriver.Chrome(service=Service(r'D:\GoogleDownload\chromedriver-win64\chromedriver-win64\chromedriver.exe'))wd.get('https://www.byhy.net/_files/stock1.html')element = wd.find_element(By.ID, 'kw')element.send_keys('通讯\n')# 返回页面 ID为1 的元素
element = wd.find_element(By.ID,'1')
# 打印该元素的文字内容
print(element.text)
在我们进行网页操作的时候, 有的元素内容不是可以立即出现的, 可能会等待一段时间。
比如 我们的股票搜索示例页面, 搜索一个股票名称, 我们点击搜索后, 浏览器需要把这个搜索请求发送给服务器, 服务器进行处理后,再把搜索结果返回给我们,这个搜索结果可能会有很多,所以,从点击搜索到得到结果,需要一定的时间,只是通常 服务器的处理比较快,我们感觉好像是立即出现了搜索结果。
也就是说点击查询之后,网站还没有来得及返回搜索结果,就执行了以下代码:
# 返回页面 ID为1 的元素
element = wd.find_element(By.ID,'1')
这样的话就找不到这个id为1的元素,就会报错:
selenium.common.exceptions.NoSuchElementException: Message: no such element: Unable to locate element: {"method":"css selector","selector":"[id="1"]"}
也就是说:网站还没有搜索完,这个代码就执行完了,响应时间赶不上代码执行速度 。
怎么解决这个问题?
在搜索id元素之前添加两行代码:
import time
time.sleep(1)
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.service import Servicewd = webdriver.Chrome(service=Service(r'D:\GoogleDownload\chromedriver-win64\chromedriver-win64\chromedriver.exe'))wd.get('https://www.byhy.net/_files/stock1.html')element = wd.find_element(By.ID, 'kw')element.send_keys('通讯\n')
import time
time.sleep(1)# 返回页面 ID为1 的元素
element = wd.find_element(By.ID,'1')
# 打印该元素的文字内容
print(element.text)
也可以使用selenium中的implicitly_wait隐式等待方法。
当发现元素没有找到的时候, 并不立即返回 找不到元素的错误。
而是周期性(每隔半秒钟)重新寻找该元素,直到该元素找到,
或者超出指定最大等待时长,这时才 抛出异常(如果是 find_elements
之类的方法, 则是返回空列表)。
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.service import Servicewd = webdriver.Chrome(service=Service(r'D:\GoogleDownload\chromedriver-win64\chromedriver-win64\chromedriver.exe'))
wd.implicitly_wait(10)wd.get('https://www.byhy.net/_files/stock1.html')element = wd.find_element(By.ID, 'kw')element.send_keys('通讯\n')
# import time
# time.sleep(1)# 返回页面 ID为1 的元素
element = wd.find_element(By.ID,'1')
# 打印该元素的文字内容
print(element.text)
wd.implicitly_wait(10)
该方法接受一个参数, 用来指定最大等待时长。
操控元素的基本方法
-
点击元素
element.click()
-
在元素中输入字符串,通常是对输入框这样的元素
element.send_keys('selenium')
-
获取元素包含的信息,比如文本内容
for element in elements:print(element.text)
这三种都是上面已经学过的。
如果我们要 把输入框中已经有的内容清除掉,可以使用WebElement对象的clear方法。
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.service import Servicewd = webdriver.Chrome(service=Service(r'D:\GoogleDownload\chromedriver-win64\chromedriver-win64\chromedriver.exe'))
wd.implicitly_wait(10)wd.get('https://www.byhy.net/_files/stock1.html')element = wd.find_element(By.ID, 'kw')element.send_keys('通讯\n')
# import time
# time.sleep(1)
element.clear()element = wd.find_element(By.ID, 'kw')element.send_keys('科技\n')input()
获取元素的文本内容
通过上面的内容,我们知道通过WebElement对象的 text
属性,可以获取元素 展示在界面上的
文本内容。
element = wd.find_element(By.ID, 'animal')
print(element.text)
获取元素属性
不在页面上的怎么办?
通过WebElement对象的 get_attribute
方法来获取元素的属性值
比如要获取元素属性class的值,就可以使用 element.get_attribute('class')
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.service import Servicewd = webdriver.Chrome(service=Service(r'D:\GoogleDownload\chromedriver-win64\chromedriver-win64\chromedriver.exe'))
wd.implicitly_wait(10)wd.get('https://www.byhy.net/_files/stock1.html')element = wd.find_element(By.ID, 'kw')element.send_keys('通讯\n')
# import time
# time.sleep(1)# 返回页面 ID为1 的元素
element = wd.find_element(By.ID,'1')
# 打印该元素的文字内容
print(element.text)
#####获取属性
print(element.get_attribute('class'))
获取整个元素对应的HTML
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.service import Servicewd = webdriver.Chrome(service=Service(r'D:\GoogleDownload\chromedriver-win64\chromedriver-win64\chromedriver.exe'))
wd.implicitly_wait(10)wd.get('https://www.byhy.net/_files/stock1.html')element = wd.find_element(By.ID, 'kw')element.send_keys('通讯\n')
# import time
# time.sleep(1)# 返回页面 ID为1 的元素
element = wd.find_element(By.ID,'1')#####获取整个HTML
print(element.get_attribute('outerHTML'))
使用
print(element.get_attribute('outerHTML'))
返回结果:
获取整个元素内部的HTML
####获取元素内部的HTML
print(element.get_attribute('innerHTML'))
获取输入框里面的文字
对于input输入框的元素,要获取里面的输入文本,用text属性是不行的,这时可以使用 element.get_attribute('value')。就是找到valu属性。
element = wd.find_element(By.ID, "input1")
print(element.get_attribute('value')) # 获取输入框中的文本