安装Selenium
【0】引言
由于sleenium4.1.0需要python3.7以上方可支持,请注意自己的python版本。
【1】使用Pycharm安装
【2】使用 pip 安装
- Python3.x安装后就默认就会有pip(pip.exe默认在python的Scripts路径下),
- 打开 cmd,使用pip安装。
- 由于sleenium4.1.0需要python3.7以上方可支持,请注意自己的python版本。
# pip install Seleium
# pip install selenium==3.14.0
- 首次安装会有进度条,而且装出来是多个包(依赖于其他第三方库)。
- 如果安装慢(默认连接官网),可以指定国内源。
- 浏览器下载selenium chrome下载网址
# pip install selenium -i https://mirrors.aliyun.com/pypi/simple/
【3】安装chrome驱动
chrome驱动地址
- http://chromedriver.storage.googleapis.com/index.html
- 或者
- Chrome for Testing availability (googlechromelabs.github.io)
- 建议win64位
- 在把你下载的驱动程序下载解压放在Python解释器的文件夹就可以了
【4】测试驱动
# 导入模块
from selenium import webdriver# 指定绝对路径的方式(可选)
browser = webdriver.Chrome()# 让浏览器访问网页
browser.get("https://www.baidu.com")
【1】设置Chrome启动参数
# 导入模块
from selenium import webdriver
import time# 指定绝对路径的方式(可选)
browser = webdriver.Chrome()
# 让浏览器访问网页
browser.get("https://www.baidu.com")# 创建浏览器对象,指定配置参数
options = webdriver.ChromeOptions()
options.add_argument('--headless') # 开启无界面模式
options.add_argument('--disable-gpu') # 禁用gpu
# 实例化带有配置对象的driver对象
browser = webdriver.Chrome()# 保存截图调试
browser.save_screenshot('screenshot.png')# 延迟进入浏览器页面
time.sleep(5)# 关闭浏览器
browser.close()
【 5 】edge浏览器
Supported Browsers | SeleniumSelenium Web自动化测试工具
使用Selenium与Microsoft Edge浏览器进行自动化测试或爬虫开发是相对简单的。以下是一些基本步骤:
-
安装Selenium: 首先,确保你已经安装了Selenium库。你可以使用pip来安装Selenium:
# pip install selenium
-
下载Edge WebDriver: 与其他浏览器一样,Edge浏览器也需要一个WebDriver来与Selenium进行通信。你需要下载与你的Edge浏览器版本相匹配的WebDriver。你可以在Microsoft Edge WebDriver下载页面找到适合你的Edge浏览器版本的WebDriver。
- 设置WebDriver路径: 在你的Python脚本中,需要指定WebDriver的路径。你可以通过设置WebDriver的路径来告诉Selenium在哪里找到Edge浏览器的WebDriver。
from selenium import webdriver
# 导入标签定位工具
from selenium.webdriver.common.by import By
from selenium.webdriver.edge.service import Service
import time# 启动Edge浏览器# 设置 Edge 驱动程序的路径
driver_path = r'C:\Users\小白\PycharmProjects\pythonProject2\ni1\msedgedriver.exe'
# 创建一个 EdgeDriver 的 Service 对象
service = Service(driver_path)
# 使用当前目录下的Edge驱动程序初始化WebDriver对象
driver = webdriver.Edge(service=service)
请确保将 path_to_your_edge_webdriver
替换为你实际下载的Edge WebDriver的路径。
- 使用WebDriver进行操作:一旦你设置了WebDriver的路径并创建了WebDriver实例,你就可以使用Selenium的WebDriver来执行各种操作,例如打开网页、查找元素、模拟用户操作等等。
# 打开网页
driver.get("https://www.jsrank.cn/index.html")
# driver.get('https://vip.biancheng.net/register.php')# 屏幕最大
driver.maximize_window()# 等待一段时间
time.sleep(2)# 通过元素的 Class 属性进行定位
class_name = element = driver.find_element(By.CLASS_NAME, 'header').text
print(class_name)
# 综合 科技 娱乐 社区 购物 财经 开发 校务 报刊 热点资讯# 通过元素的 ID 属性进行定位
ID = driver.find_element(By.ID, 'regbox')
print(ID)
# <selenium.webdriver.remote.webelement.WebElement (session="ad44a579fb522248cf88bdd13a2f54e3",
# element="f.537DE79A6BB2F55B2759F2DFFCC6F0CA.d.0FA0C5957077950BD0F1A3D1BF5F92F2.e.32")># 通过标签名进行定位
div = driver.find_elements(By.TAG_NAME, 'div')
print(div)
# [<selenium.webdriver.remote.webelement.WebElement (session="e4492d752e6b8da3cfd609afcfbccdae",
# element="f.3B12F351523F220A288B95A2C4D01859.d.B20600EBF051C913695EA58BA9CB4C8C.e.32")>,# Link 文字 使用 By.PARTIAL_LINK_TEXT 定位链接文本包含 "抖音热搜" 的链接元素
link = driver.find_element(By.LINK_TEXT,'微博热榜').text
print(link) # 微博热榜# 2. 使用 By.PARTIAL_LINK_TEXT 定位链接文本包含 "抖音热搜" 的链接元素
element_partial_link_text = driver.find_element(By.PARTIAL_LINK_TEXT, '抖音热搜')
print("使用 By.PARTIAL_LINK_TEXT 定位到的元素:", element_partial_link_text)# 3. 使用 By.XPATH 定位版权声明的文本元素
element_xpath = driver.find_element(By.XPATH, '//div[@class="copyright"]')
print("使用 By.XPATH 定位到的元素:", element_xpath.text)
# 使用 By.XPATH 定位到的元素: 长沙艾特米文化传播有限公司 版权所有 Copyright © 2021.All rights reserved 湘ICP备2023007990号-2# 4. 使用 By.CSS_SELECTOR 定位友情链接区域的 div 元素
element_css_selector = driver.find_element(By.CSS_SELECTOR, 'div.slider')
print("使用 By.CSS_SELECTOR 定位到的元素:", element_css_selector)
# 使用 By.CSS_SELECTOR 定位到的元素: <selenium.webdriver.remote.webelement.WebElement (session="39726edd1aa39980fa6cde954badc541",
# element="f.B1C654BA4808D1AA32F9030DC93C7165.d.187CC1011407A47EF6446A2E60BA9DD5.e.588")># 关闭浏览器
driver.close()
CC1011407A47EF6446A2E60BA9DD5.e.588")>
关闭浏览器
driver.close()