Airtest-Selenium实操小课:爬取新榜数据

1. 前言

最近看到群里很多小伙伴都在用Airtest-Selenium做一些web自动化的尝试,正好趁此机会,我们也出几个关于web自动化的实操小课,仅供大家参考~

今天跟大家分享的是一个非常简单的爬取网页信息的小练习,在百度找到新榜网页,搜索关键词“自动化”,爬取前5名的公众号名称。

2. 需求分析和准备

整体的需求大致可以分为以下步骤:

  • 打开chrome浏览器
  • 打开百度网页
  • 搜索“新榜官网”
  • 点击“找达人”按钮
  • 搜索关键词“自动化”
  • 爬取排名前5的公众号名称

在写脚本之前,我们需要准备好社区版AirtestIDE,设置好chrome.exe和对应的driver;并且确保我们的chrome浏览器版本不是太高以及selenium是4.0以下即可(这些兼容问题我们都会在后续的版本修复)。

3. 脚本实现

3.1 完整示例代码

接下来就可以着手写脚本啦,关于web自动化脚本,我们可以借助IDE的selenium Window ,方便我们录制控件信息和快速使用常用接口:

完整的参考代码如下:

  1. # -*- encoding=utf8 -*-

  2. __author__ = "AirtestProject"

  3. from airtest.core.api import *

  4. from airtest_selenium.proxy import WebChrome

  5. from selenium.webdriver.common.keys import Keys

  6. from selenium.webdriver.common.by import By

  7. """

  8. 任务描述:打开chrome浏览器,打开百度搜索新榜,进入新榜搜索关键词“自动化”,爬取自动化综合排名前10的公众号名称

  9. https://www.newrank.cn/search/gongzhonghao/%E8%87%AA%E5%8A%A8%E5%8C%96

  10. """

  11. def start_selenium():

  12. # 创建一个实例,代码运行到这里,会打开一个chrome浏览器

  13. driver = WebChrome()

  14. driver.implicitly_wait(20)

  15. driver.get("https://www.baidu.com/")

  16. # 输入搜索关键词并提交搜索

  17. search_box = driver.find_element_by_name('wd')

  18. search_box.send_keys('新榜官网')

  19. search_box.submit()

  20. # 使用XPath查找文本为 "上海新榜信息技术股份" 的元素并点击

  21. try:

  22. element = driver.find_element_by_xpath("//div[@id='content_left']/div[@id='1']/div[@class='c-container']/div[1]/h3[@class='c-title t t tts-title']/a")

  23. except Exception as e:

  24. element = driver.find_element_by_xpath('//*/text()[normalize-space()="上海新榜信息技术股份"]/parent::*')

  25. element.click()

  26. # 获取所有窗口句柄

  27. window_handles = driver.window_handles

  28. # 切换到新打开的窗口

  29. driver.switch_to.window(window_handles[1])

  30. # 获取新页面的链接

  31. new_page_url = driver.current_url

  32. # 打印新页面的链接

  33. print(new_page_url)

  34. driver.get(new_page_url)

  35. # # 在主内容内部查找 "找达人" 按钮并点击

  36. search_box = driver.find_element_by_xpath('//button[@class="ant-btn ant-btn-primary ant-btn-lg index_searchBtn__c3q_1"]//a')

  37. print(search_box.text)

  38. # 获取a标签的URL

  39. url = search_box.get_attribute('href')

  40. # 打印URL

  41. print(url)

  42. driver.get(url) # 请求搜索链接-跳转

  43. # 输入搜索关键词并提交搜索

  44. search_box = driver.find_element_by_id('rc_select_0')

  45. # 模拟发送Backspace键

  46. search_box.send_keys(Keys.BACKSPACE) # 清空内容

  47. search_box.send_keys(Keys.BACKSPACE)

  48. search_box.send_keys('自动化')

  49. # 模拟发送Enter键

  50. search_box.send_keys(Keys.ENTER)

  51. sleep(5)

  52. list_date = driver.find_elements(By.XPATH, "//div[@class='ant-spin-container']//li")

  53. for item in list_date:

  54. name_str = item.find_element_by_class_name("index_name__Fk83i")

  55. print(name_str.text)

  56. if __name__ == "__main__":

  57. start_selenium()

3.2 重要知识点
1)创建实例并打开浏览器
driver = WebChrome()
2)打开网页
driver.get("https://www.baidu.com/")
3)元素定位
driver.find_element_by_xpath('//button[@class="ant-btn ant-btn-primary ant-btn-lg index_searchBtn__c3q_1"]//a')

更多定位方式可以在官方教程学习:selenium-python中文文档 。

4)模拟按键输入
  1. search_box = driver.find_element_by_name('wd')

  2. search_box.send_keys('新榜官网')

5)模拟回车
  1. search_box = driver.find_element_by_name('wd')

  2. search_box.submit()

6)模拟键盘事件
  1. search_box = driver.find_element_by_id('rc_select_0')

  2. # 模拟发送Backspace键

  3. search_box.send_keys(Keys.BACKSPACE)

4. 注意事项与小结​​​​​

4.2 参考脚本的有效性

请同学们不要过多依赖于我们给出的参考脚本,通常情况下,网页的控件信息可能会随着前端的改动而更新,所以我们的教程并不是永久有效的。

更多的是参考整体脚本的知识点,查漏补缺,让自己在小实践中对web自动化的熟练程度更高。也非常欢迎热心同学给我们投稿~

总结:

感谢每一个认真阅读我文章的人!!!

作为一位过来人也是希望大家少走一些弯路,如果你不想再体验一次学习时找不到资料,没人解答问题,坚持几天便放弃的感受的话,在这里我给大家分享一些自动化测试的学习资源,希望能给你前进的路上带来帮助

 视频文档获取方式:
这份文档和视频资料,对于想从事【软件测试】的朋友来说应该是最全面最完整的备战仓库,这个仓库也陪伴我走过了最艰难的路程,希望也能帮助到你!以上均可以分享,点下方小卡片即可自行领取

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/688646.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【精选】Java面向对象进阶——接口细节:成员特点和接口的各种关系

🍬 博主介绍👨‍🎓 博主介绍:大家好,我是 hacker-routing ,很高兴认识大家~ ✨主攻领域:【渗透领域】【应急响应】 【Java】 【VulnHub靶场复现】【面试分析】 🎉点赞➕评论➕收藏 …

鸿蒙生态来了 ,60k 高薪向你招手

最近,各大平台都被华为鸿蒙不断刷屏。原因是在华为秋季发布会上,华为宣布启动鸿蒙原生应用,不再兼容安卓应用。一石激起千层浪,这无疑是IT界的一颗核弹,各大企业和开发者都纷纷开始加入“鸿蒙朋友圈”。 鸿蒙原生应用…

【机构vip教程】Requests(1):Requests模块简介与安装

Requests模块简介 在python的标准库中,虽然提供了urllib,utllib2,httplib,但是做接口测试,requests使用更加方便快捷,正如官方说的,“让HTTP服务人类”。 Requests是用python语言基于urllib编写的,采用的是…

利用 pt-archiver 实现数据库归档功能

文章目录 一、前言关于Percona 二、Percona Toolkit安装 percona-toolkit:pt-archiver 归档命令的使用格式:示例: 三、归档步骤:1)、创建归档数据库和归档表方式一(推荐):这种方式的优缺点: 方式…

【Java】图解 JVM 垃圾回收(一):GC 判断策略、引用类型、垃圾回收算法

图解 JVM 垃圾回收(一) 1.前言1.1 什么是垃圾1.2 内存溢出和内存泄漏 2.垃圾回收的定义与重要性3.GC 判断策略3.1 引用计数算法3.2 可达性分析算法 4.引用类型5.垃圾回收算法5.1 标记-复制(Copying)5.2 标记-清除(Mark…

Android 基础技术——HashMap

笔者希望做一个系列,整理 Android 基础技术,本章是关于HashMap HaspMap的默认初始长度是16,并且每次扩展长度或者手动初始化时,长度必须是2的次幂。 为什么长度是2的x次幂和每次扩容都是2倍?? 1)当一个key被放进到数…

Python实现时间序列分析使用LOESS(STL)模型进行季节性趋势分解(STL算法)项目实战

说明:这是一个机器学习实战项目(附带数据代码文档视频讲解),如需数据代码文档视频讲解可以直接到文章最后获取。 1.项目背景 时间序列分析中,LOESS(局部加权回归平滑)和STL(Seasona…

Leetcode 3041. Maximize Consecutive Elements in an Array After Modification

Leetcode 3041. Maximize Consecutive Elements in an Array After Modification 1. 解题思路2. 代码实现 题目链接:3041. Maximize Consecutive Elements in an Array After Modification 1. 解题思路 这一题思路上同样就是一个动态规划,我们首先将原…

轨道交通信号增强与覆盖解决方案——经济高效,灵活应用于各类轨道交通场景!

方案背景 我国是世界上轨道交通里程最长的国家,轨道交通也为我们的日常出行带来极大的便利。伴随着无线通信技术的快速发展将我们带入电子时代,出行的过程中对无线通信的依赖程度越来越高,无论是车站还是车内都需要强大、高质量的解决方案以…

LeetCode 2824.统计和小于目标的下标对数目

给你一个下标从 0 开始长度为 n 的整数数组 nums 和一个整数 target &#xff0c;请你返回满足 0 < i < j < n 且 nums[i] nums[j] < target 的下标对 (i, j) 的数目。 示例 1&#xff1a; 输入&#xff1a;nums [-1,1,2,3,1], target 2 输出&#xff1a;3 解…

全网最详细的从0到1的turbo pnpm monorepo的前端工程化项目[搭建篇]

全网最详细的从0到1的turbo pnpm monorepo的前端工程化项目[搭建篇] 引言相关环境技术栈初始化工程安装turbo配置pnpm-workspace安装husky安装lint-staged安装eslint安装prettier配置 .editorconfig配置 .gitignore初步项目结构结语 引言 最近各种原因&#xff0c;生活上的&am…

代码随想录算法训练营第三十四天|860.柠檬水找零、406.根据身高重建队列、452.用最少数量的箭引爆气球

860.柠檬水找零 public class Solution {public bool LemonadeChange(int[] bills) {int cnt50;int cnt100;for(int i0;i<bills.Length;i){if(bills[i]5){cnt5;}else if(bills[i]10){cnt5--;cnt10;}else if(cnt10!0){cnt5--;cnt10--;}else{cnt5-3;}if(cnt5<0){return fa…

SSTI模板注入漏洞(vulhub 复现)

首先了解模板引擎&#xff1a; 模板引擎&#xff08;这里特指用于Web开发的模板引擎&#xff09;是为了使用户界面与业务数据&#xff08;内容&#xff09;分离而产生的&#xff0c;它可以生成特定格式的文档&#xff0c;利用模板引擎来生成前端的html代码&#xff0c;模板引擎…

2024年华为OD机试真题-求最多可以派出多少支团队-Python-OD统一考试(C卷)

题目描述&#xff1a; 用数组代表每个人的能力&#xff0c;一个比赛活动要求参赛团队的最低能力值为N&#xff0c;每个团队可以由1人或2人组成&#xff0c;且1个人只能参加1个团队&#xff0c;请计算出最多可以派出多少支符合要求的团队&#xff1f; 输入描述&#xff1a; 5 3 …

网络原理 - HTTP/HTTPS(1)

HTTP HTTP是什么 HTTP("全程超文本协议")是一种应用非常广泛的应用层协议. 文本:字符串(能在utf8/gbk)码表上找到合法字符. 超文本:不仅是字符串,还能携带图片啥的(HTML). 富文本:类似于word文档这种. HTTP诞生于1991年.目前已经发展为最主流使用的一种应用层协议.…

服务端和客户端以及前后端相关概念区分

服务端和客户端以及前端和后端是两组相关但不完全相同的概念。 一、服务端&#xff08;Server-side&#xff09;和客户端&#xff08;Client-side&#xff09; 服务端和客户端是指在分布式系统或网络应用中相对的两个部分。是指在计算机网络中不同角色的两个主要实体。 服务端…

如何使用python 挑战将ai生成的概念图制作成2d游戏

要使用Python将AI生成的概念图制作成2D游戏&#xff0c;你可以遵循以下步骤&#xff1a; 生成概念图&#xff1a; 使用AI图像生成工具&#xff08;如DALL-E、DeepArt等&#xff09;来创建你的游戏概念图。保存生成的图像文件&#xff0c;通常为PNG或JPEG格式。 选择游戏引擎&a…

truncate、delete、drop的区别?

truncatedeletedrop操作类型DDLDMLDDL支持回滚不支持支持 不支持 删除内容 删除表中所有数据&#xff0c;保留表结构删除表全部或者一部分数据行&#xff0c;保留表结构从数据库中删除表&#xff0c;所有数据行&#xff0c;索引和权限也会被删除删除速度速度快速度慢&#xff…

python中怎么画对数坐标图

在Python中&#xff0c;我们可以使用matplotlib库来创建对数坐标图。以下是一个基本的示例&#xff0c;展示了如何在x轴和y轴上使用对数尺度&#xff1a; python复制代码 import matplotlib.pyplot as plt import numpy as np # 创建一些数据 x np.linspace(0.1, 10, 100) y …

【状态估计】深度传感器与深度估计算法(1/3)

深度传感器与深度估计算法 深度传感器概念 获得空间中目标位置或距离的传感器&#xff0c;按接收的媒介波来源可分为主动式和被动式两大范畴&#xff0c;主动式包括激光雷达、雷达、超声波传感器等&#xff0c;被动式主要为单目、多目相机等&#xff0c;同时两大类可组合为混…