Java使用Selenium实现自动化测试以及全功能爬虫

前言

工作中需要抓取一下某音频网站的音频,我就用了两个小时学习弄了一下,竟然弄出来,这里分享记录一下。
springboot项目 + Selenium


Java使用Selenium实现自动化测试以及全功能爬虫

  • 前言
  • 1 自动化测试
  • 2 java中集成Selenium
  • 3 添加浏览器驱动
  • 4 驱动的路径
  • 5 使用
  • 6 效果图
  • 7 完整的项目案例

1 自动化测试

提到Selenium,便离不开自动化测试。
自动化测试,就是把手工进行的测试过程,转变成机器自动执行的测试过程。
自动化测试有如下优点

  • 对程序的回归测试更方便。 这可能是自动化测试最主要的任务,特别是在程序修改比较频繁时,效果是非常明显的。
  • 可以运行更多更繁琐的测试。
  • 可以执行一些手工测试困难或不可能进行的测试。
  • 更好地利用资源。
  • 测试具有一致性和可重复性。
  • 测试的复用性。
  • 增加软件信任度。

2 java中集成Selenium

maven添加依赖

在java中使用Selenium很简单,你只需要添加如下依赖:


<dependency><groupId>org.seleniumhq.selenium</groupId><artifactId>selenium-java</artifactId><version>3.141.59</version>
</dependency>
<dependency><groupId>com.google.guava</groupId><artifactId>guava</artifactId><version>23.0</version>
</dependency>
<dependency><groupId>com.google.code.gson</groupId><artifactId>gson</artifactId><version>2.8.2</version>
</dependency>

3 添加浏览器驱动

我在这里遇到了问题,不知道为什么我访问网上给出的谷歌浏览器的驱动总是跳到0.0.0.0

可能是翻”强“软件的原因,我这里附上我可以使用的一个地址吧,如果你使用其它浏览器,就去找一下相关驱动,或者下载一个谷歌浏览器,再来下载相对应的驱动。

https://chromedriver.chromium.org/downloads

如果在下面这个页面没有找到自己对应的版本驱动,就点击我图片上框起来的部分看看。
在这里插入图片描述
点击之后是这个页面

在这里插入图片描述
我的版本是122.0.6261.129
在这里插入图片描述
但是我写博客这时只有122.0.6261.128的,所以我就下载了这个 128的。

在这里插入图片描述
别下载错了 记得看是chromedriver不是chrome(我就下错了。。。)

4 驱动的路径

我们把下载的压缩包解压,找到“chromedriver.exe”,并把它放置到与浏览器“Chrome.exe”相同的文件夹下。

在这里插入图片描述

5 使用

项目中新建一个java文件

在java中使用不同浏览器: 首先配置驱动属性,指定驱动文件路径

System.setProperty("webdriver.chrome.driver", "Q:\\chromedriver.exe");

获取WebDriver并打开一个新的浏览器窗口

WebDriver driver = new ChromeDriver();    //Chrome浏览器
WebDriver driver = new FirefoxDriver();   //Firefox浏览器
WebDriver driver = new EdgeDriver();      //Edge浏览器
WebDriver driver = new InternetExplorerDriver();  // Internet Explorer浏览器
WebDriver driver = new OperaDriver();     //Opera浏览器
WebDriver driver = new PhantomJSDriver();   //PhantomJS

6 效果图

在这里插入图片描述

7 完整的项目案例


import org.openqa.selenium.By;
import org.openqa.selenium.JavascriptExecutor;
import org.openqa.selenium.WebDriver;
import org.openqa.selenium.WebElement;
import org.openqa.selenium.chrome.ChromeDriver;import java.io.FileOutputStream;
import java.io.IOException;
import java.io.InputStream;
import java.net.URL;
import java.net.URLConnection;
import java.util.List;public class downPixabayMusic {public static void main(String[] args) {
//这里修改一下路径System.setProperty("webdriver.chrome.driver", "C:\\Program Files\\Google\\Chrome\\写自己的路径\\chromedriver.exe");WebDriver driver = new ChromeDriver();// 打开网页driver.get("https://pixabay.com/zh/music/search/%e5%86%a5%e6%83%b3/");// 等待页面加载完成try {Thread.sleep(5000); // 等待5秒,可根据实际情况调整} catch (InterruptedException e) {e.printStackTrace();}// 定位并点击下载按钮
//        WebElement downloadButton = driver.findElement(By.xpath("//a[@class='item small button download']"));/*** driver.findElement(By.xpath()): 这是 Selenium WebDriver 提供的方法之一,用于查找页面上符合指定条件的元素。By.xpath() 是一种通过 XPath 表达式来定位元素的方式。XPath 是一种用于在 XML 文档中定位节点的语言,也可用于 HTML 文档。"//a[@class='item small button download']": 这是 XPath 表达式,用于描述要查找的元素的位置。具体解释如下://: 表示从文档根节点开始搜索匹配的元素。
a: 表示要匹配的元素是 <a> 标签。
[@class='item small button download']: 这部分是属性条件,指定了要匹配的 <a> 元素必须具有 class 属性为 'item small button download'。这是下载按钮的特定 class 名称。
所以,整个代码行的作用就是在页面中查找一个 <a> 标签,并且该标签具有指定的 class 属性,其值为 'item small button download',然后将找到的元素存储在 WebElement 对象 downloadButton 中,以便后续操作。* */List<WebElement> downloadButton = driver.findElements(By.xpath("//button[@aria-label=\"播放\"]"));// 循环点击每个下载按钮for (WebElement button : downloadButton) {System.out.println("点击第一个下载按钮");JavascriptExecutor executor = (JavascriptExecutor)driver;executor.executeScript("arguments[0].click();", button);//            button.click();// 等待一段时间,以确保下载操作完成或者页面跳转try {Thread.sleep(2000); // 等待2秒,可根据实际情况调整} catch (InterruptedException e) {e.printStackTrace();}}// 定位所有 <audio> 标签元素List<WebElement> audioElements = driver.findElements(By.tagName("audio"));// 输出每个 <audio> 标签中的 src 属性值for (WebElement audioElement : audioElements) {String src = audioElement.getAttribute("src");System.out.println("src: " + src);// 找到最后一个斜杠的索引int lastIndex = src.lastIndexOf("/");// 截取最后一个斜杠后的子串String fileName = src.substring(lastIndex + 1);// 下载文件downloadFile(src, "D:\\迅雷下载\\music\\"+fileName);}// 关闭浏览器
//        driver.quit();}public static void downloadFile(String fileUrl, String saveFilePath) {try {URL url = new URL(fileUrl);URLConnection conn = url.openConnection();// 添加User-Agent头信息conn.setRequestProperty("User-Agent", "Mozilla/5.0");InputStream in = conn.getInputStream();FileOutputStream out = new FileOutputStream(saveFilePath);byte[] buffer = new byte[1024];int bytesRead;while ((bytesRead = in.read(buffer)) != -1) {out.write(buffer, 0, bytesRead);}out.close();in.close();System.out.println("文件下载完成!");} catch (IOException e) {e.printStackTrace();}}
}```

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/748163.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【linux】进程(一)

先看预备知识&#xff0c;对本篇文章更有帮助。 目录 进程概念&#xff1a;了解动态运行的概念&#xff1a;进程的本身内部属性&#xff1a;启动进程&#xff1a;关闭进程&#xff1a; 如何创建进程&#xff1a;进程状态&#xff1a;直接看进程状态&#xff1a;僵尸进程与孤儿…

llamma笔记:部署Llama2

1 申请Llama2 许可 Download Llama (meta.com) 地址似乎不能填中国 1.1 获取url 提交申请后&#xff0c;填的那个邮箱会受到一封meta发来的邮件&#xff0c;打码部分的url&#xff0c;之后会用得上 2 ubuntu/linux 端部署Llama2 2.1 git clone Llama2的github 仓库 bash g…

git基础命令(四)之分支命令

目录 基础概念git branch-r-a-v-vv-avv重命名分支删除分支git branch -h git checkout创建新的分支追踪远程分支同时切换到该分支创建新的分支并切换到该分支撤销对文件的修改&#xff0c;恢复到最近的提交状态&#xff1a;丢弃本地所有修改git checkout -h git merge合并指定分…

ASP.NET Mvc+FFmpeg+Video实现视频转码

目录 首先&#xff0c;做了视频上传的页面&#xff1a; FFmpeg&#xff1a;视频转码 FFmpegHelper工作类&#xff1a; 后台控制器代码&#xff1a; 前端视图代码&#xff1a; 参考文章&#xff1a; 首先&#xff0c;做了视频上传的页面&#xff1a; 借鉴了这篇文章 ASP.…

D. Tandem Repeats?

思路&#xff1a;首先我们要枚举长度&#xff0c;然后从前往后遍历&#xff0c;判断是否存在改长度的重复串。 代码&#xff1a; void solve(){string s;cin >> s;int n s.size();int ans 0;for(int len n / 2;len > 1;len --){int t 0;for(int i 0;i len <…

TSINGSEE青犀AI智能分析网关V4酿酒厂安全挂网AI检测算法

在酿酒行业中&#xff0c;安全生产一直是企业经营中至关重要的一环。为了确保酒厂生产过程中的安全&#xff0c;TSINGSEE青犀AI智能分析网关V4的安全挂网AI检测算法发挥了重要作用。 TSINGSEE青犀AI智能分析网关V4的安全挂网检测算法是针对酒厂里酒窖挂网行为进行智能检测与识…

个人简历主页搭建系列-03:Hexo+Github Pages 介绍,框架配置

今天的更新内容主要是了解为什么选择这个网站搭建方案&#xff0c;以及一些前置软件的安装。 Why Hexo? 首先我们了解一下几种简单的网站框架搭建方案&#xff0c;看看对于搭建简历网站的需求哪个更合适。 在 BuiltWith&#xff08;网站技术分析工具&#xff09;上我们可以…

【矩阵】73. 矩阵置零【中等】

矩阵置零 给定一个 m x n 的矩阵&#xff0c;如果一个元素为 0 &#xff0c;则将其所在行和列的所有元素都设为 0 。请使用 原地 算法。 示例 1&#xff1a; 输入&#xff1a;matrix [[1,1,1],[1,0,1],[1,1,1]] 输出&#xff1a;[[1,0,1],[0,0,0],[1,0,1]] 解题思路 1、…

SpringCloud Bus 消息总线

一、前言 接下来是开展一系列的 SpringCloud 的学习之旅&#xff0c;从传统的模块之间调用&#xff0c;一步步的升级为 SpringCloud 模块之间的调用&#xff0c;此篇文章为第八篇&#xff0c;即介绍 Bus 消息总线。 二、概述 2.1 遗留的问题 在上一篇文章的最后&#xff0c;我…

汇编语言(Assemble Language)学习笔记(更新中)

零.学习介绍和使用工具 【1】我们使用的教材是机械工业出版社的《32位汇编语言程序设计第二版》。 指导老师是福州大学的倪一涛老师。 这门课程教授的是Intel 80*86系列处理器的32位汇编。我们现在的处理器都兼容这个处理器。 这篇博客只是大二下汇编语言学习的总结&#xff…

数据结构顺序表的操作,窗口界面(c语言版)

// 准备头文件 #include <stdio.h> #include <stdlib.h>#define InitSize 10 // 动态顺序表的初始默认长度// 定义C语言的bool变量 #define bool char #define true 1 #define false 0/* 定义数据元素的数据类型 */ typedef int ElemType; // 方便更改// 动态顺…

css 各种方位计算 - client系列 offset系列 scroll系列 x/y 系列

offset系列 HTMLElement.offsetTop - Web API 接口参考 | MDN 一文读懂offsetHeight/offsetLeft/offsetTop/offsetWidth/offsetParent_heightoffset-CSDN博客 client系列 搞清clientHeight、offsetHeight、scrollHeight、offsetTop、scrollTop-CSDN博客 scroll系列 秒懂scr…

2024年,如何使用chatgpt4.0为工作赋能?

ChatGPT 4.0的工作原理和功能 ChatGPT 4.0的工作原理和功能可以从以下几个方面进行详细说明&#xff1a; 工作原理 ChatGPT 4.0的工作原理主要基于深度学习技术&#xff0c;特别是Transformer模型的应用。它通过大量的文本数据进行训练&#xff0c;学习语言的模式和规律&…

OpenOFDM接收端信号处理流程

Overview — OpenOFDM 1.0 documentation 本篇文章为学习OpenOFDM之后的产出PPT&#xff0c;仅供学习参考。 ​​​​​​​

嵌入式3-15

1、整理思维导图 2、整理课上单向循环链表的代码 3、完成双向链表的剩下四个功能 2、 node_p create_list()//创建链表 { node_p p(node_p)malloc(sizeof(node)); if(pNULL) { printf("申请失败\n"); return NULL; } p->len…

尼伽OLED透明屏闪耀第24届中国零售业博览会,引领零售行业革新

2024 CHINA SHOP 第二十四届中国零售业博览会 3.13-15 上海 3.13-15日&#xff0c;第24届中国零售业博览会盛大开幕&#xff0c;起立科技&#xff08;旗下品牌&#xff1a;起鸿、尼伽&#xff09;携其自主研发的30寸OLED透明屏和移动AI透明屏机器人惊艳亮相&#xff0c;成为展…

【PTA】L1-039 古风排版(C++)

题目链接&#xff1a;L1-039 古风排版 - 团体程序设计天梯赛-练习集 (pintia.cn) 目录&#xff1a; 目录&#xff1a; 题目要求&#xff1a; 输入格式&#xff1a; 输出格式&#xff1a; 输入样例&#xff1a; 输出样例&#xff1a; 思路&#xff1a; 代码&#xff1a; 测试结…

Vulnhub - Jarbas

希望和各位大佬一起学习&#xff0c;如果文章内容有错请多多指正&#xff0c;谢谢&#xff01; 个人博客链接&#xff1a;CH4SER的个人BLOG – Welcome To Ch4sers Blog Jarbas 靶机下载地址&#xff1a;https://www.vulnhub.com/entry/jarbas-1,232/ 0x01 信息收集 Nmap…

10分钟用docker搭建【devops】

1.gitlab docker run -d --name gitlab --restartalways --network devops-network -p 8000:80 -p 443:443 -v C:/docker/gitlab/config:/etc/gitlab -v C:/docker/gitlab/logs:/var/log/gitlab -v C:/docker/gitlab/data:/var/opt/gitlab gitlab/gitlab-ce:latest运行完成记得…

智慧工地管理平台APP源码基于物联网、云计算、大数据等技术

目录 ​系统特点 智慧工地云平台功能模块 1、基础数据管理 2、考勤管理 3、安全隐患管理 4、视频监控 5、塔吊监控 6、升降机监控 7、管理分析报表 8、移动端数据推送 9、数据接收管理 智慧工地管理平台系统基于物联网、云计算、大数据等技术&#xff0c;助力工地管理…