webdriver 爬虫 java_java爬虫通过selenium+WebDriver遍历页面链接报错

背景

由于要爬取的页面,每个链接的请求都是点击之后js动态发起的,目标数据也多是js动态生成的,所以使用selenium工具+webdriver(调试用的是chrome,具体使用准备用phantomjs).

模拟登录之后,模拟查询之后,得到如下列表

6b4537956ecbf4a4bf788430a00709e3.png

可以看到链接是不能直接拿到的。

接下去步骤是这样的:

得到链接的集合

遍历集合,点击链接,得到对应的详情页面

通过页面句柄转到详情页面,拿到目标数据,再转回父页面

如上继续遍历

问题

按照如上逻辑,在执行到遍历步骤的时候,在第二次时报错了。

第一种报错:

org.openqa.selenium.StaleElementReferenceException: stale element

reference: element is not attached to the page document

我的代码:

// 获取查询按钮

WebElement queryBtn = driver.findElement(By.ByXPath.xpath("//*[@id=\"mainContent\"]/form/div[3]/div[13]/button[1]"));

// jse.executeScript("arguments[0].scrollIntoView()", queryBtn);

scrollToElementAndClick(queryBtn);

Thread.sleep(500); // 等待加载

driver.manage().window().maximize();

driver.manage().timeouts().implicitlyWait(60, TimeUnit.SECONDS);

driver.manage().timeouts().pageLoadTimeout(60, TimeUnit.SECONDS);

int pageIndex = Integer.parseInt(driver.findElement(By.xpath("//*[@id=\"mainContent\"]/div[2]/div[2]/div[1]/table/tfoot/tr[2]/td/div/ul/li[1]/span/font[3]")).getText());

int pageSize = Integer.parseInt(driver.findElement(By.xpath("//*[@id=\"mainContent\"]/div[2]/div[2]/div[1]/table/tfoot/tr[2]/td/div/ul/li[1]/span/font[2]")).getText());

// Actions actions = new Actions(driver);

while (pageIndex <= pageSize) {

pageIndex++;

WebElement tbody = driver.findElement(By.ByXPath.xpath("//*[@id=\"mainContent\"]/div[2]/div[2]/div[1]/table/tbody"));

List links = tbody.findElements(By.cssSelector("a[class=ng-binding]"));

for (WebElement link : links) {

WebDriver window;

System.out.println("-------------- voucherNo: "+ link.getText());

scrollToElementAndClick(link);

// jse.executeScript("arguments[0].scrollIntoView()", link);

// Thread.sleep(1000);

// actions.moveToElement(link).click().perform();

currentWindow = driver.getWindowHandle();

//get all windows

Set handles = driver.getWindowHandles();

for (String s : handles) {

//current page is don't close

if (s.equals(currentWindow) || s.equals(parentWindow))

continue;

else {

window = driver.switchTo().window(s);

window.manage().window().maximize();

window.manage().timeouts().implicitlyWait(60, TimeUnit.SECONDS);

window.manage().timeouts().pageLoadTimeout(60, TimeUnit.SECONDS);

//get all tables

String pageSource = window.getPageSource();

String jsonArray = parseDTO(pageSource);

System.out.println(jsonArray);

//close the table window

window.close();

}

//swich to current window

driver.switchTo().window(currentWindow);

}

}

// click next page

if (pageIndex <= pageSize) {

WebElement nextPage = driver.findElement(By.xpath("//*[@id=\"mainContent\"]/div[2]/div[2]/div[1]/table/tfoot/tr[2]/td/div/ul/li[3]/a"));

scrollToElementAndClick(nextPage);

//set next page to current page

driver = driver.switchTo().window(driver.getWindowHandle());

driver.manage().window().maximize();

driver.manage().timeouts().implicitlyWait(60, TimeUnit.SECONDS);

driver.manage().timeouts().pageLoadTimeout(60, TimeUnit.SECONDS);

}

}

我在stackoverflow上面查到过类似问题,也去官网上面看到了对应报错的解释:原因应该是我在跳转到子页面的时候,父页面进行的刷新,虽然在ui上面还能到那些链接,但是集合里面的链接是原先定义的,和遍历一次之后回来的父页面对应不上了。(我是这么理解的,如果我理解错了,请大神指出)。

然后我就按照官方的建议,每次页面去页面上拿链接而不是从原先定义的链接集合中拿。

先说明:每个链接的xpath都是有规律的,如:

//*[@id="mainContent"]/div[2]/div[2]/div[1]/table/tbody/tr[1]/td[2]/a

//*[@id="mainContent"]/div[2]/div[2]/div[1]/table/tbody/tr[2]/td[2]/a

//*[@id="mainContent"]/div[2]/div[2]/div[1]/table/tbody/tr[3]/td[2]/a

//*[@id="mainContent"]/div[2]/div[2]/div[1]/table/tbody/tr[%s]/td[2]/a

这是我第二次的代码:

while (pageIndex <= pageSize) {

pageIndex++;

WebElement tbody = driver.findElement(By.ByXPath.xpath("//*[@id=\"mainContent\"]/div[2]/div[2]/div[1]/table/tbody"));

List links = tbody.findElements(By.cssSelector("a[class=ng-binding]"));

int size = links.size();

for (int i = 1; i <= size; i++) {

String href = String.format("//*[@id=\"mainContent\"]/div[2]/div[2]/div[1]/table/tbody/tr[%s]/td[2]/a", i);

WebElement link = driver.findElement(By.xpath(href));

WebDriver window;

System.out.println("-------------- voucherNo: "+ link.getText());

scrollToElementAndClick(link);

currentWindow = driver.getWindowHandle();

//get all windows

Set handles = driver.getWindowHandles();

for (String s : handles) {

//current page is don't close

if (s.equals(currentWindow) || s.equals(parentWindow))

continue;

else {

window = driver.switchTo().window(s);

window.manage().window().maximize();

window.manage().timeouts().implicitlyWait(60, TimeUnit.SECONDS);

window.manage().timeouts().pageLoadTimeout(60, TimeUnit.SECONDS);

//get all tables

String pageSource = window.getPageSource();

String jsonArray = parseDTO(pageSource);

System.out.println(jsonArray);

//close the table window

window.close();

}

//swich to current window

driver.switchTo().window(currentWindow);

}

}

// click next page

if (pageIndex <= pageSize) {

WebElement nextPage = driver.findElement(By.xpath("//*[@id=\"mainContent\"]/div[2]/div[2]/div[1]/table/tfoot/tr[2]/td/div/ul/li[3]/a"));

scrollToElementAndClick(nextPage);

//set next page to current page

driver = driver.switchTo().window(driver.getWindowHandle());

driver.manage().window().maximize();

driver.manage().timeouts().implicitlyWait(60, TimeUnit.SECONDS);

driver.manage().timeouts().pageLoadTimeout(60, TimeUnit.SECONDS);

}

}

这次报了第二种错误:

Caused by: org.openqa.selenium.NoSuchElementException: {"errorMessage":"Unable to find element with xpath

Emm...试了很多种办法都没有用,希望有大神能救救我

万分感谢!!!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/431880.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

java删除集合元素吗_java如何删除集合中的元素

java如何删除集合中的元素如何使用java删除集合中的元素呢?下面是小编给大家提供的删除集合中元素的常见方法&#xff0c;欢迎阅读&#xff0c;更多详情请关注应届毕业生考试网。Java代码如下&#xff1a;package com.jerval.test;import java.util.ArrayList;import java.uti…

XmlDocument类

XmlDocument类是.NET框架的DOC解析器。XmlDocument将XML视为树状结构&#xff0c;它装载XML文档&#xff0c;并在内存中构建该文档的树状结构。下面来看下XmlDocument提供了哪些功能。 一、属性&#xff1a; Attributes      获取一个 XmlAttributeCollection&#xff0c…

java gc回收算法_Java GC回收算法-判定一个对象是否可以回收

开源推荐推荐一款一站式性能监控工具(开源项目)Pepper-Metrics是跟一位同事一起开发的开源组件&#xff0c;主要功能是通过比较轻量的方式与常用开源组件(jedis/mybatis/motan/dubbo/servlet)集成&#xff0c;收集并计算metrics&#xff0c;并支持输出到日志及转换成多种时序数…

动态规划求一个序列的最长回文子序列(Longest Palindromic Substring )

1、问题描述 给定一个字符串&#xff08;序列&#xff09;&#xff0c;求该序列的最长的回文子序列。 2、分析 需要理解的几个概念&#xff1a; ---回文 ---子序列 ---子串 http://www.cnblogs.com/LCCRNblog/p/4321398.html这一篇文章描述了利用动态规划求解两个序列的最长公共…

java类作用域标识符_java入门 (二) 标识符、数据类型、类型转换、变量、常量、作用域...

java入门(二)标识符数据类型类型转换变量、常量、作用域本次笔记引用B站&#xff1a;狂神说,虽然早就会了&#xff0c;现在回头来敲下基础&#xff0c;加深印象1.标识符&#xff1a;java所有的组成部分都需要名字。类名丶变量名丶方法名统称为标识符。标识符大小写敏感。不能使…

0421 AutoLayout的实践/基本使用

历史:从iOS 6开始 ,之前都是3.5英寸没有考虑到适配.iPhone5 变成了4英寸,所以推出了Auto Layout理解: 另外一个体系,去描述位置.像素:点: // 勘误: 图中的像素应为 “点"// 写上以上代码,就可以删掉系统创建的控制器和storyBoard了.// 创建控制器,勾选Xib[]拖一个uiview背…

C#实现UTC时间与Datetime转换

为了便于传输&#xff0c;通信过程中传输的都是&#xff1a;当前时间跟标准时间相隔的秒数&#xff0c;并且是以16进制字节的形式传输的。 1 public double ConvertDateTimeInt(System.DateTime time)//将时间格式的数据类型转换成浮点数类型 2 {3 doubl…

java selenium iframe_java selenium处理Iframe中的元素示例

java selenium 处理Iframe 中的元素有时候我们定位元素的时候&#xff0c;发现怎么都定位不了。 这时候你需要查一查你要定位的元素是否在iframe里面阅读目录什么是iframeiframe 就是HTML 中&#xff0c;用于网页嵌套网页的。 一个网页可以嵌套到另一个网页中&#xff0c;可以…

des 向量 java_在JAVA中使用DES算法

DES算法提供CBC, OFB, CFB, ECB四种模式&#xff0c;MAC是基于ECB实现的。一、数据补位DES数据加解密就是将数据按照8个字节一段进行DES加密或解密得到一段8个字节的密文或者明文&#xff0c;最后一段不足8个字节&#xff0c;按照需求补足8个字节(通常补00或者FF&#xff0c;根…

可访问性不一致的原因与解决方法

出现原因&#xff0c;其中一个是返回参数的访问级别小于函数的访问级别&#xff0c;也就是说当定义一个返回参数的方法的时候&#xff0c;如果返回参数的访问级别低于方法的访问级别&#xff0c;此时就会出现这样的错误。如果返回的参数不能被访问,那么定义的返回的方法也是错误…

jQuery 事件 - bind() 方法

定义和用法 bind() 方法为被选元素添加一个或多个事件处理程序&#xff0c;并规定事件发生时运行的函数。 实例1&#xff08;一个事件&#xff09; 记得把js引用地址换掉 当点击鼠标时&#xff0c;隐藏或显示 p 元素&#xff1a; <html><head><script type"…

java 圆形按钮,如何在Java中创建圆形的JButton?

I want to create rounded JButton in Java...For that I use rounded image and placed that image on button but I didnt get rounded button..please any one can tell how to create rounded button in Java like show in below figure..thanks in advance.....解决方案If…

Python学习 Day 3 字符串 编码 list tuple 循环 dict set

字符串和编码 字符 ASCII Unicode UTF-8 A 1000001 00000000 01000001 1000001 中 x 01001110 00101101 11100100 10111000 10101101 格式化 在Python中&#xff0c;采用的格式化方式和C语言是一致的&#xff0c;用%实现&#xff0c;举例如下&#xff1a; >>&…

java hibernate dto_java – 正确使用Entity和DTO在Restful Web服务中...

有很多文章指出使用JPA / hibernate不需要使用DTO同样在article由SO成员Bohzo我很少需要阅读DTO甚至在articles中反对暴露实体声明当实体没有任何行为时(当它们是POJO时)不需要具有DTO,如在贫血域模型中那样假设有一个Entity类class Department{List employees //lazily loaded…

构建之法现代软件概述

软件工程&#xff1a;就是用科学的知识工程和技术原理来定义&#xff0c;开发&#xff0c;维护软件的一门学科。软件工程的目标&#xff1a;付出较低开发成本&#xff1b;达到要求的功能&#xff1b;取得较好的性能&#xff1b;开发的软件易于移植&#xff1b;只需较低的维护费…

java 高飞_高飞(土木与水利工程学院)老师 - 合肥工业大学

高飞高飞老师的简历姓名:高飞 性别:男 出生年月:1962.11最终学位:硕士 毕业院校:合肥工业大学职称:教授 职务:副院长电话:0551-2901441,13705510744E-mail:gaofeihfut.edu.cn现从事专业:测绘科学与技术社会团体任职:1.全国高等学校测绘学科教学指导委员会,委员;2.中国测绘学会工…

Python_03-数据类型

1.1 数据类型 基本数据类型&#xff1a;字符串&#xff0c;整数&#xff0c;浮点数&#xff0c;布尔型 集合类型&#xff1a;列表&#xff08;list), 元组&#xff08;tuple), 字典&#xff08;dictionary或hash) 列表&#xff08;list&#xff09;的定义&#xff1a; aList …

java串口监听超时_从串口读取时如何实现read()的超时(C / C)

有几种可能的方法 . 如果程序最终将定时多个i / o操作&#xff0c; select() 是明智的选择 .但是&#xff0c;如果唯一的输入来自此i / o&#xff0c;则选择非阻塞i / o和时序是一种简单的方法 . 我已经将它从单字符i / o扩展到多字符&#xff0c;使其成为一个更普遍的完整示例…

64位操作系统下IIS报“试图加载格式不正确的程序”错误

缘由&#xff1a;在64位操作系统下IIS发布32位的项目&#xff0c;报“项目依赖的dll无法读取&#xff0c;试图加载格式不正确的程序”错误。 原因&#xff1a;程序集之间的通讯要么全是64位环境下的&#xff0c;要么全是32位环境下的。不能混编访问。不然会出现“试图加载格式不…

java训练_Java练习

package exec;/*2.根据圆柱体的半径和高&#xff0c;使用下面的公式&#xff0c;计算圆柱的体积面积半径*半径*π体积面积*高 */public class work01 {public static void main(String[] args) {// TODO Auto-generated method stub//定义圆柱的高和半径&#xff0c;面积&#…