java爬取button_学习使用Java的webmagic框架爬取网页内容

(一)使用前的配置:

2,(1)添加依赖:

us.codecraft

webmagic-core

0.7.3

us.codecraft

webmagic-extension

0.7.3

us.codecraft

webmagic-selenium

0.7.3

(2)从GitHub官网下载webmagic的压缩包(https://codeload.github.com/code4craft/webmagic/zip/master),将webmagic-core使用Module from Existing Source..导入项目中

(3)在resources中添加资源文件log4j.properties中添加

# Set root logger level to DEBUG and its only appender to A1.

log4j.rootLogger=INFO, A1

# A1is setto be a ConsoleAppender.

log4j.appender.A1=org.apache.log4j.ConsoleAppender

# A1 uses PatternLayout.

log4j.appender.A1.layout=org.apache.log4j.PatternLayout

log4j.appender.A1.layout.ConversionPattern=%-d{yyyy-MM-dd HH:mm:ss,SSS} [%t] [%c]-[%p] %m%n

(二)写程序爬虫:

抽取元素:

540a7aeeb5716d64fa2cf4c188550ed1.png

1,page使用css选择器

2,page使用XPath

1d707d9172dfcb66432a9531fbf74f34.png

adc3dcda8d3741f285a1be98d5f648e9.png

3,使用正则表达式

regex(“正则表达式”)

获取元素:

690d4342be568e4f3ed70916985e49f5.png

设置爬虫属性:site

587bb0421c615812fbdd44344b832a4b.png

Scheduler组件:

1,对抓取的url保存到队列

f915362d160e88292dfaba6cfac3edd9.png

2,对抓取的url去重

8556ded26daa044d4a1255e03f452096.png

(三)使用htmlunit模拟点击https://www.bilibili.com/video/av62605696;官方文档:http://htmlunit.sourceforge.net/apidocs/

htmlunit模拟js运行

1,获取文本框和按钮,设置文本框的值,然后使用按钮的click方法提交获得新的页面

例子:

packagecom.open1111;importjava.io.IOException;importjava.net.MalformedURLException;importcom.gargoylesoftware.htmlunit.BrowserVersion;importcom.gargoylesoftware.htmlunit.FailingHttpStatusCodeException;importcom.gargoylesoftware.htmlunit.WebClient;importcom.gargoylesoftware.htmlunit.html.HtmlForm;importcom.gargoylesoftware.htmlunit.html.HtmlPage;importcom.gargoylesoftware.htmlunit.html.HtmlSubmitInput;importcom.gargoylesoftware.htmlunit.html.HtmlTextInput;public classHtmlUnitTest5 {public static voidmain(String[] args) {

WebClient webClient=new WebClient(BrowserVersion.FIREFOX_52); //实例化Web客户端

try{

HtmlPage page=webClient.getPage("http://blog.java1234.com/index.html"); //解析获取页面

HtmlForm form=page.getFormByName("myform"); //得到搜索Form

HtmlTextInput textField=form.getInputByName("q"); //获取查询文本框

HtmlSubmitInput button=form.getInputByName("submitButton"); //获取提交按钮

textField.setValueAttribute("java"); //文本框“填入”数据

HtmlPage page2=button.click(); //模拟点击

System.out.println(page2.asXml());

}catch(FailingHttpStatusCodeException e) {//TODO Auto-generated catch block

e.printStackTrace();

}catch(MalformedURLException e) {//TODO Auto-generated catch block

e.printStackTrace();

}catch(IOException e) {//TODO Auto-generated catch block

e.printStackTrace();

}finally{

webClient.close();//关闭客户端,释放内存

}

}

}

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/498384.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

异构智能吴韧:物联网是“伪命题”?智联网才是未来

概要:“咨询机构预测,在未来人工智能的市场上12%的比例的资金将用在人工智能芯片上。”吴韧表示,异构智能瞄准的就是人工智能本地芯片市场。 Novumind异构智能(以下简称异构智能)在火热的人工智能新闻里出现的次数屈指…

java栈编程题_Java实现栈和队列面试题

面试的时候,栈和队列经常会成对出现来考察。本文包含栈和队列的如下考试内容:(1)栈的创建(2)队列的创建(3)两个栈实现一个队列(4)两个队列实现一个栈(5)设计含最小函数min()的栈,要求min、push、pop、的时间复杂度都是O(1)(6)判断栈的push和p…

联合国《2017年信息经济报告》

来源:联合国 概要:数字经济已经深入到了人们生活的衣食住行等所有方面,其发展速度和方式超出人们的想象。数字经济将把人类带往何方?这还是一个难解的谜题。 数字经济已经深入到了人们生活的衣食住行等所有方面,其发展…

java链表list_java自定义List链表

第一步:定义一个List接口,规定一些基本操作package my.stack;public class Node {private T data;private Node next;public Node(){data null;next null;}public Node(T data){this.data data;this.next null;}public Node(T data, Node next){this…

Amazon、Google、 Microsoft和IBM如何将人工智能作为一项服务出售

译者:李凌 概要:Alphabet、Amazon和Microsoft这几家公司都发现,在产品中植入人工智能后能让产品变得更加优秀,他们可以将这种做法转变成一项服务,然后作为一种基于蓬勃发展的云计算业务的增值服务出售给企业客户。 云计…

java炸弹人素材_炸弹人图片_炸弹人模板_炸弹人设计素材下载

[{"id":658285,"url":"https://www.tooopen.com/view/658285.html","title":"英雄联盟全员高清游戏壁纸海报图片素材","imgthumb":"http://img05.tooopen.com/images/20140711/tooopen_sl_010800932879.jpg&…

CB Insights发布2017全球AI企业100强,出门问问、碳云智能入选

来源:亿欧 概要:在美国加州圣芭芭拉举办的创新峰会(TheInnovation Summit)上,CB Insight的CEO Anand Sanwal揭晓了全球2017 AI100名单,评选出全球最有创新实力的100家AI公司,国内公司出门问问、…

Java树形转扁平_js把树形数据转成扁平数据

我就直接上代码了都是实际项目里面用到的1.假设这个json就已经是树型结构数据了(如果不知道怎么实现树型结构数据请看我另一篇博客)var compressedArrafcommon.treeDataToCompressed(json);/*******************************JS封装好的方法***********************************…

定位AI交互技术服务商,声智科技完成近亿元A轮融资,将拓展安防、汽车等新场景

来源:36Kr 摘要:“语音交互是人工智能相关技术的重要应用场景,而语音交互的核心和关键突破点在于远场。而国内真正有实力做好远场技术的团队是非常稀少的。” 定位人工智能交互技术服务商的声智科技(SoundAI)&#xff…

java http超时重连_httpclient 重连机制

我们在进行http请求时,难免会遇到请求失败的情况,失败后需要重新请求,尝试再次获取数据。Apache的HttpClient提供了异常重试机制,在该机制中,我们可以很灵活的定义在哪些异常情况下进行重试。今天有个小伙伴&#xff0…

德国电信:5G有重复3G命运的风险!

来源:5G 摘要:德国电信:5G有重复3G命运的风险! 行业深度观察

java 改装电动_java 数组

数组:数组是同意变量的集合,不仅可以是基本数据类型,也可以是类的对象集合。数组的缺点就是定长,不能随时扩张,所以一般是确定个数时用,不确定时一般用集合。优点就是可以一下子定义多个相同类型的数据。使…

DARPA发布产业振兴计划,继承摩尔智慧

来源: 传感器与物联网 摘要:高登摩尔(Gordon Moore)赖以成名的摩尔定律(Moores law)几十年来一直引导着产业的发展,也为DARPA日前发布的“电子产业振兴计划”(ERI)计划附加条例提供许多想法。 根据美国国防部先进研究计划署(DARPA)微系统技术…

java没通过测试_我们应该把没有通过测试的故事回退到“开发”状态吗

Eric Willeke在思考:任务看板上的那些没有通过测试的用户故事,该怎么处理呢?应该把它回退到“开发”状态,还是保留“测试中”的状态?他提出了一些不同的方案:● 一个方法是把开发和测试状态合并为“完成”状…

图解全球无人驾驶产业链:这些公司在主宰人类出行的未来

来源:战略前沿技术、华尔街见闻 摘要:与通常的报告不同,Comet Labs图表集合了整个产业链。 无人驾驶技术可以算是如今硅谷创投中最火的名词。作为人工智能的终极场景,无人驾驶技术已经成为了许多创业公司和投资者参与AI的机会。 …

java9默认收集器_Oracle提议将G1作为Java9的默认垃圾收集器

Oracle正在考虑将 JEP 248 包含到 Java 9的JEP列表 中,即在服务器配置中将G1作为默认垃圾收集器。该决定在Java社区引发了一些争Oracle正在考虑将 JEP 248 包含到 Java 9的JEP列表 中,即在服务器配置中将G1作为默认垃圾收集器。该决定在Java社区引发了一…

2017全球最具影响力机器人公司TOP排行榜

来源: Future智能 摘要:全球最有影响力的 50 家机器人行业上市公司和非上市公司名单。 近日,美国《机器人商业评论》公布了它们的第六个年度「RBR50 名单」,即 2017 年《机器人商业评论》认为最值得关注、全球最有影响力的 50 家机…

java打开别人的代码报错_同样的代码,别人的可以运行我的报错,求解答

该楼层疑似违规已被系统折叠 隐藏此楼查看此楼public class Override{public static void main(String[ ] args){//创建两个实例Cat cat1new Cat(); ①cat1.cry();Dog dog1new Dog(); ②dog1.cry();}//动物类class Animal{int age;String name;//动物都会叫,行为pub…

AI公共政策成全球热点,美国ITI发布《人工智能政策原则》|AI观察

来源:腾讯研究院 概要:AI研究开发和行业应用的热度仍在持续,在此背景下,AI公共政策成为了全球公私部门关注的热点。 一、AI公共政策成AI领域全球热点 AI研究开发和行业应用的热度仍在持续,在此背景下,AI公共…

Java做抽卡_游戏王:无限抽卡怎么做?拥有这一套组合你就能抽完整个卡组!...

各位游戏王的小伙伴们大家好,今天咱要讲解的事情是如何将自己的牌组全部抽完,当然这和游戏王一代的剧情(法老王对战马利克)可不是一样的,不是让对方抽到没有卡抽后直接输局,而是通过自己的套路组合抽到自己想要的卡片并一举拿下胜…