JAVA----爬虫(一)JSoup

 

 

jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。

官方api:https://jsoup.org/

一、jsoup功能

 

 

简单的例子:抓取wiki的主页,解析成DOM

 

解析一个HTML字符串

目标可能是用户的一个html文件或网站的一个网页html.需要对其进行解析并抓取所需要的数据-------Jsoup.parse()

Jsoup.parse(String html)

Jsoup.parse(String html,String baseUri)  将输入的HTML解析为一个新的文档 (Document),参数 baseUri 是用来将相对 URL 转成绝对URL,并指定从哪个网站获取文档

只要解析的不是空字符串,就能返回一个结构合理的文档,其中包含(至少) 一个head和一个body元素。一旦拥有了一个Document,你就可以使用Document中适当的方法或它父类 ElementNode中的方法来取得相关数据。

解析一个body片段

一个HTML片断 (比如. 一个 div 包含一对 p 标签; 一个不完整的HTML文档) 想对它进行解析。这个HTML片断可以是用户提交的一条评论或在一个CMS页面中编辑body部分------JSous.parseBodyFragment(String html)

 

parseBodyFragment 方法创建一个空壳的文档,并插入解析过的HTML到body元素中.

Document.body() 方法能够取得文档body元素的所有子元素,与 doc.getElementsByTag("body")相同。

 

 

 

从一个URL加载一个Document

需要从一个网站获取和解析一个HTML文档,并查找其中的相关数据------Jsoup.connect()

使用 Jsoup.connect(String url)方法:

 

connect(String url) 方法创建一个新的 Connection, 和get()方法一起取得和解析一个html文件

如果从该URL获取HTML时发生错误,便会抛出 IOException,应适当处理。这个方法只支持Web URLs (httphttps 协议)

 

从一个文件加载document文档

Jsoup.parse(File in, String charsetName, String baseUri) 

转载于:https://www.cnblogs.com/taoHongFei/p/8643721.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/267386.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

java语言模拟_Java语言模拟操作系统.doc

河北大学2010级操作系统课程设计论文PAGEPAGE 27装订线装订线(指导教师用表)学 生 姓 名指 导 教 师论文(设计)题目Java语言模拟操作系统主要研究(设计)内容使用java语言,采用多到程序设计方法基本上实现并模拟了单用户操作系统。该操作系统包括四部分内容&#xff…

极速理解设计模式系列:22.状态模式(State Pattern)

四个角色:抽象状态类(State)、具体状态类(ConcreateState)、情景类(Context)、客户端(Client) 抽象状态类(State):提供一个与情景类有关的State行为。 具体状态类(ConcreateState):实现这个行为,实现一个状态。 情景类(Context):维护一个State的实例对象…

485. Max Consecutive Ones

原题链接:https://leetcode.com/problems/max-consecutive-ones/description/ 这道题目级别为easy,实际做起来也是so easy: /*** Created by clearbug on 2018/2/26.*/ public class Solution {public static void main(String[] args) {Solu…

[转]extern使用方法总结

Extern的问题在于不知道这个关键词出现的时候到底是声明还是定义。谨记:声明可以多次,定义只能一次。在使用中,要形成一种风格。 函数的声明extern关键词是可有可无的,因为函数本身不加修饰的话就是extern的。但是引用的时候一样是…

java 设置pdf 编码格式_Java如何设置PDF文档背景色详解

前言一般生成的PDF文档默认的文档底色为白色,我们可以通过一定方法来更改文档的背景色,以达到文档美化以及保护双眼的作用。 以下内容提供了Java编程来设置PDF背景色的方法。包括:设置纯色背景设置图片背景使用工具Spire.PDF for Java 2.0.3J…

关于strassen矩阵乘法的矩阵大小不是2^k的形式时,时间复杂度是否还是比朴素算法好的看法...

原来是n&#xff0c;找到大于等于n且是2^k形式的数m。n*n的矩阵补全为m*m的矩阵&#xff0c;原来的矩阵放在最左上方&#xff0c;其它位置的值为0.朴素方法&#xff1a;n^3现在&#xff1a;m^2.8即m/n需小于e^(3/2.8)2.919才能好&#xff0c;而n<m<2*n&#xff0c;即使用…

UtilSession failed: Prerequisite check CheckSystemSpace space(22288172004) is not availa

如果你在使用OPatch打11.2 GI/CRS上的PSU时遇到了如上错误信息"UtilSession failed: Prerequisite check "CheckSystemSpace" space"则说明你的CRS_HOME所在文件系统的空闲空间不足22g&#xff0c;这会导致OPatch预检测无法通过。 UTIL session.Oracle…

数据库 oracle 设计三范式

一&#xff1a;表中的数据不能重复&#xff0c;每个字段不可再分。2&#xff1a; 建立在第一范式上&#xff0c;表中的非主键字段必须全部依赖主键&#xff0c;不能部分依赖主键3 建立在第二范式基础上的&#xff0c;非主键字段不能传递依赖于主键字段。转载于:https://www.cnb…

java websocket高并发测试_Websocket全讲解。跨平台的通讯协议 !!基于websocket的高并发即时通讯服务器开发。...

本博文&#xff0c;保证不用装B的话语和太多专业的语言&#xff0c;保证简单易懂&#xff0c;只要懂JAVAEE开发的人都可以看懂。 本博文发表目的是&#xff0c;目前网上针对Websocket的资料太散乱&#xff0c;导致初学者的知识体系零零散散&#xff0c;学习困难加大。本博加以整…

C#实现文件下载代码

提供个C#实现文件下载代码  一&#xff0e;概述&#xff1a; 本文通过一个实例向大家介绍用Visual C#进行Internet通讯编程的一些基本知识。我们知道.Net类包含了请求/响应层、应用协议层、传输层等层次。在本程序中&#xff0c;我们运用了位于请求/响应层的WebRequest类以及W…

Cookie 与Session 的区别

Cookie 与Session 的区别&#xff08;转载&#xff09; 原地址: http://www.cnblogs.com/shiyangxt/archive/2008/10/07/1305506.html 两个都可以用来存私密的东西&#xff0c;同样也都有有效期的说法。 区别在于&#xff1a;session是放在服务器上的&#xff0c;过期与否取决于…

voyage java_GitHub - yezilong9/voyage: 采用Java实现的基于netty轻量的高性能分布式RPC服务框架...

VoyageOverview采用Java实现的基于netty轻量的高性能分布式RPC服务框架。实现了RPC的基本功能&#xff0c;开发者也可以自定义扩展&#xff0c;简单&#xff0c;易用&#xff0c;高效。Features服务端支持注解配置客户端实现Filter机制&#xff0c;可以自定义Filter基于netty3.…

产品架构开发方法(2011中国软件技术大会)

上周末在国家会议中心举办的2011中国软件技术大会上我做了一个分享&#xff1a;产品架构开发方法。很高兴能在不同的大会上做演讲&#xff0c;但更高兴的是能够结交更多的朋友。 这个演讲内容包括了企业架构、业务分析、软件产品线、产品管理等内容&#xff0c;知识量有点大哦。…

IOS 调用系统照相机和相册

/** * 调用照相机 */ - (void)openCamera { UIImagePickerController *picker [[UIImagePickerController alloc] init]; picker.delegate self; picker.allowsEditing YES; //可编辑 //判断是否可以打开照相机 if ([UIImagePickerController isSourceTypeAvailable:UIImag…

IDC机房KVM应用案例分析

IDC机房KVM应用案例分析<?xml:namespace prefix"o">?xml:namespace>一、背景介绍随着信息技术的发展&#xff0c;各行各业都在马不停蹄的开展着各自的信息化建设步伐。对于设计制造创新科技产品为运行主业的设计院而言&#xff0c;内部IT基础设备与机房管…

java跟踪会话_JavaWeb会话跟踪

cookie和session是常用的会话跟踪技术cookie机制1、web应用程序是使用HTTP协议传输数据的&#xff0c;HTTP协议是无状态的协议&#xff0c;一旦数据交换完毕就会关闭链接。Cookie可以弥补HTTP协议无状态的不足。位于&#xff1a;javax.servlet.http.Cookie2、Cookie具有不可跨域…

Uva 1625 - Color Length(DP)

题目链接 https://cn.vjudge.net/problem/UVA-1625 【题意】 输入两个长度分别为n和m的颜色序列&#xff08;n&#xff0c;m<5000&#xff09;&#xff0c;要求按一定规则合并成一个序列&#xff0c;规则是每次可以把一个序列开头的颜色放到新序列的尾部。例如对于序列GBBY…

教你用身份证号查社保卡号 个人电脑号

适用前提&#xff1a;在广东省内交社保 用身份证查社保号第一步 登录广东社保局网站 广东社保局网站 在“全省个人养老保险信息查询“框输入你的身份证号码 这时要密码&#xff0c;面此要注册&#xff0c;注册时那红星星不用理会&#xff0c;除了姓名其他乱填即可&#xff0c;这…

X3D.Studio编辑器界面介绍

2019独角兽企业重金招聘Python工程师标准>>> X3DStudio编辑器的界面可分为【菜单栏】、【属性栏】、【显示栏】和【对象信息栏】四大部分。如下图所示。 X3D.Engine 通用虚拟现实引擎安装包下载地址&#xff1a;http://www.x3dengine.cn/Download.aspx 技术支持QQ群…

浏览器BOM模型

百度百科&#xff1a;浏览器对象模型(BrowserObjectModel) 主要功能 1. 弹出新浏览器窗口的能力&#xff1b;2. 移动、关闭和更改浏览器窗口大小的能力&#xff1b;3. 可提供WEB浏览器详细信息的导航对象&#xff1b;4.可提供浏览器载入页面详细信息的本地对象&#xff1b;5 .可…