Jsoup - 【Java爬虫】- 批量下载指定网站图片

简介

Jsoup 是一款Java 的 HTML 解析器,可直接解析某个 URL 地址、HTML 文本内容。它提供了一套非常省力的API,可通过 DOM,CSS 以及类似于 JQuery 的操作方法来取出和操作数据。

Jsoup 对多线程、连接池、代理等等的支持并不是很好,所以一般把 Jsoup 仅仅作为 HTML 解析工具使用。

  • 功能

    • 从一个 URL、文件或字符串中解析 HTML

    • 使用 DOM 或 CSS 选择器来查找、取出数据

    • 可操作 HTML 元素、属性、文本

  • 引入依赖

     <!--jsoup--><dependency><groupId>org.jsoup</groupId><artifactId>jsoup</artifactId><version>1.15.3</version></dependency>
  • 解析 URL

     /*** 方式一:*/public void jsoupTest() throws IOException {/*** 参数:*  1、url地址*  2、超时时间*/Document document = Jsoup.parse(new URL("http://www.xxx.com"),10000);// 使用标签选择器获取指定标签中的内容// 获取第一个 title 标签元素的文本内容String title = document.getElementsByTag("title").first().text();}
     /*** 方式二:*/public void jsoupTest() throws IOException {// 连接到指定网站Connection connection = Jsoup.connect("http://www.xxx.com");// 获取网站页面上所有的 DOM 元素Document document = connection.get();}
  • 使用 DOM 方式遍历文档

    • 元素获取

      • 根据 ID 查询元素:getElementById

      • 根据 标签 查询元素:getElementByTag

      • 根据 Class 查询元素:getElementByClass

      • 根据 属性 查询元素 getElementByAttribute

    •  Element byId = document.getElementById("qxzxqm");Elements byTag = document.getElementsByTag("img");Elements byClass = document.getElementsByClass("schoolcon_right");Elements byAttribute = document.getElementsByAttribute("rel");
    • 使用 Jsoup API 获取元素

      • select()

      • first()

      • get()

      • attr()

      • ......

在线 API:Jsoup (jsoup 1.6.3 API)

示例:爬取网站图片

 import org.jsoup.Connection;import org.jsoup.Jsoup;import org.jsoup.nodes.Document;import org.jsoup.select.Elements;import utils.PrintLogThread;​import java.io.FileOutputStream;import java.io.IOException;import java.io.InputStream;import java.net.URL;import java.util.ArrayList;import java.util.List;​/*** 爬取指定网址上的图片** Tips:* 若出现 403 错误则可能是由于“写入”访问被禁止而造成的* 当试图将文件上载到目录或在目录中修改文件,但该目录不允许"写"访问时就会出现此种错误** @author 秋玄* @version 1.0* @since 1.0*/public class App {public static void main(String[] args) {// 网站地址String site = "https://xxx.xxx.com/";// 图片保存路径String filePath = "F://test";// 自定义图片名称String fileName = "img";downloadImg(site,filePath,fileName);}​/*** 获取指定网站上所有图片* @param website       指定网站的完整域名 包括请求协议,例如:www.xxx.com* @param filePath      图片存放路径 例如:F://test* @param fileName      图片名称 例如:xxx*/private static void downloadImg(String website,String filePath,String fileName) {List<String> urlList = new ArrayList<>();try {// 获取网站图片的 src// 连接到指定网站Connection connection = Jsoup.connect(website);// 获取网站页面上所有的 DOM 元素Document document = connection.get();// 获取所有的 img 元素Elements imgs = document.getElementsByTag("img");// 遍历 imgsfor (int i = 0; i < imgs.size(); i++) {// 获取 img 元素的 src 属性String src = imgs.get(i).attr("src");​// url地址以 “//” 开始,需要拼接请求协议if (src.startsWith("//")){src = "http:" + src;}​// 路径为 空 或 “about:blank” 则不添加到 List 中if (src.length() != 0 && !"about:blank".equals(src)) {urlList.add(src);}​// 下载图片getImg(urlList,filePath,fileName);​// 记录日志到 log.txt 文件PrintLogThread thread = new PrintLogThread("下载完成,第" + (i + 1) + "张图片",filePath + "//log.txt");thread.start();}} catch (IOException e) {throw new RuntimeException(e);}}​/*** 下载指定 URL 的图片* @param imgURL        图片地址的 list 集合* @param filePath      图片存放路径* @param fileName      图片文件名称*/private static void getImg(List<String> imgURL,String filePath,String fileName){InputStream in = null;FileOutputStream fos = null;​// 遍历图片地址 list 集合for (int i = 0; i < imgURL.size(); i++) {try {URL url = new URL(imgURL.get(i));in = url.openStream();​// 拼接文件存放路径及文件名String path = appendPath(filePath,fileName,i);​// 将图片写入本地fos = new FileOutputStream(path);byte[] bytes = new byte[1024];int count = in.read(bytes);while(count != -1){fos.write(bytes,0,count);fos.flush();count = in.read(bytes);}} catch (IOException e) {throw new RuntimeException(e);}finally {// 释放资源if (in != null) {try {in.close();} catch (IOException e) {throw new RuntimeException(e);}}if (fos != null) {try {fos.close();} catch (IOException e) {throw new RuntimeException(e);}}}}}​/*** 拼接文件存放路径及文件名* @param filePath      文件路径* @param fileName      文件名* @param i             文件编号* @return              文件完整路径* 格式:文件路径 + 文件名称 + _ + 文件编号 + 文件后缀(.jpg)*/private static String appendPath(String filePath,String fileName,Integer i) {return filePath + "//" + fileName + "_" + (i + 1) + ".jpg";}}
package utils;​import java.io.FileNotFoundException;import java.io.FileOutputStream;import java.io.PrintStream;import java.text.SimpleDateFormat;import java.util.Date;​/*** 日志工具类 - 记录日志** @author 秋玄* @version 1.0.0* @since 1.0.0*/public class LoggerUtil {/*** 记录日志* @param msg           需要记录的信息* @param filePath      日志文件的路径*/public static void log(String msg,String filePath){try {// 指定一个日志文件PrintStream printStream = new PrintStream(new FileOutputStream(filePath,true));​// 改变输出方向System.setOut(printStream);​// 日期调用方法时的当前时间Date now = new Date();SimpleDateFormat sdf = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss SSS");String strTime = sdf.format(now);​// 输出日志信息到日志文件System.out.println(strTime + " : " + msg);​} catch (FileNotFoundException e) {throw new RuntimeException(e);}}}package utils;​public class PrintLogThread extends Thread{private String msg;private String filePath;​private PrintLogThread(){}​public PrintLogThread(String msg,String filePath){this.msg = msg;this.filePath = filePath;}​@Overridepublic void run() {LoggerUtil logger = new LoggerUtil();logger.log(msg,filePath);}}
<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0"xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"xsi:schemaLocation="http://maven.apache.org/POM/4.0.0http://maven.apache.org/xsd/maven-4.0.0.xsd"><modelVersion>4.0.0</modelVersion>​<groupId>org.example</groupId><artifactId>JavaCrawler</artifactId><version>1.0-SNAPSHOT</version>​<properties><maven.compiler.source>8</maven.compiler.source><maven.compiler.target>8</maven.compiler.target></properties>​<dependencies><!-- Java网络爬虫工具 Jsoup --><dependency><groupId>org.jsoup</groupId><artifactId>jsoup</artifactId><version>1.14.3</version></dependency></dependencies>​</project>

一  叶  知  秋,奥  妙  玄  心

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/651319.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

redis面试题合集-高级

前言 前文介绍了redis入门知识&#xff0c;接下来我们继续深入介绍redis集群以及高可用相关知识&#xff0c;并补充我在工作中的一些经验。 redis高级面试题合集 redis数据结构的底层实现方案&#xff1f; Redis的数据结构底层实现主要依赖于一种称为"简单动态字符串&q…

DEM高程地形瓦片数据Cesium使用教程

一、简介 从开始写文章到现在&#xff0c;陆续发布了全球90m、30m(包括哥白尼及ALOS)、12.5m全球级瓦片数据&#xff0c;以及中国12.5、日本10m、新西兰8m、等国家级瓦片数据&#xff0c;同时也发布了台湾20m、中国34省区12.5m等地区级瓦片数据。在数据发布的文章中对数据如何…

C#,最小生成树(MST)普里姆(Prim)算法的源代码

Vojtěch Jarnk 一、Prim算法简史 Prim算法&#xff08;普里姆算法&#xff09;&#xff0c;是1930年捷克数学家算法沃伊捷赫亚尔尼克&#xff08;Vojtěch Jarnk&#xff09;最早设计&#xff1b; 1957年&#xff0c;由美国计算机科学家罗伯特普里姆独立实现&#xff1b; 19…

车载激光雷达标定白板

随着科技的不断发展&#xff0c;自动驾驶技术逐渐成为汽车行业的重要发展方向。激光雷达作为自动驾驶中的重要传感器&#xff0c;其标定和校准是保证自动驾驶系统准确感知和决策的关键环节。本文将介绍自动驾驶激光雷达标定板的相关内容&#xff0c;包括标定板的作用、材料选择…

关于多个平台小程序的变现方式和渠道的横向对比包含但不限于微信百度抖音小程序的变现方式以门槛

#小程序变现# #小李子9479# 微信小程序百度小程序抖音小程序qq小程序入驻门槛个人&#xff0c;个体&#xff0c;企业均可企业&#xff0c;个体也不行个体&#xff0c;企业个人&#xff0c;个体&#xff0c;企业入驻费用300&#xff0c;主体认证过不用交000流量主1000uv百青藤…

stable-diffusion-webui 汉化(中文界面)

大家好&#xff0c;我是水滴~~ 本文主要介绍 Stable Diffusion WebUI 是如何汉化的&#xff0c;文章详细的介绍汉化过程&#xff0c;并加上配图能够清晰的展示该过程。 Stable Diffusion WebUI 官方并没有出中文界面&#xff0c;需要通过安装插件来汉化&#xff0c;下面是详细…

使用css将文字在水平线中显示

方法一&#xff1a; 1.效果图 2.html <!-- <div class"line">第三方登录</div> --> 3.css /* 让文字在水平线中显示 */.line {display: flex;flex-direction: row;color: #ccc;font-size: 18px;font-weight: bolder; }.line:before, .line:aft…

【C++】C++ 入门 — 命名空间,输入输出,函数新特性

C 1 前言2 命名空间2.1 概念引入2.2 开始使用2.3 投入应用 3 输入与输出3.1 基础知识3.2 开始使用3.3 注意局限 4 函数新特性4.1 缺省参数4.1.1 开始使用4.1.2 注意事项 4.2 函数重载4.2.1 开始使用4.2.2 如何实现 Thanks♪(&#xff65;ω&#xff65;)&#xff89;谢谢阅读下…

Java集合如何选择

为什么使用集合 当需要存储一组类型相同的数据时&#xff0c;数组是最常用且最基本的容器之一。但是&#xff0c;使用数组存储对象存在一些不足之处&#xff0c;因为在实际开发中&#xff0c;存储的数据类型多种多样且数量不确定。这时&#xff0c;Java 集合就派上用场了。与数…

编程那么难,为什么不弄一个大众一学就会的计算机语言呢?

大家好&#xff01;今天要和大家聊聊一个有趣的想法&#xff1a; 想象一下&#xff0c;如果编程变得像拼乐高积木一样简单&#xff0c;那将是多么美妙的事情啊&#xff01;不需要费尽心思去学习繁杂的语法规则和复杂的逻辑&#xff0c;只需要将代码块像积木一样拼接起来&#x…

Vue项目中如何使用图标组件库

vue项目中如何使用SVG图标-CSDN博客这是上一个如何使用SVG图标&#xff0c;自由的从图标库下载图标进行增删改等操作固然很方便&#xff0c;但是也暴露出一些小小的不足&#xff0c;那就是任意的图标使用可以造成图标风格的不统一&#xff0c;从而影响整个项目的用户体验。 因…

深入浅出 diffusion(3):pytorch 实现 diffusion 中的 U-Net

导入python包 import mathimport torch import torch.nn as nn import torch.nn.functional as F silu激活函数 class SiLU(nn.Module): # SiLU激活函数staticmethoddef forward(x):return x * torch.sigmoid(x) 归一化设置 def get_norm(norm, num_channels, num_groups)…

TensorRT英伟达官方示例解析(一)

系列文章目录 TensorRT英伟达官方示例解析&#xff08;一&#xff09; TensorRT英伟达官方示例解析&#xff08;二&#xff09; TensorRT英伟达官方示例解析&#xff08;三&#xff09; 文章目录 系列文章目录前言一、参考资料二、配置系统环境三、00-MNISTData四、01-SimpleD…

银行数据仓库体系实践(4)--数据抽取和加载

1、ETL和ELT ETL是Extract、Transfrom、Load即抽取、转换、加载三个英文单词首字母的集合&#xff1a; E&#xff1a;抽取&#xff0c;从源系统(Souce)获取数据&#xff1b; T&#xff1a;转换&#xff0c;将源系统获取的数据进行处理加工&#xff0c;比如数据格式转化、数据精…

Spring Cloud组件

1.nacos&#xff08;Naming and Configuration Service&#xff09;&#xff1a;服务发现、管理、配置 2.Spring cloud常用组件 2.1注册中心 nacos 注册中心分为客户端和服务端&#xff0c;它们之间存在心跳&#xff0c;客户端停止&#xff0c;服务端会报错 客户端&#xff…

【labVIEW】学习记录

【labVIEW】学习记录 一、简介二、安装及激活三、使用 回到目录 一、简介 labVIEW&#xff08;Laboratory Virtual Instrument Engineering Workbench&#xff09;是一款由美国国家仪器公司&#xff08;National Instruments&#xff09;开发的可视化编程环境和开发平台。LabV…

Dubbo 3.x:探索阿里巴巴的开源RPC框架新技术

摘要&#xff1a;随着微服务架构的兴起&#xff0c;远程过程调用&#xff08;RPC&#xff09;框架成为了关键组件。Dubbo&#xff0c;作为阿里巴巴的开源RPC框架&#xff0c;已经演进到了3.x版本&#xff0c;带来了许多新特性和技术改进。本文将探讨Dubbo 3.x中的一些最新技术&…

dockerfile不可以使用../作为路径在上级目录查找文件

在 Dockerfile 中&#xff0c;不能直接使用 …/ 跳转到上级目录。Dockerfile 中的路径是相对于构建上下文路径的&#xff0c;而构建上下文指定了在构建镜像时可访问的文件和目录的范围。 如果你需要在 Dockerfile 中引用上级目录中的文件或目录&#xff0c;可以将上级目录作为…

3.3 实验三:以太网链路聚合实验

HCIA-Datacom实验指导手册&#xff1a;3.3 实验三&#xff1a;以太网链路聚合实验 一、实验介绍&#xff1a;二、实验拓扑&#xff1a;三、实验目的&#xff1a;四、配置步骤&#xff1a;步骤 1 掌握使用手动模式配置链路聚合的方法步骤 2 掌握使用静态 LACP 模式配置链路聚合的…

考研机试 特殊排序

特殊排序 描述 输入一系列整数&#xff0c;将其中最大的数挑出(如果有多个&#xff0c;则挑出一个即可)&#xff0c;并将剩下的数进行排序&#xff0c;如果无剩余的数&#xff0c;则输出-1。 输入描述&#xff1a; 输入第一行包括1个整数N&#xff0c;1<N<1000&#xff…