JAVA爬虫基础

第一章=>
1、概述                     
2、项目搭建                     
3、URL提取             
4、内容解析并持久化   

第二章=>
5、反爬虫及应对                                                                                                                    

****************************************************************************************************************************************************************************

1、概述
【1】多核爬虫
【2】爬虫生命周期
页面下载。这是爬虫的基础
连接提取。初始URL,新的URL
ULR管理。对URL做区分,防止重复爬取
内容抽取及持久化。对爬取页面进行分析,抽取有价值的信息并存储下来。
通用型爬虫:难点是抓取更多的页面
Nutch Heritrix
垂直型爬虫。关注内容、准确率、效率。
难点是:如何高效定制一个爬虫,可以精确的抽取出网页的内容,并保存成结构化的数据。
使用到的技术
模拟浏览器:HttpClient
html解析:jsoup

****************************************************************************************************************************************************************************

2、项目搭建
【1】依赖
<!-- https://mvnrepository.com/artifact/org.jsoup/jsoup --><dependency><groupId>org.jsoup</groupId><artifactId>jsoup</artifactId><version>1.15.3</version></dependency><!--http core--><dependency><groupId>org.apache.httpcomponents</groupId><artifactId>httpcore</artifactId><version>4.4.10</version></dependency><!-- https://mvnrepository.com/artifact/org.apache.httpcomponents/httpclient --><dependency><groupId>org.apache.httpcomponents</groupId><artifactId>httpclient</artifactId><version>4.5.13</version></dependency>

****************************************************************************************************************************************************************************

3、URL提取
【1】代码实现
package com.day.util;import java.io.BufferedReader;
import java.io.InputStreamReader;
import java.net.HttpURLConnection;
import java.net.URL;
import java.util.LinkedHashMap;
import java.util.Map;
import java.util.regex.Matcher;
import java.util.regex.Pattern;public class UrlPool {public static void main(String[] args) {getUrl("https://www.nipic.com/");}private static void getUrl(String url) {Map<String, Boolean> oldMap = new LinkedHashMap<>();String oldLinkHost = "";Pattern pattern = Pattern.compile("(https?://)?[^/\\s]*");Matcher matcher = pattern.matcher(url);if (matcher.find()) {oldLinkHost = matcher.group();}oldMap.put(url, false);oldMap = crawLinks(oldLinkHost, oldMap);for (String key : oldMap.keySet()) {System.out.println("连接:" + oldMap.get(key));}}private static Map<String, Boolean> crawLinks(String oldLinkHost, Map<String, Boolean> oldMap) {Map<String, Boolean> newMap = new LinkedHashMap<>();String oldLink = "";for (String key : oldMap.keySet()) {System.out.println("链接:" + key + "---check:" + oldMap.get(key));if (!oldMap.get(key)) {oldLink = key;try {URL url = new URL(oldLink);HttpURLConnection httpURLConnection = (HttpURLConnection) url.openConnection();httpURLConnection.setRequestMethod("GET");if (httpURLConnection.getResponseCode() == 200) {BufferedReader bufferedReader = new BufferedReader(new InputStreamReader(httpURLConnection.getInputStream()));Pattern pattern = Pattern.compile("<a.*?href=[\"']?((https?//)?/?[^\"']+)[\"']?.*?>(.+)</a>");Matcher matcher = null;String line = "";while ((line = bufferedReader.readLine()) != null) {matcher = pattern.matcher(line);if (matcher.find()) {String newLink = matcher.group(1).trim();if (!newLink.startsWith("http")) {if (newLink.startsWith("/")) {newLink = oldLinkHost + newLink;} else {newLink = oldLinkHost + "/" + newLink;}}if (newLink.endsWith("/")) {newLink = newLink.substring(0, newLink.length() - 1);}if (!oldMap.containsKey(newLink) && !newMap.containsKey(newLink) && newLink.startsWith(oldLinkHost)) {newMap.put(newLink, false); // 标记没有进行过遍历}}}}} catch (Exception e) {e.printStackTrace();} finally {}oldMap.replace(oldLink, false, true);}}if (!newMap.isEmpty()) {oldMap.putAll(newMap);oldMap.putAll(crawLinks(oldLinkHost, oldMap));}return oldMap;}
}

****************************************************************************************************************************************************************************

4、内容解析并持久化 
【1】卧槽 我竟然成功爬取39张图片!!!!!!!!!!!!!!!!!!!
package com.day.util;import org.apache.commons.io.FileUtils;
import org.apache.http.HttpEntity;
import org.apache.http.HttpResponse;
import org.apache.http.client.HttpClient;
import org.apache.http.client.methods.HttpGet;
import org.apache.http.impl.client.HttpClients;
import org.apache.http.util.EntityUtils;
import org.jsoup.Connection;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.select.Elements;import java.io.ByteArrayInputStream;
import java.io.File;public class ImageCrawl {private static final String URL = "https://www.nipic.com/topic/show_27202_1.html";public static void main(String[] args) throws Exception {// apacheHttpClient();Document document = Jsoup.connect(URL).get(); // 一行代码就搞定了下面多行代码 卧槽Elements elements = document.select("li.new-search-works-item"); //类选择器for (int i = 0; i < elements.size(); i++) {Elements imgElements = elements.get(i).select("a > img");String imgPath = imgElements.attr("src");System.out.println(imgPath);Connection.Response response = Jsoup.connect("https:" + imgElements.attr("src")).userAgent("Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/117.0.0.0 Safari/537.36").ignoreContentType(true).execute(); // 可以设置代理IP .proxyByteArrayInputStream byteArrayInputStream = new ByteArrayInputStream(response.bodyAsBytes());FileUtils.copyInputStreamToFile(byteArrayInputStream, new File("src\\main\\resources\\crawlImages\\"+ imgPath.substring(imgPath.length() - 26))); // 可见我的智慧}}private static void apacheHttpClient() throws Exception {HttpClient httpClient = HttpClients.createDefault();HttpGet httpGet = new HttpGet(URL);// 包装浏览器httpGet.setHeader("User-Agent", "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/117.0.0.0 Safari/537.36");HttpResponse httpResponse = null;try {httpResponse = httpClient.execute(httpGet);HttpEntity httpEntity = httpResponse.getEntity();System.out.println(EntityUtils.toString(httpEntity));} catch (Exception e) {e.printStackTrace();} finally {}}
}

****************************************************************************************************************************************************************************

5、反爬虫及应对
【1】爬虫访问频次要控制,不要爬对方服务器搞崩溃了
【2】设计到个人隐私的信息不能爬取
【3】突破网站的反爬措施,后果很严重
【4】不要爬取不正当竞争的内容
【5】付费内容,不能抓
【6】最后一条,如果突破了网站反爬措施,代码一定不要上传到网上。
【7】robots.txt 爬虫协议
baidu.com/robots.txt 协议
【8】反爬虫技术及应对策略
Header限制:user-agent、refer、cookie 。缺点:可能应用用户体验
IP限制:限制IP访问频率
账号限制:同一个账号短时间不能多次相同请求
蜜罐限制:display none 肉眼不可见(爬虫爬到的限制IP 账户)
数据污染:看到的是99 爬取到的是11
增加爬取难度:ajax动态请求,图片验证码!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/5282.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2024.4.23 LoadRunner 测试工具详解 —— VUG

目录 引言 LoadRunner 三大组件之间的关系 LoadRunner 脚本录制 启动并访问 WebTours 脚本录制 编译 运行&#xff08;回放&#xff09; LoadRunner 脚本加强 事务插入 插入集合点 插入检查点 参数化 ​编辑 打印日志 引言 问题&#xff1a; 此处为啥选择使用 Lo…

【论文阅读】ELAN-Efficient Long-Range Attention Network for Image Super-resolution

ELAN-Efficient Long-Range Attention Network for Image Super-resolution 论文地址简介1 引言2相关工作2.1 基于 CNN 的 SR 方法2.2 基于 Transformer 的 SR 方法 3 方法论3.1 ELAN 的整体流程3.2 Efficient Long-range Attention Block (ELAB) 4实验4.1实验设置4.2 与轻量级…

上位机图像处理和嵌入式模块部署(树莓派4b利用驱动实现进程数据共享)

【 声明&#xff1a;版权所有&#xff0c;欢迎转载&#xff0c;请勿用于商业用途。 联系信箱&#xff1a;feixiaoxing 163.com】 前面我们讨论过&#xff0c;目前在linux系统上面有很多办法可以实现多进程数据共享。这里面比如说管道&#xff0c;比如说共享内存&#xff0c;比如…

anaconda的安装和Jupyter Notebook修改默认路径

anaconda的安装 就一个注意事项:在结尾时候记得配置系统环境变量 要是没有配置这个环境变量,后面就不能cmd启动Jupyter Notebook Jupyter Notebook修改默认路径 我们要找到Jupyter Notebook的配置文件 输入下面指令 jupyter notebook --generate-config就可以找到存放配置文…

去中心化自治组织(DAO)

文章目录 一、DAO (Decentralized Autonomous Organization) 去中心化自治组织 二、举例说明 1、例子1 2、例子2 总结 一、DAO (Decentralized Autonomous Organization) 去中心化自治组织 DAO是一种基于区块链平台上的组织结构&#xff0c;它通过智能合约来实现组织的…

lt Redis变慢的原因及排查解决方法

前言 Redis 作为优秀的内存数据库&#xff0c;其拥有非常高的性能&#xff0c;单个实例的 OPS 能够达到 10W 左右(5-10W)。但也正因此如此&#xff0c;当我们在使用 Redis 时&#xff0c;如果发现操作延迟变大的情况&#xff0c;就会与我们的预期不符。 你也许或多或少地&…

刚刚!MySQL8.4.0 LTS发布,接着再探

&#x1f4e2;&#x1f4e2;&#x1f4e2;&#x1f4e3;&#x1f4e3;&#x1f4e3; 作者&#xff1a;IT邦德 中国DBA联盟(ACDU)成员&#xff0c;10余年DBA工作经验&#xff0c; Oracle、PostgreSQL ACE CSDN博客专家及B站知名UP主&#xff0c;全网粉丝10万 擅长主流Oracle、My…

【Sentaurus TCAD仿真】学习2

Swb工具栏View简介 Swb 全称 Sentaurus Work Bench Flow Orientation 指得是 Tools 的方向。 Customize Current View 为自定义当前视图。去掉前面的勾&#xff0c;再Apply可以隐藏该变量。 Swb主页字体调整 多节点并行仿真

可平滑替代FTP的FTP替代解决方案,具有哪些强大功能?

FTP是一种广泛使用的文件传输协议&#xff0c;主要用于在网络上的计算机之间传输文件。具有以下特点&#xff1a; 1.简单易用&#xff1a;FTP协议相对简单&#xff0c;易于设置和使用&#xff0c;许多操作系统和应用程序都内置了对FTP的支持。 2.广泛的客户端支持&#xff1a…

机器学习 | 准确率、召回率、精准率、特异度傻傻分不清?ROC曲线怎么看?一篇文章帮你搞定

一、真正类、假负类、假正类与真负类 二、准确率、召回率、精准率、特异度与假正率 1. 准确率 (Accuracy) 准确率表明成功预测&#xff08;预测为负或为正&#xff09;的结果占总样本的百分比。 准确率 &#xff0c; 2. 召回率/查全率/灵敏度/真正率&#xff08;Recall&a…

OpenTK:安装和说明

OpenTK介绍 OpenTK是一个开源、跨平台的游戏开发库&#xff0c;由MonoGame团队创建。它为C#开发者提供了一个简单易用的接口&#xff0c;以便使用OpenGL、OpenAL和OpenCL进行3D渲染、音频处理和并行计算。OpenTK的目标是提供一个一致且高效的框架&#xff0c;让开发者能够专注于…

联想小新PRO16 ARM-7换固态硬盘和装双系统win11和ubuntu2022.04

联想小新PRO16 ARM-7换固态硬盘和装双系统win11和ubuntu2022.04 前言 记录一下其中的好几个坑。耗时4天&#xff0c;新旧硬盘拆拆卸卸的不止二十次。希望能给各位一点帮助。 步骤 1. 买硬盘 查看电脑后壳的S\N号&#xff0c;在联想官网上查找自己电脑的相关信息&#xff1a;…

【无标题】场外个股期权多少钱才能做?个人能做吗?

场外个股期权的交易门槛相对较高&#xff0c;主要面向符合特定条件的机构投资者。一般来说&#xff0c;法人或合伙企业等组织参与的&#xff0c;需要满足最近1年末净资产不低于5000万元人民币、金融资产不低于2000万元人民币的条件&#xff0c;并具备3年以上证券、基金、期货、…

@mixins混用样式:示例:修改el-select里面的滚动条样式

项目场景&#xff1a; 使用混入样式修改el-select下拉菜单里面的滚动条样式 解决方案&#xff1a; // 混入-滚动条样式 mixin scroll-css {&::-webkit-scrollbar-track-piece {background: red;}&::-webkit-scrollbar {width: 6px;}&::-webkit-scrollbar-thumb {b…

供应链投毒预警:恶意Py包伪装HTTP组件开展CStealer窃密后门攻击

概述 近日&#xff08;2024年4月25号&#xff09;&#xff0c;悬镜供应链安全情报中心在Pypi官方仓库&#xff08;https://pypi.org/&#xff09;中捕获1起CStealer窃密后门投毒事件&#xff0c;投毒者连续发布6个不同版本的恶意Py包multiplerequests&#xff0c;目标针对windo…

一种基于YOLOv8改进的高精度红外小目标检测算法 (原创自研)

&#x1f4a1;&#x1f4a1;&#x1f4a1;本文摘要&#xff1a;一种基于YOLOv8改进的高精度小目标检测算法&#xff0c; 在红外小目标检测任务中实现暴力涨点&#xff1b; &#x1f4a1;&#x1f4a1;&#x1f4a1;创新点&#xff1a; 1&#xff09;SPD-Conv特别是在处理低分…

Spring中实现策略模式的几种方式

Spring中实现策略模式的几种方式 一.背景 在写业务代码的时候&#xff0c;难免会遇到很多if-else&#xff0c;这个时候如果if-else不是很多可以用if-else。如果此时场景过多&#xff0c;太多的if-else会导致代码比较臃肿&#xff0c;所以这个时候就需要抽象化&#xff0c;将每…

Git分支策略与工作流

Git分支策略与工作流 - GitFlow工作流介绍 GitFlow工作流是一种在软件开发中广泛使用的Git分支策略和工作流。它在2010年由Vincent Driessen提出&#xff0c;并在开源社区中广泛接受和采用。 GitFlow工作流使用两个主要分支——master和develop。master分支用于发布稳定的版…

WebGL开发框架对比

WebGL开发框架提供了一套丰富的工具和API&#xff0c;使得在Web浏览器中创建和操作3D图形变得更加容易。以下是一些流行的WebGL开发框架及其各自的优缺点&#xff0c;选择哪个框架取决于项目的具体需求、团队的技术背景以及对特定特性的偏好。例如&#xff0c;如果你需要一个强…

04.17_111期_C++_继承多态_虚表

如果想实现不同的类的对象调用不同的虚函数 可以通过 协变 这种形式 在父类Person中的虚函数的返回值 的数据类型是一个 父类&#xff08;任意一个父类σ就行&#xff09; 在子类Student中的虚函数的返回值 的数据类型是一个 继承了σ的子类 class Student : public …