使用Apache HttpClient爬取网页内容的详细步骤解析与案例示例

Apache HttpClient是一个功能强大的开源HTTP客户端库,本文将详细介绍如何使用Apache HttpClient来爬取网页内容的步骤,并提供三个详细的案例示例,帮助读者更好地理解和应用。

一、导入Apache HttpClient库

在项目的pom.xml文件中添加依赖,将以下代码添加到pom.xml文件中:

<dependency><groupId>org.apache.httpcomponents</groupId><artifactId>httpclient</artifactId><version>4.5.13</version>
</dependency>

二、创建爬虫类和HttpClient对象

创建一个名为WebCrawler的Java类。

  • 使用HttpClients工具类的createDefault()方法创建一个默认的HttpClient对象,示例代码如下:
CloseableHttpClient httpClient = HttpClients.createDefault();

三、创建HttpGet请求对象

使用HttpGet的构造方法,传递网页URL作为参数来创建一个HttpGet请求对象,示例代码如下:

HttpGet httpGet = new HttpGet("http://www.example.com");

四、发送请求并获取响应

使用HttpClient的execute()方法发送请求并获取响应,该方法接收一个HttpGet对象作为参数,并返回一个CloseableHttpResponse对象,包含了服务器返回的响应信息,示例代码如下:

CloseableHttpResponse response = httpClient.execute(httpGet);

五、提取网页内容

使用EntityUtils工具类的toString()方法,将响应实体转换为字符串形式的网页内容,该方法接收一个HttpEntity对象作为参数,并返回一个字符串,示例代码如下:

String content = EntityUtils.toString(response.getEntity(), "UTF-8");

六、打印网页内容并关闭响应和HttpClient

使用System.out.println()方法打印出网页内容。

  • 调用response的close()方法关闭响应。
  • 调用httpClient的close()方法关闭HttpClient,示例代码如下:
System.out.println(content);
response.close();
httpClient.close();

七、案例示例

案例一:爬取某度首页内容

HttpGet httpGet = new HttpGet("https://www.xxxxx.com");
CloseableHttpResponse response = httpClient.execute(httpGet);
String content = EntityUtils.toString(response.getEntity(), "UTF-8");
System.out.println(content);
response.close();
httpClient.close();

案例二:爬取某乎热榜内容

HttpGet httpGet = new HttpGet("https://www.xxxxx.com/hot");
CloseableHttpResponse response = httpClient.execute(httpGet);
String content = EntityUtils.toString(response.getEntity(), "UTF-8");
System.out.println(content);
response.close();
httpClient.close();

案例三:爬取某瓣电影TOP250内容

HttpGet httpGet = new HttpGet("https://movie.xxxxxx.com/top250");
CloseableHttpResponse response = httpClient.execute(httpGet);
String content = EntityUtils.toString(response.getEntity(), "UTF-8");
System.out.println(content);
response.close();
httpClient.close();

注意事项:

  • 设置请求间隔时间,避免对服务器造成过大的负载。
  • 处理异常情况,如网络连接失败、网页不存在等,使用try-catch语句来处理这些异常情况,并采取相应的措施。

结语:

通过以上步骤和案例示例,我们可以使用Apache HttpClient来爬取网页内容。Apache HttpClient提供了丰富的功能和配置选项,您可以根据具体的需求和情况进行相应的调整和扩展。希望本文对您了解和使用Apache HttpClient有所帮助,欢迎您根据本文提供的示例代码进行实践和探索。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/91127.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【李沐深度学习笔记】损失函数

课程地址和说明 损失函数p2 本系列文章是我学习李沐老师深度学习系列课程的学习笔记&#xff0c;可能会对李沐老师上课没讲到的进行补充。 损失函数 损失函数是用来衡量预测值 y ^ \hat{y} y^​或 y ′ y y′与真实值 y y y的差别&#xff0c;下面给出常见的损失函数类型&am…

MySQL数据库记录的删除操作与特殊字符

在数据库管理中,除了添加和修改记录之外,删除操作也是一个重要的方面。同时特殊字符序列的处理也是必不可少的一步。 本文将深入探讨如何在MySQL数据库中进行表记录的删除操作,以及如何处理特殊字符序列。将使用《三国志》游戏数据作为示例来进行解释。 文章目录 表记录的…

科技资讯|AirPods Pro基于定位控制的自适应音频功能

在接受 TechCrunch 媒体采访时&#xff0c;苹果高管 Ron Huang 和 Eric Treski 谈到了关于 AirPods Pro 自适应音频&#xff08;Adaptive Audio&#xff09;功能的轶事&#xff0c;曾考虑基于 GPS 信号来控制自适应音频级别。 Treski 表示在探索自适应音频功能初期&#xff0…

uniapp 实现下拉筛选框 二次开发定制

前言 最近又收到了一个需求&#xff0c;需要在uniapp 小程序上做一个下拉筛选框&#xff0c;然后找了一下插件市场&#xff0c;确实有找到&#xff0c;但不过他不支持搜索&#xff0c;于是乎&#xff0c;我就自动动手&#xff0c;进行了二开定制&#xff0c;站在巨人的肩膀上&…

什么是GraphQL?它与传统的REST API有什么不同?

聚沙成塔每天进步一点点 ⭐ 专栏简介⭐ 什么是GraphQL&#xff1f;⭐ 与传统的REST API 的不同⭐ 写在最后 ⭐ 专栏简介 前端入门之旅&#xff1a;探索Web开发的奇妙世界 欢迎来到前端入门之旅&#xff01;感兴趣的可以订阅本专栏哦&#xff01;这个专栏是为那些对Web开发感兴趣…

UnityAPI的学习——Application类

Application类不含实例属性和实例方法&#xff0c;在脚本通过直接调用Application类的静态属性和静态方法来控制程序的运行时数据&#xff0c;如场景的管理、数据的加载等。   Application类静态属性   在Application类中&#xff0c;涉及的静态属性主要有dataPath和loaded…

ESP32设备通信-两个ESP32设备之间HTTP通信

两个ESP32设备之间HTTP通信 文章目录 两个ESP32设备之间HTTP通信1、应用介绍2、软件准备3、硬件准备4、代码实现4.1 ESP32服务器节点代码4.2 ESP32客户端节点代码在本文中,我们将介绍如何在没有任何物理路由器或互联网连接的情况下使用 Wi-Fi 在两个 ESP32 开发板之间执行无线…

7.网络原理之TCP_IP(上)

文章目录 1.网络基础1.1认识IP地址1.2子网掩码1.3认识MAC地址1.4一跳一跳的网络数据传输1.5总结IP地址和MAC地址1.6网络设备及相关技术1.6.1集线器&#xff1a;转发所有端口1.6.2交换机&#xff1a;MAC地址转换表转发对应端口1.6.3主机&#xff1a;网络分层从上到下封装1.6.4主…

【新版】系统架构设计师 - 软件架构的演化与维护

个人总结&#xff0c;仅供参考&#xff0c;欢迎加好友一起讨论 文章目录 架构 - 软件架构的演化与维护考点摘要软件架构演化和定义面向对象软件架构演化对象演化消息演化复合片段演化约束演化 软件架构演化方式静态演化动态演化 软件架构演化原则软件架构演化评估方法大型网站架…

【Codeforces】 CF917D Stranger Trees

题目链接 CF方向 Luogu方向 题目解法 一个显然的转化是&#xff1a;恰好 k k k 条边不好求&#xff0c;所以把 恰好 转化成 至少&#xff0c;然后进行二项式反演 令 f i f_i fi​ 为恰好 k k k 条边 . . . ... ...&#xff0c; g i g_i gi​ 为至少 k k k 条边 . . . …

Ubuntu 20.04二进制部署Nightingale v6.1.0和Prometheus

sudo lsb_release -r可以看到操作系统版本是20.04&#xff0c;sudo uname -r可以看到内核版本是5.5.19。 sudo apt-get update进行更新镜像源。 完成之后&#xff0c;如下图&#xff1a; sudo apt-get upgrade -y更新软件。 选择NO&#xff0c;按下Enter。 完成如下&…

自定义注解实现Redis分布式锁、手动控制事务和根据异常名字或内容限流的三合一的功能

自定义注解实现Redis分布式锁、手动控制事务和根据异常名字或内容限流的三合一的功能 文章目录 [toc] 1.依赖2.Redisson配置2.1单机模式配置2.2主从模式2.3集群模式2.4哨兵模式 3.实现3.1 RedisConfig3.2 自定义注解IdempotentManualCtrlTransLimiterAnno3.3自定义切面Idempote…

问题记录 springboot 事务方法中使用this调用其它方法

原因: 因为代理对象中调用了原始对象的toString()方法,所以两个不同的对象打印出的引用是相同的

快速将iPhone大量照片快速传输到电脑的办法!

很多使用iPhone 的朋友要将照片传到电脑时&#xff0c;第一时间都只想到用iTunes 或iCloud&#xff0c;但这2个工具真的都非常难用&#xff0c;今天小编分享牛学长苹果数据管理工具的照片传输功能&#xff0c;他可以快速的将iPhone照片传输到电脑上&#xff0c;并且支持最新的i…

OpenCV实现模板匹配和霍夫线检测,霍夫圆检测

一&#xff0c;模板匹配 1.1代码实现 import cv2 as cv import numpy as np import matplotlib.pyplot as plt from pylab import mplmpl.rcParams[font.sans-serif] [SimHei]#图像和模板的读取 img cv.imread("cat.png") template cv.imread(r"E:\All_in\o…

【vue3】项目搭建

目录 简介脚手架引入axios引入sass引入element-plusvite.config.js路由配置全局状态管理完整main.js组合式API之Setup 简介 vue3&#xff1a;双向绑定改为ES6的Proxy&#xff1b;新的API风格&#xff0c;代码逻辑性更强、更易维护&#xff1b;性能提升&#xff0c;渲染更快、内…

JavaScript:立即执行函数

一、JS立即执行函数模式是一种语法&#xff0c;可以让你的函数在定义后立即被执行&#xff0c;这种模式本质上就是函数表达式&#xff08;命名的或者匿名的&#xff09;&#xff0c;在创建后立即执行。 两种常见写法&#xff1a; 匿名函数包裹在一个括号运算符中&#xff0c;…

【数据库系统概论】关系数据库中的关系完整性

前言实体完整性参照完整性用户定义的完整性SQL Server中常用的完整性约束感谢 &#x1f496; 前言 按照数据模型的三大要素&#xff0c;关系模型由关系数据结构、关系操作集合和关系完整性约束三部分组成。本篇文章将介绍这三部分内容中的第三部分即关系完整性。关于前两部分可…

Linux嵌入式串口UART测试程序

Linux串口UART测试程序&#xff0c;收到什么&#xff0c;打印什么。 #include<stdio.h> #include<stdlib.h> #include<unistd.h> #include<sys/types.h> #include<sys/stat.h> #include<sys/signal.h> #include<fcntl.h> #include&l…

uniapp js 合成canvas画布

代码 <template><view><canvas canvas-id"canvas" class"canvas-c"></canvas><!-- <h1>999</h1> --></view> </template><script>export default {name: sharePos,props: {// 绘制图片的尺寸…