使用 XPath 定位 HTML 中的 img 标签

00020.png

引言

随着互联网内容的日益丰富,网页数据的自动化处理变得愈发重要。图片作为网页中的重要组成部分,其获取和处理在许多应用场景中都显得至关重要。例如,在社交媒体分析、内容聚合平台、数据抓取工具等领域,图片的自动下载和处理是必不可少的。本文将详细介绍如何在 C# 应用程序中使用 XPath 定位 HTML 中的 img 标签,并实现图片的下载。

技术背景

XPath(XML Path Language)是一种用于在 XML 文档中进行选择节点的查询语言,同样也适用于 HTML 文档。它提供了一种简洁的方式来定位和操作文档中的元素。在 C# 中,我们可以使用 HtmlAgilityPack 库结合 XPath 来实现对 HTML 文档的解析和数据提取。

环境准备

在开始编写代码之前,你需要准备以下环境和工具:

  1. Visual Studio:一个强大的 C# 开发环境。
  2. .NET Framework:确保你的项目是基于 .NET Framework。
  3. HtmlAgilityPack:一个用于解析 HTML 文档的库。可以通过 NuGet 包管理器安装。

实现步骤

1. 安装 HtmlAgilityPack

首先,通过 NuGet 包管理器安装 HtmlAgilityPack。在 Visual Studio 中,打开你的项目,然后通过“工具” > “NuGet 包管理器” > “管理解决方案的 NuGet 包”,搜索并安装 HtmlAgilityPack

2. 创建 HttpWebRequest

为了从网页中获取 HTML 文档,我们需要创建一个 HttpWebRequest 对象。这将允许我们发送 HTTP 请求并接收响应。

csharp
using System;
using System.IO;
using System.Net;
using HtmlAgilityPack;namespace HtmlImageExtractor
{class Program{static void Main(string[] args){string targetUrl = "http://example.com";string proxy_host = "ip.16yun.cn";int proxy_port = 31111;HttpWebRequest request = (HttpWebRequest)WebRequest.Create(targetUrl);request.Proxy = new WebProxy(proxy_host, proxy_port);request.Proxy.Credentials = CredentialCache.DefaultCredentials;HttpWebResponse response = (HttpWebResponse)request.GetResponse();Stream responseStream = response.GetResponseStream();HtmlDocument doc = new HtmlDocument();doc.Load(responseStream);string firstImageUrl = doc.DocumentNode.SelectSingleNode("//img[@src]").Attributes["src"].Value;DownloadImage(firstImageUrl, "image1.jpg");response.Close();}private static void DownloadImage(string url, string localFileName){using (WebClient webClient = new WebClient()){webClient.DownloadFile(url, localFileName);}}}
}
3. 使用 HtmlAgilityPack 解析 HTML

在上述代码中,我们首先创建了一个 HttpWebRequest 对象,并设置了代理服务器。然后,我们使用 HtmlAgilityPack 库来解析 HTML 文档。

csharp
HtmlDocument doc = new HtmlDocument();
doc.Load(responseStream);
4. 使用 XPath 定位 img 标签

一旦 HTML 文档被加载到 HtmlDocument 对象中,我们可以使用 XPath 来定位 img 标签。

csharp
string firstImageUrl = doc.DocumentNode.SelectSingleNode("//img[@src]").Attributes["src"].Value;

这里,//img[@src] 是一个 XPath 表达式,它选择所有具有 src 属性的 img 元素。SelectSingleNode 方法返回第一个匹配的节点。

5. 下载图片

最后,我们定义了一个 DownloadImage 方法,该方法使用 WebClient 类的 DownloadFile 方法将图片下载到本地。

csharp
private static void DownloadImage(string url, string localFileName)
{using (WebClient webClient = new WebClient()){webClient.DownloadFile(url, localFileName);}
}

代码解析

在上述代码中,我们展示了如何使用 C# 和 HtmlAgilityPack 库结合 XPath 来实现图片的下载。以下是关键步骤的详细解析:

  1. 创建 HttpWebRequest:通过 WebRequest.Create 方法创建一个 HTTP 请求对象。
  2. 设置代理:通过 WebProxy 设置代理服务器,以便绕过某些网络限制。
  3. 获取响应流:通过 GetResponse 方法获取响应,并从响应中获取流。
  4. 解析 HTML:使用 HtmlAgilityPackHtmlDocument 类加载 HTML 流。
  5. 使用 XPath:通过 XPath 表达式定位 img 标签,并获取其 src 属性。
  6. 下载图片:使用 WebClientDownloadFile 方法下载图片到本地。

应用场景

  1. 网页爬虫:自动从网页中下载图片,用于内容聚合或数据分析。
  2. 内容管理系统:下载并存储网页中的图片,用于内容展示。
  3. 数据抓取工具:从网页中提取图片,用于图像识别或机器学习。

结语

通过本文的介绍和代码示例,我们可以看到如何在 C# 中使用 XPath 定位 HTML 中的 img 标签,并实现图片的下载。这种方法不仅高效,而且易于实现,适用于各种需要从网页中提取图片资源的场景。希望本文能够为你的项目提供帮助,并激发你在数据处理和自动化方面的创新思维。
有对文章的代理有需求的可以关注这里:https://v.16yun.cn/accounts/phone_register/?sale_user=ZM_seven7

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/47789.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Springboot 启动时Bean的创建与注入-面试热点-springboot源码解读-xunznux

Springboot 启动时Bean的创建与注入,以及对应的源码解读 文章目录 Springboot 启动时Bean的创建与注入,以及对应的源码解读构建Web项目流程图:堆栈信息:堆栈信息简介堆栈信息源码详解1、main:10, DemoApplication (com.xun.demo)2…

【开发踩坑】使用PageHelper工具正常sql后面多无关语句

背景 SQL日志打印出现了脏东西: 本来结束的 where muc.code ?;后面凭空多出了一个 LIMIT语句 ### Cause: com.mysql.jdbc.exceptions.jdbc4.MySQLSyntaxErrorException: You have an error in your SQL syntax; check the manual that corresponds to your …

2024辽宁省数学建模B题【钢铁产品质量优化】原创论文分享

大家好呀,从发布赛题一直到现在,总算完成了2024 年辽宁省大学数学建模竞赛B题钢铁产品质量优化完整的成品论文。 本论文可以保证原创,保证高质量。绝不是随便引用一大堆模型和代码复制粘贴进来完全没有应用糊弄人的垃圾半成品论文。 B题论文…

解决element-ui e-table表格中使用多选,当翻页时已选中的数据丢失

用element-ui中的table时&#xff0c;当有多选又有翻页功能时&#xff0c;点击翻页后之前选中的数据会丢失&#xff0c;怎么使表格具有记忆功能呢 element-ui API中有几个属性可以供我们完美解决这个问题 1.单元格的属性和方法&#xff1a; 2.表格的方法&#xff1a; <el-…

Linux部署Prometheus+Grafana

【Linux】PrometheusGrafana 一、Prometheus&#xff08;普罗米修斯&#xff09;1、Prometheus简述2、Prometheus特点3、Prometheus生态组件4、Prometheus工作原理 二、部署Prometheus1、系统架构2、部署Prometheus3、修改配置文件4、配置系统启动文件 三、部署 Node Exporter …

DevExpress WPF中文教程 - 为项目添加GridControl并将其绑定到数据

DevExpress WPF拥有120个控件和库&#xff0c;将帮助您交付满足甚至超出企业需求的高性能业务应用程序。通过DevExpress WPF能创建有着强大互动功能的XAML基础应用程序&#xff0c;这些应用程序专注于当代客户的需求和构建未来新一代支持触摸的解决方案。 无论是Office办公软件…

[开源]语雀+Vercel:打造免费个人博客网站

大家好,我是白露。 今天我想和大家分享我的今年的第一个开源项目 —— 基于语雀+Nextjs+Vercel实现免费的博客系统。 简单来说,你在语雀写博客,然后直接一键同步到个人网站上,网站自动部署! 而且,整个过程几乎不需要额外的成本,也不用充值语雀超级会员,hh。这个项目…

阿里云 申请免费ssl 证书

1控制台--数字证书管理服务 2 创建所需域名证书

PyTorch张量索引

文章目录 1、简介1.1、基本概念1.2、索引类型1.3、数据准备1.4、技术摘要⭐ 2、简单行、列索引3、列表索引4、范围索引5、布尔索引6、多维索引 &#x1f343;作者介绍&#xff1a;双非本科大三网络工程专业在读&#xff0c;阿里云专家博主&#xff0c;专注于Java领域学习&#…

Vue3 + uni-app 微信小程序:仿知乎日报详情页设计及实现

引言 在移动互联网时代&#xff0c;信息的获取变得越来越便捷&#xff0c;而知乎日报作为一款高质量内容聚合平台&#xff0c;深受广大用户喜爱。本文将详细介绍如何利用Vue 3框架结合微信小程序的特性&#xff0c;设计并实现一个功能完备、界面美观的知乎日报详情页。我们将从…

1. 个人谈心 ——【如何学习编程及合理安排休息时间】

&#x1f4d6; 声明 ! ! ! 此文章仅仅属于个人思想&#xff0c;如有不满或者意见不相同&#xff0c;可以在评论区讨论留言&#xff0c;非常感谢支持&#xff01;&#xff01;&#xff01; &#x1f495;个人主页&#xff1a;三亿老奶奶心中的梦 &#x1f4d8;收录专栏&#xff…

github上的工程如何下载子模块.gitmodules如何下载指定的模块download submodules开源项目子模块下载externals

github上的工程如何下载子模块.gitmodules如何下载指定的模块download submodules 说明(废话)解决方案无法执行下载子模块无法下载子项目 说明(废话) 今天在编译一个开源库时&#xff0c;该开源库依赖其他项目&#xff0c;并且项目还挺多的&#xff0c;所以有此解决方案 在编…

收银系统源码-商城下单,门店接单

随着新零售时代的不断进步&#xff0c;线下线上一体化的收银系统&#xff0c;被很多门店越来越重视。用户在线上商城下单后&#xff0c;门店如何接单呢&#xff0c;如何处理订单呢&#xff1f; 1.收银系统开发语言 核心开发语言: PHP、HTML5、Dart后台接口: PHP7.3后合管理网…

STM32全栈嵌入式人脸识别考勤系统:融合OpenCV、Qt和SQLite的解决方案

1. 项目概述 本项目旨在设计并实现一个基于STM32的全栈人脸识别考勤系统。该系统结合了嵌入式开发、计算机视觉和数据库技术&#xff0c;实现了自动人脸检测、识别和考勤记录功能。 主要特点: 使用STM32F4系列微控制器作为主控制器采用OpenCV进行人脸检测和识别Qt开发跨平台…

LVS+Nginx高可用集群---keepalived原理与实战

1.高可用集群架构keepalived双机主备原理 高可用&#xff1a;(HA) 部署nginx存在两台nginx。当主节点的nginx宕机停止服务的时候&#xff0c;nginx备用机起到跟nginx(主) keepalived的概念&#xff1a;解决单点故障&#xff1b;组件免费&#xff1b;可以实现高可用HA机制&…

【音视频 | HTTP协议】HTTP协议详细介绍(HTTP方法、报文格式、报文头部字段、状态码)

&#x1f601;博客主页&#x1f601;&#xff1a;&#x1f680;https://blog.csdn.net/wkd_007&#x1f680; &#x1f911;博客内容&#x1f911;&#xff1a;&#x1f36d;嵌入式开发、Linux、C语言、C、数据结构、音视频&#x1f36d; &#x1f923;本文内容&#x1f923;&a…

推出全新的ZL3079x、ZL3069x、ZL3066x同步器,优化用于5G运输和无线基础设施设备

一、单通道、双通道和三通道IEEE1588/SyncE网络同步器 ZL3079x提供1个、2个和三个独立的组合硬件和软件平台定时通道&#xff0c;包括IEEE 1588-2008精确时间协议栈和同步算法。该设备使用miTimePLL定时技术&#xff0c;为5G传输和无线基础设施设备提供新的改进功能。该器件非…

阿里云ACP云计算高级攻城狮通用知识

&#x1f525;概述 阿里云云计算高级工程师ACP认证是面向使用阿里云云计算产品的架构、开发、运维类人员的专业技术认证&#xff0c;主要考核考生利用阿里云云计算技术服务体系设计稳定、安全、高性能、易扩展、低成本的企业云计算架构的能力。 前提&#xff1a;在写适用人群…

Spring后端框架复习总结

之前写的博客太杂,最近想把后端框架的知识点再系统的过一遍,主要是Spring Boot和Mybatis相关,带着自己的理解使用简短的话把一些问题总结一下,尤其是开发中和面试中的高频问题,基础知识点可以参考之前写java后端专栏,这篇不再赘述。 目录 Spring什么是AOP?底层原理?事务…

word的进阶

Word的基本操作 这里主要用到的软件是WPS软件。 一、创建一个文档 第一种&#xff1a;快捷键&#xff1a;ctrln第二种&#xff1a;通过界面鼠标点击 二、设置文档背景 更换过的背景如下&#xff1a; 三、章节、目录导航的设置 四、插入目录页 五、对历史文档进行管理 六、…