PHP——爬虫DOM解析

背景

php在爬取网页信息的时候,有一些函数可以使用。
这里介绍两个

  • DOMDocument
  • DOMXPath
代码解析
<?php
// 示例HTML
$html = '<!DOCTYPE html>
<html><head><meta charset="UTF-8"><title>Example</title></head><body><div><p>Hello World!</p><p xx="test_custom_key" k="test_multi_key">this is a test 中文</p><a href="#xxx_link">Link</a><p id="xxx_p">Link</p><a href="#xxx_link——2">Link</a><a href="#xxx_link_%E4%B8%AD%E6%96%87%E9%93%BE%E6%8E%A5">Link</a></div><div id="custom_div_id"><p id="xxx">Another paragraph</p><a href="#">Another link</a><div>second empty div</div><div id="custom_div_id"><p>second div paragraph</p></div></div></body>
</html>';function printDomNode($paragraph){echo "----\nNode: ".$paragraph->nodeValue . "\n";echo "all attr: \n";for ($i = 0; $i < $paragraph->attributes->length; $i++) {$attr = $paragraph->attributes->item($i);echo "\t".$attr->nodeName . ': ' . $attr->nodeValue . "\n";}
}// 创建DOMDocument实例并加载HTML
$dom = new DOMDocument();
@$dom->loadHTML($html);// 创建DOMXPath实例
$xpath = new DOMXPath($dom);echo "----------------------------\n";
// 示例1:查找所有<p>元素
$paragraphs = $xpath->query('//p');
foreach ($paragraphs as $paragraph) {echo "----\nNode----------: ".$paragraph->nodeValue . "\n";echo "id attr: ".$paragraph->getAttribute('id') . "\n";echo "all attr: \n";for ($i = 0; $i < $paragraph->attributes->length; $i++) {$attr = $paragraph->attributes->item($i);echo "\t".$attr->nodeName . ': ' . $attr->nodeValue . "\n";}echo "=foreach=\n";foreach ($paragraph->attributes as $attr) {echo "\t".$attr->name . ': ' . $attr->value . "\n";echo "\t".$attr->nodeName . ': ' . $attr->nodeValue . "\n";}}echo "----------------------------\n";
$paragraphs = $xpath->query('//p[@xx="test_custom_key"]');
foreach ($paragraphs as $paragraph) {printDomNode($paragraph);
}echo "----------------------------\n";
// 示例2:查找包含特定文本的<a>元素
$links = $xpath->query('//a[text()="Link"]');
//$links = $xpath->query('//*[text()="Link"]'); //不限制a标签,会找到所有值是Link的节点
foreach ($links as $link) {$herf = $link->getAttribute('href');echo "origin: ".$herf . "\n";echo "decode: ".urldecode($herf) . "\n";
}//如果找到指定路径下面的节点
echo "----------------------------指定路径下的p节点\n";
$paragraphs = $xpath->query('//div[@id="custom_div_id"]//p[@id="xxx"]');
foreach ($paragraphs as $paragraph) {printDomNode($paragraph);
}echo "----------------------------\n";
// 示例3:查找<div>元素内的所有节点(这个会找到所有子节点,包括节点里面的节点)
$divChildren = $xpath->query('//div/*');
foreach ($divChildren as $child) {
//    echo $child->nodeName . ": " . $child->nodeValue . "\n";printDomNode($paragraph);
}?>

示例:比如获取一个html文档中的p标签

  • 步骤
    • 获取网页html
      • 这里省略了请求url。如果需要从url获取html:$html = file_get_contents($url);
    • 将html文件构建成DOM树结构
    • 使用DOMXPath类来查找指定的元素节点
      • 构建DOMXPath类实例
      • 使用query函数查询
        • 如果找所有p标签,那么会遍历整个树,把所有的p标签找出来
        • 如何找指定属性的p标签:p[@xx="test_custom_key"]
          • 这里的xx是自定义的属性
          • 这里的@表示选择节点的属性
        • 如何找到指定路径下的节点
          • //div[@id="custom_div_id"]//p[@id="xxx"]

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/32388.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【D3.js in Action 3 精译】关于本书

文章目录 本书读者本书结构与路线图本书代码liveBook 在线论坛 D3.js 项目的传统开发步骤 本书读者 这本书适用于所有渴望在数据可视化工作中获得完全创意自由的人&#xff0c;从定制化的经典图表到创建独特的数据可视化布局&#xff0c;涵盖内容广泛&#xff0c;应有尽有。您…

c语言移位运算超出类型所能表示的范围告警

错误代码&#xff1a; *(unsigned int *)GPIOC_CRH & ~(0xf << 28); 告警内容&#xff1a; integer operation result is out of range 分析&#xff1a; integer operation result is out of range是因为在尝试对一个32位整型执行移位操作时超出了该类型所能表示…

重学java 80.Junit单元测试

我总是着急的解释我自己&#xff0c;却忘了厚爱无需多言 —— 24.6.21 一、Junit介绍 1.概述 Junit是一个单元测试框架,可以代替main方法去执行其他的方法 2.作用 可以单独执行一个方法,测试该方法是否能跑通 3.注意 Junit是第三方工具,所以使用之前需要导入jar包 二、J…

GraphQL vs REST:API设计的现代选择

随着技术的飞速发展&#xff0c;API&#xff08;应用程序接口&#xff09;设计成为了软件开发中不可或缺的一部分。REST&#xff08;Representational State Transfer&#xff09;和GraphQL作为两种主流的API设计风格&#xff0c;各自具有独特的优势和适用场景。本文将深入探讨…

idea导入项目右侧maven不显示的解决办法

不显示情况&#xff1a; 原因可能是读取项目出错&#xff0c;未正确加载pom文件造成的。 解决方案一&#xff1a; 关闭idea在项目目录中删除.idea文件夹重新打开项目&#xff0c;重新加载。 解决犯案二&#xff1a; 直接在pom文件中右键选择add as maven project。 解决方案三…

嵌入式Linux gcc 编译器使用解析

目录 1.说明 2.分步编译法 3.编译源文件的四个阶段 4.gdb调试及常用命令 5.Makefile 1.说明 源文件 main.c 想生成 source gcc –g –O2 main.c –o source 黄色部分便是控制字 -g用于GDB –O2用于优化编译; 绿色部分表示源,可以由多个组成,用空格隔开; gcc …

PythonWeb前端

摘要 学校的一门选修课&#xff0c;PythonWeb开发从入门到实践&#xff0c;用到的技术有Python,Flask,MySQL,前端三件套等&#xff0c;但因为是选修课&#xff0c;所以都只涉及到了一点点 Web前端基础 1.Web工作原理 概念&#xff1a; Web&#xff0c;万维网&#xff0c;一…

出差:能带的工具都要带上,宁可用不上,不可没有

昨天出差常州&#xff0c;我也是信心满满。就是烧录几个板子&#xff0c;在公司烧了无数次&#xff0c;也反复测试过了。 到了现场&#xff0c;傻眼了&#xff1a; 我以为是来烧云台&#xff0c;连六角螺丝刀都带上了&#xff0c;其他包括串口线、云台电缆。现场是烧板子&…

关于运用人工智能帮助自己实现英语能力的有效提升?

# 实验报告 ## 实验目的 - 描述实验的目标&#xff1a;自己可以知道&#xff0c;自己的ai学习方法是否可以有效帮助自己实现自己的学习提升。 预期结果&#xff1a;在自己利用科技对于自己进行学习的过程中&#xff0c;自己的成长速度应该是一个幂指数的增长 ## 文献回顾 根据…

Docker:centos79-docker-compose安装记录

1.安装环境&#xff1a;centos7.9 x86 2.安装最新版&#xff1a; [rootlocalhost ~]# curl -fsSL get.docker.com -o get-docker.sh [rootlocalhost ~]# sh get-docker.sh # Executing docker install script, commit: e5543d473431b782227f8908005543bb4389b8desh -c yum in…

记一次网站违规风险百度统计被禁用的经历及解决方法

今天登陆百度统计&#xff0c;提示&#xff1a;网站由于存在合规风险将被暂停使用百度统计服务。 为了满足法律法规及政府监管的最新规定和要求&#xff0c;保护广大网民的合法权益&#xff0c;您的网站由于存在合规风险将被暂停使用百度统计服务。违规域名&#xff1a;xxxxxx.…

django+uniapp

项目显示是前后端分离的模式django项目正常跑起来UniAPP项目直接打包正式web,打包出来的时候选择hash和文件路径/static/project/UniAPP项目部署到服务器中,/project直接部署到django对应的static的下面网页启动模式是通过静态文件的方式访问和启动 问题 负载均衡&#xff0c;…

使用Docker部署Java应用:从入门到实践

引言 随着容器化技术的兴起&#xff0c;Docker已成为部署和管理应用程序的热门选择。Docker提供了一种轻量级、可移植和自给自足的容器&#xff0c;使得应用部署变得简单且一致。本文将详细介绍如何使用Docker部署Java应用程序&#xff0c;包括基础概念、环境搭建、Dockerfile…

IF膨胀时代,“水刊”当赢?2023热门“水刊”影响因子详解!

【欧亚科睿学术】 1 “四大水刊”详情 图片来源&#xff1a;欧亚科睿学术整理 “四大水刊”的影响因子均有所下跌&#xff0c;其中&#xff0c;曾经被列入中科院预警名单的期刊MEDICINE&#xff0c;其影响因子已是连续三年持续下降。从JCR分区来看&#xff0c;四本期刊分区均…

算法训练(leetcode)第十一天 | 144. 二叉树的前序遍历、145. 二叉树的后序遍历、94. 二叉树的中序遍历、102. 二叉树的层序遍历

刷题记录 144. 二叉树的前序遍历递归迭代 145. 二叉树的后序遍历递归迭代 94. 二叉树的中序遍历递归迭代 102. 二叉树的层序遍历 144. 二叉树的前序遍历 leetcode题目地址 二叉树前序遍历。 时间复杂度&#xff1a; O ( n ) O(n) O(n) 空间复杂度&#xff1a; O ( n ) O(n…

迈巴赫S480升级增强现实AR抬头显示hud比普通抬头显示HUD更好用吗

增强AR实景抬头显示HUD&#xff08;Augmented Reality Head-Up Display&#xff09;是一种更高级的驾驶辅助技术&#xff0c;相比于普通抬头显示HUD&#xff0c;它提供了更丰富、更具沉浸感的驾驶体验。以下是它比普通抬头显示HUD多的一些功能&#xff1a; • 信息呈现方式&am…

Flutter中的异步和多进程

Flutter 是一个用于创建高性能、高保真度移动应用的框架,它使用 Dart 编程语言。 在 Flutter 中,异步和多进程是两种不同的概念,用于解决不同的问题。 异步 (Asynchronous) 异步编程是一种编程范式,允许代码在等待操作完成(如网络请求、文件 I/O)时继续执行其他任务,而不…

MySQL数据库笔记(二)

第一章 单行函数 1.1 什么是函数 函数的作用是把我们经常使用的代码封装起来,需要的时候直接调用即可。这样既提高了代码效率,又提高了可维护性。在SQL中使用函数,极大地提高了用户对数据库的管理效率。 1.2 定义 操作数据对象。 接受参数返回一个结果。 只对一行进行…

【React】AntD组件的使用--极客园--02.登录模块

基本结构搭建 实现步骤 在 Login/index.js 中创建登录页面基本结构在 Login 目录中创建 index.scss 文件&#xff0c;指定组件样式将 logo.png 和 login.png 拷贝到 assets 目录中 代码实现 pages/Login/index.js import ./index.scss import { Card, Form, Input, Button }…

pandas.frame输出parquet

代码 import pandas as pd import pyarrow._parquet as pqdata pd.read_parquet("0000.parquet") total_rows len(data) half_row_num total_rows//2 print(half_row_num) first_half data.iloc[:20000] second_half data.iloc[20000:20000] # print(first_hal…