网络爬虫-4:jsonpath+实战

1.jsonpath
2.通过jsonpath实战

一.Jasonpath核心符号

1)$:

  1. 含义:表示 JSON 文档的根节点。

  2. 用法:所有 JSONPath 表达式都以 $ 开头,表示从根节点开始查询。

{"store": {"book": [{"title": "Book 1", "price": 10},{"title": "Book 2", "price": 20}]}
}

$ 表示整个 JSON 文档。

2) . :

  • 含义:用于访问对象的属性。

  • 用法:通过点号 . 可以访问对象的属性。

$.store 表示获取 store 对象。

$.store.book 表示获取 store 对象中的 book 数组。

from jsonpath import jsonpath
data={"store": {"book": [{"title": "Book 1", "price": 10},{"title": "Book 2", "price": 20}]}
}
store=jsonpath(data,"$.store")
book = jsonpath(data,"$.store.book")
print(store)
print(book)
[{'book': [{'title': 'Book 1', 'price': 10}, {'title': 'Book 2', 'price': 20}]}]
[[{'title': 'Book 1', 'price': 10}, {'title': 'Book 2', 'price': 20}]]

3) [ ]:

  • 含义:用于访问数组元素或对象的属性(支持属性名或索引)。

  • 用法

    • 访问数组元素:[index]

    • 访问对象属性:['property']

$.store.book[0] 表示获取 book 数组的第一个元素。

$['store']['book'][0] 也可以用于访问属性。

from jsonpath import jsonpath
data={"store": {"book": [{"title": "Book 1", "price": 10},{"title": "Book 2", "price": 20}]}
}
a = jsonpath(data,"$.store[book]")
b = jsonpath(data,"$[store][book][0]")
print(a)
print(b)
[[{'title': 'Book 1', 'price': 10}, {'title': 'Book 2', 'price': 20}]]
[{'title': 'Book 1', 'price': 10}]

4) .. :

  • 含义:递归下降,表示从当前节点开始递归搜索所有子节点。

  • 用法:用于查找 JSON 文档中所有符合条件的节点。

$..title 表示在整个 JSON 文档中查找所有 title 属性。

$..book 表示查找所有 book 节点。

from jsonpath import jsonpath
data={"store": {"book": [{"title": "Book 1", "price": 10},{"title": "Book 2", "price": 20}]}
}
a = jsonpath(data,"$..title")
b = jsonpath(data,"$..book")
print(a)
print(b)
['Book 1', 'Book 2']
[[{'title': 'Book 1', 'price': 10}, {'title': 'Book 2', 'price': 20}]]

5)@:

  • 含义:在过滤器表达式中表示当前节点。

  • 用法:用于在 ?() 中引用当前节点。

$.store.book[?(@.price < 10)] 中的 @ 表示当前 book 元素。

6)?():

  • 含义:过滤器表达式,用于根据条件筛选数据。

  • 用法:在 ?() 中编写条件表达式,筛选符合条件的节点。

$.store.book[?(@.price < 10)] 表示获取 book 数组中价格小于 10 的所有元素。

$.store.book[?(@.category == 'fiction')] 表示获取 category 为 fiction 的书籍。

二.实战

当网页返回的源代码为json格式时,使用JSONPATH进行网页爬取

1.通过判断,腾讯网 为异步加载,所以要查看Fetch/XHR

2.在通过jsonpath获取想要的信息部分

import requests
from jsonpath import jsonpath
import random
def get_data(url,headers,payload):response = requests.post(url, headers=headers,json=payload)if response.status_code == 200:html_data = response.json()return html_dataelse:print("请求代码:",response.status_code)def parse_json(html_data):titles = jsonpath(html_data,'$.data..title')times = jsonpath(html_data,'$..publish_time')hrefs = jsonpath(html_data,'$..link_info[url]')for title,time,href in zip(titles,times,hrefs):print("新闻标题:",title)print("发布时间:",time)print("新闻链接:",href)if __name__ == '__main__':url="https://i.news.qq.com/web_feed/getHotModuleList"USER_AGENTS = ["Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; AcooBrowser; .NET CLR 1.1.4322; .NET CLR 2.0.50727)","Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0; Acoo Browser; SLCC1; .NET CLR 2.0.50727; Media Center PC 5.0; .NET CLR 3.0.04506)","Mozilla/4.0 (compatible; MSIE 7.0; AOL 9.5; AOLBuild 4337.35; Windows NT 5.1; .NET CLR 1.1.4322; .NET CLR 2.0.50727)","Mozilla/5.0 (Windows; U; MSIE 9.0; Windows NT 9.0; en-US)","Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Win64; x64; Trident/5.0; .NET CLR 3.5.30729; .NET CLR 3.0.30729; .NET CLR 2.0.50727; Media Center PC 6.0)","Mozilla/5.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0; WOW64; Trident/4.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; .NET CLR 1.0.3705; .NET CLR 1.1.4322)"]headers = {"user-agent": random.choice(USER_AGENTS),"cookie": "你的cookies"}payload={"你的浏览器requests payload"}html_data = get_data(url,headers,payload)parse_json(html_data)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/74326.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

GD32 ARM单片机开发规范检查清单 GD32嵌入式C代码检查清单

GD32 ARM单片机开发规范检查清单 以下检查清单基于您的编程规范制定&#xff0c;可用于代码审查和自检过程。通过逐项检查&#xff0c;确保代码符合项目规范要求。 #mermaid-svg-Ye0FEIS4ZoXDXqaH {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:…

求职招聘网站源码,找工作招工系统,支持H5和各种小程序

招聘找活招工平台系统源码 招聘求职找工作软件 发布信息积分充值招聘系统,里面带纤细教程 功能介绍: 招工小程序主要针对工地招工工人找工作,工地可以发布招工信息,工人可以发布找活信息,招工信息可以置顶,置顶需要积分,积分可以通过签到、分享邀请好友、充值获取,后…

《Oracle DBA入门实战:十大高频问题详解与避坑指南》

Oracle DBA 入门作业十问十答 本文为 Oracle DBA 入门作业整理&#xff0c;涵盖工具使用、配置管理及权限控制等核心知识点&#xff0c;适合新手快速上手。 如有疑问或补充&#xff0c;欢迎评论区交流&#xff01; 1. DBA 常用工具有哪些&#xff1f; Oracle Universal Instal…

解决用户同时登录轮询获取用户信息错乱,使用WebSocket和Server-Sent Events (SSE)

为什么更推荐WebSocket Server-Sent Events (SSE) 是一种服务器向客户端推送数据的单向通信协议&#xff0c;适合某些场景&#xff0c;在解决用户同时登录和实时获取用户信息的问题上&#xff0c;WebSocket 是更好的选择。 1. SSE 的局限性 单向通信 SSE 是单向的&#xff0…

发票查验/发票验真如何用Java实现接口调用

一、什么是发票查验&#xff1f;发票验真接口&#xff1f; 输入发票基本信息发票代码、发票号码、开票日期、校验码后6位、不含税金额、含税金额&#xff0c;核验发票真伪。 该接口也适用于机动车、二手车销售发票、航空运输电子客票、铁路电子客票等。 二、如何用Java实现接口…

html5-qrcode前端打开摄像头扫描二维码功能

实现的效果如图所示&#xff0c;全屏打开并且扫描到二维码后弹窗提醒&#xff0c;主要就是使用html5-qrcode这个依赖库&#xff0c;html5-qrcode开源地址&#xff1a;GitHub - mebjas/html5-qrcode: A cross platform HTML5 QR code reader. See end to end implementation at:…

cpp-友元

理解 C 中的友元&#xff08;Friend&#xff09; 在 C 语言中&#xff0c;封装&#xff08;Encapsulation&#xff09; 是面向对象编程的重要特性之一。它允许类将数据隐藏在私有&#xff08;private&#xff09;或受保护&#xff08;protected&#xff09;成员中&#xff0c;…

JavaWeb基础-HTTP协议、请求协议、响应协议

一. HTTP协议 1. HTTP协议&#xff1a;Hyper Text Transfer Protocol&#xff0c;超文本传输协议&#xff0c;规定了浏览器和服务器之间数据传输的规则 2. HTTP协议特点&#xff1a; ① 基于TCP协议&#xff1a;面向链接&#xff0c;安全 ② 基于请求-响应模型的&#xff1a;一…

search_fields与filterset_fields的使用

在Django中&#xff0c;search_fields 和 filterset_fields 可以在视图类中使用&#xff0c;尤其是在 Django REST Framework (DRF) 中。它们分别用于实现搜索和过滤功能。以下是它们在视图类中的具体使用方法。 1. search_fields 在视图类中的使用 search_fields 是 DRF 中 S…

数据建模流程: 概念模型>>逻辑模型>>物理模型

数据建模流程 概念模型 概念模型是一种高层次的数据模型&#xff0c;用于描述系统中的关键业务概念及其之间的关系。它主要关注业务需求和数据需求&#xff0c;而不涉及具体的技术实现细节。概念模型通常用于在项目初期帮助业务人员和技术人员达成共识&#xff0c;确保对业务需…

在 Ubuntu 中用 Docker 安装 RAGFlow

一、安装 1.前提条件 CPU > 4 核 RAM > 16 GB Disk > 50 GB Docker > 24.0.0 & Docker Compose > v2.26.1 安装docker&#xff1a;在Ubuntu中安装Docker并配置国内镜像 2.设置 vm.max_map_count #设置 vm.max_map_count 不小于 262144# 查看 sysctl vm.…

Java随机生成n位验证码

Java学习笔记 今天写一个随机生成n位的验证码&#xff0c;包含字母大小写和数字&#xff0c;直接见代码。 package com.itheima.hello;// 生成一个随机位数的验证码 public class ScannerDemo1 {public static void main(String[] args){System.out.println(getCode(4));Syst…

go复习目录

全部都是博主的学习笔记&#xff0c;放着链接用的&#xff0c;自己收藏&#xff0c;包含基础内容、go三方包、vue、数据结构、web框架、设计模式、docker、go连接kafka、redis、grpc、中间件 文章目录 基础内容go三方包vue数据结构web框架设计模式dockergo连接kafkaredisgrpc中…

23种设计模式-创建型模式-抽象工厂

文章目录 简介场景问题1. 风格一致性失控2. 对象创建硬编码3. 产品族管理失效 解决总结 简介 抽象工厂是一种创建型设计模式&#xff0c;可以生成相关对象系列&#xff0c;而无需指定它们的具体类。 场景 假设你正在写一个家具店模拟器。 你的代码这些类组成&#xff1a; 相…

案例:网络命名空间模拟隔离主机场景

场景描述 假设我们需要在同一台物理机上模拟两台独立的主机&#xff08;Host A 和 Host B&#xff09;&#xff0c;它们分别位于不同的网络命名空间中&#xff0c;并通过虚拟以太网对&#xff08;veth pair&#xff09;进行通信。目标是展示网络命名空间的隔离性和跨命名空间的…

新闻发布时间抽取(二)

1. 再论抽取方法 在前一期实验中&#xff0c;对gne组件进行分析和完善&#xff0c;对三种时间抽取的方法进行了实验对比。 在对抽取结果进行个例分析的过程中&#xff0c;我发现此前实验存在几个问题&#xff1a; 抽取的1000篇新闻存在一定的重复&#xff0c;经过ID去重大约减…

算法基础——栈

一、栈的概念 栈是⼀种只允许在⼀端进⾏数据插⼊和删除操作的线性表。 进⾏数据插⼊或删除的⼀端称为栈顶&#xff0c;另⼀端称为栈底。不含元素的栈称为空栈。进栈就是往栈中放⼊元素&#xff0c;出栈就是将元素弹出栈顶。 二、栈的模拟实现 1. 创建 本质还是线性表&#…

Android11至15系统定制篇

Android 11至15系统定制核心要点解析 一、Android 11关键定制特性 ‌分区存储强制化‌ 公共目录&#xff08;如Downloads、Pictures&#xff09;与应用专属目录分离&#xff0c;应用更新后无法通过requestLegacyExternalStorage绕过限制‌1。需申请MANAGE_EXTERNAL_STORAGE权限…

macOS 使用 enca 识别 文件编码类型(比 file 命令准确)

文章目录 macOS 上安装 enca基本使用起因 - iconv关于 enca安装 Encaenca & enconv 其它用法 macOS 上安装 enca brew install enca基本使用 enca filepath.txt示例 $ enca 动态规划算法.txt [0] Simplified Chinese National Standard; GB2312CRLF line terminat…

线段树与扫描线 —— 详解算法思想及其C++实现

目录 一、线段树&#xff08;Segment Tree&#xff09; 基本概念 结构 操作 示例代码 二、扫描线&#xff08;Sweep Line&#xff09; 基本概念 应用场景 示例代码&#xff08;矩形面积并集&#xff09; 三、总结 一、线段树&#xff08;Segment Tree&#xff09; 基本…