零代码编程：用ChatGPT批量采集bookroo网页上的英文书目列表

零代码编程：用ChatGPT批量采集bookroo网页上的英文书目列表

news/2025/4/27 8:30:58/文章来源:https://blog.csdn.net/AIGCTribe/article/details/133837356

bookroo网页上有很多不错的英文图书书目。比如这个关于儿童花样滑冰的书单：

https://bookroo.com/explore/books/topics/ice-skating

怎么批量下载下来呢？

这个网页是动态网页，要爬取下来比较麻烦，可以先查看源代码，然后把源代码保存到本地e盘：DOCTYPE html.htm

打开这个源代码文件：

仔细看，书籍信息在json对象里面：

问ChatGPT如何提取这些书籍名称：

如何从以上网页源代码中提取出title的内容，比如提取出"title":"Mice Skating"、title":"Flora and the Penguin"中的：Mice Skating、Flora and the Penguin

ChatGPT的回复：

你的问题描述中的内容看起来像是一段JSON格式的数据，而不是HTML源代码。这是一个JSON对象，其中包含一个"books"的列表，每个列表项又是一个包含各种属性（包括"title"）的字典。

为了提取"title"的内容，你可以首先将这个JSON字符串转换为Python的数据结构，然后遍历"books"列表，提取每个书籍的"title"。以下是一个例子：

import json

# 这是你的JSON字符串。我已经将其稍微清理过了。

json_str = '''

{

"props": {

"pageProps": {

"initialData": {

"pages": [

{

"books": [

{

"title": "Flora and the Penguin",

...

},

{

"title": "Mice Skating",

...

},

...

]

}

]

}

}

}

}

'''

# 将JSON字符串转为Python数据结构

data = json.loads(json_str)

# 遍历"books"列表

for page in data['props']['pageProps']['initialData']['pages']:

for book in page['books']:

# 提取并打印"title"

print(book['title'])

注意：我在JSON字符串中使用了省略号（"..."）来表示你的原始数据中还有更多的内容。在实际使用中，你应该用你的完整的JSON字符串替换json_str的值。

将所有的JSON字符串复制到json_str = ''' ''' 里面，运行程序，成功获取到页面的所有图书名称：

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/105345.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

【c++】向webrtc学AheadOf、IsNewerTimestamp比较

【c++】向webrtc学AheadOf、IsNewerTimestamp比较

webrtc源码分析-rtp序列号新旧比较大神文章分析的非常到位。大神分析：AheadOrAt(a, b)是判断a是否比b新的核心，其原理是这样的：rfc1982规定了序列号递增间隔不能超过取值范围的1/2(这是自己理解的)，那么要判断a是否比b新，只要判断b到a的递增是否在1/2即可，递增超过1/2，…

阅读更多...

Golang中gRPC使用及原理探究

Golang中gRPC使用及原理探究

文章目录概述gRPC的优势： 1、gRPC入门1.1 protobuf安装1.2 使用gRPC1.2.1 定义proto文件1.2.2 编译proto文件1.2.3 编写客户端和服务端代码 2、gRPC的通信模式2.1 一元RPC模式2.2 客户端流RPC模式2.3 服务端流RPC模式2.4双向流RPC模式 3、 gRPC的底层原理探究3.1 H…

阅读更多...

css列表

css列表

在CSS中，你可以使用样式规则来自定义HTML列表的外观。HTML中有两种常见的列表类型：无序列表（<ul>）和有序列表（<ol>）。可以用于自定义列表： 自定义无序列表（无序列表符号…

阅读更多...

P1433 吃奶酪

P1433 吃奶酪

#include <iostream> #include <cmath> using namespace std; #define M 15 #define S(n) ((n) * (n)) double indx[M 5], indy[M 5], ans 0, sum 0;//坐标数组，从下标为1开始记录 int n, vis[M 5] { 0 };//vis数组，选过的数字标记为1…

阅读更多...

关于pytorch不区分行向量与列向量的理解

关于pytorch不区分行向量与列向量的理解

听李沐老师讲深度学习时候解释pytorch不区分行向量和列向量，只相当于是一维数组，一维张量一定是行向量，相当于数组，而行列向量可以放到矩阵中看。测试如下： rtorch.tensor([1,2,3],dtypetorch.float32) print(r,r.T…

阅读更多...

滑动窗口算法（C语言描述）

滑动窗口算法（C语言描述）

第一种类型：不固定长窗口问题1：*** C代码1： #include<stdio.h> #include<string.h> #define N 5int min_len(int len1,int len2) {return (len1 < len2 ? len1:len2); }int main() {int target 0;int num[N];scanf("…

阅读更多...

C语言中的文件操作指南

C语言中的文件操作指南

阅读导航前言一、文件类型1. 程序文件2. 数据文件PS.文件名二、文件的打开和关闭1. 文件指针2. 文件的打开和关闭三、文件的顺序读写四、文件的随机读写1. fseek() 函数2. ftell() 函数3. rewind() 函数总结前言在C语言中，文件操作是一项重要的任务。通过文件…

阅读更多...

阿里云在云原生领域喜获多项 OSCAR 开源尖峰案例奖

阿里云在云原生领域喜获多项 OSCAR 开源尖峰案例奖

当前，国内开源技术正逐渐在各领域落地，越来越多的企业已经或准备使用开源，优秀的开源案例可以起到领航和参考作用。为了更好地推动开源技术在中国市场的落地，鼓励企业和厂商使用开源，鼓励企业或个人进一步探索我国开源…

阅读更多...

矩阵系统能做什么

矩阵系统能做什么

矩阵系统可以应用于许多领域，包括但不限于以下方面： 1. 工程领域：在工程项目中，矩阵系统可用于设计和优化结构、系统、网络、电路、热管理等。例如，矩阵系统可以用来分析和预测系统的稳定性、可靠性、响应时间、能耗等…

阅读更多...

centos 磁盘挂载与解挂

centos 磁盘挂载与解挂

磁盘挂载查看已挂载的磁盘 df -TH查看磁盘分区，对比第一步，看哪些磁盘没有挂载，例如发现/dev/sdb的磁盘没有在第一步中显示 fdisk -l磁盘分区（/dev/sdb为上一步骤中没有挂载的磁盘） fdisk /dev/sdb执行上一命令后…

阅读更多...

vue-cli + vue3 项目 ios 苹果手机白屏问题

vue-cli + vue3 项目 ios 苹果手机白屏问题

目录问题描述原因分析解决方案遇到的坑1，架构问题2，项目引入其他依赖的问题参考问题描述 vue-cli vue3 的项目，在苹果手机上打开白屏，安卓手机正常显示。原因分析 1，借助 vconsole 发现并没有打印报错信息&…

阅读更多...

2023年中国分布式光纤传感产量、需求量及行业市场规模分析[图]

2023年中国分布式光纤传感产量、需求量及行业市场规模分析[图]

分布式光纤传感器中的光纤能够集传感、传输功能于一体，能够完成在整条光纤长度上环境参量的空间、时间多维连续测量，具有结构简单、易于布设、性价比高、易实现长距离等独特优点，常用的分布式光纤传感器有光时域反射仪、布里渊分析仪、喇曼反…

阅读更多...

Outlook导入导出功能灰色，怎么解决

Outlook导入导出功能灰色，怎么解决

下载安装 Outlook 软件后，登陆账号，然后选择“文件” - “导出”，结果发现“导出”按钮是灰色的，根本无法导出。根据官方说法：由于配置没有完成或者office产品没有正确激活。outlook导出键为灰色原因由于配置没有完成或…

阅读更多...

生信教程：使用拓扑加权探索基因组进化（3）

生信教程：使用拓扑加权探索基因组进化（3）

使用 Twisst 探索整个基因组的进化关系的拓扑加权教程[1]。简介拓扑加权是量化不一定是单系群之间关系的一种方法。它通过考虑更简单的“分类单元拓扑”并量化与每个分类单元拓扑匹配的子树的比例，提供了复杂谱系的摘要。我们用来计算权重的方法称为 Twisst&#…

阅读更多...

基于nodejs+vue教学辅助管理系统

基于nodejs+vue教学辅助管理系统

学生；首页、个人中心、本课程设计了线上教学辅助系统 ,学生可以此系统实现在线学习，作业提交管理、作业成绩管理。随着社会的快速发展，计算机的影响是全面且深入的。教师：首页、个人中心、课程信息管理、教学资料管理、作业信息管…

阅读更多...

IDEA的使用（四）创建不同类型的工程（IntelliJ IDEA 2022.1.3版本）

IDEA的使用（四）创建不同类型的工程（IntelliJ IDEA 2022.1.3版本）

1. 创建Java工程创建之后，src下是空的。可以在src下创建软件包Package，命名采用域名倒序。在软件包下再创建Java类。Java类运行后出现中文乱码，就到控制台和文件编码这两个地方设置编码。 2. 创建JavaWeb工程 2.1 在win11和IDEA中配置Tomca…

阅读更多...

《UnityShader入门精要》学习4

《UnityShader入门精要》学习4

一个最简单的顶点/片元着色器一个最简单的顶点/片元着色器 Unity Shader的基本结构。它包含了Shader、Properties、SubShader、Fallback等语义块。顶点/片元着色器的结构与之大体类似 Shader "MyShaderName" {Properties {// 属性}SubShader {// 针对显卡A的S…

阅读更多...

React之事件机制与事件绑定

React之事件机制与事件绑定

一，时间机制 #是什么 React基于浏览器的事件机制自身实现了一套事件机制，包括事件注册、事件的合成、事件冒泡、事件派发等在React中这套事件机制被称之为合成事件 #合成事件（SyntheticEvent） 合成事件是 React模拟原生 DOM…

阅读更多...

opencv图形绘制2

opencv图形绘制2

目录制作宣传语（中文） 制作宣传语（英文） 绘制标记鼠标交互绘制十字线鼠标交互绘制图形鼠标交互制作几何画板滚动条控制鼠标事件练习制作宣传语（中文） import cv2 import numpy as np from …

阅读更多...

React之组件通信

React之组件通信

#一、是什么我们将组件间通信可以拆分为两个词： 组件通信回顾Vue系列 (opens new window)的文章，组件是vue中最强大的功能之一，同样组件化是React的核心思想相比vue，React的组件更加灵活和多样，按照不同的方式可…

阅读更多...

最新文章