python实现某品牌数据采集

某品牌数据采集

采集需求

地址:http://www.winshangdata.com/brandList

需求:用scrapy框架采集本站数据,至少抓取5个分类,数据量要求5000以上

采集字段:标题、创建时间、开店方式、合作期限、面积要求

网页分析

进入网站后页面如下

在这里插入图片描述

在这里插入图片描述

打开f12切换到网络这一栏,刷新网页或者点击下一页抓取请求

在这里插入图片描述

分析返回的json数据发现,只能获取到我们需要的标题、面积要求

在这里插入图片描述

在这里插入图片描述

所以我们需要进入网页详情页面进行分析,进入详情页面后发现我们剩下所需的参数都是在网页的li标签中,所以我们可以通过xpath等方式获取,而网页跳转的brandId参数在我们之前获取的json包中可以获取

在这里插入图片描述

由于题目要求需要抓取5个分类,接下来再分析业务类别是怎么实现的

点击不同类别的标签分析xhr请求发现,分类主要通过ytlb1参数进行实现,而翻页则通过pageNum进行实现,pageSize参数可以选择一页可以爬取多少元素

在这里插入图片描述

到此我们网页基本分析完毕,爬虫的大致流程为

  1. 先爬取http://www.winshangdata.com/wsapi/brand/list3_4,获取返回包中的brandId,brandName两个参数
  2. 将获取的brandId参数,重新构造url:http://www.winshangdata.com/brandDetail?brandId=,然后通过构造Xpath语句获取li标签中的span标签中的我们需要的数据

代码实现

全部代码这里就不展示了,这里只展示核心代码,有需要的可以私信找我。
在这里插入图片描述

结果展示

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/11650.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

大模型部署框架 FastLLM 实现细节解析

0x0. 前言 接着 大模型部署框架 FastLLM 简要解析 这篇文章首先梳理了一下FastLLM的调用链和关键的数据结构,然后解析了 FastLLM 的一些实现细节和CPU/GPU后端实现采用的优化技巧。 0x1. 调用链和数据结构解析 以chatglm-6b的支持为例,函数入口在 htt…

NLP实验案例100个(1-5)

实验一 array数组(01) 一、实验目的及要求 1.安装numpy环境,掌握基本的数组知识以及操作。 二、实验设备(环境)及要求 开发环境:jupyter notebook 开发语言以及相关的库:python开发语言、nu…

微信小程序开发,小程序类目符合,线上版本无权限申请wx.getLocation接口

我开发 的小程序类目符合wx.getLocation接口的申请标准 但是却还是显示无权限申请 后来研究好久才发现,小程序需要在发布线上版本时提交用户隐私保护指引 如未设置也可以在 设置-服务内容声明-用户隐私保护指引-声明处理用户信息项并补充填写后提交用户隐私协议审核…

Oracle 笔记

Oracle 笔记 这里主要是记录学习 Oracle 常用操作命令等,方便今后查阅!!! 一、常用命令 登录Oracle su - oracleexport ORACLE_SIDXE export ORAENV_ASKNO . /opt/oracle/product/21c/dbhomeXE/bin/oraenvsqlplus system/1qaz…

使用docker-compose搭建lnmpr环境

源码gitee compose 使用的三个步骤: • 使用 Dockerfile 定义应用程序的环境。 • 使用 docker-compose.yml 定义构成应用程序的服务,这样它们可以在隔离环境中一起运行。 • 最后,执行 docker-compose up -d 命令来启动并运行整个应用程序…

D2L学习记录-10-词嵌入word2vec

NLP-1-词嵌入(word2vec) 参考: 《动手学深度学习 Pytorch 第1版》第10章 自然语言处理 第1、2、3 和 4节 (词嵌入) 词嵌入 (word2vec): 词向量:自然语言中,词是表义的基本单元。词向量是用来表示词的向量。词嵌入 (word embedding)&#x…

常见的正则表达式

目录 问题现象: 问题分析: 解决方法: 拓展: 1、手机号或座机: 2、邮箱: 3、中文: 4、数字: 5、英文: 6、组合: 问题现象: 今天在项目中&…

Bootstrap-学习文档

Bootstrap 简介 什么是 Bootstrap? Bootstrap 是一个用于快速开发 Web 应用程序和网站的前端框架。 Bootstrap是前端开发中比较受欢迎的框架,简洁且灵活。它基于HTML、CSS和JavaScript,HTML定义页面元素,CSS定义页面布局&#x…

数据库转换分析软件:EasyMorph 5.X Crack

EasyMorph 为您和您的团队提供数据超能力。无需编码技能。不要问 IT 人员。 自己做。 内置动作 即使您不是 IT 专家,也可以从任何地方检索数据并自动执行复杂的数据转换 无需 SQL 或编程知识 — 设计简单且 100% 可视化 减少对企业IT部门的依赖,减少繁琐…

清风学习笔记—层次分析法—matlab对判断矩阵的一致性检验

在判断矩阵是否为正互反矩阵这块,我写了两种代码,改进前很麻烦且有错误,改进后简洁多了,改进前的代码还有错误,忽略了对角线的值必须都是1,只考虑了除开对角线的元素相乘为1。 %% 改进前代码 A[3 2 4;1/2 …

Git的远程操作与多人协作

"爱在地图上剥落,我离孤单几公里~" 我们目前所说、所学的内容(工作区、暂存区、版本库)都只是存在于本地上,也就是说你的一台机器上只有这么一个你维护的版本库。可是Git是一个分布式版本控制系统,这又是什…

k8s kubelet coredns ubuntu修改dns配置文件读取路径

kubelet 修改默认使用的dns配置文件 coredns服务默认使用节点上的dns配置,由于在Ubuntu18及以上版本,默认是启用systemd-resolved服务的,且配置nameserver配置文件默认为 /run/systemd/resolve/resolv.conf , 且kubelet默认的dns…

YOLO 划分数据集(训练集、验证集、测试集)

目录 前言训练集、验证集(8:2)训练集、验证集、测试集(7:2:1) 前言 本博客是在我的另一篇博客 VOC 格式与 YOLO 格式的相互转换 的基础上进行的,有需要可以参考 以下代码亲测可以直接复制运行(以下所有的路…

利用Redis实现向量相似度搜索:解决文本、图像和音频之间的相似度匹配问题

在自然语言处理领域,有一个常见且重要的任务就是文本相似度搜索。文本相似度搜索是指根据用户输入的一段文本,从数据库中找出与之最相似或最相关的一段或多段文本。它可以应用在很多场景中,例如问答系统、推荐系统、搜索引擎等。 比如&#…

数据库CAST()函数,格式(CAST AS decimal)

语法: CAST (expression AS data_type) 参数说明: expression:任何有效的SQServer表达式。 AS:用于分隔两个参数,在AS之前的是要处理的数据,在AS之后是要转换的数据类型。 data_type:目标系统…

【个人笔记】Linux命令之watch命令

1.命令简介 watch 以周期性方式执行给定的命令,并全屏显示执行结果,可以帮助监测一个命令的运行结果。 2.命令格式及参数选项说明 命令格式: watch [OPTIONS] COMMAND选项说明: -d, --differences [PERMANENT]高亮显示最近两…

redis中List<String>缓存处理

放入redis List<String> strList ["1","2"]; // 把list转化成String放入缓存中 redisUtil.set(key, JSONObject.toJSONString(strList),300);从redis取出 Object object redisUtil.get(key); List<String> strList1 null; if (Objects.no…

c语言的数据类型 -- 与GPT对话

1 c语言的数据类型 在C语言中,数据类型用于定义变量的类型和存储数据的方式。C语言支持多种数据类型,包括基本数据类型和派生数据类型。以下是C语言中常见的数据类型: 基本数据类型(Primary Data Types): int: 整数类型,通常表示带符号的整数。char: 字符类型,用于存储…

Java 生成随机数据

文章目录 1. Java-faker依赖demo 2. common-random依赖demo 1. Java-faker 依赖 <dependency><groupId>com.github.javafaker</groupId><artifactId>javafaker</artifactId><version>1.0.2</version> </dependency>https://…

ES6基础知识二:ES6中数组新增了哪些扩展?

一、扩展运算符的应用 ES6通过扩展元素符…&#xff0c;好比 rest 参数的逆运算&#xff0c;将一个数组转为用逗号分隔的参数序列 console.log(...[1, 2, 3]) // 1 2 3console.log(1, ...[2, 3, 4], 5) // 1 2 3 4 5[...document.querySelectorAll(div)] // [<div>, &l…