使用八爪鱼爬取京东商品详情页数据

文章目录

  • 一、前述
    • 1.1、采集场景
    • 1.2、采集字段
    • 1.3、采集结果
    • 1.4、采集工具
  • 二、采集步骤
    • 2.1、登录网站
      • 2.1.1、登录入口
      • 2.1.2、京东账号登录
      • 2.1.3、登录完成
    • 2.2、自动识别
    • 2.3、选取爬取的内容
    • 2.4、处理数据
      • 2.4.1、纵向字段布局
      • 2.4.2、更多字段操作
      • 2.4.3、格式化数据
      • 2.4.4、添加步骤
      • 2.4.5、正则替换
    • 2.5、采集数据
      • 2.5.1、本地采集
      • 2.5.2、采集过程
      • 2.5.3、采集完成
      • 2.5.4、导出数据
  • 三、付费
    • 3.1、试用
    • 3.2、定时采集
    • 3.3、版本
  • 四、最后

一、前述

1.1、采集场景

打开京东商品详情页(实例网址:https://item.jd.com/100008134693.html ),使用八爪鱼采集点击不同的参数后得到的数据。

在这里插入图片描述

1.2、采集字段

标题、商品编号SKU、促销、优惠券

1.3、采集结果

采集结果可导出为ExcelCSVHTML、数据库等多种格式。

导出为Excel示例:

1.4、采集工具

使用的是八爪鱼这个工具来爬取,去【下载】,本文操作使用的版本是:v8.6.7.112311

二、采集步骤

2.1、登录网站

在首页输入框中,输入网址 https://item.jd.com/100008134693.html ,此时会跳转到京东登录页

在这里插入图片描述

2.1.1、登录入口

点击【登录网站】,未登录时盾牌图标是灰色状态

2.1.2、京东账号登录

2.1.3、登录完成

登录完成后,会进入到商品详情页,点击右下角的【完成登录】,之后会关闭登录网站的弹窗,回到主界面

登录网站右侧的盾牌会从灰色变成绿色

2.2、自动识别

打开网页后,如果开始【自动识别】,请等待自动识别完成。八爪鱼支持自动识别网页上的列表、滚动和翻页,识别成功后直接启动采集即可获取数据

2.3、选取爬取的内容

在这里插入图片描述

① 选中页面上优惠券右侧的文本

② 在黄色操作提示框中,选择【文本内容】

③ 商品编号、标题、促销类似操作

2.4、处理数据

导出的excel中有发现数据带有很多空格和换行,所以做下处理表格会显示的更好看些

2.4.1、纵向字段布局

默认是横向字段布局

在这里插入图片描述

点击工具栏按钮切换布局

在这里插入图片描述

2.4.2、更多字段操作

2.4.3、格式化数据

2.4.4、添加步骤

添加步骤-正则替换

2.4.5、正则替换

正则表达式输入框里的\s+的意思就是匹配采集到的数据中的所有空格

替换为下面的输入框为空,就是把很多换行之类的空格全部都置空

2.5、采集数据

2.5.1、本地采集

单击【采集】并点击本地采集下的【普通模式】

2.5.2、采集过程

之后就开始启动后八爪鱼开始自动采集数据

2.5.3、采集完成

2.5.4、导出数据

三、付费

3.1、试用

付费的项目可以申请使用,但是免费使用时间只有3天,而且还需要申请

3.2、定时采集

本来想设置下每天定时自动采集自动下载excel,结果发现需要付费

3.3、版本

个人版每个月¥79,个人觉得有点贵了

四、最后

本人每篇文章都是一字一句码出来,希望对大家有所帮助,多提提意见。顺手来个三连击,点赞👍收藏💖关注✨,一起加油☕

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/689830.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

OpenAI最新模型Sora到底有多强?眼见为实的真实世界即将成为过去!

文章目录 1. 写在前面2. 什么是Sora?3. Sora的技术原理 【作者主页】:吴秋霖 【作者介绍】:Python领域优质创作者、阿里云博客专家、华为云享专家。长期致力于Python与爬虫领域研究与开发工作! 【作者推荐】:对JS逆向感…

@ 代码随想录算法训练营第7周(C语言)|Day42(动态规划)

代码随想录算法训练营第7周(C语言)|Day42(动态规划) Day42、动态规划(包含题目 416. 分割等和子集 ) 416. 分割等和子集 题目描述 给定一个只包含正整数的非空数组。是否可以将这个数组分割成两个子集&…

导出Excel,支持最佳

列表信息导出为Excel文件&#xff0c; 依赖pom&#xff1a; Sheet, Row:<dependency><groupId>org.apache.poi</groupId><artifactId>poi</artifactId> </dependency>XSSFWorkbook <dependency><groupId>org.apache.poi</…

Rust-所有权(ownership)

文章目录 前言一、管理计算机内存的方式所有权规则 二、Rust中的 moveCopy trait 三、Rust中的 clone总结 前言 Rust入门学习系列-Rust 的核心功能&#xff08;之一&#xff09;是 所有权&#xff08;ownership&#xff09;。引入这个概念是为了更好的管理计算机的内存。下面篇…

【0260】pg_filenode.map文件分析(内含map文件读取、解析demo)

1. 关于pg内核map file map文件是关键数据:我们没有从丢失或损坏中恢复的自动方法。我们使用CRC来检测损坏。为了最小化更新失败的风险, map文件应该保持在不超过一个标准大小的磁盘扇区(即512字节(bytes)),并且我们使用就地覆盖而不是玩重命名游戏。 下面的结构布局被设…

【动态规划】【组合数学】1866. 恰有 K 根木棍可以看到的排列数目

作者推荐 【深度优先搜索】【树】【有向图】【推荐】685. 冗余连接 II 本文涉及知识点 动态规划汇总 LeetCode1866. 恰有 K 根木棍可以看到的排列数目 有 n 根长度互不相同的木棍&#xff0c;长度为从 1 到 n 的整数。请你将这些木棍排成一排&#xff0c;并满足从左侧 可以…

Yii2项目使用composer异常记录

问题描述 在yii2项目中&#xff0c;使用require命令安装依赖时&#xff0c;出现如下错误提示 该提示意思是&#xff1a;composer运行时&#xff0c;执行了yiisoft/yii2-composer目录下的插件&#xff0c;但是该插件使用的API版本是1.0&#xff0c;但是当前的cmposer版本提供的…

Rust语言之sha-256爆破

文章目录 一、实现Sha-256加密1.创建项目2.编写Cargo.toml文件3.编写程序代码 二、sha256爆破1.获取命令行参数2.读取文件3.校验输入参数4.暴力破解 一、实现Sha-256加密 SHA-256是一种安全哈希算法&#xff0c;主要特点是将输入的数据&#xff08;无论长度&#xff09;通过特定…

Jmeter的自动化测试实施方案(超详细)

&#x1f345; 视频学习&#xff1a;文末有免费的配套视频可观看 &#x1f345; 关注公众号&#xff1a;互联网杂货铺&#xff0c;回复1 &#xff0c;免费获取软件测试全套资料&#xff0c;资料在手&#xff0c;涨薪更快 Jmeter是目前最流行的一种测试工具&#xff0c;基于此工…

如何在 Angular 中使用懒加载路由

简介 延迟加载 是一种限制加载用户当前需要的模块的方法。这可以提高应用程序的性能并减小初始捆绑包大小。 默认情况下&#xff0c;Angular 使用 急切加载 来加载模块。这意味着在应用程序运行之前必须加载所有模块。虽然这对许多用例可能是足够的&#xff0c;但在某些情况下…

Pdoc:生成优雅Python API文档的工具

Pdoc&#xff1a;生成优雅Python API文档的工具 在开发Python项目时&#xff0c;文档是至关重要的。它不仅提供了对代码功能和用法的了解&#xff0c;还为其他开发人员提供了参考和使用的便利。Pdoc是一个流行的文档生成工具&#xff0c;专为生成Python API文档而设计。本文将介…

【NextJS】整个项目跨域配置

项目跨域是指&#xff1a;本项目作为被访问方&#xff0c;由另一个项目对本项目发起fetch等动作获取数据页面数据 实验环境&#xff1a; next: 14.1.0react: ^18 配置文件&#xff1a;next.config.[mjs|js|ts] 假定原始范本内容&#xff1a; /** type {import(next).NextCon…

STM32 USART入门指南

对于刚开始涉足STM32微控制器编程的初学者来说&#xff0c;掌握其通用同步/异步接收/发送器&#xff08;USART&#xff09;功能是一项基本且必要的技能。USART在嵌入式系统中广泛用于串行通信。本指南旨在简明扼要地介绍USART的基础概念和基本步骤&#xff0c;并提供一个简单的…

扯淡的DevOps,我们开发根本不想做运维!

引言 最初考虑引用“ DevOps 已死&#xff0c;平台工程才是未来”作为标题&#xff0c;但这样的表达可能太过于绝对。最终&#xff0c;决定用了“扯淡的”这个词来描述 DevOps&#xff0c;但这并不是一种文明的表达方式。 文章旨在重新审视 DevOps 和平台工程&#xff0c;将分别…

【c语言】人生重开模拟器

前言&#xff1a; 人生重开模拟器是前段时间非常火的一个小游戏&#xff0c;接下来我们将一起学习使用c语言写一个简易版的人生重开模拟器。 网页版游戏&#xff1a; 人生重开模拟器 (ytecn.com) 1.实现一个简化版的人生重开模拟器 &#xff08;1&#xff09; 游戏开始的时…

php捕获Fatal error错误与异常处理

在php5的版本中&#xff0c;如果出现致命错误是无法被 try {} catch 捕获的&#xff0c;如下所示&#xff1a; <?phperror_reporting(E_ALL); ini_set(display_errors, on);try {hello(); } catch (\Exception $e) {echo $e->getMessage(); } 运行脚本&#xff0c;最终…

GO语言的变量与常量

1.变量 go是一个静态语言 变量必须先定义后使用变量必须要有类型 定义变量的方式&#xff1a; var 名称 类型 var 名称 值 名称 :值 例如&#xff1a; var num int 这样就存了一个num类型为int的变量 var num 1 上面使用简化的定义通过num自动判断后面的类型为int并…

什么台灯最好学生晚上用的?五大高口碑学生护眼台灯推荐

对于学生来说&#xff0c;晚上学习早已是家常便饭&#xff0c;其中如果光线不合适&#xff0c;很容易就会造成近视的情况。面对这样的商机&#xff0c;很多厂家纷纷涉足护眼台灯行业&#xff0c;无论技术成熟与否&#xff0c;都大打护眼卖点&#xff0c;其中难免含有大量水分。…

SpringMVC的执行流程

过去的开发中,视图阶段&#xff08;老旧JSP等&#xff09; 1.首先用户发送请求到前端控制器DispatcherServlet(这是一个调度中心) 2.前端控制器DispatcherServlet收到请求后调用处理器映射器HandlerMapping 3.处理器映射器HandlerMapping找到具体的处理器,可查找xml配置或注…

milvus insert api的数据结构源码分析

insert api的数据结构 一个完整的insert例子: import numpy as np from pymilvus import (connections,FieldSchema, CollectionSchema, DataType,Collection, )num_entities, dim 10, 3print("start connecting to Milvus") connections.connect("default&q…