使用八爪鱼爬取京东商品详情页数据

文章目录

  • 一、前述
    • 1.1、采集场景
    • 1.2、采集字段
    • 1.3、采集结果
    • 1.4、采集工具
  • 二、采集步骤
    • 2.1、登录网站
      • 2.1.1、登录入口
      • 2.1.2、京东账号登录
      • 2.1.3、登录完成
    • 2.2、自动识别
    • 2.3、选取爬取的内容
    • 2.4、处理数据
      • 2.4.1、纵向字段布局
      • 2.4.2、更多字段操作
      • 2.4.3、格式化数据
      • 2.4.4、添加步骤
      • 2.4.5、正则替换
    • 2.5、采集数据
      • 2.5.1、本地采集
      • 2.5.2、采集过程
      • 2.5.3、采集完成
      • 2.5.4、导出数据
  • 三、付费
    • 3.1、试用
    • 3.2、定时采集
    • 3.3、版本
  • 四、最后

一、前述

1.1、采集场景

打开京东商品详情页(实例网址:https://item.jd.com/100008134693.html ),使用八爪鱼采集点击不同的参数后得到的数据。

在这里插入图片描述

1.2、采集字段

标题、商品编号SKU、促销、优惠券

1.3、采集结果

采集结果可导出为ExcelCSVHTML、数据库等多种格式。

导出为Excel示例:

1.4、采集工具

使用的是八爪鱼这个工具来爬取,去【下载】,本文操作使用的版本是:v8.6.7.112311

二、采集步骤

2.1、登录网站

在首页输入框中,输入网址 https://item.jd.com/100008134693.html ,此时会跳转到京东登录页

在这里插入图片描述

2.1.1、登录入口

点击【登录网站】,未登录时盾牌图标是灰色状态

2.1.2、京东账号登录

2.1.3、登录完成

登录完成后,会进入到商品详情页,点击右下角的【完成登录】,之后会关闭登录网站的弹窗,回到主界面

登录网站右侧的盾牌会从灰色变成绿色

2.2、自动识别

打开网页后,如果开始【自动识别】,请等待自动识别完成。八爪鱼支持自动识别网页上的列表、滚动和翻页,识别成功后直接启动采集即可获取数据

2.3、选取爬取的内容

在这里插入图片描述

① 选中页面上优惠券右侧的文本

② 在黄色操作提示框中,选择【文本内容】

③ 商品编号、标题、促销类似操作

2.4、处理数据

导出的excel中有发现数据带有很多空格和换行,所以做下处理表格会显示的更好看些

2.4.1、纵向字段布局

默认是横向字段布局

在这里插入图片描述

点击工具栏按钮切换布局

在这里插入图片描述

2.4.2、更多字段操作

2.4.3、格式化数据

2.4.4、添加步骤

添加步骤-正则替换

2.4.5、正则替换

正则表达式输入框里的\s+的意思就是匹配采集到的数据中的所有空格

替换为下面的输入框为空,就是把很多换行之类的空格全部都置空

2.5、采集数据

2.5.1、本地采集

单击【采集】并点击本地采集下的【普通模式】

2.5.2、采集过程

之后就开始启动后八爪鱼开始自动采集数据

2.5.3、采集完成

2.5.4、导出数据

三、付费

3.1、试用

付费的项目可以申请使用,但是免费使用时间只有3天,而且还需要申请

3.2、定时采集

本来想设置下每天定时自动采集自动下载excel,结果发现需要付费

3.3、版本

个人版每个月¥79,个人觉得有点贵了

四、最后

本人每篇文章都是一字一句码出来,希望对大家有所帮助,多提提意见。顺手来个三连击,点赞👍收藏💖关注✨,一起加油☕

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/689830.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

OpenAI最新模型Sora到底有多强?眼见为实的真实世界即将成为过去!

文章目录 1. 写在前面2. 什么是Sora?3. Sora的技术原理 【作者主页】:吴秋霖 【作者介绍】:Python领域优质创作者、阿里云博客专家、华为云享专家。长期致力于Python与爬虫领域研究与开发工作! 【作者推荐】:对JS逆向感…

【动态规划】【组合数学】1866. 恰有 K 根木棍可以看到的排列数目

作者推荐 【深度优先搜索】【树】【有向图】【推荐】685. 冗余连接 II 本文涉及知识点 动态规划汇总 LeetCode1866. 恰有 K 根木棍可以看到的排列数目 有 n 根长度互不相同的木棍,长度为从 1 到 n 的整数。请你将这些木棍排成一排,并满足从左侧 可以…

Yii2项目使用composer异常记录

问题描述 在yii2项目中,使用require命令安装依赖时,出现如下错误提示 该提示意思是:composer运行时,执行了yiisoft/yii2-composer目录下的插件,但是该插件使用的API版本是1.0,但是当前的cmposer版本提供的…

Jmeter的自动化测试实施方案(超详细)

🍅 视频学习:文末有免费的配套视频可观看 🍅 关注公众号:互联网杂货铺,回复1 ,免费获取软件测试全套资料,资料在手,涨薪更快 Jmeter是目前最流行的一种测试工具,基于此工…

Pdoc:生成优雅Python API文档的工具

Pdoc:生成优雅Python API文档的工具 在开发Python项目时,文档是至关重要的。它不仅提供了对代码功能和用法的了解,还为其他开发人员提供了参考和使用的便利。Pdoc是一个流行的文档生成工具,专为生成Python API文档而设计。本文将介…

扯淡的DevOps,我们开发根本不想做运维!

引言 最初考虑引用“ DevOps 已死,平台工程才是未来”作为标题,但这样的表达可能太过于绝对。最终,决定用了“扯淡的”这个词来描述 DevOps,但这并不是一种文明的表达方式。 文章旨在重新审视 DevOps 和平台工程,将分别…

【c语言】人生重开模拟器

前言: 人生重开模拟器是前段时间非常火的一个小游戏,接下来我们将一起学习使用c语言写一个简易版的人生重开模拟器。 网页版游戏: 人生重开模拟器 (ytecn.com) 1.实现一个简化版的人生重开模拟器 (1) 游戏开始的时…

什么台灯最好学生晚上用的?五大高口碑学生护眼台灯推荐

对于学生来说,晚上学习早已是家常便饭,其中如果光线不合适,很容易就会造成近视的情况。面对这样的商机,很多厂家纷纷涉足护眼台灯行业,无论技术成熟与否,都大打护眼卖点,其中难免含有大量水分。…

SpringMVC的执行流程

过去的开发中,视图阶段(老旧JSP等) 1.首先用户发送请求到前端控制器DispatcherServlet(这是一个调度中心) 2.前端控制器DispatcherServlet收到请求后调用处理器映射器HandlerMapping 3.处理器映射器HandlerMapping找到具体的处理器,可查找xml配置或注…

milvus insert api的数据结构源码分析

insert api的数据结构 一个完整的insert例子: import numpy as np from pymilvus import (connections,FieldSchema, CollectionSchema, DataType,Collection, )num_entities, dim 10, 3print("start connecting to Milvus") connections.connect("default&q…

网络原理 - HTTP/HTTPS(2)

HTTP请求 认识URL URL基本格式 平时我们俗称的"网址"其实就是说的URL(Uniform Resource Locator统一资源定位符). (还有一个唯一资源标识符,称为uri,严格来说,uri范围比url广). 互联网上的每一个文件都有一个唯一的URL,它包含的信息指出文件的位置以及浏览器应该…

HTB-Analytics

靶机的IP地址为10.10.11.233,攻击机的IP地址为10.10.16.30 信息收集 # nmap -sT --min-rate 10000 -p- 10.10.11.233 -oN port.nmap Starting Nmap 7.94 ( https://nmap.org ) at 2024-02-19 14:50 CST Warning: 10.10.11.233 giving up on port because retransm…

十字星K线(Doji)含义,fpmarkets澳福一分钟讲解

许多新手交易者遇到过这种奇怪的烛台,看起来就像一个十字架,没有主体上下有长长的影子,fpmarkets澳福肯定的告诉各位投资者,这种就是十字星K线(用Doji表示),开盘价与收盘价一致,价格运动已经停止时出现在烛…

突发!某地区网络故障,格行随身WiFi成“救星”?现场直击!

近日,某地区突发网络故障,导致大量用户无法上网。然而,在这场网络危机中,一款名为“格行随身WiFi”的设备却意外走红,成为了当地的“网络救星”。究竟发生了什么?让我们一起来现场直击! 据了解&…

Leetcode刷题笔记题解(C++):120. 三角形最小路径和

思路:动态规划,去生成一个对应的当前节点的最小路径值,对应的关系如下所示 dp[0][0] triangle[0][0] dp[i][0] triangle[i][0]dp[i-1][0] dp[i][i] triangle[i][i]dp[i-1][i] dp[i][j] triangle[i][j]min(dp[i-1][j-1],dp[i-1][j]) …

语义相关性评估指标:召回率、准确率、Roc曲线、AUC;Spearman相关系数、NDCG、mAP。代码及计算示例。

常规的语义相关性评价可以从检索、排序两个方面进行。这里只贴代码。详细可见知乎https://zhuanlan.zhihu.com/p/682853171 检索 精确率 def pre(true_labels[],pre_labels[]):""":param true_labels: 正样本索引:param pre_labels: 召回样本索引:return: 精…

首都博物京韵展,监测系统实现文物科技保护

​ 一、首都博物馆讲述京韵古都故事 2024年2月18日,首都博物馆重新亮相的“华夏文明的有力见证——北京通史展”震撼登场。展览面积4900平方米,汇聚1100多件(套)历史文物,不仅包含了传统历史瑰宝,还增加了…

【算法】基础算法002之滑动窗口(二)

👀樊梓慕:个人主页 🎥个人专栏:《C语言》《数据结构》《蓝桥杯试题》《LeetCode刷题笔记》《实训项目》《C》《Linux》《算法》 🌝每一个不曾起舞的日子,都是对生命的辜负 目录 前言 5.水果成篮&#xff…

【Java EE初阶十八】网络原理(三)

3. 网络层 网络层要做的事情主要是两方面: 1)、地址管理:制定一系列的规则,通过地址,描述出网络上一个设备的位置; 2)、路由选择:网络环境是比较复杂的,从一个节点到另一个节点之间,存在很…

达梦数据库——数据迁移sqlserver-dm报错问题_未完待续

记录SQL server到达梦数据迁移过程中遇到的问题,持续更新中... 报错情况一:Sql server迁移达梦连接报错’驱动程序无法通过使用安全套接字Q层(SSL)加密与SQL Server 建立安全连接。错误:“The server selected protocol version TLS10 is not accepted b…