文章目录
- 一、前述
- 1.1、采集场景
- 1.2、采集字段
- 1.3、采集结果
- 1.4、采集工具
- 二、采集步骤
- 2.1、登录网站
- 2.1.1、登录入口
- 2.1.2、京东账号登录
- 2.1.3、登录完成
- 2.2、自动识别
- 2.3、选取爬取的内容
- 2.4、处理数据
- 2.4.1、纵向字段布局
- 2.4.2、更多字段操作
- 2.4.3、格式化数据
- 2.4.4、添加步骤
- 2.4.5、正则替换
- 2.5、采集数据
- 2.5.1、本地采集
- 2.5.2、采集过程
- 2.5.3、采集完成
- 2.5.4、导出数据
- 三、付费
- 3.1、试用
- 3.2、定时采集
- 3.3、版本
- 四、最后
一、前述
1.1、采集场景
打开京东商品详情页(实例网址:https://item.jd.com/100008134693.html ),使用八爪鱼采集点击不同的参数后得到的数据。
1.2、采集字段
标题、商品编号SKU
、促销、优惠券
1.3、采集结果
采集结果可导出为Excel
、CSV
、HTML
、数据库等多种格式。
导出为Excel
示例:
1.4、采集工具
使用的是八爪鱼这个工具来爬取,去【下载】,本文操作使用的版本是:v8.6.7.112311
二、采集步骤
2.1、登录网站
在首页输入框中,输入网址 https://item.jd.com/100008134693.html ,此时会跳转到京东登录页
2.1.1、登录入口
点击【登录网站】,未登录时盾牌图标是灰色状态
2.1.2、京东账号登录
2.1.3、登录完成
登录完成后,会进入到商品详情页,点击右下角的【完成登录】,之后会关闭登录网站的弹窗,回到主界面
登录网站右侧的盾牌会从灰色变成绿色
2.2、自动识别
打开网页后,如果开始【自动识别】,请等待自动识别完成。八爪鱼支持自动识别网页上的列表、滚动和翻页,识别成功后直接启动采集即可获取数据
2.3、选取爬取的内容
① 选中页面上优惠券右侧的文本
② 在黄色操作提示框中,选择【文本内容】
③ 商品编号、标题、促销类似操作
2.4、处理数据
导出的excel
中有发现数据带有很多空格和换行,所以做下处理表格会显示的更好看些
2.4.1、纵向字段布局
默认是横向字段布局
点击工具栏按钮切换布局
2.4.2、更多字段操作
2.4.3、格式化数据
2.4.4、添加步骤
添加步骤-正则替换
2.4.5、正则替换
正则表达式输入框里的\s+
的意思就是匹配采集到的数据中的所有空格
替换为下面的输入框为空,就是把很多换行之类的空格全部都置空
2.5、采集数据
2.5.1、本地采集
单击【采集】并点击本地采集下的【普通模式】
2.5.2、采集过程
之后就开始启动后八爪鱼开始自动采集数据
2.5.3、采集完成
2.5.4、导出数据
三、付费
3.1、试用
付费的项目可以申请使用,但是免费使用时间只有3天,而且还需要申请
3.2、定时采集
本来想设置下每天定时自动采集自动下载excel
,结果发现需要付费
3.3、版本
个人版每个月¥79
,个人觉得有点贵了
四、最后
本人每篇文章都是一字一句码出来,希望对大家有所帮助,多提提意见。顺手来个三连击,点赞👍收藏💖关注✨,一起加油☕