Python批量采集亚马逊商品数据

嗨喽~大家好呀,这里是魔王呐 ❤ ~!

python更多源码/资料/解答/教程等 点击此处跳转文末名片免费获取

知识点:

  • 爬虫基本流程

  • 非结构化数据解析

开发环境:

  • python 3.8 解释器, 运行代码

  • pycharm 随便 配置 python解释器

  • DrissionPage >>> pip install DrissionPage

DrissionPage是第三方模块,win + R 输入cmd 输入安装命令 pip install DrissionPage安装即可,re 是自带的模块,无需安装。

代码实现步骤

  1. 发送请求

  2. 获取数据

  3. 解析数据

  4. 保存数据

代码展示

'''
遇到问题没人解答?小编创建了一个Python学习交流QQ群:926207505
寻找有志同道合的小伙伴,互帮互助,群里还有不错的视频学习教程和PDF电子书!
'''
from DataRecorder import Recorder
from DrissionPage import WebPage        # 自动化模块r = Recorder('data.xlsx')
r.add_data(['title', 'price', 'href', 'img_url'])  # 添加数据
r.record()  # 记录数据
url = 'https://origin-www.amazon.cn/s?rh=n%3A106200071&fs=true&ref=lp_106200071_sar'
wp = WebPage()
# 1. 打开网页
wp.get(url)
# 2. 取数据
for page in range(5):data = []# //div[@class="a-section a-spacing-base"]# div.a-section.a-spacing-basegoods = wp.eles('xpath://div[@class="a-section a-spacing-base"]')for good in goods:href = good.ele('xpath:.//a[@class="a-link-normal s-no-outline"]').attr('href')img_url = good.ele('xpath:.//img[@class="s-image"]').attr('src')title = good.ele('xpath:.//span[@class="a-size-base-plus a-color-base a-text-normal"]').textprice = good.ele('xpath:.//span[@class="a-price"]/span[@class="a-offscreen"]').textprint(title, price, href, img_url)data.append([title, price, href, img_url])r.add_data(data)r.record()wp.ele('xpath://a[@class="s-pagination-item s-pagination-next s-pagination-button s-pagination-separator"]').click()

尾语

最后感谢你观看我的文章呐~本次航班到这里就结束啦 🛬

希望本篇文章有对你带来帮助 🎉,有学习到一点知识~

躲起来的星星🍥也在努力发光,你也要努力加油(让我们一起努力叭)。

最后,宣传一下呀~👇👇👇更多源码、资料、素材、解答、交流皆点击下方名片获取呀👇👇

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/646850.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

前出深入-机器学习

文章目录 一、K近邻算法1.1 先画一个散列图1.2 使用K最近算法建模拟合数据1.3 进行预测1.4 K最近邻算法处理多元分类问题1.5 K最近邻算法用于回归分析1.6 K最近邻算法项目实战-酒的分类1.6.1 对数据进行分析1.6.2 生成训练数据集和测试数据集1.6.3 使用K最近邻算法对数据进行建…

阿里云服务器部署幻兽帕鲁联机服务器详细教程

幻兽帕鲁是一款备受欢迎的多人在线游戏,其联机服务器对于游戏的稳定运行至关重要。本文将详细介绍如何在阿里云服务器上部署幻兽帕鲁联机服务器,新手小白也能轻松搭建并管理自己的游戏环境。 还未购买阿里云服务器可以参照下面的步骤部署,已经…

Vue+OpenLayers7入门到实战:在地图上添加缩放控件、比例尺控件和鼠标经纬度位置显示控件

返回《Vue+OpenLayers7》专栏目录:Vue+OpenLayers7 前言 本章主要介绍如何使用OpenLayers7在地图上添加地图缩放控件,比例尺显示控件和鼠标经纬度位置展示控件这三个Control控件。 二、依赖和使用 "ol": "7.5.2"使用npm安装依赖npm install ol@7.5.…

Sql server强制走索引

遇到一个奇怪的问题,同样的SQL,只是一个where条件不一样,一个是column1 AAA,一个是column1 BBB,他们的查询效率却差距甚大,一个要60秒,一个1秒以下。查看查询计划,一个使用了索引&…

【SpringBoot】mybatis基础操作

mybatis入门 1.mybatis准备操作 创建数据库: CREATE DATABASE mybatis_test DEFAULT CHARACTER SET utf8mb4; -- 使⽤数据数据 USE mybatis_test; -- 创建表[用户表] DROP TABLE IF EXISTS userinfo; CREATE TABLE userinfo ( id INT ( 11 ) NOT NULL AUTO_INCRE…

LeetCode刷题---分隔链表

解题思路: 根据题意对链表进行分割 创建链表l用来表示小于给定值x的链表,创建辅助链表left指向l的初始节点 创建链表r用来表示大于等于给定值x的链表,创建辅助链表right指向r的初始节点 创建辅助链表cur,指向head节点 对原链表进行遍历 如果当前节点的va…

电商数据:新时代的商业智慧与决策之源

随着科技的飞速发展,电子商务已经深入到我们生活的方方面面。人们越来越依赖网络购物平台来满足生活中的需求,而这种转变不仅改变了消费者的购物习惯,更对整个商业环境产生了深远的影响。在这其中,电商数据作为这一变革的核心要素…

Flink多流转换(2)—— 双流连结

双流连结(Join):根据某个字段的值将数据联结起来,“配对”去做处理 窗口联结(Window Join) 可以定义时间窗口,并将两条流中共享一个公共键(key)的数据放在窗口中进行配…

五、垃圾回收

1. 垃圾回收基础 1.1 什么是垃圾 简单说就是:内存中已经不再被使用到的内存空间就是垃圾。 1.2 如何判定是垃圾 1.2.1 引用计数法 引用计数法:给对象添加一个引用计数器,有访问就 1,引用失效就 -1 引用计数法的优缺点&#…

使用lora接收多个传感器数据方案设计

每个传感器的数据使用空格进行拼接,类似于"11 22 33 44 55"的字符串,Lora接收到字符串数据后,在循环中遍历接收到的数据字符串,使用一个二维数组存储数据,二维数组中的每一个一维数组为一个传感器的数据。当…

美易官方京东养车回应索赔事件:推动行业健康发展并携手品牌商家加码补贴

近日,一则关于途虎养车起诉京东索赔500万元的新闻引起了业界的广泛关注。据华尔街见闻1月25日报道,针对此事,京东养车相关负责人作出了回应。京东养车表示,“震虎价”并非针对特定企业,其核心目的在于通过提升效率来改…

抖音信息流广告引流,这种方法你要知道-数灵通

随着抖音的普及,我们经常会在刷视频的过程中遇到各种广告。这些广告不仅种类繁多,而且形式各异。除了常见的开屏广告和达人合作广告,信息流广告也是抖音广告的一种重要形式。那么,什么是信息流广告呢? 信息流广告是一种…

【.NET Core】深入理解任务并行库 (TPL)

【.NET Core】深入理解任务并行库 (TPL) 文章目录 【.NET Core】深入理解任务并行库 (TPL)一、概述二、数据并行(任务并行库)三、Parallel.For 循环示例四、Parallel.ForEach 循环示例五、处理并行循环中的异常六、数据并行总结6.1 不要假定并行的速度始…

什么是多视角回归?

多视角回归(Multi-view Regression)是一种机器学习方法,它处理具有多个数据源或视角的问题。在多视角回归中,每个视角提供了关于样本的不同信息。这种方法旨在综合这些信息以提高建模的性能。 具体而言,多视角回归适用…

03. 静态路由

文章目录 一. 静态路由概述1.1. 概述1.2. 路由信息获取方式1.3. 路由表的参数1.4. 路由协议的优先级1.5. 最优路由条目优先1.6. 最长前缀匹配原则 二. 实验实操2.1. 实验1:静态路由2.1.1. 实验目的2.1.2. 实验拓扑图2.1.3. 实验步骤(1)配置网…

数据结构——双链表

双链表中节点类型的描述: 双链表的初始化(带头结点) 、 双链表的插入操作 后插操作 InsertNextDNode(p, s): 在p结点后插入s结点 按位序插入操作: 思路:从头结点开始,找到某个位序的前驱结点&#xff…

周鸿祎回应坚定支持华为:因为 360 也被制裁了

在昨天的华为鸿蒙生态千帆启航仪式上,360集团创始人兼CEO周鸿祎发表演讲表示,360坚定地支持华为的决定源于双方都曾遭到制裁。周鸿祎在演讲中提到:“在华为最早被制裁的时候,我们是少数几个公开站出来坚定支持华为的公司。其实也很…

如何进行H.265视频播放器EasyPlayer.js的中性化设置?

H5无插件流媒体播放器EasyPlayer属于一款高效、精炼、稳定且免费的流媒体播放器,可支持多种流媒体协议播放,可支持H.264与H.265编码格式,性能稳定、播放流畅,能支持WebSocket-FLV、HTTP-FLV,HLS(m3u8&#…

Egg框架搭建后端服务【6】- 上传图片和图片回显

需求 博客系统翻新&#xff0c;需要上传图片的功能&#xff0c;本来想着一起把上传文件做上的&#xff0c;但是目前没太大用处&#xff0c;所以先做一个上传图片。 开发 前端 前端主要是通过 <input type‘file’ /> 调起图片选择&#xff0c;将选中的图片以 formdat…

【域名解析】如何将域名指向对应服务器IP

目录 &#x1f337;一、域名解析基本概念 &#x1f33c;1. 定义 &#x1f33c;2. 域名解析类型 &#x1f337;二、域名解析服务器IP地址 &#x1f33c;1. 操作步骤 &#x1f33c;2. 验证 &#x1f337;一、域名解析基础知识 &#x1f33c;1. 基本概念 定义&#xff1a; …