爬虫案例 --唯品会口红数据爬取(附源码)

"""
====================================================================项目名称: 唯品会商品数据爬取
项目描述: 通过requests框架获取网页数据
项目环境: pycharm && python3.8
作者所属: 几许====================================================================一 . 抓包1. 对唯品会官网进行分析 -- 通过筛选直接搜索商品信息获得商品数据包https://mapi.vip.com/vips-mobile/rest/shopping/pc/product/module/list/v22. 对商品数据包进行分析 -- 一页数据分为三部分{50,50,20},不同商品含有一个产品信息的编码3. 获取本页所有产品信息的编码 -- 对编码进行检索 , 获得数据包https://mapi.vip.com/vips-mobile/rest/shopping/pc/search/product/rank二 . 代码实现1. 定义产品信息数据请求函数得到数据包 -- 一次请求只能得到120条数据2. 通过for循环进行翻页处理得到全部信息3. 解析获得所需要的数据 , 通过表格保存===================================================================="""import requests
from jsonpath import jsonpath
import re,json
from pprint import pprint
import time
import csvclass Spider():def __init__(self):self.headers = {'authority': 'mapi.vip.com','accept': '*/*','accept-language': 'zh-CN,zh;q=0.9','cookie': 'vip_cps_cuid=CU1703946155093f91b22c68d55b7591; vip_cps_cid=1703946155095_f8aebf721aa4d69f55487762e3ca4c21; cps_share=cps_share; PAPVisitorId=58460c7a22e31f6b4acb2a1ed741f921; vip_new_old_user=1; vip_city_name=%E5%B9%BF%E5%B7%9E%E5%B8%82; mars_cid=1703946163504_4eebec221de3364e0da3bbe4a2182454; VipUINFO=luc%3Aa%7Csuc%3Aa%7Cbct%3Ac_new%7Chct%3Ac_new%7Cbdts%3A0%7Cbcts%3A0%7Ckfts%3A0%7Cc10%3A0%7Crcabt%3A0%7Cp2%3A0%7Cp3%3A1%7Cp4%3A0%7Cp5%3A0%7Cul%3A3105; mars_pid=0; vip_address=%257B%2522pname%2522%253A%2522%255Cu5b89%255Cu5fbd%255Cu7701%2522%252C%2522pid%2522%253A%2522103104%2522%252C%2522cname%2522%253A%2522%255Cu5e7f%255Cu5dde%255Cu5e02%2522%252C%2522cid%2522%253A%2522103104114%2522%257D; vip_province=103104; vip_province_name=%E5%AE%89%E5%BE%BD%E7%9C%81; vip_city_code=103104114; vip_wh=VIP_HZ; vip_ipver=31; user_class=a; cps=adp%3Antq8exyc%3A%40_%401704022867205%3Amig_code%3A4f6b50bf15bfa39639d85f5f1e15b10f%3Aac014miuvl0000b5sq8crnthcjdwurb0; mars_sid=ef0bd4aed17dd0eb261cda2a1a73e9d8; visit_id=43601963E9569AF31FBF7F1561D38FC9; vipshop_passport_src=https%3A%2F%2Fcategory.vip.com%2Fsuggest.php%3Fkeyword%3D%25E5%258F%25A3%25E7%25BA%25A2%26ff%3D235%7C12%7C1%7C1; vip_tracker_source_from=; vip_access_times=%7B%22list%22%3A0%2C%22detail%22%3A2%7D; pg_session_no=6; VipDFT=1','referer': 'https://category.vip.com/','sec-ch-ua': '"Not_A Brand";v="8", "Chromium";v="120", "Google Chrome";v="120"','sec-ch-ua-mobile': '?0','sec-ch-ua-platform': '"Windows"','sec-fetch-dest': 'script','sec-fetch-mode': 'no-cors','sec-fetch-site': 'same-site','user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36'}self.home_url = 'https://mapi.vip.com/vips-mobile/rest/shopping/pc/product/module/list/v2'self.num = 1def praseHomedata(self,product):try:self.sub_data = {'callback': ' getMerchandiseDroplets1','app_name': ' shop_pc','app_version': ' 4.0','warehouse': ' VIP_HZ','fdc_area_id': ' 103104114','client': ' pc','mobile_platform': ' 1','province_id': ' 103104','api_key': ' 70f71280d5d547b2a7bb370a529aeea1','user_id': ' ','mars_cid': ' 1703946163504_4eebec221de3364e0da3bbe4a2182454','wap_consumer': ' a','productIds': product,'scene': ' search','standby_id': ' nature','extParams': ' {"stdSizeVids":"","preheatTipsVer":"3","couponVer":"v2","exclusivePrice":"1","iconSpec":"2x","ic2label":1,"superHot":1,"bigBrand":"1"}','context': ' ','_': ' 1704027272052',}time.sleep(1)response = requests.get(self.home_url,headers=self.headers,params=self.sub_data).textjson_data = response.split('getMerchandiseDroplets1(')[1]data = re.sub('\)', '', json_data)json_msg = json.loads(data)for i in json_msg['data']['products']:attrs = jsonpath(i,'$..value')[0]dict = {"标题" : i['title'],"品牌" : i['brandShowName'],"原价" : i['price']['marketPrice'],"折扣" : i['price']['saleDiscount'],"现价" : i['price']['salePrice'],"属性" : attrs}pprint(dict)print('===========================================')csv_write.writerow(dict)except:print("爬取完毕")def praseSubpage(self):for page in range(0, 2400, 120):print(f"正在爬取第{self.num}页")# 商品详情链接# 产品编码数据sub_url = f"https://mapi.vip.com/vips-mobile/rest/shopping/pc/search/product/rank?callback=getM" \f"erchandiseIds&app_name=shop_pc&app_version=4.0&warehouse=VIP_HZ&fdc_area_id=10310411" \f"4&client=pc&mobile_platform=1&province_id=103104&api_key=70f71280d5d547b2a7bb370a529a" \f"eea1&user_id=&mars_cid=1703946163504_4eebec221de3364e0da3bbe4a2182454&wap_consumer=a&" \f"standby_id=nature&keyword=%E5%8F%A3%E7%BA%A2&lv3CatIds=&lv2CatIds=&lv1CatIds=&brandSt" \f"oreSns=&props=&priceMin=&priceMax=&vipService=&sort=0&pageOffset={page}&channelId=1&g" \f"Platform=PC&batchSize=120&_=1704022901946"# 请求链接得到字典response = requests.get(sub_url, headers=self.headers).text# 获得产品编码data = re.findall('{"pid":"(.*?)"}', response)# 合并字符串product1 = ','.join(data[0:50])product2 = ','.join(data[50:100])product3 = ','.join(data[100:120])self.praseHomedata(product1)self.praseHomedata(product2)self.praseHomedata(product3)self.num += 1if __name__ == '__main__':with open('唯品会口红数据.csv', 'a', encoding='utf-8', newline='')as f:csv_write = csv.DictWriter(f, fieldnames=["标题", "品牌", "原价", "折扣", "现价", "属性"])csv_write.writeheader()spider = Spider()spider.praseSubpage()

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/597745.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于粒子群算法的参数拟合,寻优算法优化测试函数

目录 摘要 测试函数shubert 粒子群算法的原理 粒子群算法的主要参数 粒子群算法原理 粒子群算法参数拟合 代码 结果分析 展望 基于粒子群算法的参数拟合(代码完整,数据齐全)资源-CSDN文库 https://download.csdn.net/download/abc991835105/88698417 摘要 寻优算法,测试…

后端开发——JDBC的学习(三)

本篇继续对JDBC进行总结: ①通过Service层与Dao层实现转账的练习; ②重点:由于每次使用连接就手动创建连接,用完后就销毁,这样会导致资源浪费,因此引入连接池,练习连接池的使用; …

x-cmd pkg | tig - git 文本模式界面

目录 简介首次用户功能特点类似工具与竞品进一步探索 简介 tig 由 Jonas Fonseca 于 2006 年使用 C 语言创建的 git 交互式文本命令行工具。旨在开启交互模式快速浏览 git 存储库的信息以及 git 命令的运行。 首次用户 使用 x tig 即可自动下载并使用 在终端运行 eval "…

微服务之间互相调用出现的错误

场景: 微服务A调用微服务B的接口,微服务B的接口请求方式是get类型,传递的参数是JSON格式。 错误: 1、postman:springframework.http.converter.HttpMessageNotReadableException: JSON parse error: Cannot deserial…

Gin 框架介绍与快速入门

Gin 框架介绍与快速入门 文章目录 Gin 框架介绍与快速入门一、Gin框架介绍1. 快速和轻量级2. 路由和中间件3. JSON解析4. 支持插件5. Gin相关文档 二、基本使用1.安装2.导入3.第一个Gin 应用 三、应用举例四、Gin 入门核心1.gin.Engine2.gin.Context 一、Gin框架介绍 Gin是一个…

VitePress搭建Vite官方中文文档首页

✨专栏介绍 在当今数字化时代,Web应用程序已经成为了人们生活和工作中不可或缺的一部分。而要构建出令人印象深刻且功能强大的Web应用程序,就需要掌握一系列前端技术。前端技术涵盖了HTML、CSS和JavaScript等核心技术,以及各种框架、库和工具…

FinGPT——金融领域开源大模型

文章目录 背景论文摘要相关工作大型语言模型(LLMs)和ChatGPT金融领域的LLMs为什么需要开源的金融LLMs? 以数据为中心的方法用于FinLLMs金融数据和独特特性应对处理金融数据的挑战 FINGPT 概述:FINLLM 的开源框架数据来源面向金融N…

【常用排序算法】冒泡排序

冒泡排序 冒泡排序基本思想:N 个数的数组,经过N-1轮排序。 升序 大的值下沉,小的值上浮。降序 小的值下沉,小的字上浮 import java.util.Arrays; public class BubbleSort {public static void main(String[] args) {int[] values…

std::scoped_lock` 和 `std::lock() ,condition_variable,promise

std::scoped_lock和std::lock() 同时锁多个mutex std::scoped_lock 和 std::lock() 都是 C 标准库中用于管理多个 std::mutex 对象的工具,但它们在使用方式和一些方面上存在一些区别。以下是它们的主要区别: 用法差异: std::scoped_lock 是一…

Git 对项目更新的时候提示错误 repository not owned by current user

遇到 Git 提示的错误信息为:repository not owned by current user 上图显示的是错误的信息。 问题和解决 出现上面错误信息的原因是当前文件夹的权限和 Git 的执行权限不一直导致的。 我们的问题是我们希望在网盘上使用 Git 更新克隆后的代码,但登录…

React Hook 原理,及如何使用Hook

一、 Hook使用规则 只在最顶层使用Hook 不要在循环,条件或嵌套函数中调用Hook; 只在组件函数和自定义hook中调用Hook Q1 : 为什么 hook 不能 在循环,条件或嵌套函数中调用Hook ? A1: 因为这跟React的…

使用Kafka与Spark Streaming进行流数据集成

在当今的大数据时代,实时数据处理和分析已经变得至关重要。为了实现实时数据集成和分析,组合使用Apache Kafka和Apache Spark Streaming是一种常见的做法。本文将深入探讨如何使用Kafka与Spark Streaming进行流数据集成,以及如何构建强大的实…

【智慧地球】星图地球 | 星图地球超算数据工场

当前空天信息处理涉及并发并行的大量计算问题,需要高性能计算、智能计算联合调度,以此来实现多算力融合;而我国算力产业规模快速增长,超算算力资源正需要以任务驱动来统筹。 基于此,中科星图与郑州中心展开紧密合作&a…

从0开始python学习-39.requsts库

目录 HTTP协议 1. 请求 2. 响应 Requests库 1. 安装 2. 请求方式 2.1 requests.请求方式(参数) 2.2 requests.request() 2.3 requests.session().request() 2.4 三种方式之间的关联 3. 请求参数 3.1 params:查询字符串参数 3.2 data:Form表单…

React格式化规范

React并没有特定的格式要求,它允许开发者根据自己的喜好和项目需求来选择代码的格式化风格。然而,在React社区中有一些常见的约定和最佳实践,以下是一些常用的格式化规范和建议: 缩进:使用2个或4个空格来进行缩进&…

对‘float16_t’的引用有歧义

float16_t 是一个半精度浮点数类型,通常在一些需要高性能和低精度的场合被使用。 如果加了using namespace cv;后,OpenCV库中也有一个名为float16_t的类型定义,与最初的float16_t存在冲突,导致编译失败。 为了解决这个问题&#…

软件测试工程师需要掌握的理论知识(2)

11、如何处理WEB自动化测试中的跨域问题的? 。设置浏览器选项:在自动化测试中,可以通过设置浏览器选项来禁用跨域策略。这可以通过使用WebDriver的接口或设置浏览器选项的方法来实现。例如,对于Chrome浏览器,可以使用-disable-web-security参…

2024年全球网络安全预测报告

1.Gartner Gartners Top Strategic Predictions for 2024 and Beyond《Gartner顶级战略预测:2024年及未来》 https://www.gartner.com/en/articles/gartner-s-top-strategic-predictions-for-2024-and-beyond 2.IDC Top 10 Worldwide IT Industry 2024 Predict…

【Python可视化实战】钻石数据可视化

一、项目引言 1.背景和目标 钻石作为一种珍贵的宝石,其价格受到多种因素的影响。为了深入了解钻石价格的决定因素,我们收集了大量关于钻石的数据,并希望通过数据可视化来揭示钻石特征与价格之间的关系。 2.内容 收集钻石的各项特征数据&a…

2024 年初的大语言模型编程实践

首先我要明确,这篇文章并不旨在回顾大语言模型。显而易见,2023 年对人工智能来说是不平凡的一年,再去强调这一点似乎没有多大必要。这篇文章更多是作为一位程序员的个人体验分享。自从 ChatGPT 出现,再到使用本地运行的大语言模型…