php爬虫之获取淘宝商品数据

爬取淘宝信息数据
首先需要先导入webdriver

1.from selenium import webdriver

webdriver支持主流的浏览器,比如说:谷歌浏览器、火狐浏览器、IE浏览器等等

然后可以创建一个webdriver对象,通过这个对象就可以通过get方法请求网站

1.driver = webdriver.Chrome()    # 创建driver对象
2.driver.get('https://www.baidu.com')    # 请求百度

接下来可以定义一个方法:search_product

一、selenium的简单介绍
1.selenium简介
selenium是一个用于测试网站的自动化测试工具,支持很多主流的浏览器,比如:谷歌浏览器、火狐浏览器、IE、Safari等。

2.支持多个操作系统
如windows、Linux、IOS、Android等。

3、安装selenium
打开终端输入

pip install Selenium
1
4、安装浏览器驱动
1、Chrome驱动文件下载:点击下载谷歌浏览器驱动

2、火狐浏览器驱动文件下载:点击下载geckodriver

5、配置环境变量
配置环境变量的方法非常简单,首先将下载好的驱动进行解压,放到你安装Python的目录下,即可。

因为之前,在配置Python环境变量的时候,就将Python的目录放到我的电脑–>属性–>系统设置–>高级–>环境变量–>系统变量–>Path


二、selenium快速入门
1、selenium提供8种定位方式
1、id

2、name

3、class name

4、tag name

5、link text

6、partial link text

7、xpath

8、css selector2、定位元素的8中方式详解
定义一个元素    定位多个元素    含义

find_element_by_id    find_elements_by_id    通过元素的id定位
find_element_by_name    find_elements_by_name    通过元素name定位
find_element_by_xpath    find_elements_by_xpath    通过xpath表达式定位
find_element_by_link_text    find_elements_by_link_text    通过完整超链接定位
find_element_by_partial_link_text    find_elements_by_partial_link_text    通过部分链接定位
find_element_by_tag_name    find_elements_by_tag_name    通过标签定位
find_element_by_class_name    find_elements_by_class_name    通过类名进行定位
find_element_by_css_selector    find_elements_by_css_selector    通过css选择器进行定位
3、selenium库下webdriver模块常用的方法与使用
控制浏览器的一些方法
方法    说明
set_window_size()    设置浏览器的大小
back()    控制浏览器后退
forward()    控制浏览器前进
refresh()    刷新当前页面
clear()    清除文本
send_keys (value)    模拟按键输入
click()    单击元素
submit()    用于提交表单
get_attribute(name)    获取元素属性值
text    获取元素的文本
4、代码实例
from selenium import webdriver
import time# 创建Chrome浏览器对象,这会在电脑中打开一个窗口
browser = webdriver.Chrome()# 通过浏览器向服务器发起请求
browser.get('https://www.baidu.com')time.sleep(3)# 刷新浏览器
browser.refresh()# 最大化浏览器窗口
browser.maximize_window()# 设置链接内容
element = browser.find_element_by_link_text('抗击肺炎')# 点击'抗击肺炎'

爬取淘宝数据测试
淘宝页面可以看到需要获取的信息是:价格、商品名称、付款人数、店铺名称。

现在我们开始进入主题。

首先,需要输入你要搜索商品的内容,然后根据内容去搜索淘宝信息,最后提取信息并保存。

1、搜素商品
我在这里定义提个搜索商品的函数和一个主函数。

搜索商品
在这里需要创建一个浏览器对象,并且根据该对象的get方法来发送请求。

从上图可以发现搜索框的id值为q,那么这样就简单很多了,有HTML基础的朋友肯定知道id值是唯一的。

通过id值可以获取到文本框的位置,并传入参数,然后点击搜索按钮。

从上图可以发现搜索按钮在一个类里面,那么可以通过这个类来定位到搜索按钮,并执行点击操作。

当点击搜索按钮之后,网页便会跳转到登录界面,要求我们登录,如下图所示:


​ 登录成功后会发现,里面的数据总共有100页面。


上图是前三页的url地址,你会发现其实并没有太大的变化,经过测试发现,真正有效的参数是框起来的内容,它的变化会导致页面的跳转,很明显第一页的s=0,第二页s=44,第三页s=88,以此类推,之后就可以轻松做到翻页了。

搜搜商品的代码如下:

def search_product(key_word):''':param key_word: 搜索关键字:return:'''# 通过id值来获取文本框的位置,并传入关键字browser.find_element_by_id('q').send_keys(key_word)# 通过class来获取到搜索按钮的位置,并点击browser.find_element_by_class_name('btn-search').click()# 最大化窗口browser.maximize_window()time.sleep(15)page = browser.find_element_by_xpath('//div[@class="total"]').text  # 共 100 页,page = re.findall('(\d+)', page)[0] # findall返回一个列表return page



2、获取商品信息并保存

获取商品信息相对比较简单,可以通过xpath方式来获取数据。在这里我就不在论述。在这边我创建了一个函数get_product来获取并保存信息。在保存信息的过程中使用到了csv模块,目的是将信息保存到csv里面。def get_product():divs = driver.find_elements_by_xpath('//div[@class="items"]/div[@class="item J_MouserOnverReq  "]')    # 这里返回的是列表,注意:elementsfor div in divs:info = div.find_element_by_xpath('.//div[@class="row row-2 title"]/a').textprice = div.find_element_by_xpath('.//strong').text + '元'nums = div.find_element_by_xpath('.//div[@class="deal-cnt"]').textnames = div.find_element_by_xpath('.//div[@class="shop"]/a').textprint(info, price, nums, names,sep='|')with open('data3.csv', mode='a', newline='', encoding='utf-8') as file:csv_writer = csv.writer(file, delimiter=',')    # 指定分隔符为逗号csv_writer.writerow([info, price, nums, names])


3、构造URL实现翻页爬取

从上面的图片中可以发现连续三页URL的地址,其实真正变化并不是很多,经过测试发现,只有q和s两个参数是有用的。构造出的url:https://s.taobao.com/search?q={}&s={}因为q是你要搜索的商品,s是设置翻页的参数。这段代码就放在了主函数里面def main():browser.get('https://www.taobao.com/')  # 向服务器发送请求page = search_product(key_word)print('正在爬取第1页的数据')get_product()   # 已经获得第1页的数据page_nums = 1while page_nums != page:print('*'*100)print('正在爬取第{}页的数据'.format(page_nums+1))browser.get('https://s.taobao.com/search?q={}&s={}'.format(key_word, page_nums*44))browser.implicitly_wait(10) # 等待10秒get_product()page_nums += 1

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/17937.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

学习前端第四十五天(冒泡和捕获、事件委托)

一、冒泡和捕捉 1、冒泡 当一个事件发生在一个元素上&#xff0c;它会首先运行在该元素上的处理程序&#xff0c;然后运行其父元素上的处理程序&#xff0c;然后一直向上到其他祖先上的处理程序 <div class"box" onclick"console.log(1)">box<d…

全身关节活动评估训练系统:提升健康与康复的新科技

随着科技的不断进步&#xff0c;医疗和健身领域也迎来了巨大的变革。其中&#xff0c;全身关节活动评估训练系统作为一种创新的科技产品&#xff0c;正在逐渐改变我们对健康、康复以及健身的认知。本文将深入探讨这一系统的原理、功能、应用以及其对个人健康和社会福祉的潜在影…

闲鱼详情API接口探析

随着互联网的快速发展&#xff0c;我国闲置交易市场逐渐繁荣&#xff0c;闲鱼作为阿里巴巴旗下闲置交易平台&#xff0c;已经成为众多用户的选择。为了方便开发者构建第三方应用&#xff0c;闲鱼提供了详细的API接口&#xff0c;联讯数据将对闲鱼详情API接口进行深入分析&#…

时序数据库InfluxDB面试题和参考答案

目录 InfluxDB如何处理大规模数据集? 如何使用InfluxDB进行实时分析?

你真的懂firewalld吗?不妨看看我的这篇文章

一、firewalld简介 firewalld防火墙是Linux系统上的一种动态防火墙管理工具&#xff0c;它是Red Hat公司开发的&#xff0c;并在许多Linux发行版中被采用。相对于传统的静态防火墙规则&#xff0c;firewalld使用动态的方式来管理防火墙规则&#xff0c;可以更加灵活地适应不同…

TypeScript中的`let`、`const`、`var`区别:变量声明的规范与实践

TypeScript中的let、const、var区别&#xff1a;变量声明的规范与实践 引言 在TypeScript中&#xff0c;变量声明是代码编写的基础部分。let、const、var 是三种用于变量声明的关键字&#xff0c;它们各自有不同的作用域规则和可变性特点。 基础知识 作用域&#xff1a;变量…

ctfhub中的SSRF相关例题(中)

目录 上传文件 gopher协议的工作原理&#xff1a; gopher协议的使用方法&#xff1a; 相关例题: FastCGI协议 FastCGI协议知识点 相关例题&#xff1a; Redis协议 知识点&#xff1a; 相关例题 第一种方法 第二种方法 上传文件 gopher协议的工作原理&#xff1a; …

开箱元宇宙| 探索家乐福如何在The Sandbox 中重新定义零售和可持续发展

有没有想过 The Sandbox 如何与世界上最具代表性的品牌和名人的战略保持一致&#xff1f;在本期的 "开箱元宇宙 "系列中&#xff0c;我们与家乐福团队进行了对话&#xff0c;这家法国巨头率先采用web3技术重新定义零售和可持续发展。 家乐福的用户平均游玩时间为 57 …

QWidget For Android之QDialog中QLineEdit无法编辑问题

项目场景&#xff1a; QWidget For Android 问题描述 QDialog打开对话框时&#xff0c;QLineEdit输入框无法输入 this->setWindowFlags(Qt::FramelessWindowHint | Qt::Tool | Qt::WindowStaysOnTopHint);this->setAttribute(Qt::WA_TranslucentBackground);原因分析&a…

maven部署到私服

方法一:网页上传 1、账号登录 用户名/密码 2、地址 http://自己的ip:自己的端口/nexus 3、查看Repositories列表&#xff0c;选择Public Repositories&#xff0c;确定待上传jar包不在私服中 4、选择3rd party仓库&#xff0c;点击Artifact Upload页签 5、GAV Definition选…

2024上半年软考 考试心得

考试的时候感觉选择题有点偏&#xff0c;很多概念题都不知道是什么&#xff0c;好像没怎么见过&#xff0c;什么拖库洗库&#xff0c;linux权限号不会&#xff0c;python也不确定&#xff0c;但也算顺利&#xff1b;下午题的数据库竟然没考主键外键&#xff0c;我的天哪&#x…

蓝桥杯嵌入式国赛笔记(3):其他拓展板程序设计(温、湿度传感器、光敏电阻等)

目录 1、DS18B20读取 2、DHT11 2.1 宏定义 2.2 延时 2.3 设置引脚输出 2.4 设置引脚输入 2.5 复位 2.6 检测函数 2.7 读取DHT11一个位 2.7.1 数据位为0的电平信号显示 2.7.2 数据位为1的电平信号显示 2.8 读取DHT11一个字节 2.9 DHT11初始化 2.10 读取D…

exe4j --实现把jar包打成exe可执行文件

工具准备 1.Java编辑器&#xff0c;如&#xff1a;idea、eclipse等&#xff0c;下载地址&#xff1a; IntelliJ IDEA: The Capable & Ergonomic Java IDE by JetBrains https://www.jetbrains.com/idea/ 2.exe4j&#xff0c;下载地址&#xff1a; ej-technologies - Java A…

SQL试题使得每个学生 按照姓名的字⺟顺序依次排列 在对应的⼤洲下⾯

学⽣地理信息报告 学校有来⾃亚洲、欧洲和美洲的学⽣。 表countries 数据如下&#xff1a; namecontinentJaneAmericaPascalEuropeXiAsiaJackAmerica 1、编写解决⽅案实现对⼤洲&#xff08;continent&#xff09;列的 透视表 操作&#xff0c;使得每个学生 按照姓名的字⺟顺…

常用批处理命令及批处理文件编写技巧

一常用批处理命令 1.查看命令用法&#xff1a;命令 /? //如&#xff1a;cd /? 2.切换盘符目录&#xff1a;cd /d D:\test 或直接输入 d: //进入上次d盘所在的目录 3.切换目录&#xff1a;cd test 4.清屏:cls 5.“arp -a” //它会列出当前设备缓存中的所有…

特定车型专属AI模型解决方案,高清图像,稳定输出

美摄科技凭借其对人工智能领域的深刻理解和技术积累&#xff0c;为企业带来了一项革命性的解决方案——特定车型专属AI模型。这一方案以专属车型照片为基础&#xff0c;通过先进的AI生成模型训练&#xff0c;为企业提供个性化、高清、稳定的车辆图像和视频生成服务&#xff0c;…

天正T20专业建筑v7.0~v10.0版本下载,天正T20专业建筑软件获取

利用AutoCAD这一全球知名的图形平台&#xff0c;我们成功研发出了最新一代的T20天正建筑软件V8.0。这款软件以其卓越的性能和专业化的功能&#xff0c;在建筑施工图设计领域展现出了强大的实力&#xff0c;赢得了广大建筑设计师的青睐。 T20天正建筑软件V8.0在继承了AutoCAD的稳…

盐城市大数据集团携手百望云 以MaaS推进数字经济跃迁

随着ChatGPT的爆火&#xff0c;大模型、人工智能、大数据等技术&#xff0c;被快速推向市场最前沿。如何通过创新技术提升企业的数字化能力&#xff0c;助力数据要素资产沉淀&#xff0c;推动企业及所在行业、区域实现数智化转型&#xff0c;是大家关注的核心问题。 “携手共建…

基于LLM的优化器评测-非凸函数

基于LLM的优化器评测-非凸函数 目标函数测试结果测试代码测试日志 背景: ​ 很多时候我们需要为系统寻找最优的超参.比如模型训练,推理的量化等.本文尝试将LLM当成优化器,帮忙我们寻找最优的超参. 验证方法: 1.设计一个已知最优解的多项式,该多项式有3个变量(因为3个变量可以…

高集成IP摄像SOC处理方案简介以及芯片介绍SSC336D

时至今日&#xff0c;随着科技越来越快的发展&#xff0c;视频监控领域目前已经向新型 IP 网络进行技术过渡。而 IP 网络摄像系统的初始定义为&#xff1a;网络与视频处理技术相统一的摄像单元。 网络摄像系统拥有自己的 IP 地址和计算功能&#xff0c;能处理网络通信任务。其…