python爬虫淘宝手机_【Python3 爬虫】14_爬取淘宝上的手机图片

现在我们想要使用爬虫爬取淘宝上的手机图片,那么该如何爬取呢?该做些什么准备工作呢?

首先,我们需要分析网页,先看看网页有哪些规律

我们可以看到左侧是主题市场,将鼠标移动到【女装/男装/内衣】这一栏目,我们可以看到更细类的展示

假如我们现在需要爬取【羽绒服】,那么我们进入到【羽绒服】衣服这个界面

此时查看浏览器地址,我们可以看到

网址复制到word或者其他地方会发生url转码

我们可以选中【羽绒服模块的第1,2,3页进行网址对比】,对比结果如下:

从上图我们可以看出:三页的s值都是相差60

然后我们再看下图片地址:

图片中标记的地方或许是两个图片最大的差别,于是打开源代码搜索

图片1搜索结果

图片2搜索结果

从两个网址我们发现了共同的特征:都是以"pic_url":"//开头,网址分析到此结束,那么我们接下来就写代码了。

代码如下:

importurllib.requestimportre#设置关键字

keywords = "羽绒服"

#quote函数进行url编码(屏蔽特殊的字符)

key =urllib.request.quote(keywords)#设置User-Agent

headers=("User_Agent","Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 SE 2.X MetaSr 1.0")#自定义opener

opener =urllib.request.build_opener()

opener.addheaders=[headers]

urllib.request.install_opener(opener)#循环遍历抓取

for i in range(0,2):

url= "https://s.taobao.com/list?spm=a21bo.2017.201867-links-0.3.5af911d9rLmo4K&q="+key+"&cat=16&style=grid&seller_type=taobao&bcoffset=12&s="+str(i*60)#print(url)

content = urllib.request.urlopen(url).read().decode("utf-8","ignore")

rule= ‘"pic_url":"//(.*?)"‘ #正则匹配

imglist = re.compile(rule).findall(content) #获取图片列表

for j inrange(0,len(imglist)):

img=imglist[j]

imgurl= "http://"+img

file= "D://source//img//"+str(i)+str(j)+".jpg"urllib.request.urlretrieve(imgurl,filename=file)

爬取完毕后,我们可以打开D:\source\img查看

我们已经成功爬取,并且爬取的图片与页面上是一致的。

原文:https://www.cnblogs.com/OliverQin/p/8907248.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/437180.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【转】WebSocket初探

定义: 遵循RFC6544协议的通信协议。Webcoket协议和http协议属于并行关系,但是websocket是以http协议为基础开发出来的(微软用IhttpHandler接口中同时处理这两种协议),同时他们都是以TCP协议为基础。可以进行双向通信、…

应用程序标准输入输出、Shell、程序界面的关系

发展史 计算机在发展初期,电脑上的软件是没有窗口的,只有一个命令行,这个软件叫Shell,中文的意思是外壳。Shell是一个统一的叫法,实际在不同的系统中,又有很多种Shell软件,如下表所示&#xff…

安卓简单天气预报app源码_七个个小众但实用的APP,效率翻倍~

推荐7个小众但实用的APP1、PDF处理助手下面就是软件的启动图,没有任何广告。并且直接标明了这个软件的三大特点:简单、免费、快捷下面就是软件的启动图,没有任何广告。而且免注册登录即可使用,简直是一款良心软件了。2、菜鸟教程菜…

【转】Jenkins详细教程

最近花了一段时间研究jenkins这个工具。所以写下这篇文章,算是当做记录吧! 一、jenkins是什么? Jenkins是一个开源的、提供友好操作界面的持续集成(CI)工具,起源于Hudson(Hudson是商用的),主要…

【Github】怎么在README.md中添加图片?

原理是将图片作为文档上传,在README.md中引用即可。 参考博客:【GitHub】给GitHub上的ReadMe.md文件中添加图片怎么做 、 gitHub创建文件夹

拼接符 防注入正则校验_Apache Kylin 命令注入漏洞调试分析(CVE-2020-1956)

1、前言Apache Kylin是一个开源的、分布式的分析型数据仓库,提供Hadoop/Spark 之上的 SQL 查询接口及多维分析(OLAP)能力以支持超大规模数据。近日,百度云安全团队监测到Apache官方发出了一个漏洞通告,披露了Apache kylin多版本存在命令注入漏…

【转】一个ASP.NET MVC中ajax调用WebApi返回500 Internal Server Error的调错方法。

ASP.NET MVC 引入的WebApi自然且较好地满足了ajax的交互需求,但使用jQuery ajax调用WebApi返回500 Internal Server Error时却不太好查找错误。在一个实际项目中,WebApi方法全部使用了try-catch捕获异常,并返回定制的错误消息,想当…

【Github】开源项目xterm.js

项目github地址: xterm.js on github 学习笔记 从项目介绍中进行知识拓展 名称资料npmnpm 是干什么的?(非教程)semversemver:语义化版本规范在 Node.js 中的实现Hyper软件官网 >Theia官网 >Electron官网 >…

can使能上拉 gpio_IMX6ULL 的 GPIO 操作方法

来源:百问网作者:韦东山本文字数:1652,阅读时长:4分钟CCM: Clock Controller Module (时钟控制模块) IOMUXC : IOMUX Controller,IO 复用控制器 GPIO: General-purpose input/output,通用的输入…

【转】.NET 的 WebSocket 开发包比较

转载于http://www.oschina.net/translate/websocket-libraries-comparison-2 编者按 本文出现在第三方产品评论部分中。在这一部分的文章只提供给会员,不允许工具供应商用来以任何方式和形式来促销或宣传产品。请会员报告任何垃圾信息或广告。 Web项目常常需要将数…

【编译原理】为什么编程语言中,标识符不能以数字开头?

标识符不能以数字为开头, 是为了简化词法解析器设计和实现,规避词法解析中以数字开头的变量与数字解析冲突的问题。 如果两种类型的词,如果起始符号不同,那么可以很容易把二者区分开;如果起始符号相同,那么以下符号&a…

vb checkbox选中和不选中_UE4 4.23 RetainerBox 选中框位置不正确

Bug表现在UE4 4.23版本,实现自定义控件时,继承了RetainerBox,发现当内部包裹子控件时,先编辑器面板选中子物体,发现选中位置有偏移。位置偏移当窗口缩放时,选中框位置发现当窗口最小化时,偏移位…

python编辑器spyder运行_使用spyder编译器单步调试python

1、将需要进行单步调试的函数在脚本中进行调用(十分重要的一步)。由于python是解释型语言,在进行单步调试的时候需要告诉系统你使用了这个函数,单步调试才会进入你所需要调式的函数。如下图所示,我们定义了createDataSet()函数,在…

去哪查阅ISO国际标准?

ISO官网 访问ISO官网,不需要翻墙,只要懂点英文就行。 ISO官网地址:https://www.iso.org/(可进行全面了解、购买付费内容) ISO部分公开标准下载地址:https://standards.iso.org/ittf/PubliclyAvailableSt…

【转】开源的C# websocket-sharp组件解析

下面我们介绍一款WebSocket组件websocket-sharp的相关内容。 一.websocket-sharp组件概述 websocket-sharp是一个C#实现websocket协议客户端和服务端,websocket-sharp支持RFC 6455;WebSocket客户端和服务器;消息压缩扩展;安全连接…

【编译原理】什么是上下文无关文法?

上下文无关是指,一句话的含义与其前后的内容没有或者几乎没有关系,只由自己决定,把它剪切到其他任何位置,也还是原有的意思。 例如: ... a 0; ...这是一个赋值语句,无论此语句的前后是什么代码&#xff…

python解析html的库_用python解析html

python中,有三个库可以解析html文本,HTMLParser,sgmllib,htmllib。他们的实现方法不通,但功能差不多。这三个库中 提供解析html的类都是基类,本身并不做具体的工作。他们在发现的元件后(如标签、注释、声名等),会调用相…

【转】3.1(译)构建Async同步基元,Part 1 AsyncManualResetEvent

传送门:异步编程系列目录…… 最近在学习.NET4.5关于“并行任务”的使用。“并行任务”有自己的同步机制,没有显示给出类似如旧版本的:事件等待句柄、信号量、lock、ReaderWriterLock……等同步基元对象,但我们可以沿溪这一编程习…

java异或_JAVA面试必备之HashMap必会点

今天我们就面试会问到关于HashMap的问题进行一个汇总,以及对这些问题进行解答。1、HashMap的数据结构是什么?2、为啥是线程不安全的?3、Hash算法是怎样实现的?4、HashMap是如何处理Hash碰撞的?5、增加元素的方法是怎么…

【编译原理】什么是AST?

自己写的确实没有别人写的好,所以在此推荐以下内容供参考: 抽象语法树—百度百科 AST系列(一): 抽象语法树为什么抽象 编程语言的实现,从AST(抽象语法树)开始 知乎话题-抽象语法树