Scrapy实战

代码:

Spider

import scrapy
from urllib.parse import urljoin
from scrapy import Requestclass JiaSpider(scrapy.Spider):name = "jia"allowed_domains = ["desk.zol.com.cn"]start_urls = ["https://desk.zol.com.cn/dongman/"]def parse(self, resp,**kwargs):#hrefs 为Selector形式,获取内容,用extract()hrefs = resp.xpath("//ul[@class='pic-list2  clearfix']/li/a/@href").extract()for href in hrefs:#屏蔽掉,exe结尾的if href.endswith('.exe'):#如果href以.exe结尾。就过滤掉continueelse:# href = "https://desk.zol.com.cn/"+href# print(href)# clild_url = resp.urljoin(href)# print(clild_url)clild_url = urljoin(resp.url,href)#print(clild_url)#再次发送新的请求   所有的请求,必须经过引擎,交给调度器。然后反馈给引擎然后走下载器#再次发送请求,回来如果没有其他参数就会调用parse方法,回来就去执行,callback的函数·················yield Request(clild_url,callback=self.parse2)#回调函数。def parse2(self, resp, **kwargs):#详情页img = resp.xpath("//img[@id='bigImg']/@src").extract_first()print(img)yield {"src":img}

Pipelines:

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://docs.scrapy.org/en/latest/topics/item-pipeline.html# useful for handling different item types with a single interface
from itemadapter import ItemAdapter
from scrapy.pipelines.images import ImagesPipeline#处理图片
from scrapy.pipelines.files import FilesPipeline#直接下载
from scrapy import Request
# class TupianPipeline:
#     def process_item(self, item, spider):
#         return itemclass TupianPipeline(ImagesPipeline):def get_media_requests(self,item,info):src = item['src']yield Request(src,meta={"dizhi":src})# for s in src:#     #请求对象传值的最佳方案:meta#   yield Request(s,meta={"dizhi":src})#发送请求#scrapy 帮我们完成路径的处理  ,返回文件的路径(src)def file_path(self,request,response=None,info=None,*,item=None):dizhi = request.meta['dizhi']file_name = dizhi.split("/")[-1]return f"olie/guang/fengjun/guant/liejun/{file_name}.jpg"#数据的结束,收尾工作def item_completed(self,results,item,info):return item

Settings:

 

 Runner:

from scrapy.cmdline import executeif __name__=="__main__":execute("scrapy crawl jia".split())

 将会加载图片

Spider中的思路

    def parse(self, resp,**kwargs):#hrefs 为Selector形式,获取内容,用extract()hrefs = resp.xpath("//ul[@class='pic-list2  clearfix']/li/a/@href").extract()for href in hrefs:#屏蔽掉,exe结尾的if href.endswith('.exe'):#如果href以.exe结尾。就过滤掉continueelse:# href = "https://desk.zol.com.cn/"+href# print(href)# clild_url = resp.urljoin(href)# print(clild_url)clild_url = urljoin(resp.url,href)#print(clild_url)#再次发送新的请求   所有的请求,必须经过引擎,交给调度器。然后反馈给引擎然后走下载器#再次发送请求,回来如果没有其他参数就会调用parse方法,回来就去执行,callback的函数·················yield Request(clild_url,callback=self.parse2)#回调函数。

1.获得的内容,xpath将他解开,找到,东西后,extract()解析,因为直接获取的是Selector形式的

2.然后,得到的里面有.exe结尾的广告。将他屏蔽掉。

这里有三种,网址拼接方式。
传统的
1. # href = "https://desk.zol.com.cn/"+href# print(href)
这个是scrapy自带的
2.# clild_url = resp.urljoin(href)# print(clild_url)
这个是导入包
from urllib.parse import urljoin3。clild_url = urljoin(resp.url,href)print(clild_url)

3.然后需要再次发送请求,第二个网址。这里会用到回调函数。

yield Request(clild_url,callback=self.parse2)#回调函数。

4.然后进入下一个爬虫:

    def parse2(self, resp, **kwargs):#详情页img = resp.xpath("//img[@id='bigImg']/@src").extract_first()print(img)yield {"src":img}

 然后字典返回数据到,管道。

这个得到的数据就是,图片的url

5.在Pipelines中会请求,图片的url然后,保存它

  for s in src:#请求对象传值的最佳方案:metayield Request(s,meta={"dizhi":src})#发送请求
#scrapy 帮我们完成路径的处理  ,返回文件的路径(src)

6.

请求url得到图片

然后用 Split分割,得到最后一个,作为名字。

 #scrapy 帮我们完成路径的处理  ,返回文件的路径(src)def file_path(self,request,response=None,info=None,*,item=None):dizhi = request.meta['dizhi']file_name = dizhi.split("/")[-1]return f"olie/guang/fengjun/guant/liejun/{file_name}.jpg"#数据的结束,收尾工作def item_completed(self,results,item,info):return item

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/704866.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

left join+group by语句性能优化

一、背景 需求:求【昨日触达】、【本周拜访】、【本月活动数】。 背景:三个维度的数据都按日统计在一张表里。 首先想到的就是left join group by。 1.1 优化前语句 selectuser_id,user_name,org_id,org_name,sum(reach_num) dayReachNum,sum(visit_n…

redis未授权与权限获取

Redis默认情况下,会绑定在0.0.0.0:6379,这样将会将Redis服务暴露到公网上,如果在 没有开启认证的情况下,可以导致任意用户在可以访问目标服务器的情况下未授权访问Redis 以及读取Redis的数据。攻击者在未授权访问Redis的情况下可…

jeesite用字典项配置二级下拉选

1、配置字典项 2、html代码&#xff1a;修改下拉选项框 <div class"col-xs-6"><div class"form-group"><label class"control-label col-sm-4" title""><span class"required">*</span> ${…

ZYNQ:串口-CAN协议转换

前言 目前已经实现zynq的PS-CAN和PL-CAN功能。串口-CAN协议转换是实现以太网-CAN功能的过渡&#xff0c;通过这个流程能够减少后期以太网工程出现问题的频率。阶段性功能目标如下&#xff1a; 实现数据在CAN调试助手和串口调试助手之间的来回转换&#xff0c;从而了解中断机制…

华为云软件开发生产线CodeArts前端DevOps实践

原文链接&#xff1a;CodeArts前端DevOps实践_软件开发生产线 CodeArts_理论实践_DevOps概览 本文主要以CodeArts产品自身为背景&#xff0c;简要介绍一些在前端性能优化方面的优秀实践方法和常见问题。 在开始本文的内容之前&#xff0c;先简单介绍一下华为云CodeArts。Code…

html中的meta 元信息

html中的meta 元信息 1. 配置字符编码 <meta charset"utf-8">2. 针对 IE 浏览器的兼容性配置。 <meta http-equiv"X-UA-Compatible" content"IEedge">3. 针对移动端的配置 <meta name"viewport" content"widt…

MySQL进阶篇2-索引的创建和使用以及SQL的性能优化

索引 mkdir mysql tar -xvf mysqlxxxxx.tar -c myql cd mysql rpm -ivh .....rpm yum install openssl-devel ​ systemctl start mysqld ​ gerp temporary password /var/log/mysqld.log ​ mysql -u root -p mysql> show variables like validate_password.% set glob…

【Flink精讲】Flink状态及Checkpoint调优

RocksDB大状态调优 RocksDB 是基于 LSM Tree 实现的&#xff08;类似 HBase&#xff09; &#xff0c;写数据都是先缓存到内存中&#xff0c; 所以 RocksDB 的写请求效率比较高。 RocksDB 使用内存结合磁盘的方式来存储数据&#xff0c;每 次获取数据时&#xff0c;先从内存中 …

睿尔曼超轻量仿人机械臂—远程文件传输工具使用说明

一、介绍 由于很多开发人员是在Linux下进行开发&#xff0c;但文件资料大多是保存在Windows下&#xff0c;进行文件传输很不方便&#xff0c;所以可通过远程文件传输的方式进行跨系统传输。此类方法有很多&#xff0c;这里讲述的是使用WinSCP工具进行文件远程传输。 WinSCP 是…

Go的CSP并发模型实现M, P, G简介

GMP概念简介 G: goroutine&#xff08;协程&#xff0c;也叫用户态线程&#xff09; M: 工作线程(内核态线程) P: 上下文(也可以认为是cpu&#xff0c;逻辑cpu数量&#xff0c;可以在程序启动的时候设置这个数量&#xff0c;gomaxprocs函数设置) GMP 模型 在 Go 中&#xff…

1504. 统计全 1 子矩形

Problem: 1504. 统计全 1 子矩形 文章目录 思路解题方法复杂度Code 思路 这个问题可以通过压缩数组和单调栈的方法来解决。我们首先遍历矩阵&#xff0c;对于每一行&#xff0c;我们计算出每一列的高度&#xff08;连续的1的数量&#xff09;。然后&#xff0c;我们使用单调栈来…

mysql锁-这条sql加了哪些锁

文章目录 1、 InnoDB的三种行锁2、常见的加锁语句2.1、常见隐式加锁语句2.1、常见显示加锁语句 3、加锁的2条规则4、案例4.1、唯一索引等值查询4.2、唯一索引范围查询4.3、非唯一索引等值查询4.4、非唯一索引范围查询 InnoDB 存储引擎中的行锁的加锁规则。 1、 InnoDB的三种行锁…

04|事务性能优化

4.1大事务的影响 ● 并发情况下&#xff0c;数据库连接池容易被撑爆 ● 锁定太多的数据&#xff0c;造成大量的阻塞和锁超时 ● 执行时间长&#xff0c;容易造成主从延迟 ● 回滚所需要的时间比较长 ● undo log膨胀 ● 容易导致死锁 4.2事务优化 ● 将查询等数据准备操作放…

二. 系统性能评价(2分)

🌟二. 系统性能评价(2分) 性能调整中的性能优化 和 性能评估方法 考试重点 文章目录 🌟二. 系统性能评价(2分)==性能调整中的性能优化 和 性能评估方法 考试重点==@[toc]2.1 性能评价指标 [包含计算]2.2 系统性能调整 [设计计算]2.3 性能优化2.4 性能评估方法2.1 性能评价…

嵌入式驱动学习第一周——vim的使用

前言 本篇博客学习使用vim&#xff0c;vim作为linux下的编辑器&#xff0c;学linux肯定是绕不开vim的&#xff0c;因为不确定对方环境中是否安装了编译器&#xff0c;但一定会有vim。 对于基本的使用只需要会打开文件&#xff0c;保存文件&#xff0c;编辑文件即可。 嵌入式驱动…

iconfont的组件化使用方法(SVG)

目录 一、需求描述二、操作步骤1.在iconfont中选择项目需要使用的图标2.在项目中创建iconfont.js3.创建svgIcon组件 一、需求描述 将iconfont图标库选择的图标以SVG的形式引入项目并通过组件化的形式在项目中引用可控制图标的大小和颜色 二、操作步骤 1.在iconfont中选择项目…

yaml文件详解

Kubernetes 支持 YAML 和 JSON 格式管理资源对象 JSON 格式&#xff1a;主要用于 api 接口之间消息的传递 YAML 格式&#xff1a;用于配置和管理&#xff0c;YAML 是一种简洁的非标记性语言&#xff0c;内容格式人性化&#xff0c;较易读 YAML 语法格式&#xff1a; ●大小写敏…

Mysql常见函数和用法(重点)

where子句中经常使用的运算符 -- 查询总分大于200分的所有同学 select * from student2 where (chineseenglishmath)>200; -- 查询math大于60 并且(and)id大于4的学生成绩 select * from student2 where math>60 and id>4; -- 查询英语成绩大于语文成绩的同学 select …

跟着cherno手搓游戏引擎【26】Profile和Profile网页可视化

封装Profile&#xff1a; Sandbox2D.h:ProfileResult结构体和ProfileResult容器&#xff0c;存储相应的信息 #pragma once #include "YOTO.h" class Sandbox2D :public YOTO::Layer {public:Sandbox2D();virtual ~Sandbox2D() default;virtual void OnAttach()ove…

【Python 数据分析 实战案例】通过用户和订单的数据分析,制定营销策略

在互联网行业中&#xff0c;电子商务领域绝对是数据分析用途最多的地方&#xff0c;各大电商平台都依赖数据分析帮助其挖掘用户订单增长机会。比如某宝的随手买一件&#xff0c;核心思路也就是根据用户的日常浏览内容及停留时间&#xff0c;以及订单的关联度来进行推荐的。 本…