scrapy.Spider的属性和方法

scrapy.Spider的属性和方法
属性:
name:spider的名称,要求唯一
allowed_domains:允许的域名,限制爬虫的范围
start_urls:初始urls
custom_settings:个性化设置,会覆盖全局的设置
crawler:抓取器,spider将绑定到它上面
custom_settings:配置实例,包含工程中所有的配置变量
logger:日志实例,打印调试信息方法:
from_crawler(crawler, *args, **kwargs):类方法,用于创建spider
start_requests():生成初始的requests
make_requests_from_url(url):遍历urls,生成一个个request
parse(response):用来解析网页内容
log(message[,level.component]):用来记录日志,这里请使用logger属性记录日志,self.logger.info('visited success')
closed(reason):当spider关闭时调用的方法子类:
主要CrawlSpider
1:最常用的spider,用于抓取普通的网页
2:增加了两个成员
1)rules:定义了一些抓取规则--链接怎么跟踪,使用哪一个parse函数解析此链接
2)parse_start_url(response):解析初始url的相应
实例:
import scrapy
from scrapy.spiders import CrawlSpider, Rule
from scrapy.linkextractors import LinkExtractorclass MySpider(CrawlSpider):name = 'example.com'allowed_domains = ['example.com']start_urls = ['http://www.example.com']rules = (# Extract links matching 'category.php' (but not matching 'subsection.php')# and follow links from them (since no callback means follow=True by default).Rule(LinkExtractor(allow=('category\.php', ), deny=('subsection\.php', ))),# Extract links matching 'item.php' and parse them with the spider's method parse_itemRule(LinkExtractor(allow=('item\.php', )), callback='parse_item'),)def parse_item(self, response):self.logger.info('Hi, this is an item page! %s', response.url)item = scrapy.Item()item['id'] = response.xpath('//td[@id="item_id"]/text()').re(r'ID: (\d+)')item['name'] = response.xpath('//td[@id="item_name"]/text()').extract()item['description'] = response.xpath('//td[@id="item_description"]/text()').extract()return item

 

转载于:https://www.cnblogs.com/themost/p/7105645.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/392238.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

php时间操作函数总结,基于php常用函数总结(数组,字符串,时间,文件操作)

数组:【重点1】implode(分隔,arr) 把数组值数据按指定字符连接起来例如:$arrarray(1,2,3,4);$strimplode(-,$arr);explode([分隔],arr)按指定规则对一个字符串进行分割,返回值为数组 别名joinarray_merge()合并一个或多个数组array_combine(array keys, …

kaggle比赛数据_表格数据二进制分类:来自5个Kaggle比赛的所有技巧和窍门

kaggle比赛数据This article was originally written by Shahul ES and posted on the Neptune blog.本文最初由 Shahul ES 撰写, 并发布在 Neptune博客上。 In this article, I will discuss some great tips and tricks to improve the performance of your stru…

leetcode 1579. 保证图可完全遍历(并查集)

Alice 和 Bob 共有一个无向图,其中包含 n 个节点和 3 种类型的边: 类型 1:只能由 Alice 遍历。 类型 2:只能由 Bob 遍历。 类型 3:Alice 和 Bob 都可以遍历。 给你一个数组 edges ,其中 edges[i] [typei,…

别把“运气”当“实力”

成功是两分靠努力,八分靠天命–何英圻何英圻先生,大家口中的Steven,是台湾网路创业圈的传奇人物。他先后创办力传(Ubid)与兴奇(Monday)两家公司,最后都以高价出售给北美网路巨人—Ubid在2002年以美金950万卖给eBay,而M…

品牌推广前期要进行哪些针对性的步骤?

企业在品牌推广前需要制订一系列有针对性和连续性的步骤,这些步骤定睛于长期策略,而且要适应目标客户的使用方式和习惯。在企业内部导入品牌VI是前提,外部的宣传则是强调品牌所宣扬的内涵和精神实质,总体来说,这只是一…

php的set 容器,关于STL中set容器的一些总结

1.关于setC STL 之所以得到广泛的赞誉,也被很多人使用,不只是提供了像vector, string, list等方便的容器,更重要的是STL封装了许多复杂的数据结构算法和大量常用数据结构操作。vector封装数组,list封装了链表,map和set…

强化学习应用于组合优化问题_如何将强化学习应用于现实生活中的计划问题

强化学习应用于组合优化问题by Sterling Osborne, PhD Researcher作者:斯特林奥斯本(Sterling Osborne),博士研究员 如何将强化学习应用于现实生活中的计划问题 (How to apply Reinforcement Learning to real life planning problems) Recently, I hav…

导入导出报错

导入导出报错:另:右键--共享:停止共享;可能无效。此时,可以通过修改文件夹的权限,来达到停止共享的目的;转载于:https://www.cnblogs.com/chenjx/p/7107336.html

leetcode 724. 寻找数组的中心索引

给定一个整数类型的数组 nums,请编写一个能够返回数组 “中心索引” 的方法。 我们是这样定义数组 中心索引 的:数组中心索引的左侧所有元素相加的和等于右侧所有元素相加的和。 如果数组不存在中心索引,那么我们应该返回 -1。如果数组有多…

基于mosquitto的MQTT服务器---SSL/TLS 单向认证+双向认证

配置单/双向认证 1.生成证书 使用如下shell 来生成证书: # * Redistributions in binary form must reproduce the above copyright# notice, this list of conditions and the following disclaimer in the# documentation and/or other materials provided wi…

mysql复制的工作原理及主从复制的实现

mysql的复制功能主要有3个步骤主服务器将改变记录到二进制日志中,(这些记录叫做二进制日志事件)从服务器将主服务器的二进制日志事件拷贝到它的中继日志中从服务器重做中继日志中的事件。该过程的第一部分就是主服务器记录二进制日志&#xf…

33条C#、.Net经典面试题目及答案

1, 请你说说.NET中类和结构的区别? 答:结构和类具有大体的语法,但是结构受到的限制比类要多。结构不能申明有默认的构造函数,为结构的副本是又编译器创建和销毁的,所以不需要默认的构造函数和析构函数。结构是值类型&…

pb 放弃数据窗口所做修改_为什么我放弃在线数据课程进行基于项目的学习

pb 放弃数据窗口所做修改by Josh Temple通过乔什坦普尔 为什么我放弃在线数据课程进行基于项目的学习 (Why I abandoned online data courses for project-based learning) 如何通过处理有趣的项目来发展基本数据技能 (How to develop essential data skills by tackling inte…

数字滤波器的matlab 与fpga实现,1 数字滤波器的MATLAB与FPGA实现——杜勇(配套光盘) 程序源码 - 下载 - 搜珍网...

压缩包 : f3d09239c2bf5ce6f06578c866ff06.rar 列表Chapter_3/E3_1/incremental_db/compiled_partitions/SymbExam.db_infoChapter_3/E3_1/incremental_db/READMEChapter_3/E3_1/simulation/modelsim/modelsim.iniChapter_3/E3_1/simulation/modelsim/msim_transcriptChapter_3…

Office 365 系列之九:配置和体验 Exchange 和 Lync

在之前的篇章中,我们已经安装好 Office 365 Pro Plus 和通过 O365 订阅激活了。接下来我们来看看具体怎么配置和使用 Exchange 和 Skype, 这部分内容对于学习过 Exchange Server 2016 和 Skype For Business 2015 的同学来说就很简单了。通过 OWA 访问 Exchange 对于…

leetcode 1631. 最小体力消耗路径(并查集)

你准备参加一场远足活动。给你一个二维 rows x columns 的地图 heights ,其中 heights[row][col] 表示格子 (row, col) 的高度。一开始你在最左上角的格子 (0, 0) ,且你希望去最右下角的格子 (rows-1, columns-1) (注意下标从 0 开始编号&…

netflix_Netflix的Polynote

netflixNetflix open source Polynote is a new notebook environment and was born out of the necessity to accelerate data science experimentation at Netflix.Netflix开源Polynote是一种新的笔记本环境,其诞生是出于加速Netflix数据科学实验的需要。 Over t…

Django-内置用户系统

Django自带的用户认证 我们在开发一个网站的时候,无可避免的需要设计实现网站的用户系统。此时我们需要实现包括 1.用户注册 2.用户登录 3.用户认证 4.注销 5.修改密码 Django作为一个完美主义者的终极框架,当然也会想到用户的这些痛点。它内置了强大的用…

React 与 可视化

一般会想到 canvas 和 svg ; svg更适合画图, 但由于cavans在移动端的良好兼容性, 使用的更广; 什么是svg, scalable vector graphics 全称 可缩放矢量图形, 是一种来描述二维矢量图形的xml语言 canvas 能做的 svg基本都可以做, 字体图标, icon, logo 也能作 在ie上也是从ie9开…

css 跳动的心_如何用纯CSS为您的情人打造一颗跳动的心

css 跳动的心Each year on February 14th, many people exchange cards, candies, gifts or flowers with their special “valentine”. The day of romance we call Valentine’s Day is named for a Christian martyr and dates back to the 5th century, but has origins i…