scrapy没有运行结果_关于Scrapy爬虫项目运行和调试的小技巧(下篇)

1f7006030b37896a259335e5db12f3b8.png

前几天给大家分享了关于Scrapy爬虫项目运行和调试的小技巧上篇,没来得及上车的小伙伴可以戳超链接看一下。今天小编继续沿着上篇的思路往下延伸,给大家分享更为实用的Scrapy项目调试技巧。
三、设置网站robots.txt规则为False
一般的,我们在运用Scrapy框架抓取数据之前,需要提前到settings.py文件中,将“ROBOTSTXT_OBEY = True”改为ROBOTSTXT_OBEY = False。
在未改动之后settings.py文件中默认爬虫是遵守网站的robots.txt规则的,如下图所示。

174d925f887b3748d1cbd5765539505d.png


如果遵守robots.txt规则的话,那么爬取的结果会自动过滤掉很多我们想要的目标信息,因此有必要将该参数设置为False,如下图所示。

0b17e28875da2cd9c122ba90efb58f37.png


设置好robots.txt规则之后,我们便可以抓到更多网页的信息。
四、利用Scrapy shell进行调试
通常我们要运行Scrapy爬虫程序的时候会在命令行中输入“scrapy crawl crawler_name”,细心的小伙伴应该知道上篇文章中创建的main.py文件也是可以提高调试效率的,不过这两种方法都是需要从头到尾运行Scrapy爬虫项目,每次都需要请求一次URL,效率十分低。运行过Scrapy爬虫项目的小伙伴都知道Scrapy运行的时候相对较慢,有时候因为网速不稳定,根部就无法动弹。针对每次都需要运行Scrapy爬虫的问题,这里介绍Scrapy shell调试方法给大家,可以事半功倍噢。
Scrapy给我们提供了一种shell模式,让我们可以在shell脚本之下获取整个URL对应的网页源码。在命令行中进行运行,其语法命令是“scrapy shell URL”,URL是指你需要抓取的网页网址或者链接,如下图所示。

ef65ea7757ed2bebd7970090d9789167.png


该命令代表的意思是对该URL进行调试,当命令执行之后,我们就已经获取到了该URL所对应的网页内容,之后我们就可以在该shell下进行调试,再也不用每次都执行Scrapy爬虫程序,发起URL请求了。
通过shell脚本这种方式可以极大的提高调试的效率,具体的调试方法同爬虫主体文件中的表达式语法一致。举个栗子,如下图所示。

ef8ce4201a21f38e0a7c9d38a6992ac0.png


将两个Xpath表达式所对应的选择器放到scrapy shell调试的脚本下,我们可以很清楚的看到提取的目标信息,而且省去了每次运行Scrapy爬虫程序的重复步骤,提高了开发效率。这种方式在Scrapy爬虫过程中十分常用,而且也十分的实用,希望小伙伴们都可以掌握,并且积极主动的为自己所用。
关于Scrapy爬虫项目运行和调试的部分小技巧先分享到这里,尤其是Debug调试和Scrapy shell调试极为常用,希望小伙伴们可以多多利用起来,让其为自己的项目服务,可以事半功倍噢~~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/559533.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

信佑无盘主服务器密码,(信佑无盘帮助手册.doc

(信佑无盘帮助手册1.无盘服务器配置:1.系统盘:1 块2.数据盘和内存最底配置: 内存:4G数据盘: 1块回写盘: 1,块150台以下:intel 3000-5000 芯片系列主板 或AMD平台,64位CPU8 -16G3块sas做读,3块sas做写.100台以下&#…

easyui datagrid oncheck 修改行样式_100 种 PPT 图表样式送给你

你好,这里是诺灰屋我是诺灰距离上一篇推文,已有近一个月的时间没有给大家写推送了。这期间,我一直在进行数据图表方面知识的网络调研。甚至于在知网上找了几篇论文来看,当然,内容很枯燥,不实用。同时&#…

学excel还是学python_已经会Excel了还需要学python吗?

作为一名现代职场人,相信Excel是我最熟悉不过的工具了。作为数据处理的日常办公软件,Excel以其优秀的数据分析处理功能,简单易用的操作成为大家的最爱。也许你不知道python是什么,但是一定知道Excel。 作为一名小白,我…

系统如何启动数据库服务器,怎么启动sql数据库服务器

怎么启动sql数据库服务器 内容精选换一换PostgreSQL支持逻辑备份。您可使用pg_dump逻辑备份功能,导出备份文件,再通过psql导入到RDS中,实现将PostgreSQL的数据导入到云数据库RDS中。云数据库RDS服务支持开启公网访问功能,通过弹性…

富士康服务器主板X58维修,富士康X58 Blood Rage主板BIOS预览

富士康X58主板Blood Rage在软硬件方面都已经设计完成,下边就来看看BIOS设定部分。通用条目这里暂且略过,只看看富士康独特的“Quantum BIOS”部分,有关系统各部件的条件以及超频都要在这儿完成。Quantum BIOS主界面:分为处理器功能…

python手动安装包_python pip如何手动安装二进制包

python中使用pip安装扩展包的时候,有时候会遇到如下类似报错: Running setup.py install for mysqlclient ... error ...(中间报错信息省略) building MySQLdb._mysql extension error: Microsoft Visual C 14.0 is required. Get it with "Build T…

amd cpu不能在cmd环境下运行java代码_00 开发环境搭建

我们来着手在本地计算机环境安装 TensorFlow 最新版框架。TensorFlow 框架支持多种常见的操作系统,如 Windows 10、Ubuntu 18.04、Mac OS 等等,同时也支持运行在 NVIDIA 显卡上的 GPU 版本和仅适用 CPU 完成计算的 CPU 版本。我们以最为常见 Windows 10 …

更新无限无线连接更新服务器,02-H3C WBC560多业务无线控制器软件升级操作指导...

本文中的绿洲平台指的是WBC560多业务无线控制器中的本地绿洲。1.1.1 软件升级方式简介AC支持通过命令行进行软件升级和通过Web页面进行软件升级,命令行升级方式只能通过以太网口telnet到AC进行升级,无法通过HDM进行升级。升级方式说明需要重启AC来实现A…

pythonista_Pythonista20190325伤不起

图片发自简书App print("You enter a dark room with two doors. Do you go through door #1 or door #2?") door input("> ") if door "1": print("Theres a giant bear here eating a cheese cake,What do you do?") print(&…

nfc卡模式与标准模式_渠道如何标准化管理,建立新的销售模式,提升业绩完成率...

请您关注,转发,点赞!转化能力持续为您创作实用有效的营销工具,管理工具,计划表格,如何完成业绩方法,战略如何规划,如何总结和规划等实用文件,提高职场营销人的营销能力和…

计算机组成原理r型指令logisim实现_第一章 计算机体系结构

需要掌握的内容:存储程序计算机计算机系统的多级层级结构计算机体系结构计算机组成计算机实现计算机体系结构、组成与实现三者的关系存储程序计算机透明性Amdahl定律CPU 性能公式程序局部性原理计算机性能的若干定义计算机体系结构分类计算机体系结构的发展影响计算…

智力问答选择题_经典智力问答题汇总

经典智力问答题汇总1、什么动物最没有方向感?答案:麋鹿(迷路)2、什么动物猜拳永远不会有输赢?答案:螃蟹3、什么动物最容易摔倒?答案:狡猾的狐狸(脚滑)4、什么鸡没有翅膀?答案:田鸡5、…

两个矩阵是否相交的算法_算法血拼:Google+百度+Alibaba+字节+Tencent+网易+360+拼夕夕...

最热的三伏天来了,相信有许多小伙伴们都已马不停蹄的在准备各大厂的秋招提前批了吧,不知算法与数据结构会不会成为你的坎?恰好,我这两天花了点时间,整理了些各大厂(Google百度Alibaba字节Tencent网易360拼夕夕美团小米…

神经网络 顾晓东_基于神经网络的图像边缘检测方法

!DJ1$0’’"0’"’/’&/)-%$(’"-%%’>,$2%’/5-,NYW;_K)1>L05%fPDb05>-51%MP;b01>81#/(--525(.P.(*V,71(W2155*12%/01,’1-1,23145*6178%K,2L0()A!%%!G%/01,$!(/,$&/(DV570(J(.5J25J57571(%O,65J(5)*,-57U(*R616S*(S(65J1705S,S5*:E05V570…

安装python缺少dll_Microsoft.PythonTools.dll

我该如何安装从金山毒霸下载的DLL文件? 一: 1、从金山毒霸下载压缩文件。 2、将DLL文件解压到电脑上的某个地方。 3、把该文件跟要求使用它的程序放在同一路径上。注意32位程序需要使用32位的DLL文件,64位程序需要使用64位的DLL文件。否则会出…

cp 过程流程图模板_程序流程图有什么用?简单实用的流程图模板大全

原标题:程序流程图有什么用?简单实用的流程图模板大全程序流程图是什么呢?程序流程图就是用规定的符号描述一个程序中所需的各种操作或者判断的图表。程序流程图的设计是在处理流程图的基础上,通过对数据的整理、计算和分析&#…

arduino esp8266_你还用Arduino?上PlatformIO开发Esp、AVR、STM32,十分钟亲测ESP8266

简介对单片机最早的认识是大一的时候刷到的C51单片机,那时候玩了一阵子感觉可玩性不高,后来有了解到Arduino,买了两Uno回来用Arduino开发感觉可玩性和快速开发都比C51强多了,再后来了解了NodeMCU这玩意,又入手了Esp826…

python中ndim是什么_Numpy中ndim、shape、dtype、astype的用法详解

本文介绍numpy数组中这四个方法的区别ndim、shape、dtype、astype。1.ndimndim返回的是数组的维度,返回的只有一个数,该数即表示数组的维度。2.shapeshape:表示各位维度大小的元组。返回的是一个元组。对于一维数组:有疑问的是为什…

python怎么引入os模块的函数_Python里的OS模块常用函数说明

Python的标准库中的os模块包含普遍的操作系统功能。如果你希望你的程序能够与平台无关的话,这个模块是尤为重要的。即它允许一个程序在编写后不需要任何改动,也不会发生任何问题,就可以在Linux和Windows下运行。 下面列出了一些在os模块中比较…

java jpeg压缩解码_JPEG图像压缩原理简介

JPEG(发音:[ˈdʒeɪpɛg])是一种针对照片视频而广泛使用的有损压缩标准方法。这个名称代表 Joint Photographic Experts Group(联合图像专家小组)。联合图像专家小组1992年发布了JPEG的标准而在1994年获得了ISO 10918-1的认定。JPEG与视频音频压缩标准的MPEG(Movin…