搭建python_Crawlab准备之python+scrapy环境搭建

阅读文本大概需要3分钟。

      上篇《分布式爬虫管理平台Crawlab开发搭建》把爬虫的管理后台搭建起来了;捣鼓一番发现要真正爬取数据还有下不少的功夫。这篇看看怎么搭建python+scrapy环境。

0x01:安装Python3

  • 下载python安装包,具体版本根据自己的系统要求

    https://www.python.org/downloads/windows/

  • 下载安装完成后直接cmd输入python,可正常查看版本

d97f1a7a2b60550e18d0f77f64ffa7bc.png

注:安装过程中请注意一定要请勾选pip安装并加入到环境变量中,否则后续无法正常安装第三方类库。

0x02:安装爬虫所需的一些常用类库

  • 安装 selenimu 自动化web包,cmd进入任意目录,执行 

        pip install selenium

  • 安装 pymysql 连接mysql包,cmd进入任意目录,执行。方便以后把爬取的数据插入数据库

    pip install pymysql

  • 安装 pillow 图片处理包

    pip install pillow

备注:pillow官网

       https://pillow.readthedocs.io/en/latest/installation.html

  • 安装 pypiwin32 操作底层dll包

    pip install pypiwin32

  • 安装 requests 发送web请求包

    pip install requests

  • 安装 scrapy 爬虫框架包

    pip install scrapy

备注:安装爬虫框架必须依赖的第三方类库Twisted,在使用pip安装时会出现下载文件失败而无法安装问题,可以先下载Twisted安装文件。然后使用pip install安装Twisted。

      pip install 下载Twisted文件绝对路径

下载地址如下(下载与Python版本匹配的whl文件):

      https://www.lfd.uci.edu/~gohlke/pythonlibs/  

  • 安装解析网页内容包

    pip install bs4

0x03:验证scrapy 是否安装成功

进入cmd,输入 scrapy 查看scrapy是否安装成功

d964db8426e77978067a2d3ff6b9ac4e.png

0x04:创建爬虫项目

  • 创建项目,只需一行命令即可创建名为 tutorial 的Scrapy项目:

          scrapy startproject tutorial

tutorial项目的目录结构大概如下:

b13986f6afaba488f61954f78a3bb706.png

  • 创建爬虫的模板文件

    进入 ./tutorial/tutorial 执行:

    scrapy genspider QuoteSpider  "http://www.baidu.com"

  QuoteSpider是文件名,http://www.baidu.com是要爬取的域名, ./tutorial/tutorial/spiders 目录下生成一个QuoteSpider.py文件。文件内容如下:

eb496015b3d7186ee14d2d92006bbbcc.png

修改一下QuoteSpider.py文件:

import scrapyclass QuotespiderSpider(scrapy.Spider):
    name = 'QuoteSpider'# 允许爬取的域名# allowed_domains = ['landchina.mnr.gov.cn']
    start_urls = ['http://landchina.mnr.gov.cn/scjy/tdzr/index_1.htm']def parse(self, response): # resonse相当于从网络中返回内容所存储的或对应的对象
        fname = response.url.split('/')[-1] # 定义文件名字,把response中的内容写到一个html文件中with open(fname, 'wb') as f: # 从响应的url中提取文件名字作为保存为本地的文件名,然后将返回的内容保存为文件
            f.write(response.body)           
        self.log('Saved file %s.' % fname) # self.log是运行日志,不是必要的

这个代码很简单就是爬取一个页面,并保存到文件中。

执行tutorial爬虫项目,在cmd目录中执行

scrapy crawl QuoteSpider

执行日志如下

be799b02d3018ec1314dfcafbfab0143.png

可以在 tutorial 目录下看的 index_1.htm 文件;该文件就是爬取到的内容。

5d013c9160f2b4d6a4e2fe267507df15.png

往期精彩

01 Sentinel如何进行流量监控

02 Nacos源码编译

03 基于Apache Curator框架的ZooKeeper使用详解

04 spring boot项目整合xxl-job

05 互联网支付系统整体架构详解

关注我

每天进步一点点

7ec5a7c41a8aa5d3611153a3a370bff6.png

喜欢!在看☟

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/502646.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

64测试cpu稳定性_SuperPI-圆周率计算与CPU性能与稳定性测试

Super PI是由东京大学Kanada lab出品的一款专用于检测CPU稳定性的软件,目前最新版本是1.9版,更新于2013年了。Super PI软件通过计算预定的圆周率让CPU高负荷运作,从而达到考验CPU计算的能力与稳定的作用。同时也能计算出圆周率来保存到文本文…

python对比两个文件找出不同并显示_python difflib模块实现两个文件差异对比,并输出html格式。...

difflib 模块包含一些用来计算和处理序列之间差异的工具。它对于比较文本尤其有用,其中包含的函数可以使用多种常用差异格式生成报告。 实现了三个类: SequenceMatcher 任意类型序列的比较 (可以比较字符串) Differ 对字符串进行比较 HtmlDiff 将比较结果…

传值类型_java中的“传值”与“传址”问题

“用对象来生成对象”“对象作为参数进行传递”“构造方法中的参数为对象”问题本质上是“传值”与“传址”的问题先说结论:1、基本类型(包括String类)作为参数传递时,是传递值的拷贝,无论你怎么改变这个拷贝&#xff…

python可以处理wps吗_基于python的docx模块处理word和WPS的docx格式文件方式

基于python的docx模块处理word和WPS的docx格式文件方式 发布时间:2020-08-23 05:37:05 来源:脚本之家 阅读:109 Python docx module for Word or WPS processing 本文是通过docx把word中的表格中的某些已填好的内容提取出来,存入e…

两个苹果手机如何同步数据_同步苹果手机和Windows的提醒事项

作为一个学生党,能买得起苹果手机已经是一件很幸福的事情了,拥有苹果电脑只是一个美好的愿望,所以现在常见的搭配就是苹果手机加Window电脑,这样就有一个问题,就是苹果手机和Windows电脑的提醒事项没有办法同步&#x…

低通滤波器算法实现_控制算法手记自抗扰控制的几点思考

写在前面在谈自己的一些思考之前,放上一本简明的教材(只有133页),对自抗扰控制ADRC (Active disturbance rejection control)的起源、基本思路、结构、发展及应用做了阐述,是很好的入门读物。图1. 自抗扰控制入门书籍如果要达到弄懂&#xff…

添加日志_第五章springboot2.0添加aop日志实现记录请求地址

1. 添加spring-boot-starter-aop包<dependency><groupId>org.springframework.bootgroupId><artifactId>spring-boot-starter-aopartifactId><version>2.0.0.RELEASEversion>dependency>2. 新建WebLogAspect类3. 添加Aspect Component注解…

本机连接opc server有部分数据不刷新_实时数据库PI在企业MES系统中的应用

实时数据库是计算机控制系统和上层生产管理系统数据存储和展示的核心。结合河南天冠燃料乙醇有限公司MES系统应用实例&#xff0c;介绍了实时数据库PI的安装部署&#xff0c;建立信号量集和数据导入&#xff0c;以及客户端接口配置&#xff0c;数据库测试等相关主题。通过基于P…

pythonlistsort函数_python用List的内建函数list.sort进行排序

对List进行排序&#xff0c;Python提供了两个方法方法1.用List的内建函数list.sort进行排序list.sort(funcNone, keyNone, reverseFalse)Python实例&#xff1a;方法2.用序列类型函数sorted(list)进行排序(从2.4开始)Python实例&#xff1a;两种方法的区别&#xff1a;sorted(l…

java 数组赋值_自学JAVA每日记录(10)-欢迎指点欢迎共勉

接上一篇编程练习&#xff1a;编写一个JAVA程序&#xff0c;创建指定长度的 int 型数组&#xff0c;并生成 100 以内随机数为数组中的每个元素赋值&#xff0c;然后输出数组要求&#xff1a;1、 要求通过定义带参带返回值的方法来实现2、 通过参数传入数组的长度&#xff08;例…

agv系统介绍_AGV地面控制系统介绍

AGV控制系统分为地面(上位)控制系统、车载(单机)控制系统及导航/导引系统&#xff0c;其中&#xff0c;地面控制系统指AGV系统的固定设备&#xff0c;主要负责任务分配&#xff0c;车辆调度&#xff0c;路径(线)管理&#xff0c;交通管理&#xff0c;自动充电等功能&#xff1b…

python爬虫绕过验证码_爬虫怎样绕过验证码?

叶湘伦&#xff1a;【文字篇】如何系统地自学 Python&#xff1f;​zhuanlan.zhihu.com1&#xff0c;cookie登录利用cookie的特性&#xff1a;cookie会保持较长的时间&#xff0c;来避免用户频繁登录cookie一般由前端开发用js生成&#xff0c;可以利用抓包尝试下破解&#xff0…

python数据变更邮件提醒_如何使python脚本在某些数据更改时自动发送电子邮件?...

所以基本上&#xff0c;我做了一个python脚本&#xff0c;每12小时给我发送一封包含我公共IP地址的电子邮件。我的目标是使它自动发送电子邮件只有当我的IP更改。如果我能帮上忙的话。在我的密码是&#xff1a;from json import loadsfrom urllib.request import urlopenimport…

java异常处理机制_Java编程中的异常机制

本文旨在以初学者的角度来学习Java异常的知识&#xff0c;尽量简单&#xff0c;一些细枝末节的知识不会讲述&#xff0c;但不影响对知识的掌握。&#xff08;比如try-catch可以嵌套&#xff0c;不太会这么用&#xff09;1.什么是异常我们先举个例子int 在IDE里输入这样一个stat…

数组字典_VBA数组与字典解决方案第34讲:数组的传递

大家好&#xff0c;今日我们继续讲解VBA数组与字典解决方案&#xff0c;今日讲解的是第34讲&#xff1a;数组的传递。在应用数组的时候&#xff0c;我们往往需要要把数组的值由一个数组传递给另外一个数组&#xff0c;就如同变量的传递一样&#xff1a;AB 把B值赋给ACA 把A值赋…

为什么代码正确却没有爬虫的信息_为什么敷面膜没有效果?原来这才是敷面膜的正确步骤...

七夕泥萌都去哪浪了&#xff1f;是不是化个美美的妆&#xff0c;然后出门吃吃吃逛逛逛&#xff1f;说到出门前化妆&#xff0c;很多小仙女会在化妆前敷面膜&#xff0c;让皮肤保持一个好状态&#xff0c;壹知肤护肤研究中心贺老师&#xff08;sunny老师&#xff09;提到其实这是…

合并 多个dataframe_什么是Pandas的DataFrame?

1. 什么是DataFrameDataFrame是一个表格型的数据结构&#xff0c;它含有一组有序的列&#xff0c;每列可以是不同的值类型&#xff08;数值、字符串、布尔值等&#xff09;。DataFrame既有行索引也有列索引&#xff0c;它可以被看做由series组成的字典&#xff08;共用同一个索…

linux部署python web项目 详细_在linux服务器下部署python工程(爬虫)

---恢复内容开始---这两天 部署 这个 工程 &#xff0c;真的是 心力交瘁惹。如果有用到爬虫的话&#xff0c;python环境 先配好&#xff0c;如果是 python3的话 beautifulsoup 可以参见http://www.cnblogs.com/clover-xuqi/p/7155496.html 正题&#xff1a;简单来说 &#xff…

jap sql 保存_【hibernate spring data jpa】执行了save()方法 sql语句也执行了,但是数据并未插入数据库中...

【转】用CSS代码写出的各种形状图形的方法一共收集整理了图形20个,比较实用,同时也为了熟悉CSS的代码.整合了一下,有错误欢迎指出. 1.正方形 #square {width: 100px;height: 100px;background: ...转 -android&colon;程序无响应&#xff0c;你该如何定位问题&#xff1f;如…

web td不对齐_珍稀干货!阿里 Web 音视频开发趟坑指南

作者 | 阿里文娱前端技术专家 归影责编 | 夕颜出品 | CSDN(ID:CSDNnews)这不是一篇基于MSE开发Web播放器的入门文章&#xff0c;而是围绕Web播放器开发遇到的常见问题与解决方案&#xff0c;毕竟入门文章常有而趟坑干货不常有。如果您有Web播放开发经验和音视频技术基础&#x…