搭建python_Crawlab准备之python+scrapy环境搭建

阅读文本大概需要3分钟。

      上篇《分布式爬虫管理平台Crawlab开发搭建》把爬虫的管理后台搭建起来了;捣鼓一番发现要真正爬取数据还有下不少的功夫。这篇看看怎么搭建python+scrapy环境。

0x01:安装Python3

  • 下载python安装包,具体版本根据自己的系统要求

    https://www.python.org/downloads/windows/

  • 下载安装完成后直接cmd输入python,可正常查看版本

d97f1a7a2b60550e18d0f77f64ffa7bc.png

注:安装过程中请注意一定要请勾选pip安装并加入到环境变量中,否则后续无法正常安装第三方类库。

0x02:安装爬虫所需的一些常用类库

  • 安装 selenimu 自动化web包,cmd进入任意目录,执行 

        pip install selenium

  • 安装 pymysql 连接mysql包,cmd进入任意目录,执行。方便以后把爬取的数据插入数据库

    pip install pymysql

  • 安装 pillow 图片处理包

    pip install pillow

备注:pillow官网

       https://pillow.readthedocs.io/en/latest/installation.html

  • 安装 pypiwin32 操作底层dll包

    pip install pypiwin32

  • 安装 requests 发送web请求包

    pip install requests

  • 安装 scrapy 爬虫框架包

    pip install scrapy

备注:安装爬虫框架必须依赖的第三方类库Twisted,在使用pip安装时会出现下载文件失败而无法安装问题,可以先下载Twisted安装文件。然后使用pip install安装Twisted。

      pip install 下载Twisted文件绝对路径

下载地址如下(下载与Python版本匹配的whl文件):

      https://www.lfd.uci.edu/~gohlke/pythonlibs/  

  • 安装解析网页内容包

    pip install bs4

0x03:验证scrapy 是否安装成功

进入cmd,输入 scrapy 查看scrapy是否安装成功

d964db8426e77978067a2d3ff6b9ac4e.png

0x04:创建爬虫项目

  • 创建项目,只需一行命令即可创建名为 tutorial 的Scrapy项目:

          scrapy startproject tutorial

tutorial项目的目录结构大概如下:

b13986f6afaba488f61954f78a3bb706.png

  • 创建爬虫的模板文件

    进入 ./tutorial/tutorial 执行:

    scrapy genspider QuoteSpider  "http://www.baidu.com"

  QuoteSpider是文件名,http://www.baidu.com是要爬取的域名, ./tutorial/tutorial/spiders 目录下生成一个QuoteSpider.py文件。文件内容如下:

eb496015b3d7186ee14d2d92006bbbcc.png

修改一下QuoteSpider.py文件:

import scrapyclass QuotespiderSpider(scrapy.Spider):
    name = 'QuoteSpider'# 允许爬取的域名# allowed_domains = ['landchina.mnr.gov.cn']
    start_urls = ['http://landchina.mnr.gov.cn/scjy/tdzr/index_1.htm']def parse(self, response): # resonse相当于从网络中返回内容所存储的或对应的对象
        fname = response.url.split('/')[-1] # 定义文件名字,把response中的内容写到一个html文件中with open(fname, 'wb') as f: # 从响应的url中提取文件名字作为保存为本地的文件名,然后将返回的内容保存为文件
            f.write(response.body)           
        self.log('Saved file %s.' % fname) # self.log是运行日志,不是必要的

这个代码很简单就是爬取一个页面,并保存到文件中。

执行tutorial爬虫项目,在cmd目录中执行

scrapy crawl QuoteSpider

执行日志如下

be799b02d3018ec1314dfcafbfab0143.png

可以在 tutorial 目录下看的 index_1.htm 文件;该文件就是爬取到的内容。

5d013c9160f2b4d6a4e2fe267507df15.png

往期精彩

01 Sentinel如何进行流量监控

02 Nacos源码编译

03 基于Apache Curator框架的ZooKeeper使用详解

04 spring boot项目整合xxl-job

05 互联网支付系统整体架构详解

关注我

每天进步一点点

7ec5a7c41a8aa5d3611153a3a370bff6.png

喜欢!在看☟

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/502646.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

64测试cpu稳定性_SuperPI-圆周率计算与CPU性能与稳定性测试

Super PI是由东京大学Kanada lab出品的一款专用于检测CPU稳定性的软件,目前最新版本是1.9版,更新于2013年了。Super PI软件通过计算预定的圆周率让CPU高负荷运作,从而达到考验CPU计算的能力与稳定的作用。同时也能计算出圆周率来保存到文本文…

传值类型_java中的“传值”与“传址”问题

“用对象来生成对象”“对象作为参数进行传递”“构造方法中的参数为对象”问题本质上是“传值”与“传址”的问题先说结论:1、基本类型(包括String类)作为参数传递时,是传递值的拷贝,无论你怎么改变这个拷贝&#xff…

两个苹果手机如何同步数据_同步苹果手机和Windows的提醒事项

作为一个学生党,能买得起苹果手机已经是一件很幸福的事情了,拥有苹果电脑只是一个美好的愿望,所以现在常见的搭配就是苹果手机加Window电脑,这样就有一个问题,就是苹果手机和Windows电脑的提醒事项没有办法同步&#x…

低通滤波器算法实现_控制算法手记自抗扰控制的几点思考

写在前面在谈自己的一些思考之前,放上一本简明的教材(只有133页),对自抗扰控制ADRC (Active disturbance rejection control)的起源、基本思路、结构、发展及应用做了阐述,是很好的入门读物。图1. 自抗扰控制入门书籍如果要达到弄懂&#xff…

添加日志_第五章springboot2.0添加aop日志实现记录请求地址

1. 添加spring-boot-starter-aop包<dependency><groupId>org.springframework.bootgroupId><artifactId>spring-boot-starter-aopartifactId><version>2.0.0.RELEASEversion>dependency>2. 新建WebLogAspect类3. 添加Aspect Component注解…

本机连接opc server有部分数据不刷新_实时数据库PI在企业MES系统中的应用

实时数据库是计算机控制系统和上层生产管理系统数据存储和展示的核心。结合河南天冠燃料乙醇有限公司MES系统应用实例&#xff0c;介绍了实时数据库PI的安装部署&#xff0c;建立信号量集和数据导入&#xff0c;以及客户端接口配置&#xff0c;数据库测试等相关主题。通过基于P…

java 数组赋值_自学JAVA每日记录(10)-欢迎指点欢迎共勉

接上一篇编程练习&#xff1a;编写一个JAVA程序&#xff0c;创建指定长度的 int 型数组&#xff0c;并生成 100 以内随机数为数组中的每个元素赋值&#xff0c;然后输出数组要求&#xff1a;1、 要求通过定义带参带返回值的方法来实现2、 通过参数传入数组的长度&#xff08;例…

java异常处理机制_Java编程中的异常机制

本文旨在以初学者的角度来学习Java异常的知识&#xff0c;尽量简单&#xff0c;一些细枝末节的知识不会讲述&#xff0c;但不影响对知识的掌握。&#xff08;比如try-catch可以嵌套&#xff0c;不太会这么用&#xff09;1.什么是异常我们先举个例子int 在IDE里输入这样一个stat…

数组字典_VBA数组与字典解决方案第34讲:数组的传递

大家好&#xff0c;今日我们继续讲解VBA数组与字典解决方案&#xff0c;今日讲解的是第34讲&#xff1a;数组的传递。在应用数组的时候&#xff0c;我们往往需要要把数组的值由一个数组传递给另外一个数组&#xff0c;就如同变量的传递一样&#xff1a;AB 把B值赋给ACA 把A值赋…

为什么代码正确却没有爬虫的信息_为什么敷面膜没有效果?原来这才是敷面膜的正确步骤...

七夕泥萌都去哪浪了&#xff1f;是不是化个美美的妆&#xff0c;然后出门吃吃吃逛逛逛&#xff1f;说到出门前化妆&#xff0c;很多小仙女会在化妆前敷面膜&#xff0c;让皮肤保持一个好状态&#xff0c;壹知肤护肤研究中心贺老师&#xff08;sunny老师&#xff09;提到其实这是…

合并 多个dataframe_什么是Pandas的DataFrame?

1. 什么是DataFrameDataFrame是一个表格型的数据结构&#xff0c;它含有一组有序的列&#xff0c;每列可以是不同的值类型&#xff08;数值、字符串、布尔值等&#xff09;。DataFrame既有行索引也有列索引&#xff0c;它可以被看做由series组成的字典&#xff08;共用同一个索…

web td不对齐_珍稀干货!阿里 Web 音视频开发趟坑指南

作者 | 阿里文娱前端技术专家 归影责编 | 夕颜出品 | CSDN(ID:CSDNnews)这不是一篇基于MSE开发Web播放器的入门文章&#xff0c;而是围绕Web播放器开发遇到的常见问题与解决方案&#xff0c;毕竟入门文章常有而趟坑干货不常有。如果您有Web播放开发经验和音视频技术基础&#x…

subscribe error不执行_你不知道的redis:第三方jar无封装命令我们该怎么执行?

redis的基本操作指令就不多说了&#xff0c;今天对redis的进阶操作给大家介绍一下&#xff0c;以及对于jedis和redisTemplate等工具包没有封装的命令我们该如何使用&#xff1f;相信大家读了本篇对redis的整体会有更深的认知。一、Pipelin模式介绍1、redis的通常使用方式大多数…

子窗体 记录选择_如何设计一个简单的Access登录窗体(1)

Access是一个对数据库新手相当友好的软件。Access的窗体功能确实是一种独一无二的前端设计平台&#xff0c;很多常见的人机交互用法&#xff0c;可以用Access的窗体来轻松实现&#xff0c;同时Access的查询和计算功能&#xff0c;也需要窗体的配合才能获得最佳的表达效果。 一、…

网页javascript加载不出_写给初学者的JavaScript异步编程和背后思想

导读&#xff1a;对于接触JavaScript这门编程语言没有多久的本菜鸡而言&#xff0c;在相当长的一段时间内&#xff0c;我都完全无法理解这门语言中的异步编程&#xff0c;不明白什么叫异步编程以及为什么需要异步编程。为什么顺序执行程序就不行了呢&#xff1f;非要使用异步回…

静态网页托管_求职季,教你制作一份精美的在线网页简历,程序员必看!!

引言近期和学弟交流了一下找实习的相关的话题&#xff0c;谈到了简历这块。虽然近期没有找工作的打算&#xff0c;但还是会不定期的更新自己的简历。于是将自己的简历分享了一下&#xff0c;没想到得到了这样的评价&#xff0c;心里还是挺高兴的。简历的形式是一个在线的静态网…

为什么不可以使用哈曼顿距离_K-means真的不能使用曼哈顿距离吗?

问题说到k-means聚类算法&#xff0c;想必大家已经对它很熟悉了&#xff0c;它是基于距离计算的经典无监督算法&#xff0c;但是有一次在我接受面试时&#xff0c;面试官问了我一个问题&#xff1a;“k-means为什么不能使用曼哈顿距离计算&#xff0c;而使用欧式距离进行计算&a…

linux 查看进程_Linux怎么查看和监控每个进程的实时流量

请关注本头条号&#xff0c;每天坚持更新原创干货技术文章。如需学习视频&#xff0c;请在微信搜索公众号**“智传网优”**直接开始自助**视频学习**1. 前言NetHogs是一个开源的命令行工具(类似于Linux的top命令)&#xff0c;用来按进程或程序实时统计网络带宽使用率。来自NetH…

mysql修改密码1820_mysql5.7初始化密码报错ERROR1820(HY000):YoumustresetyourpasswordusingALTERUSERstateme...

1&#xff0c;mysql5.6是密码为空直接进入数据库的&#xff0c;但是mysql5.7就需要初始密码cat /var/log/mysqld.log | grep password或者&#xff1a;grep temporary password /var/log/mysqld.lo2&#xff0c;然后执行 mysql -uroot -p&#xff0c;输入上面的到的密码进入&am…

linux复制文件夹到另一个目录_Linux|一个命令行统计给定目录中有多少个子目录,学浪计划...

wc命令用于统计指定文件的字节数、字数、行数、并将统计结果显示出来。一般格式&#xff1a; wc [选项] [文件]选项&#xff1a;-c&#xff0c;--bytes 统计字节数-l&#xff0c;--lines 统计行数-w&#xff0c;--words 统计字数ls命令-l 以长格式显示文本的详细信息。-R 表示递…