Python爬虫--Scrapy框架安装

Scrapy框架安装 ,

Scrapy 是 Python 领域专业的爬虫开发框架,已经完成爬虫程序的大部分通用工具

它使用了 Twisted 异步网络库来处理网络通讯。整体架构大致如下

images

第一步:挂小灰机或者将要安装的文件下载到本地

Scrapy 框架安装踩坑中

为什么要挂小灰机呢??

因为有些扩展包需要科学上网才能下载,不挂的话会出错

如果确实挂不了的话,可以考虑才其他地方下载安装包到本地,

然后在本地进行安装。


第二步:升级pip

pip 是一个现代的,通用的 Python 包管理工具。提供了对 Python 包的查找、下载、安装、卸载的功能。

在安装扩展包的时候,可会因为 pip 版本过低安装不了

例如出现如下错误

images


这个时候我们可以考虑先升级 pip ,然后再安装扩展包

升级命令:

python -m pip install --upgrade pip

这样就成功升级了

images


第三步:安装wheel

Python的第一个主流打包格式是 .egg 文件,

现在大家庭中又有了一个叫做 Wheel(*.whl) 的新成员。

wheel 被设计成包含PEP 376兼容安装(一种非常接近于磁盘上的格式)的所有文件。

你可以这么理解,source是源代码,如果包含C++的化需要编译,

而 wheel 是编译后的,可以直接安装。 pip 默认的也是先下载 wheel 文件安装,没有的话再源码编译安装


安装 wheel 的话,我们采用网络安装,不需要挂小灰机

出现这个就表示已经安装好了

images


第四步:安装lxml

lxml 是 python 的一个解析库,支持 HTML 和 XML 的解析,支持 XPath 解析方式,而且解析效率非常高

XPath,全称 XML Path Language,即 XML 路径语言,它是一门在 XML 文档中查找信息的语言,

它最初是用来搜寻 XML 文档的,但是它同样适用于 HTML 文档的搜索


现在来安装 lxml ,我们采用下载安装,就是将安装包下载到本地进行安装

打开这个网站:https://www.lfd.uci.edu/~gohlke/pythonlibs/

然后找到 lxml 下载

这里 cp37 表示 python 版本 ,win_amd64 表示 Windows 位数是 64 位的

下载对应的版本就好了

images


然后下载到了 D 盘 ,Python37 文件夹下了

然后进入这个文件夹下安装即可

命令:

pip install lxml-4.4.1-cp37-cp37m-win_amd64.whl  #  pip install 文件全名

这样就安装成功了

images


第五步:安装Twisted

Twisted 介绍:


1.Twisted 是用 Python 实现的基于事件驱动的网络引擎框架。 Twisted 诞生于2000年初,2.在当时的网络游戏开发者看来,无论他们使用哪种语言,手中都鲜有可兼顾扩展性及跨平台的网络库。3.Twisted 的作者试图在当时现有的环境下开发游戏,这一步走的非常艰难,4.他们迫切地需要一个可扩展性高、基于事件驱动、跨平台的网络开发框架,5.为此他们决定自己实现一个,并从那些之前的游戏和网络应用程序的开发者中学习,汲取他们的经验教训。6.Twisted 支持许多常见的传输及应用层协议,7.包括 TCP 、 UDP 、 SSL/TLS 、HTTP 、IMAP 、SSH 、IRC 以及 FTP 。8.就像python一样,Twisted 也具有“内置电池”(batteries-included)的特点。9.Twisted对于其支持的所有协议都带有客户端和服务器实现,10.同时附带有基于命令行的工具,使得配置和部署产品级的 Twisted 应用变得非常方便。

安装 Twisted ,我们也使用本地安装的方法

还是这个网站:https://www.lfd.uci.edu/~gohlke/pythonlibs/

还是跟之前一样,找到对应的版本下载

然后安装

这样就安装成功了,如果这样都安装不了的话,建议挂个小灰机再安装

images


第六步:安装Scrapy

前面的准备工作完成了

最后一步就是安装 Scrapy 了

这一步无需挂小灰机,如果确实怕出错,挂上也无所谓

命令:

pip install scrapy

出现这个就表示成功安装了

images


如果不确定是否安装成功,可以输入 scrapy

如果能够显示出信息,就说明成功了

images


总结:

到这里 Scrapy 就安装结束了

接下来开启新的爬虫之旅了!!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/4828.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Blender曲线操作

1.几种常见建模方式 -多边形建模:Blender,C4D,3DsMax,MaYa -曲线: -曲面:Rhino(Nurbs) -雕刻:Blender,ZBrush -蜡笔:Blender 1)新…

【办公类-22-14】周计划系列(5-6)“周计划-06 19周的周计划教案合并打印PDF(最终打印版))

背景需求: 花了十周,终于把周计划教案的文字都写满、加粗、节日替换了。为了便于打印,我把19周的周计划教案全部合并在一起PDF。制作打印用PDF 思路 1、周计划是单独打印一张,因此要在第2页插入空白页, 2、教案有3页…

鸿蒙launcher浅析

鸿蒙launcher浅析 鸿蒙launcher源码下载鸿蒙launcher模块launcher和普通的应用ui展示的区别 鸿蒙launcher源码下载 下载地址如下: https://gitee.com/openharmony/applications_launcher 鸿蒙launcher模块 下载页面已经有相关文件结构的介绍了 使用鸿蒙编辑器D…

CMDB系统的目标

CMDB即配置管理数据库(Configuration Management Database, CMDB)系统被广泛应用于实现IT资产管理和IT服务管理。CMDB系统的目标是建立一个全面的、精确的信息数据库,用于追踪、管理和记录IT基础设施的配置信息及其相关关系,从而提…

Spring Cloud Gateway直接管理Vue.js的静态资源

1. 构建Vue.js应用 像之前一样,构建你的Vue.js应用,并将生成的静态资源(位于dist目录)复制到Spring Boot项目的某个目录,比如src/main/resources/static。 2. 配置Spring Boot静态资源处理 Spring Boot默认会处理sr…

linux文件夹映射到本地win系统

在Linux上安装和配置Samba服务器相对简单,以下是基本的步骤: 1. **安装Samba软件包**:使用你的Linux发行版的包管理器来安装Samba软件包。例如,在基于Debian的发行版(如Ubuntu)上,你可以使用以…

OpenHarmony开发实例:【电话簿联系人Contacts】

样例简介 Contacts应用是基于OpenHarmony SDK开发的安装在润和HiSpark Taurus AI Camera(Hi3516d)开发板标准系统上的应用;应用主要功能是展示联系人列表,并点击某一列弹出联系人详细信息; 运行效果 样例原理 样例主要有一个list组件和dia…

Docker本地部署overleaf后,挖掘用户加密逻辑

overleaf的用户信息,保存在mongo数据库的users集合中。 用户密码则存在hashedPassword字段中 从开源的代码services\web\app\src\Features\Authentication\AuthenticationManager.js第303行可以找到密码加密逻辑。 本地可以通过下面的代码生成overleaf用户密码信息…

如何在每天特定的时间打开指定的网页?教你设置每天自动打开指定网页

在现代社会,互联网已成为我们日常生活和工作中不可或缺的一部分。随着科技的 发展,我们可以利用各种工具和技术来提高我们的工作效率和生活品质。其中,定 时自动打开指定的网址便是一个实用的功能,它可以帮助我们节省时间&#xf…

从零开始搭建SpringCloud

从零开始搭建Spring Cloud涉及到多个步骤和组件的配置。以下是一个大致的指南,帮助你逐步搭建Spring Cloud环境: 安装Java开发环境: 安装JDK(Java开发工具包)并确保环境变量配置正确。选择一个合适的IDE(集…

【element-ui】el-table横向滚动后,通过is-scrolling-left获取滚动高度失效的问题

el-table横向滚动后,通过is-scrolling-left获取滚动高度失效的问题 需求 现在有一个需求,需要监听el-table的纵向滚动,当滚动高度达到特定值时进行一些操作。 代码如下: methods:{throttledHandleScroll() {// 如果已经有定时器…

百万人都在求的网络安全学习路线,渗透漏洞防御总结(附图)

前言 不折腾的网络安全,和咸鱼有什么区别 目录 二、 前言三 、同源策略 3.1 什么是同源策略 3.2 为什么需要同源策略四 、XSS 4.1 概览 4.2 介绍 4.3 防御五 、CSRF 5.1 概览 5.2 介绍 5.3 防御六、 SQL 注入七 、流量劫持 7.1 DNS 劫持 7.2 HTTP 劫持…

【Canvas与艺术】 绘制五星红旗

【注意】 该图中五星定位和大小都是按 https://www.douyin.com/note/7149362345016380710 精确绘制的。 【成图】 【代码】 <!DOCTYPE html> <html lang"utf-8"> <meta http-equiv"Content-Type" content"text/html; charsetutf-8&q…

秋招后端开发面试题 - Java IO

目录 Java IO前言面试题Java IO 流&#xff1f;字节流 vs 字符流区别&#xff1f;字节缓冲流 vs 字符缓冲流&#xff1f;打印流&#xff1f;System.out.println() 是什么&#xff1f;随机访问流&#xff1f;管道流&#xff1f;讲讲 Filter 流&#xff1f;常见的 IO 模型&#x…

【前端】6. JavaScript(WebAPI)

WebAPI 背景知识 什么是 WebAPI 前面学习的 JS 分成三个大的部分 ECMAScript: 基础语法部分DOM API: 操作页面结构BOM API: 操作浏览器 WebAPI 就包含了 DOM BOM. 这个是 W3C 组织规定的. (和制定 ECMAScript 标准的大佬们不是一伙人). 前面学的 JS 基础语法主要学的是 EC…

【多维动态规划】Leetcode 64. 最小路径和【中等】

最小路径和 给定一个包含非负整数的 m x n 网格 grid &#xff0c;请找出一条从左上角到右下角的路径&#xff0c;使得路径上的数字总和为最小。 说明&#xff1a;每次只能向下或者向右移动一步。 示例 1&#xff1a; 输入&#xff1a;grid [[1,3,1],[1,5,1],[4,2,1]] 输出…

手动在Ubuntu22.04上部署LAMP环境

简介 LAMP环境是常用的Web开发环境之一&#xff0c;其中LAMP分别代表Linux、Apache、MySQL和PHP。本文介绍如何在Ubuntu操作系统的ECS实例内部署LAMP环境。 准备工作 该实例必须满足以下条件&#xff1a; 实例已分配公网IP地址或绑定弹性公网IP&#xff08;EIP&#xff09;。…

关于Dockerfile镜像实例

文章目录 Dockerfile镜像实例一、构建SSH镜像1、建立工作目录2、生成镜像3、启动容器并修改root密码 二、构建systemd镜像1、建立工作目录2、生成镜像3、运行镜像容器4、测试容器systemd 三、构建Nginx镜像1、建立工作目录2、编写Dockerfile脚本3、编写run.sh启动脚本4、生成镜…

源代码加密

企业到底该如何正确选择源代码加密产品&#xff1f; 源代码加密的方法和重点到底是怎样的&#xff1f; 源代码开发环境复杂&#xff0c;涉及的开发软件、文件类型庞杂多变&#xff0c;究竟有什么源代码加密软件能够适应众多开发软件而不影响原有的工作效率&#xff1f; 相信…

个人学习总结__打开摄像头、播放网络视频的以及ffmpeg推流

前言 最近入手了一款非常便宜的usb摄像头&#xff08;买回来感觉画质很低&#xff0c;没有描述的4k&#xff0c;不过也够用于学习了&#xff09;,想着利用它来开启流媒体相关技术的学习。第一步便是打开摄像头&#xff0c;从而才能够对它进行一系列后续操作&#xff0c;诸如实…