Python 爬虫进阶三之 Scrapy 框架安装配置

初级的爬虫我们利用 urllib 和 urllib2 库以及正则表达式就可以完成了,不过还有更加强大的工具,爬虫框架 Scrapy,这安装过程也是煞费苦心哪,在此整理如下。

官网

官方安装文档

安装python

安装 Python 安装过程我就不多说啦,我的电脑中已经安装了 Python 2.7.7 版本啦,安装完之后记得配置环境变量,比如我的安装在 D 盘,D:\python2.7.7,就把以下两个路径添加到 Path 变量中

D:\python2.7;D:\python2.7\Scripts

配置好了之后,在命令行中输入 python —version,如果没有提示错误,则安装成功

>python --version
Python 2.7.18

安装pip

pip 是用来安装其他必要包的工具,首先下载 get-pip.py 下载好之后,选中该文件所在路径,执行下面的命令

python get-pip.py

执行命令后便会安装好 pip,并且同时,它帮你安装了 setuptools 安装完了之后在命令行中执行

pip --version

安装pywin32

安装 pywin32 在 windows 下,必须安装 pywin32,执行

pip install pywin32

在 python 命令行下输入 import win32com 如果没有提示错误,则证明安装成功

安装pyOPENSSL

在 Windows 下,是没有预装 pyOPENSSL 的,而在 Linux 下是已经安装好的。 安装地址:https://launchpad.net/pyopenssl

安装LXML

lxml 的详细介绍 ,lxml是一种使用 Python 编写的库,可以迅速、灵活地处理 XML 直接执行如下命令

pip install lxml

就可完成安装,如果提示 Microsoft Visual C++ 库没安装,则点 Microsoft Visual C++ 库 下载支持的库。

安装scrapy

pip install Scrapy
>scrapy
c:\python27\lib\site-packages\OpenSSL\crypto.py:14: CryptographyDeprecationWarning: Python 2 is no longer supported by the Python core team. Support for it is now de
precated in cryptography, and will be removed in the next release.from cryptography import utils, x509
Scrapy 1.8.0 - no active projectUsage:scrapy <command> [options] [args]Available commands:bench         Run quick benchmark testfetch         Fetch a URL using the Scrapy downloadergenspider     Generate new spider using pre-defined templatesrunspider     Run a self-contained spider (without creating a project)settings      Get settings valuesshell         Interactive scraping consolestartproject  Create new projectversion       Print Scrapy versionview          Open URL in browser, as seen by Scrapy

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/402228.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

泛型类、泛型方法及泛型应用

泛型类、泛型方法及泛型应用 泛型是Java SE 1.5的新特性&#xff0c;泛型的本质是参数化类型&#xff0c;也就是说所操作的数据类型被指定为一个参数。这种参数类型可以用在类、接口和方法的创建中&#xff0c;分别称为泛型类、泛型接口、泛型方法。 Java语言引入泛型的好处是安…

Exynos4412 中断驱动开发(二)—— 中断处理流程分析

前面已经学习了中断的注册过程&#xff0c;下面由一张流程图来看一下当中断发生时的处理流程&#xff1a; 中断发生之后处理流程 a -- 具体的CPU architecture相关模块进行现场保护&#xff0c;然后调用machine driver执行对应的中断处理handler; b -- machine driver对应中断处…

用For循环加cat按顺序合并文件

工作目录下面有mydoc1.txt&#xff0c;mydoc2.txt...mydoc41.txt&#xff0c;本来想用sed排列依次取值排序&#xff0c;然后用cat来合并这些文件&#xff0c;发现达不到预期效果&#xff0c;合并令如下所示&#xff1a;ls -lF *.txt | sed -n /mydoc1/,/mydoc41/p | xargs -i …

Python 函数装饰器

装饰器(Decorators)是 Python 的一个重要部分。简单地说&#xff1a;他们是修改其他函数的功能的函数。他们有助于让我们的代码更简短&#xff0c;也更Pythonic&#xff08;Python范儿&#xff09;。大多数初学者不知道在哪儿使用它们&#xff0c;所以我将要分享下&#xff0c;…

vim永久取消空格颜色

这是无意中发现的 vim 随便一个文件的时候空格变成某种颜色,感觉太显眼了 而:set nohsl只能一次修改 而且在执行:set nu 下是不可执行 我们只需在编辑中执行 :.,s/hsl/nohsl/gc转载于:https://www.cnblogs.com/spaceport/p/6379435.html

Exynos4412 中断驱动开发(一)—— 中断基础及中断的注册过程

一、中断基础概念 所谓中断&#xff0c;指CPU在执行程序的过程中&#xff0c;出现了某些突发事件即待处理&#xff0c;CPU必须暂停当前的程序。转去处理突发事件&#xff0c;处理完毕后CPU又返回原程序被中断的位置并继续执行。 1、中断分类 a -- 内部中断和外部中断 根据中断的…

调试与分析

一、获取内核转储 大多数Linux发行版默认关闭内核转储功能&#xff0c;可使用 ulimit -c 查看&#xff0c;-c 表示内核转储文件的大小限制&#xff0c;如果为0&#xff0c;表示未开启。 1、可设置为 ulimit -c unlimited 表示无限制&#xff0c;或设置为其它数值&#xff0c;单…

CSS选择器学习笔记

在 CSS 中&#xff0c;选择器是一种模式&#xff0c;用于选择需要添加样式的元素。 “CSS” 列指示该属性是在哪个 CSS 版本中定义的。&#xff08;CSS1、CSS2 还是 CSS3。&#xff09; 选择器例子例子描述CSS.class.intro选择 class“intro” 的所有元素。1#id#firstname选择…

rubymine 调试 redmine

1、安装debase和ruby-debug-ide包。&#xff08;注意版本&#xff0c;rubymine 8.0.2下&#xff0c;bitnami下的版本需安装debase -v 0.2.1版本&#xff0c;网上有文章说用debase -v 0.2.2beta6。容易在rubymine启动调试时出现找不到ruby-debug-ide等错误提示&#xff09; 启动…

Linux 设备驱动中的 I/O模型(二)—— 异步通知和异步I/O

阻塞和非阻塞访问、poll() 函数提供了较多地解决设备访问的机制&#xff0c;但是如果有了异步通知整套机制就更加完善了。 异步通知的意思是&#xff1a;一旦设备就绪&#xff0c;则主动通知应用程序&#xff0c;这样应用程序根本就不需要查询设备状态&#xff0c;这一点非常类…

判断链表是否有环

链表有环的情况一般是链表的尾指向前面的节点而不是null&#xff0c;如head->node1->node2->node3->node4->tail->node2&#xff0c;该链表存在环。判断环是否存在可以借助两个指针&#xff0c;一个指针每次迭代只移动一步&#xff0c;第二个指针每次迭代移动…

Python 爬虫进阶五之多线程的用法

我们之前写的爬虫都是单个线程的&#xff1f;这怎么够&#xff1f;一旦一个地方卡到不动了&#xff0c;那不就永远等待下去了&#xff1f;为此我们可以使用多线程或者多进程来处理。 首先声明一点&#xff01; 多线程和多进程是不一样的&#xff01;一个是 thread 库&#xff0…

Tomcat8 连接池

1、所有的tomcat项目共用一个连接池配置 1.1 修改conf->context.xml文件&#xff0c;在Context节点下配置 <Resource name"jdbc/myDataSource" type"javax.sql.DataSource" driverClassName"com.microsoft.sqlserver.jdbc.SQLServerDriver"…

Linux 设备驱动中的 I/O模型(一)—— 阻塞和非阻塞I/O

在前面学习网络编程时&#xff0c;曾经学过I/O模型 Linux 系统应用编程——网络编程&#xff08;I/O模型&#xff09;&#xff0c;下面学习一下I/O模型在设备驱动中的应用。 回顾一下在Unix/Linux下共有五种I/O模型&#xff0c;分别是&#xff1a; a -- 阻塞I/O b -- 非阻塞I/O…

3.改变 HTML 内容

①xdocument.getElementById("demo") //查找元素 ②x.innerHTML"Hello JavaScript"; //改变内容 <!DOCTYPE html><html><body> <h1>我的第一段 JavaScript</h1> <p id"demo">JavaScript 能改变 HTML 元素的…

Python 爬虫进阶六之多进程的用法

python 中的多线程其实并不是真正的多线程&#xff0c;并不能做到充分利用多核 CPU 资源。 如果想要充分利用&#xff0c;在 python 中大部分情况需要使用多进程&#xff0c;那么这个包就叫做 multiprocessing。 借助它&#xff0c;可以轻松完成从单进程到并发执行的转换。mult…

DEFINE_PER_CPU

转自 http://www.unixresources.net/linux/clf/linuxK/archive/00/00/47/91/479165.html 首先&#xff0c;在arch/i386/kernel/vmlinux.lds中有 /*will be free after init*/ .ALIGN(4096); __init_begin.; /*省略*/ .ALIGN(32); __per_cpu_start.; .data.percpu:{*(.data.perc…

HDU 1213 How Many Tables(并查集模板)

http://acm.hdu.edu.cn/showproblem.php?pid1213 题意&#xff1a; 这个问题的一个重要规则是&#xff0c;如果我告诉你A知道B&#xff0c;B知道C&#xff0c;这意味着A&#xff0c;B&#xff0c;C知道对方&#xff0c;所以他们可以留在一个桌子。例如&#xff1a;如果我告诉你…

Linux 设备驱动的并发控制

Linux 设备驱动中必须要解决的一个问题是多个进程对共享的资源的并发访问&#xff0c;并发的访问会导致竞态&#xff0c;即使是经验丰富的驱动工程师也常常设计出包含并发问题bug 的驱动程序。 一、基础概念 1、Linux 并发相关基础概念 a -- 并发&#xff08;concurrency&#…

Python爬虫入门一综述

网络爬虫是一种自动抓取万维网信息的程序。 学习python爬虫&#xff0c;需要学习以下知识&#xff1a; python基础python中的urllib和urllib2库的用法python正则表达式python爬虫框架scrapypython爬虫高级功能 1.python基础 廖雪峰python教程 2.python urllib和urllib2库使…