初级的爬虫我们利用 urllib 和 urllib2 库以及正则表达式就可以完成了,不过还有更加强大的工具,爬虫框架 Scrapy,这安装过程也是煞费苦心哪,在此整理如下。
官网
官方安装文档
安装python
安装 Python 安装过程我就不多说啦,我的电脑中已经安装了 Python 2.7.7 版本啦,安装完之后记得配置环境变量,比如我的安装在 D 盘,D:\python2.7.7,就把以下两个路径添加到 Path 变量中
D:\python2.7;D:\python2.7\Scripts
配置好了之后,在命令行中输入 python —version,如果没有提示错误,则安装成功
>python --version
Python 2.7.18
安装pip
pip 是用来安装其他必要包的工具,首先下载 get-pip.py 下载好之后,选中该文件所在路径,执行下面的命令
python get-pip.py
执行命令后便会安装好 pip,并且同时,它帮你安装了 setuptools 安装完了之后在命令行中执行
pip --version
安装pywin32
安装 pywin32 在 windows 下,必须安装 pywin32,执行
pip install pywin32
在 python 命令行下输入 import win32com 如果没有提示错误,则证明安装成功
安装pyOPENSSL
在 Windows 下,是没有预装 pyOPENSSL 的,而在 Linux 下是已经安装好的。 安装地址:https://launchpad.net/pyopenssl
安装LXML
lxml 的详细介绍 ,lxml是一种使用 Python 编写的库,可以迅速、灵活地处理 XML 直接执行如下命令
pip install lxml
就可完成安装,如果提示 Microsoft Visual C++ 库没安装,则点 Microsoft Visual C++ 库 下载支持的库。
安装scrapy
pip install Scrapy
>scrapy
c:\python27\lib\site-packages\OpenSSL\crypto.py:14: CryptographyDeprecationWarning: Python 2 is no longer supported by the Python core team. Support for it is now de
precated in cryptography, and will be removed in the next release.from cryptography import utils, x509
Scrapy 1.8.0 - no active projectUsage:scrapy <command> [options] [args]Available commands:bench Run quick benchmark testfetch Fetch a URL using the Scrapy downloadergenspider Generate new spider using pre-defined templatesrunspider Run a self-contained spider (without creating a project)settings Get settings valuesshell Interactive scraping consolestartproject Create new projectversion Print Scrapy versionview Open URL in browser, as seen by Scrapy