网络爬虫--19.【Scrapy-Redis实战】分布式爬虫爬取房天下--环境准备

文章目录

  • 0. 思路
  • 一. 虚拟机Ubuntu0中安装Redis
  • 二. 虚拟机Ubuntu1中安装Redis
  • 三. Windows服务器上安装Redis
  • 四. 安装cmder
  • 五. 安装RedisDesktopManager
  • 六. 修改Windows中的配置文件redis.windows.conf
  • 七. Ubuntu连接Windows上 的Redis服务器
  • -------------------------------------------------------------------------
  • 八.Windows上创建虚拟环境并安装Scrapy
  • 九.Ubuntu上创建虚拟环境并安装Scrapy

0. 思路

准备三台服务器,分别是Windows、Ubuntu1、Ubuntu2;

其中Windows服务器作为分布式爬虫的Redis服务器;

Ubuntu1和Ubuntu2作为分布式爬虫的爬虫服务器。

一. 虚拟机Ubuntu0中安装Redis

安装:sudo apt-get install redis-server

卸载:sudo apt-get purge --auto-remove redis-server

启动:sudo service redis-server start

查看:ps aux|grep redis

停止:sudo service redis-server stop

二. 虚拟机Ubuntu1中安装Redis

同上。

三. Windows服务器上安装Redis

1.首先安装Redis,安装教程:https://www.runoob.com/redis/redis-install.html

2.启动Redis服务:(切换至Redis安装目录中)
redis-server.exe redis.windows.conf

若报错,按步骤执行以下命令:
redis-cli.exe
shutdown
exit
redis-server.exe redis.windows.conf

3.启动Redis客户端
redis-cli.exe

输入测试数据:
set username fanxindong

get username

在这里插入图片描述

四. 安装cmder

安装教程及配置:https://www.jianshu.com/p/5b7c985240a7

五. 安装RedisDesktopManager

安装教程及配置:https://www.jb51.net/softs/669908.html

安装后连接Redis,查看测试数据。
在这里插入图片描述

六. 修改Windows中的配置文件redis.windows.conf

打开Windows中Redis的配置文件redis.windows.conf

将bind后的ip地址更改为windows 的ip地址;

这里为了爬虫服务器连接方便,更改为0.0.0.0

在这里插入图片描述

七. Ubuntu连接Windows上 的Redis服务器

在Ubuntu服务器输入以下指令:

redis-cli -h 172.20.20.2 -p 6379

其中172.20.20.2为windows的服务器ip地址。

查看测试数据:
在这里插入图片描述

-------------------------------------------------------------------------

八.Windows上创建虚拟环境并安装Scrapy

首先安装 virtualenv,打开命令行工具,输入下面的命令即可安装 virtualenv:

pip install virtualenv

安装成功后就可以开始创建虚拟环境,指定一个你喜欢的目录,virtualenv 会把这个新的虚拟环境装到你指定目录下。例如我把它装到 C:\Users\fxd.virtualenvs\ 目录下,并将虚拟环境命名为 sipder_env(也可以取任何你喜欢的名字)。在命令栏运行如下命令:

virtualenv C:\Users\fxd\.virtualenvs\sipder_env

虚拟环境已经创建好了,我们需要激活这个环境,进入到刚才创建的虚拟环境的根目录,运行 Scripts 目录下的 activate 程序激活它:

cd C:\Users\fxd\.virtualenvs\sipder_env
.\Scripts\activate

可以看到命令提示符前面多了 (sipder_env),说明我们已经成功激活了虚拟环境,接下来就可以开始安装 Scrapy了。

使用豆瓣的镜像源安装:

pip install Scrapy -i http://pypi.douban.com/simple --trusted-host pypi.douban.com

Scrapy中文文档:https://scrapy-chs.readthedocs.io/zh_CN/latest/intro/tutorial.html

九.Ubuntu上创建虚拟环境并安装Scrapy

安装virtualenv:

pip install virtualenv

创建虚拟环境并自动进进入:

mkvirtualenv -p /usr/bin/python3 spider_env

退出虚拟环境:

deactivate

再次进入虚拟环境的激活指令:

source ./bin/activate

接下来安装Scrapy,首先安装依赖:

sudo apt-get install build-essential python3-dev libssl-dev libffi-dev libxml2 libxml2-dev libxslt1-dev zlib1g-dev

安装scrapy:

pip install Scrapy

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/451975.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

tkinter中scale拖拉改变值控件(十一)

scale拖拉改变值控件 使用户通过拖拽改变值 简单的实现: 1 import tkinter2 3 wuya tkinter.Tk() 4 wuya.title("wuya") 5 wuya.geometry("300x2001020") 6 7 8 # 创建对象 9 scale1 tkinter.Scale(wuya, from_0, to100) 10 scale1.pac…

计算机图形学理论(4):缓冲区

本系列根据国外一个图形小哥的讲解为本,整合互联网的一些资料,结合自己的一些理解。 什么是缓冲区? 缓冲区是保存某些数据的临时存储空间。 为什么我们需要缓冲区?原因很简单,当数据量很大时,因为计算机无…

网络爬虫--20.【Scrapy-Redis实战】分布式爬虫获取房天下--代码实现

文章目录一. 案例介绍二.创建项目三. settings.py配置四. 详细代码五. 部署1. windows环境下生成requirements.txt文件2. xshell连接ubuntu服务器并安装依赖环境3. 修改部分代码4. 上传代码至服务器并运行一. 案例介绍 爬取房天下(https://www1.fang.com/&#xff…

同一台电脑安装python2python3

【安装之前,先了解一下概念】 python是什么? Python是一种面向对象的解释型计算机程序设计语言,由荷兰人Guido van Rossum于1989年发明,第一个公开发行版发行于1991年。 Python是纯粹的自由软件, 源代码和解释器CPytho…

程序员的常见健康问题

其实这些问题不仅见于程序员,其他长期经常坐在电脑前的职场人士(比如:网络编辑、站长等),都会有其中的某些健康问题。希望从事这些行业的朋友,对自己的健康问题,予以重视。以下是全文。 我最近…

网络爬虫--21.Scrapy知识点总结

文章目录一. Scrapy简介二. Scrapy架构图三. Scrapy框架模块功能四. 安装和文档五. 创建项目六. 创建爬虫一. Scrapy简介 二. Scrapy架构图 三. Scrapy框架模块功能 四. 安装和文档 中文文档:https://scrapy-chs.readthedocs.io/zh_CN/latest/intro/tutorial.html …

Ubuntu将在明年推出平板及手机系统

4月26日下午消息,知名Linux厂商Canonical今天正式发布Ubuntu 12.04版开源操作系统。Ubuntu中国首席代表于立强透露,针对平板电脑的Ubuntu操作系统将在明年推出。 Ubuntu 12.04版开源操作系统发布 Ubuntu操作系统是一款开源操作系统,主要与OE…

Android Studio 超级简单的打包生成apk

为什么要打包: apk文件就是一个包,打包就是要生成apk文件,有了apk别人才能安装使用。打包分debug版和release包,通常所说的打包指生成release版的apk,release版的apk会比debug版的小,release版的还会进行混…

推荐16款最棒的Visual Studio插件

Visual Studio是微软公司推出的开发环境,Visual Studio可以用来创建Windows平台下的Windows应用程序和网络应用程序,也可以用来创建网络服务、智能设备应用程序和Office插件。 本文介绍16款最棒的Visual Studio扩展: 1. DevColor Extension…

网络爬虫--22.【CrawlSpider实战】实现微信小程序社区爬虫

文章目录一. CrawlSpider二. CrawlSpider案例1. 目录结构2. wxapp_spider.py3. items.py4. pipelines.py5. settings.py6. start.py三. 重点总结一. CrawlSpider 现实情况下,我们需要对满足某个特定条件的url进行爬取,这时候就可以通过CrawlSpider完成。…

怎么安装Scrapy框架以及安装时出现的一系列错误(win7 64位 python3 pycharm)

因为要学习爬虫,就打算安装Scrapy框架,以下是我安装该模块的步骤,适合于刚入门的小白: 一、打开pycharm,依次点击File---->setting---->Project----->Project Interpreter,打开后,可以…

xpath-helper: 谷歌浏览器安装xpath helper 插件

1.下载文件xpath-helper.crx xpath链接:https://pan.baidu.com/s/1dFgzBSd 密码:zwvb,感谢这位网友,我从这拿到了 2.在Google浏览器里边找到这个“扩展程序”选项菜单即可。 3.然后就会进入到扩展插件的界面了,把下载好的离线插件…

网络爬虫--23.动态网页数据抓取

文章目录一. Ajax二. 获取Ajax数据的方式三. seleniumchromedriver获取动态数据四. selenium基本操作一. Ajax 二. 获取Ajax数据的方式 三. seleniumchromedriver获取动态数据 selenium文档:https://selenium-python.readthedocs.io/installation.html 四. sele…

gcc g++安装

2019独角兽企业重金招聘Python工程师标准>>> 安装之前要卸载掉老版本的gcc、g sudo apt-get remove gccgcc-xx #可能有多个版本,都要删掉 sudo apt-get remove g sudo apt-get install gcc 安装g编译器,可以通过命令 sudo apt-get installb…

网络爬虫--24.【selenium实战】实现拉勾网爬虫之--分析接口获取数据

文章目录一. 思路概述二. 分析数据接口三. 详细代码一. 思路概述 1.拉勾网采用Ajax技术,加载网页时会向后端发送Ajax异步请求,因此首先找到数据接口; 2.后端会返回json的数据,分析数据,找到单个招聘对应的positionId…

bzoj 1999: [Noip2007]Core树网的核【树的直径+单调队列】

我要懒死了&#xff0c;所以依然是lyd的课件截图 注意是min{max(max(d[uk]),dis(u1,ui),dis(uj,un))}&#xff0c;每次都从这三个的max里取min #include<iostream> #include<cstdio> using namespace std; const int N500005; int n,m,h[N],cnt,d[N],s,t,mx,f[N],a…

Java 设计模式-【单例模式】

单例解决了什么问题&#xff1a;为了节约系统资源&#xff0c;有时需要确保系统中某个类只有唯一一个实例&#xff0c;当这个唯一实例创建成功之后&#xff0c;我们无法再创建一个同类型的其他对象&#xff0c;所有的操作都只能基于这个唯一实例。为了确保对象的唯一性&#xf…

网络爬虫--26.Scrapy中下载器中间件Downloader Middlewares的使用

文章目录一. Downloader Middlewares二. 设置随机请求头三. ip代理池中间件一. Downloader Middlewares 二. 设置随机请求头 三. ip代理池中间件

解决eclipse配置Tomcat时找不到server选项(Mars.2也可用)

前些天发现了一个巨牛的人工智能学习网站&#xff0c;通俗易懂&#xff0c;风趣幽默&#xff0c;忍不住分享一下给大家。点击跳转到教程。 集成Eclipse和Tomcat时找不到server选项&#xff1a; 按照网上的步骤如下&#xff1a; 在Eclipse中&#xff0c;窗口(window)——首选项…