Ubuntu20.04 使用scrapy-splash爬取动态网页

Ubuntu20.04 使用scrapy-splash爬取动态网页

diannao/2025/4/26 23:23:08/文章来源:https://blog.csdn.net/root_dream/article/details/139724811

我们要先安装splash服务，使用dock安装，如果dock没有安装，请参考我的上一篇博文：
按照官方文档：https://splash.readthedocs.io/en/stable/install.html
1.下载splash

 sudo docker pull scrapinghub/splash

2.安装scrapy，它是python的包，我们用包管理器安装：

pip3 install scrapy

3.创建scrapy项目，神似与django

 scrapy startproject baiduSpider

其中报错了

 cannot import name 'PseudoElement' from 'cssselect.parser'

是因为版本不兼容的原因，直接用下面的命令升级到新版尝试解决

 pip3 install --upgrade cssselect

最后，尝试成功，解决了依赖。

4.按照scrapy-splash模块，按照官方文档安装：
https://pypi.org/project/scrapy-splash/

 pip3 install scrapy-splash

在这里，我指定了pip3，怕弄混淆。

5.后台运行Splash服务

 docker run -d -p 8050:8050 scrapinghub/splash

因为用到是8050端口，可以使用如下程序，查到进程

sudo lsof -i :8050

再用kill，结束进程用来释放端口。
若要重新用docker在8050端口启动进程，请重启docker服务，来更新状态。

systemctl restart docker

6.因为splash其实是一个scrapy框架的插件scrapy-splah要用的服务，因此在我们学习插件的用法之前，我们有必要学习一下简单的scrapy框架的知识了。老办法，我们从官方文档开始。
https://doc.scrapy.org/en/latest/intro/tutorial.html
具体的学习见一篇博文
占坑
具体爬取动态网页，见另一篇博文
占坑

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/diannao/28596.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

软考系统架构设计师系列知识点之杂项集萃（37）

软考系统架构设计师系列知识点之杂项集萃（37）

接前一篇文章：软考系统架构设计师系列知识点之杂项集萃（36） 第60题用例（use case）用来描述系统对事件做出响应时所采取的行动。用例之间是具有相关性的。在一个“订单输入子系统”中，创建新订单和更新订…

阅读更多...

ffmpeg解封装rtsp并录制视频-（1）解封装rtsp断网或摄像机重启后自动重连处理

ffmpeg解封装rtsp并录制视频-（1）解封装rtsp断网或摄像机重启后自动重连处理

头文件： xtools.h #pragma once #include <thread> #include <iostream> #include <mutex> //日志级别 DEBUG INFO ERROR FATAL enum XLogLevel {XLOG_TYPE_DEBUG,XLOG_TYPE_INFO,XLOG_TPYE_ERROR,XLOG_TYPE_FATAL }; #define LOG_MIN_LEVEL XLO…

阅读更多...

dp练习题

dp练习题

先来一个简单dp练习 class Solution { public:int rob(vector<int>& nums) {int n nums.size();vector<int> a(n 1);int ans nums[0]; a[0] nums[0];if (n 1) return ans;a[1] max(nums[0], nums[1]);ans max(ans, a[1]);if (n 2) return ans;for (i…

阅读更多...

洛谷-P7071 [CSP-J2020] 优秀的拆分

洛谷-P7071 [CSP-J2020] 优秀的拆分

[CSP-J2020] 优秀的拆分题目描述一般来说，一个正整数可以拆分成若干个正整数的和。例如， 1 1 11 11， 10 1 2 3 4 101234 101234 等。对于正整数 n n n 的一种特定拆分，我们称它为“优秀的”，当且仅当在这种…

阅读更多...

工厂方法模式和抽象工厂

工厂方法模式和抽象工厂

工厂方法模式的核心思想就是为每种产品定义一个创建工厂方法的工厂类，核心就是面向接口编程成员包含： （1）产品接口，工厂接口 （2）产品实现类，工厂实现类产品接口和具体产品类 // …

阅读更多...

xss+csrf项目实例

xss+csrf项目实例

项目背景： 如下：我们是在一个类似文章管理系统的网站上面发现的该漏洞。我们将其运行在本地的phpstudy集成环境上面。源码地址下载链接：https://pan.baidu.com/s/1MpnSAq7a_oOcGh4XgPE-2w 提取码：4444 考察内容： …

阅读更多...

分布式锁的几种形式以及优缺点

分布式锁的几种形式以及优缺点

在分布式系统中，分布式锁是一种用于控制对共享资源访问的机制，以确保多进程、多线程环境下的数据一致性。分布式锁有多种实现方式，本文将介绍几种常见的分布式锁及其优缺点。一、基于数据库的分布式锁实现方式表锁：使用数据库提供的锁机制，例如 MySQL 的 SELECT ... …

阅读更多...

【JavaScript脚本宇宙】提升Markdown工作流：不可错过的六个JavaScript库

【JavaScript脚本宇宙】提升Markdown工作流：不可错过的六个JavaScript库

优化你的Markdown体验：六大JavaScript库一网打尽前言在现代Web开发中，Markdown作为一种轻量级的标记语言，凭借其简洁易读的语法和广泛的适用性，迅速成为开发者们的宠儿。为了更有效地解析和处理Markdown内容，JavaS…

阅读更多...

10 C++11

10 C++11

10 C11 1、类型推导1.1 auto关键字1.2 auto类型推断本质 2、类型计算2.1 类型计算分类2.2 类型计算的四种规则2.3 返回值类型计算 3、列表初始化4、Lambda表达式4.1 前置知识4.2 Lambda表达式4.3 捕获表 5、右值引用5.1 概念5.2 左值引用和右值引用 6、移动语义 1、类型推导 1…

阅读更多...

中断里用信号量而不用消息队列

中断里用信号量而不用消息队列

在嵌入式开发中，中断处理程序（ISR）是一个非常重要的部分。ISR需要非常高效地运行，以确保系统能够及时响应硬件事件。使用信号量和消息队列都是常见的同步机制，但它们在中断上下文中的使用有不同的限制和建议。信号量…

阅读更多...

嵌入式复古游戏项目开发与实现

嵌入式复古游戏项目开发与实现

大家好，今天看到一个火柴盒项目，非常的小巧，分享给大家，感兴趣的话，可以复刻一个玩一玩。 MicroByte 是一款微型主机，能够运行 NES、GameBoy、GameBoy Color、Game Gear 和 Sega Master 系统的游戏，所有元器件都设计在这 78 x 17 x 40 mm 的封装中。尽管成品尺寸很小，但…

阅读更多...

AI预测体彩排3采取888=3策略+和值012路或胆码测试6月16日升级新模型预测第1弹

AI预测体彩排3采取888=3策略+和值012路或胆码测试6月16日升级新模型预测第1弹

根据前面的预测效果，我对模型进行了重新优化，因为前面的模型效果不是很好。熟悉我的彩友比较清楚，我之前的主要精力是对福彩3D进行各种模型的开发和预测，排三的预测也就是最近1个月才开始搞的。3D的预测，经过对模型的多…

阅读更多...

Java面向对象-接口

Java面向对象-接口

Java面向对象-接口一、JDK1.8之前二、接口的作用三、JDK1.8之后，新增非抽象方法四、静态方法一、JDK1.8之前 1、类是类，接口是接口，它们是同一层次的概念 2、接口中没有构造器 3、接口如何声明：interface 4、在jdk1.8之前&…

阅读更多...

002 IOC和DI使用

002 IOC和DI使用

文章目录基于XML的使用IOC配置第三种:实例工厂(了解)DI配置构造函数注入set方法注入(重点)使用p名称空间注入数据依赖注入不同类型的属性基于注解和XML混合方式的使用IoC注解使用方法IoC注解(创建对象)DI注解(依赖注入)关于注解和XML的选择问题基于纯注解方式使用注解和XML混…

阅读更多...

【字符串函数】

【字符串函数】

1.strlen的使⽤和模拟实现 size_t strlen ( const char * str ); 1.字符串以 \0 作为结束标志，strlen函数返回的是在字符串中 \0 前⾯出现的字符个数（不包含 \0 )。 2.参数指向的字符串必须要以 \0 结束。 3.注意函数的返回值为size_t，是⽆…

阅读更多...

代码随想录算法训练营刷题复习3：动态规划——子序列问题

代码随想录算法训练营刷题复习3：动态规划——子序列问题

子序列问题包含四个子问题：子序列（不连续）、子序列（连续）、编辑距离、回文子序列（不连续） 300.最长递增子序列定义dp数组，问什么dp的定义就设什么， 更新dp[i]的值&…

阅读更多...

力扣148. 排序链表

力扣148. 排序链表

给你链表的头结点 head ，请将其按升序排列并返回排序后的链表。示例 1： 输入：head [4,2,1,3] 输出：[1,2,3,4] 示例 2： 输入：head [-1,5,3,4,0] 输出：[-1,0,3,4,5] 示例 3&…

阅读更多...

23 华三(自动获取的IP地址)

23 华三(自动获取的IP地址)

华三交换机 DHCP 配置 #version 7.1.070, Alpha 7170 //设备的版本信息 #sysname sw1 //修改设备的名字 #irf mac-address persistent timerirf auto-update enableundo irf link-delayirf member 1 priority 1#dhcp enable //开启DHCP 服务dhcp server forbidden-ip 192.168.…

阅读更多...

.net 调用海康SDK的常用操作封装

.net 调用海康SDK的常用操作封装

📢欢迎点赞 ：👍 收藏 ⭐留言 📝 如有错误敬请指正，赐人玫瑰，手留余香！📢本文作者：由webmote 原创📢作者格言：新的征程，我们面对的不仅…

阅读更多...

2024/6/16周报

2024/6/16周报

文章目录摘要Abstract文献阅读题目问题本文贡献方法aGNN输入和输出模块嵌入模块编码器和解码器模块：支持多头注意的GCN多头自注意力机制GCN模型解释：SHAP 案例研究地下水流动与污染物运移模型研究场景设计数据集实验结果代码复现结论摘要本周阅读了…

阅读更多...

最新文章