Scrapy和Selenium整合(一文搞定)

文章目录

  • 前言
  • 一、开始准备
    • 1. 包管理和安装chrome驱动
    • 2. 爬虫项目的创建(举个栗子)
    • 3. setting.py的配置
  • 二、代码演示
    • 1. 主爬虫程序
    • 2. 中间件的配置
    • 3. 定义item对象
    • 4. 定义管道
  • 总结


前言

scrapy和selenium的整合使用
先定个小目标实现万物皆可爬!我们是用scrapy框架来快速爬取页面上的数据,它是自带并发的,速度是可以的。但是一些ajax异步的请求我们不能这么爬取。我们要视同selenium来进行lazy loading,也就是懒加载,渲染到页面加载数据。


一、开始准备

爬取流程图

1. 包管理和安装chrome驱动

首先你要安装以下包:

pip install scrapy
pip install selenium == 3.0.0
pip install pymysql
pip install bs4
  • selenium新版本有bug,用3.0的版本。
  • chrome驱动的exe执行文件,放到你项目的根目录即可。下载地址:驱动

2. 爬虫项目的创建(举个栗子)

  1. 创建项目
scrapy startproject cnki
  1. 您爬取的目标网站
scrapy genspider cnki https://www.cnki.net
  1. 运行爬虫
# 运行不导出(一般在pipelines做导出操作)
scrapy crawl cnki
# 针对不同的选择可以导出为xlsx、json等格式文件
scrapy crawl demo -o demo.csv

3. setting.py的配置

  1. 配置数据源,如下:
DB_HOST = 'localhost'
DB_PORT = 3306
DB_USER = 'root'
DB_PASSWORD ='123456'
DB_DATABASE = 'spider'
  1. 防止打印log日志信息
LOG_LEVEL = 'WARNING'
  1. 配置USER_AGENT(浏览器控制台找一个)
Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/107.0.0.0 Safari/537.36
  1. 配置DEFAULT_REQUEST_HEADERS(浏览器控制台找一个)
{'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/107.0.0.0 Safari/537.36','Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8','Accept-Language': 'en',
}
  1. 随机延迟
DOWNLOAD_DELAY = 3
RANDOMIZE_DOWNLOAD_DELAY=True
  1. 中间件权重配置(这些中间件给他打开 并且按照项目实际需求配置权重,越小越先执行)
SPIDER_MIDDLEWARES # 蜘蛛中间件
DOWNLOADER_MIDDLEWARES # 下载中间件
ITEM_PIPELINES # 管道

二、代码演示

1. 主爬虫程序

  1. 初始化selenium (如果您不需要selenium,可以忽略这个
def __init__(self, *args,**kwargs):option = webdriver.ChromeOptions()  # 实例化一个浏览器对象option.add_argument('--headless')  # 添加参数,option可以是headless,--headless,-headlessself.driver = webdriver.Chrome(options=option)  # 创建一个无头浏览器# self.driver = webdriver.Chrome()  # 创建一个无头浏览器time.sleep(3)super(CnkiSpider, self).__init__(*args, **kwargs)dispatcher.connect(self.close_driver,signals.spider_closed)
  1. 定义开始请求页面
    下面我只放了一个url,其实可以定义一组的然后进行遍历(一般是分页url使用)
    还有cookie、代理也可以在这里配置,详情请看进去看源码
    (不过一般在中间件配置)
def start_requests(self):for url in self.start_urls:yield scrapy.Request(# 这里可以设置多个页面,一般用于分页的url=url,)
  1. 关闭selenium(一定要关掉)
def close_driver(self):print("爬虫正在退出,执行关闭浏览器哦")time.sleep(2)self.driver.quit()
  1. 解析页面
    这里就不多说,八仙过海各显神通
def parse(self,response: HtmlResponse):
sel = Selector(response)
dds = sel.css('.journal > .main-w1 > dl > dd')
for dd in dds:title = dd.css('h6 > a::attr(title)').extract_first()link = dd.css('h6 > a::attr(href)').extract_first()link = response.urljoin(link)author = dd.css('.baseinfo > span > #author::attr(title)').extract_first()abstract = dd.css('.abstract::text').extract_first()count = dd.css('.opts > .opts-count > li > em::text').extract_first()count = int(count)date = dd.css('.opts > .opts-count > .date::text').extract_first()date = date.split(':')[1]date = datetime.datetime.strptime(date,"%Y-%m-%d")rc = Recommend()rc['title'] = titlerc['link'] = linkrc['author'] = authorrc['abstract'] = abstractrc['count'] = countrc['date'] = dateyield rc

这里要注意我们yield可以返回不仅是item,也可以是Request,进行页面详情的请求(套娃)

yield Request(url=link, # 这是上面页面上的链接,用来进一步请求callback=self.parse_detail, # 这是回调函数cb_kwargs={'item':rc} # 这是把上面的item传递下来)

2. 中间件的配置

  1. 针对selenium
    没有selenium请忽略
class SeleniumDownloaderMiddleware:def process_request(self, request , spider):if spider.name == 'cnki':spider.driver.get(request.url)time.sleep(2)print(f"当前访问{request.url}")spider.driver.refresh()time.sleep(3)return HtmlResponse(url=spider.driver.current_url,body=spider.driver.page_source,encoding='utf-8')
  1. SpiderMiddleware保持默认配置即可
  2. DownloaderMiddleware可以配置cookie和代理之类的。如:
# 我自定义的解析cookie方法
def get_cookie_dict():cookie_str = 填上你的cookiecookie_dict = {}for item in cookie_str.split(';'):key, value = item.split('=',maxsplit=1)cookie_dict[key] = valuereturn cookie_dict
COOKIES_DICT = get_cookie_dict()
	# 这是DownloaderMiddleware这是自带的方法哈
def process_request(self, request : Request, spider):request.cookies = COOKIES_DICTreturn None

3. 定义item对象

用来接受爬虫到的数据

class Recommend(scrapy.Item):title = scrapy.Field()author = scrapy.Field()abstract = scrapy.Field()link = scrapy.Field()count = scrapy.Field()date = scrapy.Field()

4. 定义管道

实现对数据库的导入(你也可以写excel的)

class RecommendPipeline:@classmethoddef from_crawler(cls, crawler: Crawler):host = crawler.settings['DB_HOST']port = crawler.settings['DB_PORT']username = crawler.settings['DB_USER']password = crawler.settings['DB_PASSWORD']database = crawler.settings['DB_DATABASE']return cls(host, port, username, password, database)def __init__(self, host, port, username, password, database):# 1、与数据库建立连接self.conn = pymysql.connect(host=host, port=port, user=username, password=password, database=database,charset='utf8mb4')# 2、创建游标self.cursor = self.conn.cursor()# 3、批处理需要的容器self.data = []def process_item(self, item, spider):title = item.get('title', '')author = item.get('author', '')abstract = item.get('abstract', '')link = item.get('link', '')count = item.get('count', '')date = item.get('date', '')# 如果要实现批处理:self.data.append((title,author,abstract,link,count,date))# 如果存够了10条就进数据库if len(self.data) == 10:self._to_write_db()# 然后再清空self.data.clear()return itemdef close_spider(self, spider):# 如果最后不满足10条if len(self.data) > 0:self._to_write_db()self.conn.close()def _to_write_db(self):# 作为一个实时的推荐,我希望将查到的数据作为一个temp# 'delete from tb_recommend where 1 = 1' 删除满,并且主键自增不会从1开始self.cursor.execute('truncate table tb_recommend')self.cursor.executemany('insert into tb_recommend (title,author,abstract,link,count,date) values (%s, %s, %s, %s, %s, %s)',self.data)self.conn.commit()

记得写入setting.py,设置其权重。
*接下来您就可以按照这种方法‘愉’ ‘快’的进行爬虫啦!!! *

总结

这是scrapy和selenium的具体整合使用,scrapy框架的内容还有很多方法还没用到,都有待开发。其次就是selenium的填充之类的操作还没有使用,还需要去复习selenium的api。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/15088.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Pycharm debug程序,跳转至指定循环条件/循环次数

在断点出右键,然后设置条件 示例 for i in range(1,100):a i 1b i 2print(a, b, i) 注意: 1、你应该debug断点在循环后的位置而不是循环上的位置,然后你就可以设置你的条件进入到指定的循环上了 2、设置条件,要使用等于符号…

C# Assembly 反射动态加载程序集(动态加载Dll)Demo

No1、本Demo 定义了一个接口IserviceToolFrame,接口中有一个方法Run。 No2、在另外两个工程中,分别定义两个类serviceToolCatComplete、serviceToolDogComplete实现接口IserviceToolFrame。 No3、控制台程序通过动态加载Dll的方式去调用IserviceToolFram…

Flutter 使用texture_rgba_renderer实现桌面端渲染视频

Flutter视频渲染系列 第一章 Android使用Texture渲染视频 第二章 Windows使用Texture渲染视频 第三章 Linux使用Texture渲染视频 第四章 全平台FFICustomPainter渲染视频 第五章 Windows使用Native窗口渲染视频 第六章 桌面端使用texture_rgba_renderer渲染视频(本…

#P0999. [NOIP2008普及组] 排座椅

题目描述 上课的时候总会有一些同学和前后左右的人交头接耳,这是令小学班主任十分头疼的一件事情。不过,班主任小雪发现了一些有趣的现象,当同学们的座次确定下来之后,只有有限的 DD 对同学上课时会交头接耳。 同学们在教室中坐…

《GreenPlum系列-部署维护》GreenPlum数据库Standby故障处理

一、Standby故障 1.检查监控中心数据库状态 2.查看master节点数据库状态 su - gpadmin gpstate -f二、重启数据库 1.快速关闭数据库 [gpadminmdw pg_log]$ gpstop -M fast ... Continue with Greenplum instance shutdown Yy|Nn (defaultN): > y ...2.开启数据库 [gpad…

Redis以及Java使用Redis

一、Redis的安装 Redis是一个基于内存的 key-value 结构数据库。 基于内存存储,读写性能高 适合存储热点数据(热点商品、资讯、新闻) 企业应用广泛 官网:https://redis.io 中文网:https://www.redis.net.cn/ Redis…

【LeetCode】单链表——刷题

你曾经灼热的眼眶,是人生中少数的笨拙又可贵的时刻。 文章目录 1.反转单链表 题目思路及图解 代码中需要注意的问题 2.移除链表元素 题目思路及图解 代码中需要注意的问题 大家好,我是纪宁。 这篇文章分享给大家一些经典的单链表leetcode笔试题的…

类变量和类方法

类变量和类方法 引入 思考:有一群小孩在玩堆雪人,不时有新的小孩加入,请问如何知道现在有多少小孩在玩? 静态变量内存分析 1、静态变量被对象共享 2、静态变量可能在堆中,也可能在方法区的静态域中,这…

Flutter 的线程模型和异步原理

本文字数::36130字 预计阅读时间:91分钟 在Android应用中, 用户时常会遇到界面卡顿的情况,非常影响用户的体验。作为Android开发肯定都知道:应用在主线程里做了大量的耗时操作(例如文件读写, 数…

stable diffusion打造自己专属的LORA模型

通过Lora小模型可以控制很多特定场景的内容生成。 但是那些模型是别人训练好的,你肯定很好奇,我也想训练一个自己的专属模型(也叫炼丹~_~)。 甚至可以训练一个专属家庭版的模型(family model&…

RT1052 的周期定时器

文章目录 1 PIT 周期中断定时器2 PIT定时器的使用3 PIT定时器配置3.1 PIT 时钟使能。3.1.1 CLOCK_EnableClock 3.2 初始化 PIT 定时器3.2.1 PIT_Init 3.3 设置 通道 0 的 加载值3.3.1 PIT_SetTimerPeriod 3.4 使能 通道 0 的中断3.4.1 PIT_EnableInterrupts 3.5 开启 PIT 定时器…

PysparkNote006---pycharm加载spark环境

pycharm配置pyspark环境,本地执行pyspark代码 spark安装、添加环境变量不提了 File-Settings-Project-Project Structure-add content root添加如下两个路径 D:\code\spark\python\lib\py4j-0.10.7-src.zipD:\code\spark\python\lib\pyspark.zip 2023-07-26 阴 于…

Redis缓存预热

说明:项目中使用到Redis,正常情况,我们会在用户首次查询数据的同时把该数据按照一定命名规则,存储到Redis中,称为冷启动(如下图),这种方式在一些情况下可能会给数据库带来较大的压力…

AcWing 算法基础课二 数据结构 链表 栈 队列 并查集 哈希表

单链表. AcWing. 826.单链表 import java.util.Scanner; public class Main{static int[] e new int[100010];//结点i的值static int[] ne new int[100010];//结点i的next指针static int idx,head;//head是头结点,idx存当前已经用到了哪个点public static void i…

【简化程序设计】C++STL“容器适配器“之栈和队列

【STL】容器适配器之栈和队列 stack的介绍和使用stack的介绍stack的使用stack的模拟实现 queue的介绍和使用queue的介绍queue的使用queue的模拟实现 priority_queue的介绍和使用priority_queue的介绍priority_queue的使用priority_queue的模拟实现 容器适配器什么是容器适配器&…

基于x-scan扫描线的3D模型渲染算法

基于x-scan算法实现的z-buffer染色。c#语言&#xff0c;.net core framework 3.1运行。 模型是读取3D Max的obj模型。 x-scan算法实现&#xff1a; public List<Vertex3> xscan() {List<Vertex3> results new List<Vertex3>();SurfaceFormula formula g…

从使用回溯分割字符串的技巧到前向搜索

题目 131. 分割回文串 给你一个字符串 s&#xff0c;请你将 s 分割成一些子串&#xff0c;使每个子串都是 回文串 。返回 s 所有可能的分割方案。 回文串 是正着读和反着读都一样的字符串。 答案&#xff1a; class Solution {boolean[][] f;List<List<String>>…

【多线程中的线程安全问题】线程互斥

1 &#x1f351;线程间的互斥相关背景概念&#x1f351; 先来看看一些基本概念&#xff1a; 1️⃣临界资源&#xff1a;多线程执行流共享的资源就叫做临界资源。2️⃣临界区&#xff1a;每个线程内部&#xff0c;访问临界资源的代码&#xff0c;就叫做临界区。3️⃣互斥&…

【密码学】三、AES

AES 1、AES产生2、数学基础2.1有限域GF(2^8^)2.1.1加法运算2.1.2乘法运算2.1.3x乘运算2.1.4系数在GF(2^8^)上的多项式 3、AES算法描述3.1字节代换3.2行移位3.3列混合3.4轮密钥加3.5密钥扩展 1、AES产生 征集AES算法的活动&#xff0c;目的是确定一个非保密的、公开的、全球免费…

HCIP——重发布及路由策略实验

重发布及路由策略实验 一、实验拓扑二、实验要求三、实验思路三、实验步骤1、配置接口IP地址以及环回地址2、配置动态路由协议3、重发布4、更改接口类型5、配置路由策略 一、实验拓扑 二、实验要求 1、使用双点双向重发布2、所有路由器进行最佳选路3、存在备份路径&#xff0c…