Python爬虫学习之scrapy库

Python爬虫学习之scrapy库

news/2025/4/27 20:05:35/文章来源:https://blog.csdn.net/weixin_73002278/article/details/135954363

一、scrapy库安装

pip install scrapy -i https://pypi.douban.com/simple

二、scrapy项目的创建

1、创建爬虫项目    打开cmd 输入scrapy startproject 项目的名字
                  注意:项目的名字不允许使用数字开头也不能包含中文
2、创建爬虫文件    要在spiders文件夹中去创建爬虫文件
                  cd 项目的名字\项目的名字\spiders
                  cd scrapy_baidu_091\scrapy_baidu_091\spiders

                  创建爬虫文件
                  scrapy genspider 爬虫文件的名字要爬取网页
                  e.g.scrapy genspider baidu www.baidu.com
                  不需要添加http协议因为start_urls的值是根据allowed_domains修改的
                  所以添加了http的话，那么start_urls就需要我们手动去修改
3、运行爬虫代码
                  scrapy crawl 爬虫名字
                  e.g.
                  scrapy crawl baidu

三、scrapy项目的基本使用

scrapy项目的结构
    项目名字
        项目名字
            spiders文件夹（存储的是爬虫文件）
                __init__
                自定义的爬虫文件   核心功能文件
            __init__
            items       定义数据结构的地方
            middlewares 中间件代理
            pipelines   管道用来处理下载的数据
            settings    配置文件    robots协议    user-agent定义等

四、scrapy文件里的response方法

1、response.text 获取响应的字符串

2、response.body 获取二进制数据

3、response.xpath 解析response中的内容

4、response.extract() 提取seletor对象的data属性

5、response.extract_first() 提取seletor列表的第一个数据

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/658700.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

qt setStyleSheet 设置多个属性{}之间用空格间隔

qt setStyleSheet 设置多个属性{}之间用空格间隔

setStyleSheet 设置多个属性时，大属性之间不能用分号，用空格进行间隔 pbtn1->setStyleSheet("QPushButton {background-color: rgb(4,138,224);font: bold 12pt;color: rgb(255,255,255);} QPushButton:hover,QPushButton:pushed {background-…

阅读更多...

GPT等大语言模型是典型的人机环境交互、协同系统

GPT等大语言模型是典型的人机环境交互、协同系统

GPT等大语言模型是一种典型的人机环境交互、协同系统，同时也是一种基于Transformer模型的自然语言处理（NLP）模型，使用了大规模的无监督预训练和有监督微调的方法进行训练。通过预训练和微调的方式来生成文本。GPT能够根据输入的文…

阅读更多...

【Cookie反爬虫】某采购网站动态Cookie加点选验证码校验分析与实战

【Cookie反爬虫】某采购网站动态Cookie加点选验证码校验分析与实战

文章目录 1. 写在前面2. 请求分析3. JS反混淆4. 深度分析【作者主页】：吴秋霖【作者介绍】：Python领域优质创作者、阿里云博客专家、华为云享专家。长期致力于Python与爬虫领域研究与开发工作！ 【作者推荐】：对JS逆向感兴趣的朋…

阅读更多...

字符串转换const char* , char*，QByteArray，QString，string相互转换，支持中文

字符串转换const char* , char*，QByteArray，QString，string相互转换，支持中文

文章目录 1.char * 与 const char * 的转换2.QByteArray 与 char* 的转换3.QString 与 QByteArray 的转换4.QString 与 string 的转换5.QString与const string 的转换6.QString 与 char* 的转换在开发中，经常会遇到需要将数据类型进行转换的情况，下面依…

阅读更多...

【C++入门到精通】特殊类的设计 | 单例模式 [ C++入门 ]

【C++入门到精通】特殊类的设计 | 单例模式 [ C++入门 ]

阅读导航引言一、设计模式概念（了解）二、单例模式1. 饿汉模式（1）概念（2）模拟实现（3）优缺点（4）适用场景 2. 懒汉模式（1）概念&#xff…

阅读更多...

金田金业教你如何看懂国际黄金价格走势图

金田金业教你如何看懂国际黄金价格走势图

对于黄金投资者来说，看懂国际黄金价格走势图是至关重要的。通过观察走势图，可以了解金价的实时动态，预测未来的走势，从而做出相应的投资决策。本文将详细解析如何看懂国际黄金价格走势图。一、国际黄金价格走势图的基本构成国…

阅读更多...

【JavaEE】UDP协议与TCP协议

【JavaEE】UDP协议与TCP协议

作者主页：paper jie_博客本文作者：大家好，我是paper jie，感谢你阅读本文，欢迎一建三连哦。本文于《JavaEE》专栏，本专栏是针对于大学生，编程小白精心打造的。笔者用重金(时间和精力)打造&…

阅读更多...

嵌入式学习记录15

嵌入式学习记录15

结构体 struct 描述一些基本数据类型不好描述的 ；复杂的数据类型就是要描述一类事物，需要从他的方方面面入手，而这些方面的数据类型又各不相同，这时需要整合在一起；就是结构体；而这个结构体相当于一个模…

阅读更多...

NoSQL数据库简介

NoSQL数据库简介

NoSQL数据库简介 Brief Introduction to NoSQL Databases By JacksonML 1. 什么是SQL？ 在了解NoSQL之前，先简要介绍一下SQL。 SQL是 Structured Query Language（结构化查询语言）的缩写。 SQL在关系型数据中广泛使用&#xf…

阅读更多...

字符串函数(2)

字符串函数(2)

目录字符串替换将所有员工姓名中的字母“A”替换为“_” 消除空格数据字符串截取字符串截取操作从指定位置截取到结尾截取部分内容截取每一位员工姓名的前三位字符面试题：请问利用 Oracle 中的 substr() 函数进行截取时，字符串的索引是从…

阅读更多...

从淘宝商品详情API看电商行业的数据价值

从淘宝商品详情API看电商行业的数据价值

在电商行业，数据已经成为驱动业务增长的关键因素。淘宝作为中国电商市场的主要参与者，其商品详情原数据的API在电商行业中具有显著的重要性。本文将深入探讨这个话题，并阐述如何实现实时数据获取。一、淘宝商品详情原数据API的重要性提供…

阅读更多...

大数据学习之Redis，十大数据类型的具体应用（三）

大数据学习之Redis，十大数据类型的具体应用（三）

目录 3.7 Redis位图（bitmap） 概念需求是什么说明能干嘛? 基本命令 3.7 Redis位图（bitmap） 概念由0和1状态表现的二进制位的bit数组需求用户是否登陆过？Y / N 广告是否被点击过？ 钉钉打…

阅读更多...

深入理解G0和G1指令：C++中的实现与激光雕刻应用

深入理解G0和G1指令：C++中的实现与激光雕刻应用

系列文章 ⭐深入理解G0和G1指令：C中的实现与激光雕刻应用⭐基于二值化图像转GCode的单向扫描实现⭐基于二值化图像转GCode的双向扫描实现⭐基于二值化图像转GCode的斜向扫描实现基于二值化图像转GCode的螺旋扫描实现基于OpenCV灰度图像转GCode的单向扫描实现基于Op…

阅读更多...

RK3568平台热插拔机制

RK3568平台热插拔机制

一.热插拔的基本概念热插拔是指在设备运行的情况下，能够安全地插入或拔出硬件设备，而无需关闭或重启系统。这意味着你可以在计算机或其他电子设备上插入或拔出硬件组件（比如USB设备，扩展卡，硬件驱动器等）…

阅读更多...

计算机网络-调度算法-2（时间片轮转优先级调度算法多级反馈队列调度算法多级队列调度算法）

计算机网络-调度算法-2（时间片轮转优先级调度算法多级反馈队列调度算法多级队列调度算法）

文章目录总览时间片轮转时间片大小为2时间片大小为5若按照先来先服务算法优先级调度算法例题（ 非抢占式优先级调度算法）例题（ 抢占式优先级调度算法）补充思考多级反馈队列调度算法例题小结多级队列调度算法总览时间片轮转 …

阅读更多...

设计模式学习笔记02（小滴课堂）

设计模式学习笔记02（小滴课堂）

江湖传言里的设计模式-单例设计模式单例设计模式中的懒汉方式实战这种方式是线程不安全的，多个线程同时调用会创建多个对象。所以我们就要给它加锁: 我们去测试一下： 因为构造函数已经私有化，所以不能直接用new的方式去创建对象。现在我…

阅读更多...

springboot本地测试

springboot本地测试

文章目录本地测试引入依赖进入StudentMapper右键点击生成项目结构本地测试引入依赖 <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-test</artifactId><scope>test</scope> </d…

阅读更多...

笔记本从零安装ubuntu系统+多种方式远程控制

笔记本从零安装ubuntu系统+多种方式远程控制

文章目录前言ubuntu启动盘Windows远程Ubuntu安装XrdpXrdp卡顿问题解决Xrdp 二次登录会死机的问题Xrdp 卡顿问题 MobaXtermRustDesk 外网远程VNC 远程SSH远程其它设置总结前言我有台老笔记本，上大学第一年的时候买的，现在已经不怎么好用了。打算刷个…

阅读更多...

基于Qt 音乐播放器mp3（进阶）

基于Qt 音乐播放器mp3（进阶）

## 项目工具工具名QtQt 5.14.2图标设计Adobe Ai音频素材剪映平台windowsgif录制ScreenGif录屏Win10 自带录屏 Win + G## 项目演示先点击构建项目，项目构建完成后，再将本例的 myMusic 歌曲文件夹拷贝到可执行程序

阅读更多...

初谈C++：引用

初谈C++：引用

文章目录前言概述引用特性应用场景做参数做返回值传值、传引用效率比较引用和指针的区别前言在学习C语言的时候会遇到指针，会有一级指针、二级指针…很容易让人头昏脑胀。在C里面，引入了引用的概念，会减少对指针的使用。引用相当于给一个…

阅读更多...

最新文章