Python爬虫学习之scrapy库

一、scrapy库安装

pip install scrapy -i https://pypi.douban.com/simple

二、scrapy项目的创建

1、创建爬虫项目    打开cmd  输入scrapy startproject 项目的名字
                  注意:项目的名字不允许使用数字开头  也不能包含中文
2、创建爬虫文件    要在spiders文件夹中去创建爬虫文件
                  cd 项目的名字\项目的名字\spiders
                  cd scrapy_baidu_091\scrapy_baidu_091\spiders

                  创建爬虫文件
                  scrapy genspider 爬虫文件的名字 要爬取网页
                  e.g.scrapy genspider baidu www.baidu.com
                  不需要添加http协议  因为start_urls的值是根据allowed_domains修改的
                  所以添加了http的话,那么start_urls就需要我们手动去修改
3、运行爬虫代码
                  scrapy crawl 爬虫名字
                  e.g.
                  scrapy crawl baidu

三、scrapy项目的基本使用

scrapy项目的结构
    项目名字
        项目名字
            spiders文件夹(存储的是爬虫文件)
                __init__
                自定义的爬虫文件   核心功能文件
            __init__
            items       定义数据结构的地方
            middlewares  中间件 代理
            pipelines   管道  用来处理下载的数据
            settings    配置文件    robots协议    user-agent定义等

四、scrapy文件里的response方法

1、response.text 获取响应的字符串

2、response.body 获取二进制数据

3、response.xpath 解析response中的内容

4、response.extract() 提取seletor对象的data属性

5、response.extract_first() 提取seletor列表的第一个数据

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/658700.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

qt setStyleSheet 设置多个属性{}之间用空格间隔

setStyleSheet 设置多个属性时,大属性之间不能用分号,用 空格进行间隔 pbtn1->setStyleSheet("QPushButton {background-color: rgb(4,138,224);font: bold 12pt;color: rgb(255,255,255);} QPushButton:hover,QPushButton:pushed {background-…

GPT等大语言模型是典型的人机环境交互、协同系统

GPT等大语言模型是一种典型的人机环境交互、协同系统,同时也是一种基于Transformer模型的自然语言处理(NLP)模型,使用了大规模的无监督预训练和有监督微调的方法进行训练。通过预训练和微调的方式来生成文本。GPT能够根据输入的文…

【Cookie反爬虫】某采购网站动态Cookie加点选验证码校验分析与实战

文章目录 1. 写在前面2. 请求分析3. JS反混淆4. 深度分析 【作者主页】:吴秋霖 【作者介绍】:Python领域优质创作者、阿里云博客专家、华为云享专家。长期致力于Python与爬虫领域研究与开发工作! 【作者推荐】:对JS逆向感兴趣的朋…

字符串转换const char* , char*,QByteArray,QString,string相互转换,支持中文

文章目录 1.char * 与 const char * 的转换2.QByteArray 与 char* 的转换3.QString 与 QByteArray 的转换4.QString 与 string 的转换5.QString与const string 的转换6.QString 与 char* 的转换 在开发中,经常会遇到需要将数据类型进行转换的情况,下面依…

【C++入门到精通】特殊类的设计 | 单例模式 [ C++入门 ]

阅读导航 引言一、设计模式概念(了解)二、单例模式1. 饿汉模式(1)概念(2)模拟实现(3)优缺点(4)适用场景 2. 懒汉模式(1)概念&#xff…

金田金业教你如何看懂国际黄金价格走势图

对于黄金投资者来说,看懂国际黄金价格走势图是至关重要的。通过观察走势图,可以了解金价的实时动态,预测未来的走势,从而做出相应的投资决策。本文将详细解析如何看懂国际黄金价格走势图。 一、国际黄金价格走势图的基本构成 国…

【JavaEE】UDP协议与TCP协议

作者主页:paper jie_博客 本文作者:大家好,我是paper jie,感谢你阅读本文,欢迎一建三连哦。 本文于《JavaEE》专栏,本专栏是针对于大学生,编程小白精心打造的。笔者用重金(时间和精力)打造&…

嵌入式学习记录15

结构体 struct 描述一些 基本数据类型不好描述的 ;复杂的数据类型 就是要描述一类事物,需要从他的方方面面入手,而这些方面的数据类型又各不相同,这时需要整合在一起;就是结构体;而这个结构体相当于一个模…

NoSQL数据库简介

NoSQL数据库简介 Brief Introduction to NoSQL Databases By JacksonML 1. 什么是SQL? 在了解NoSQL之前,先简要介绍一下SQL。 SQL是 Structured Query Language(结构化查询语言)的缩写。 SQL在关系型数据中广泛使用&#xf…

字符串函数(2)

目录 字符串替换 将所有员工姓名中的字母“A”替换为“_” 消除空格数据 字符串截取 字符串截取操作 从指定位置截取到结尾 截取部分内容 截取每一位员工姓名的前三位字符 面试题:请问利用 Oracle 中的 substr() 函数进行截取时,字符串的索引是从…

从淘宝商品详情API看电商行业的数据价值

在电商行业,数据已经成为驱动业务增长的关键因素。淘宝作为中国电商市场的主要参与者,其商品详情原数据的API在电商行业中具有显著的重要性。本文将深入探讨这个话题,并阐述如何实现实时数据获取。 一、淘宝商品详情原数据API的重要性 提供…

大数据学习之Redis,十大数据类型的具体应用(三)

目录 3.7 Redis位图(bitmap) 概念 需求 是什么 说明 能干嘛? 基本命令 3.7 Redis位图(bitmap) 概念 由0和1状态表现的二进制位的bit数组 需求 用户是否登陆过?Y / N 广告是否被点击过? 钉钉打…

深入理解G0和G1指令:C++中的实现与激光雕刻应用

系列文章 ⭐深入理解G0和G1指令:C中的实现与激光雕刻应用⭐基于二值化图像转GCode的单向扫描实现⭐基于二值化图像转GCode的双向扫描实现⭐基于二值化图像转GCode的斜向扫描实现基于二值化图像转GCode的螺旋扫描实现基于OpenCV灰度图像转GCode的单向扫描实现基于Op…

RK3568平台 热插拔机制

一.热插拔的基本概念 热插拔是指在设备运行的情况下,能够安全地插入或拔出硬件设备,而无需关闭或重启系统。这意味着你可以在计算机或其他电子设备上插入或拔出硬件组件(比如USB设备,扩展卡,硬件驱动器等)…

计算机网络-调度算法-2(时间片轮转 优先级调度算法 多级反馈队列调度算法 多级队列调度算法)

文章目录 总览时间片轮转时间片大小为2时间片大小为5若按照先来先服务算法 优先级调度算法例题( 非抢占式优先级调度算法)例题( 抢占式优先级调度算法)补充 思考多级反馈队列调度算法例题 小结多级队列调度算法 总览 时间片轮转 …

设计模式学习笔记02(小滴课堂)

江湖传言里的设计模式-单例设计模式 单例设计模式中的懒汉方式实战 这种方式是线程不安全的,多个线程同时调用会创建多个对象。 所以我们就要给它加锁: 我们去测试一下: 因为构造函数已经私有化,所以不能直接用new的方式去创建对象。 现在我…

springboot本地测试

文章目录 本地测试引入依赖进入StudentMapper右键点击生成 项目结构 本地测试 引入依赖 <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-test</artifactId><scope>test</scope> </d…

笔记本从零安装ubuntu系统+多种方式远程控制

文章目录 前言ubuntu启动盘Windows远程Ubuntu安装XrdpXrdp卡顿问题解决Xrdp 二次登录会死机的问题Xrdp 卡顿问题 MobaXtermRustDesk 外网远程VNC 远程SSH远程其它设置 总结 前言 我有台老笔记本&#xff0c;上大学第一年的时候买的&#xff0c;现在已经不怎么好用了。打算刷个…

基于Qt 音乐播放器mp3(进阶)

​## 项目工具 工具名QtQt 5.14.2图标设计Adobe Ai音频素材剪映平台windowsgif录制ScreenGif录屏Win10 自带录屏 Win + G## 项目演示 先点击构建项目,项目构建完成后,再将本例的 myMusic 歌曲文件夹拷贝到可执行程序

初谈C++:引用

文章目录 前言概述引用特性应用场景做参数做返回值 传值、传引用效率比较引用和指针的区别 前言 在学习C语言的时候会遇到指针&#xff0c;会有一级指针、二级指针…很容易让人头昏脑胀。在C里面&#xff0c;引入了引用的概念&#xff0c;会减少对指针的使用。引用相当于给一个…