scrapy的安装和使用

一、scrapy是什么:Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序

二、scrapy的安装:pip install scrapy -i https://pypi.douban.com/simple

983c6a8fa46c4f068b6e5c2f35ee54fc.png三、scrapy项目的创建以及运行

1.win+r 进入终端

cd C:\Users\malongqiang\PycharmProjects\pythonProject\ 爬虫练习1018

注意:路径最好是你python代码放置路径(cd + 选中文件夹拉入终端)

dfb96dc6be08499f828bb13dff023ab0.png2.创建scrapy_baidu_1024文件:scrapy startproject scrapy_baidu_102406127b0e5289460587dfdae9c20ef5fd.png3.创建后的结果:a9bc2abec62c4aff91394117ca10f852.png4.进入spiders文件夹下:cd scrapy_baidu_1024\scrapy_baidu_1024\spiders12b55cf73cc345d0ac04919a9a93ebf9.png5.创建爬虫文件baidu.py:scrapy genspider baidu http://www.baidu.com49c288f2ec0b47d6ac7f7a7c9c9fb2fe.png

f8ca241b4f23425db716caddc249df67.png6.baidu.py的内容:bb1c01afe70f44efb66303a957f1283b.png7.写入要打印的内容:my loveaef16a19192e4f0e81d9482209062b69.png8.运行爬虫文件(baidu):scrapy crawl baidu94f46375fa044836a525e8b0a77a8683.png9.没有结果,爬取失败,原因如下:robots.txt协议不让爬820a7a77c2264a0aa9fa29fc8ed275de.png368d0b56994043a3b82d41ea29e61536.png10.解决办法:找到该目录下的settings注释ROBOTSTXT_OBEY = Truebf244e5ec9dd4f68807e4febee488cf1.png11.重新运行指令,打印出来结果c45a6157d9f94486807bb09407dc7622.png

四、scrapy相关内容资料:f36f36d1abc745d8a81a12ea0978ffc9.png

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/117006.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

如何系列 如何玩转远程调用之OpenFegin+SpringBoot(非Cloud)

文章目录 简介原生Fegin示例基础契约日志重试编码器/解码器自定义解码器 请求拦截器响应拦截器表单文件上传支持错误解码器断路器指标metrics客户端 配合SpringBoot(阶段一)配合SpringBoot(阶段二)1.EnableLakerFeignClients2.Lak…

初识Kubernetes

一、k8s的由来及其技术运用 1.1 k8s的简介 Kubernetes,词根源于希腊语的 舵手、飞行员。在国内又称k8s(因为k和s之间有8个字母,所以得名。“国内程序员的幽默”)。用于自动部署、扩展和管理“容器化(containerized…

【软件安装】Linux系统中安装MySQL数据库服务

这篇文章,主要介绍如何在Linux系统中安装MySQL数据库服务。 目录 一、Linux安装MySQL 1.1、下载MySQL安装包 1.2、解压MySQL安装包 1.3、更改存放目录 1.4、创建用户组和用户 1.5、创建数据目录data 1.6、创建my.cnf配置文件 1.7、初始化数据库 1.8、添加m…

云计算要学习哪些技术?

学习云计算需要涉及多个技术领域和相关的工具、平台和框架。以下是一个详细的介绍,帮助您了解学习云计算所需的技术。 1. 虚拟化技术 虚拟化是云计算的基础,因此了解虚拟化技术至关重要。学习虚拟化技术时,需要掌握以下知识点: …

C# 使用 LibUsbDotNet 实现 USB 设备检测

国庆节回来后的工作内容,基本都在围绕着各种各样的硬件展开,这无疑让本就漫长的 “七天班” ,更加平添了三分枯燥,我甚至在不知不觉中学会了,如何给打印机装上不同尺寸的纸张。华为的 Mate 60 发布以后,人群…

RK3568平台开发系列讲解(应用篇)串口应用编程之串口介绍

🚀返回专栏总目录 文章目录 一、串口介绍1.1、数据传输方式1.2、数据格式1.3、波特率1.4、硬件流控制和软件流控制1.5、错误检测1.6、串口编程二、串口设备节点介绍沉淀、分享、成长,让自己和他人都能有所收获!😄 📢 串口设备是嵌入式开发中最常用的外设之一,通过串口…

图论01-【无权无向】-图的基本表示-邻接矩阵/邻接表

文章目录 1. 代码仓库2. 图的基本表示的比较3. 邻接矩阵:Array和TreeSet3.1 图示3.2 Array主要代码解析3.3 测试输出3.4 使用TreeSet的代码 4. 邻接表:LinkedList4.1 图示4.2 LinkedList主要代码解析4.3 测试输出 5. 完整代码5.1 邻接表 - Array5.2 邻接…

数据库MongoDB

MongoDB记录是一个文档,由一个字段和值对组成的数据结构,文档类似于JSON对象。 一个文档认为就是一个对象,字段的数据类型是字符型,值除了使用基本类型外,还可以包括其他文档,普通数组和文档数组。 一、…

彻底理解Linux的crontab

规则 crontab 表示的是: 分 小时 日 月 星期 minute: 表示分钟,可以是从0到59之间的任何整数。hour:表示小时,可以是从0到23之间的任何整数。day:表示日期,可以是从1到31之间的任何整数。month:表示月份,可以是从1到12之间的任何整数。week:表示星期几,可以是从0到…

rust学习——方法 Method

文章目录 方法 Method定义方法self、&self 和 &mut self方法名跟结构体字段名相同 带有多个参数的方法关联函数多个 impl 定义为枚举实现方法 rust 结构体与枚举的区别回答1回答2 方法 Method 从面向对象语言过来的同学对于方法肯定不陌生,class 里面就充斥…

【proteus】8086仿真/汇编:创建项目并添加汇编代码文件

1.创建好新项目 2.点击source code 弹出VSM 3. 4.注意两个都不勾选 可以看到schematic有原理图出现 5. 再次点击source code 6.project/project settings,取消勾选embed 7. add 8.输入文件名保存后: 注意:proteus不用写dos的相关语句 。

【DEBUG】mmseg训练报错RuntimeError: Trying to resize storage that is not resizable

🚀debug专栏 ❓❓问题1: 今天mmseg训练,遇到了个bug,先是在dataloder那报了这样一个错RuntimeError: Caught RuntimeError in DataLoader worker process 0. 然后后面报错RuntimeError: Trying to resize storage that is not re…

C++第一篇--关键字以及命名空间

📙 作者简介 :RO-BERRY 📗 学习方向:致力于C、C、数据结构、TCP/IP、数据库等等一系列知识 📒 日后方向 : 偏向于CPP开发以及大数据方向,欢迎各位关注,谢谢各位的支持 目录 🎄 前言 …

31一维信号滤波(限幅滤波、中值滤波、均值滤波、递推平均滤波),MATLAB程序已调通,可直接运行。

一维信号滤波(限幅滤波、中值滤波、均值滤波、递推平均滤波),MATLAB程序已调通,可直接运行。 31matlab、中值滤波、信号处理 (xiaohongshu.com)

LeetCode每日一题——2678. Number of Senior Citizens

文章目录 一、题目二、题解 一、题目 You are given a 0-indexed array of strings details. Each element of details provides information about a given passenger compressed into a string of length 15. The system is such that: The first ten characters consist o…

螺旋矩阵[中等]

优质博文:IT-BLOG-CN 一、题目 给你一个m行n列的矩阵matrix,请按照顺时针螺旋顺序,返回矩阵中的所有元素。 示例 1: 输入:matrix [[1,2,3],[4,5,6],[7,8,9]] 输出:[1,2,3,6,9,8,7,4,5] 示例 2&#xf…

Ubuntu和Windows共享目录设置

目录 01. 概述 02. Ubuntu22.04和Windows共享目录设置 03. 共享文件夹找不到问题 下面主要以Ubuntu22.04与Windows为例。 01. 概述 Ubuntu22.04和Windows可以通过VMWare Tools的功能设置目录共享。

【机器学习】数据均衡学习笔记

文章目录 序言1. 样本不均衡2. 样本不均衡的影响以及样本均衡的意义3. 什么时候需要进行样本均衡/数据均衡4. 数据不均衡的解决办法 序言 数据集制作过程中需要关注样本均衡问题,学习笔记,简单记录 1. 样本不均衡 分类任务中不同类别样本数差别很大的…

性能优化:JIT即时编译与AOT提前编译

优质博文:IT-BLOG-CN 一、简介 JIT与AOT的区别: 两种不同的编译方式,主要区别在于是否处于运行时进行编译。 JIT:Just-in-time动态(即时)编译,边运行边编译:在程序运行时,根据算法计算出热点代码&#xf…

【题解 单调队列优化dp】 简单的加法乘法计算题

题目描述: 分析: 由于对于每一步而言,我们都需要的是最小步数 所以我们很显然的可以写出一个dp方程: 设 f [ i ] f[i] f[i]表示达到i时的最小步数 我们有两种操作,也就是说我们可以通过一下两种方式转移过来&#xff…