使用scrapy爬取蜻蜓FM

创建框架和项目

### 1. 创建虚拟环境
conda create -n spiderScrapy python=3.9 
### 2. 安装scrapy
pip install scrapy==2.8.0 -i https://pypi.tuna.tsinghua.edu.cn/simple### 3. 生成一个框架并进入框架
scrapy startproject my_spider
cd my_spider### 4. 生成项目
scrapy genspider Qingting http://http://m.qingting.fm/rank/### 5. 重新安装Twisted指定版本
pip install Twisted==22.10.0### 6. 启动项目
scrapy crawl baidu

这里创建了一个qingting的爬虫项目

在这里插入图片描述

  • 启动框架后会自动调用parse方法

  • parse方法是scrapy框架的回调方法,当启动scrapy框架后:

    1. scrapy对start_urls类属性进行迭代并获取将要请求的地址
    2. 获取到地址后,scrapy会自动发送请求
    3. 获取到响应对象后会调用parse方法并将获取到的response对象传递过来
  • response对象中常用的属性

     print('响应url', response.url)print('响应头', response.headers)print('响应状态码', response.status)print('响应体', response.body.decode('utf-8'))print('请求地址', response.request.url)print('请求头', response.request.header)
    

后面开发过程使用cmdline进行启动

from scrapy import cmdline
...
...
...
if __name__ == '__main__':cmdline.execute("scrapy crawl qingting".split())

1. 在parse中解析response响应内容

在这里插入图片描述
2. 使用yield关键字将解析好的数据提交给管道pipelines模块进行存储
在这里插入图片描述

#qingting.py
class QingtingSpider(scrapy.Spider):name = "qingting"allowed_domains = ["m.qingting.fm", "pic.qtfm.cn"]  # 请求白名单start_urls = ["http://m.qingting.fm/rank/"]# 启动框架后会自动调用parse方法def parse(self, response: HtmlResponse, **kwargs):"""parse方法是scrapy框架的回调方法,当启动scrapy框架后:1. scrapy对start_urls类属性进行迭代并获取将要请求的地址2. 获取到地址后,scrapy会自动发送请求3. 获取到响应对象后会调用parse方法并将获取到的response对象传递过来""""""response对象中常用的属性print('响应url', response.url)print('响应头', response.headers)print('响应状态码', response.status)print('响应体', response.body.decode('utf-8'))print('请求地址', response.request.url)print('请求头', response.request.header)"""a_list = response.xpath('//div[@class="rank-list"]/a')for item in a_list:rank_num = item.xpath('./div[@class="badge"]/text()').extract_first()  # 排名title = item.xpath('.//div[@class="title"]/text()').extract_first()  # 标题img_url = item.xpath('./img/@src').extract_first()  # 图片地址desc = item.xpath('.//div[@class="desc"]/text()').extract_first()  # 描述play_number = item.xpath('.//div[@class="info-item"][1]/span/text()').extract_first()  # 播放数# 下一步:# 使用yield关键字将解析好的数据提交给管道pipelines模块进行存储yield {"type": "info","title": title,"img_url": img_url,"rank_num": rank_num,"desc": desc,"play_number": play_number}# 自行构造request请求并交给下载器下载"""callback: 指定解析方法cb_kwargs: 如果解析方法中存在形参,则可以通过cb_kwargs传递,传递值的类型必须是字典,字典中的key必须与形参名称保持一致"""print(img_url)yield scrapy.Request(img_url, callback=self.parse_img, cb_kwargs={'img_name': title})def parse_img(self, response, img_name):yield {'type': 'img','img_name': f"{img_name}.png",'img_content': response.body}
## pipelines.py
import os
import pymongo
class FmPipeline:def process_item(self, item, spider):"""如果想在管道模块中打印parse方法返回的数据需要在配置文件中激活管道:param item:  parse方法返回的值:param spider: 定义的爬虫名称:return:"""type_ = item.get('type')if type_ == "img":download_path = os.path.join(os.getcwd(), 'download')if not os.path.exists(download_path):os.mkdir(download_path)img_name = item.get('img_name')image_content = item.get('img_content')if img_name:with open(f"{download_path}/{img_name}".replace("|",'_'), 'wb') as file:file.write(image_content)print('图片保存成功', img_name)elif type_ == "info":mongo_client = pymongo.MongoClient('mongodb://root:123456@124.70.4.*:27017')  # 连接自己的数据库collection = mongo_client['py_spider']['fm']collection.insert_one(item)print('数据插入成功')else:print('其他未知的数据类型')
## 警告处理
2024-03-09 14:34:17 [py.warnings] WARNING: D:\software\miniconda3\envs\spiderScrapy\lib\site-packages\scrapy\selector\unified.py:83: UserWarning: Selector got both text and root, root is being ignored.super().__init__(text=text, type=st, root=root, **kwargs)## 降级parsel包
pip install parsel==1.7.0

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/734508.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

DFS例题(n皇后问题)C++(Acwing)

代码&#xff1a; #include <iostream>using namespace std;const int N 20;int n; char g[N][N]; bool col[N], dg[N], udg[N];void dfs(int u) {if(u n){for(int i 0; i < n; i) puts(g[i]);puts("");return; }for(int i 0; i < n…

[java入门到精通] 19 网络编程,设计模式

今日目标 网络编程 TCP通信 Junit单元测试 单例设计模式 多例设计模式 工厂设计模式 1 网络编程 1.1 软件架构 C/S结构 &#xff1a;全称为Client/Server结构&#xff0c;是指客户端和服务器结构。常见程序有&#xff31;&#xff31;、迅雷等软件B/S结构 &#xff1a…

【Python数据结构与判断1/7】复杂的多向选择

目录 导入 举个栗子 代码优化 elif 栗子 执行顺序 情况一 情况二 情况三 if-elif-else特性 三种判断语句小结 if if-else if-elif-else 嵌套语句 if嵌套 栗子 执行顺序 相互嵌套 Tips Debug 总结 导入 在前面&#xff0c;我们学习了单向选择的if语句和多项…

第四节:SashulinMessageBroker的团队协作

SMB工程可以通过git或svn等工具进行管理。除此外&#xff0c;SMB也提供了云代码管理功能。实际效果如图&#xff1a; 一、准备工作 1、代码管理相关的表结构 以下是云代码管理表结构&#xff0c;在mysql中运行。 -- Create syntax for TABLE sc_flow CREATE TABLE sc_flow (…

数据结构与算法:链式二叉树

上一篇文章我们结束了二叉树的顺序存储&#xff0c;本届内容我们来到二叉树的链式存储&#xff01; 链式二叉树 1.链式二叉树的遍历1.1二叉树的前序&#xff0c;中序&#xff0c;后序遍历1.2 三种遍历方法代码实现 2. 获取相关个数2.1获取节点个数2.2获取叶节点个数2.3 获取树的…

《软件安装与使用教程》— Git 在Windows的安装教程

目录 Git在Windows安装教程1 获得安装包2 解压文件3 注意事项4 安装步骤4.1 运行安装程序4.2 声明许可4.3 选择安装路径4.4 选择需要安装的组件4.5 选择开始菜单4.6 选择默认编辑器4.7 选择PATH环境4.8 选择HTTPS后端传输4.9 配置行尾巴符转换4.10 配置Git Bash终端仿真器4.11 …

NLP 算法实战项目:使用 BERT 进行模型微调,进行文本情感分析

本篇我们使用公开的微博数据集(weibo_senti_100k)进行训练&#xff0c;此数据集已经进行标注&#xff0c;0: 负面情绪&#xff0c;1:正面情绪。数据集共计82718条(包含标题)。如下图&#xff1a; 下面我们使用bert-base-chinese预训练模型进行微调并进行测试。 技术交流&#x…

STC89C52串口通信详解

目录 前言 一.通信基本原理 1.1串行通信与并行通信 1.2同步通信和异步通信 1.2.1异步通信 1.2.2同步通信 1.3单工、半双工与全双工通信 1.4通信速率 二.串口通信简介 2.1接口标准 2.2串口内部结构 2.3串口相关寄存器 三.串口工作方式 四.波特率计算 五.串口初始化步骤 六.实验…

万界星空科技MES系统中的车间管理的作用

在了解mes生产管理系统的作用包括哪些方面之前&#xff0c;我们先来了解一下作为生产管理信息化的关键部分&#xff0c;车间管理系统包含哪几个部分&#xff1a;一、mes系统中的车间管理通常包含以下部分&#xff1a; 1、设备管理&#xff1a;用于监控车间内的设备状态&#xf…

新规正式发布 | 百度深度参编《生成式人工智能服务安全基本要求》

2024年2月29日&#xff0c;全国网络安全标准化技术委员会&#xff08; TC260 &#xff09;正式发布《生成式人工智能服务安全基本要求》&#xff08;以下简称《基本要求》&#xff09;。《基本要求》规定了生成式人工智能服务在安全方面的基本要求&#xff0c;包括语料安全、模…

springboot整合shiro的实战教程(二)

文章目录 整合思路1.创建springboot项目2.引入依赖3.创建Shiro Filter0.创建配置类1.配置shiroFilterFactoryBean2.配置WebSecurityManager3.创建自定义Relm4.配置自定义realm5.编写控制器跳转至index.html6.加入资源的权限控制7. 常见过滤器 登录认证实现登录界面开发controll…

目标网站屏蔽右键检查(使用开发者工具)

问题&#xff1a; 通过网络触手中想要获取某网站的数据出现&#xff1a;鼠标右击&#xff0c;或按ctrl F10 键 无反应&#xff08;也就是打不开类似谷歌的开发工具&#xff09; 问题同等与&#xff1a; 解决网页屏蔽F12或右键打开审查元素 引用&#xff1a; 作者&#xff…

C/C++ BM19 寻找峰值

文章目录 前言题目解决方案一1.1 思路阐述1.2 源码 解决方案二2.1 思路阐述2.2 源码 总结 前言 这道题第一遍做的时候题目条件没有好好的审阅&#xff0c;导致在判断边界问题的时候出了不少岔子。 我的方法是时间复杂度为O(N)的&#xff0c;官方的logN可能更好一些。我的就是简…

启发式算法:遗传算法

文章目录 遗传算法-引例交叉变异遗传算法遗传算法流程遗传算法应用遗传算法-引例 在一代代演化过程中,父母扇贝的基因组合产生新扇贝,所以遗传算法会选择两个原有的扇贝,然后对这两个扇贝的染色体进行随机交叉形成新的扇贝。迭代演化也会造成基因突变,遗传算法让新产生扇贝…

Mysql索引底层数据结构

Mysql索引底层数据结构 一、数据结构1.1.索引的本质1.2.MySQl特点1.3.索引数据结构1.4.B-Tree结构1.5.BTree结构1.6.查看mysql文件页大小&#xff08;16K&#xff09;1.7.为什么mysql页文件默认16K&#xff1f;1.8.Hash结构 二、存储引擎2.1.InnoDB2.1.1.聚集索引2.1.2.为什么建…

力扣:数组篇

1、数组理论基础 数组是存放在连续内存空间上的相同类型数据的集合。 需要两点注意的是 数组下标都是从0开始的。数组内存空间的地址是连续的 因为数组的在内存空间的地址是连续的&#xff0c;所以我们在删除或者增添元素的时候&#xff0c;就难免要移动其他元素的地址。 …

【你也能从零基础学会网站开发】Web建站之javascript入门篇 JavaScript中的表达式、运算符、位运算、递增递减

&#x1f680; 个人主页 极客小俊 ✍&#x1f3fb; 作者简介&#xff1a;web开发者、设计师、技术分享 &#x1f40b; 希望大家多多支持, 我们一起学习和进步&#xff01; &#x1f3c5; 欢迎评论 ❤️点赞&#x1f4ac;评论 &#x1f4c2;收藏 &#x1f4c2;加关注 JavaScript…

kali当中不同的python版本切换(超简单)

kali当中本身就是自带两个python版本的 配置 update-alternatives --install /usr/bin/python python /usr/bin/python2 100 update-alternatives --install /usr/bin/python python /usr/bin/python3 150 切换版本 update-alternatives --config python 0 1 2编号选择一个即可…

【MySQL篇】 MySQL基础学习

文章目录 前言基础数据类型DDL数据库操作查询数据库创建数据库删除数据库使用数据库 DDL表操作创建表查询表修改表删除 DML-增删改添加数据更改数据删除数据 DQL-查询基础查询条件查询聚合函数分组查询排序查询分页查询编写顺序 DML-用户及权限用户管理权限控制 函数字符串函数…

挑战杯 基于设深度学习的人脸性别年龄识别系统

文章目录 0 前言1 课题描述2 实现效果3 算法实现原理3.1 数据集3.2 深度学习识别算法3.3 特征提取主干网络3.4 总体实现流程 4 具体实现4.1 预训练数据格式4.2 部分实现代码 5 最后 0 前言 &#x1f525; 优质竞赛项目系列&#xff0c;今天要分享的是 基于深度学习机器视觉的…