【爬虫实战】python微博热搜榜Top50

一.最终效果

二.项目代码

2.1 新建项目

本文使用scrapy分布式、多线程爬虫框架编写的高性能爬虫，因此新建、运行scrapy项目3步骤：

1.新建项目:
scrapy startproject weibo_hot

2.新建 spider:
scrapy genspider hot_search "weibo.com"

3.运行 spider:
scrapy crawl hot_search

注意：hot_search 是spider中的name

4.编写item：

class WeiboHotItem(scrapy.Item):index = scrapy.Field()topic_flag = scrapy.Field()icon_desc_color = scrapy.Field()small_icon_desc = scrapy.Field()small_icon_desc_color = scrapy.Field()is_hot = scrapy.Field()is_gov = scrapy.Field()note = scrapy.Field()mid = scrapy.Field()url = scrapy.Field()flag = scrapy.Field()name = scrapy.Field()word = scrapy.Field()pos = scrapy.Field()icon_desc = scrapy.Field()

5.编写爬虫解析代码：


import os
from itemadapter import ItemAdapter
from .settings import DATA_URI
from .Utils import Tooltool = Tool()class WeiboHotPipeline:def open_spider(self, spider):self.hot_line = "index,mid,word,label_name,raw_hot,category,onboard_time\n"data_dir = os.path.join(DATA_URI)file_path = data_dir + '/hot.csv'#判断文件夹存放的位置是否存在，不存在则新建文件夹if os.path.isfile(file_path):self.data_file = open(file_path, 'a', encoding='utf-8')else:if not os.path.exists(data_dir):os.makedirs(data_dir)self.data_file = open(file_path, 'a', encoding='utf-8')self.data_file.write(self.hot_line)def close_spider(self, spider):  # 在关闭一个spider的时候自动运行self.data_file.close()def process_item(self, item, spider):try:hot_line = '{},{},{},{},{},{},{}\n'.format(item.get('index', ''),item.get('mid', ''),item.get('word', ''),item.get('label_name', ''),item.get('raw_hot', ''),tool.translate_chars(item.get('category', '')),tool.get_format_time(item.get('onboard_time', '')),)self.data_file.write(hot_line)except BaseException as e:print("hot错误在这里>>>>>>>>>>>>>", e, "<<<<<<<<<<<<<错误在这里")return item

三.注意事项

settings.py配置项修改


# Obey robots.txt rules
ROBOTSTXT_OBEY = False # 关闭，否则根据weibo的爬虫策略爬虫无法获取数据

如果

四.运行过程

五.项目说明文档

六.获取完整源码

爱学习的小伙伴，本次案例的完整源码，已上传微信公众号“一个努力奔跑的snail”，后台回复 热搜榜 即可获取。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/105911.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

【爬虫实战】python微博热搜榜Top50

一.最终效果

二.项目代码

2.1 新建项目

三.注意事项

四.运行过程

五.项目说明文档

六.获取完整源码

相关文章

揭秘元宇宙背后最炫科技风：数字经济时代，元宇宙发展解决方案及核心技术

argmin是什么意思

最新ai创作系统CHATGPT系统源码+支持GPT4.0+支持ai绘画（Midjourney)

【Python从入门到进阶】39、使用Selenium自动验证滑块登录

MyBatis底层源码分析

哪种网站适合物理服务器

oracle创建数据库，导入dmp操作全家桶

C语言 —— 指针

代码更换了目录，没有任何变更，但Idea编辑器却提示所有代码都变更了？

Java进阶篇--公平锁非公平锁

Stable Diffusion绘画，卡通，教室

单链表经典OJ题

C++11智能指针

Kotlin vs Java：为什么Springboot官方教程选择了Kotlin？

【算法与数据结构】--常见数据结构--栈和队列

NeurIPS 2023 | MQ-Det: 首个支持多模态查询的开放世界目标检测大模型

傅里叶变换和其图像处理中的应用

KOSMOS-2.5:密集文本的多模态读写模型

通过jsoup抓取谷歌商店评分

Python学习----Day07