微博一级评论爬虫

cookies需要替换成自己的

import requests
import requests
from lxml import etree
import openpyxl
from concurrent.futures.thread import ThreadPoolExecutor
import re
from datetime import datetime, timedelta
from urllib import parse
from jsonpath import jsonpath
from datetime import datetime
import os
import csv
import time
import random
import logging
import colorlogdef log_init():# 创建日志器logger = logging.getLogger()logger.setLevel(logging.DEBUG)# 创建控制台输出器sh = logging.StreamHandler()# 创建格式化器,使用colorlog设置颜色fmt = '%(log_color)s%(asctime)s %(levelname)s [%(name)s] [%(filename)s:%(lineno)d] - %(message)s%(reset)s'formatter = colorlog.ColoredFormatter(fmt,log_colors={'DEBUG': 'red','INFO': 'yellow','WARNING': 'green','ERROR': 'cyan','CRITICAL': 'red,bg_white',},style='%')# 把格式化器加入输出器sh.setFormatter(formatter)# 把处理器加入日志器logger.addHandler(sh)# 移除所有之前的处理器(如果有的话)for handler in logger.handlers[:]:logger.removeHandler(handler)# 添加新的处理器logger.addHandler(sh)return logger  # 返回配置好的logger实例def get_cookies():cookies_list = []return random.choice(cookies_list)def crawl(response):html = etree.HTML(response)nodes = html.xpath('//div[@action-type="feed_list_item"]')num = 0mid_list = html.xpath("//div[@class='card-wrap']/@mid")uid = ",".join(html.xpath("//div[@class='avator']/a[@target='_blank']/@href"))uid_list = re.findall(r'//weibo\.com/(\d+)' , uid)for node in nodes:try:name = node.xpath('.//a[@class="name"]/text()')[0]content = node.xpath('.//p[@node-type="feed_list_content_full"]//text()')if content == []:content = node.xpath('.//p[@node-type="feed_list_content"]//text()')# print(content)date_str = node.xpath('.//div[@class="from"]/a[1]/text()')[0].strip()forwards = node.xpath('.//div[@class="card-act"]/ul/li[1]/a//text()')comments_counts = node.xpath('.//div[@class="card-act"]/ul/li[2]/a//text()')# print(comments_counts[-1].strip())likes = node.xpath('.//div[@class="card-act"]/ul/li[3]/a//text()')if forwards[-1].strip() in ' 转发':forwards[-1] = '0'if comments_counts[-1].strip() in ' 评论':comments_counts[-1] = '0'if comments_counts[-1].strip():mid = mid_list[num]uid = uid_list[num]get_comments(mid, uid,''.join(content).strip().replace('\u200b', ''),name,key_word)num += 1if likes[2].strip() in '赞':likes[2] = '0'result = [name, date_str, forwards[-1].strip(), comments_counts[-1].strip(), likes[2].strip(),''.join(content).strip().replace('\u200b', '')]print(result)except Exception as f:print(f)def get_comments(mid, uid,content,name_au,max_id=None):global num,headersurl = "https://weibo.com/ajax/statuses/buildComments"# print(1)if max_id == None:params = {'is_reload': '1','id': mid,'is_show_bulletin': '2','is_mix': '0','count': '10','uid': uid,'fetch_level': '0','locale': 'zh-CN',}else:params = {'flow': '0','is_reload': '1','id': mid,'is_show_bulletin': '2','is_mix': '0','max_id': max_id,'count': '20','uid': uid,'fetch_level': '0','locale': 'zh-CN',}response = requests.get(url, headers=headers, cookies=get_cookies(), params=params).json()if len(response['data']):comment_list = jsonpath(response, '$..data[*].text_raw')name_list = jsonpath(response, '$..data[*]..screen_name')time_str_list = jsonpath(response, '$..data[*].created_at')disable_reply_list = jsonpath(response, '$..data[*].disable_reply')  # 转发数idstr_list = jsonpath(response, '$..data[*].idstr')like_counts_list = jsonpath(response, '$..data[*].like_counts')  # 点赞数source_list = jsonpath(response, '$..data[*].source')  # 来源id_list = jsonpath(response, '$..data[*].id')rootid_list = jsonpath(response, '$..data[*].rootid')for i in range(0, len(comment_list)):comment = comment_list[i]name = name_list[i]followers_count = response['data'][i]['user']['followers_count']location = response['data'][i]['user']['location']total_number = response['data'][i]['total_number']gender = response['data'][i]['user']['gender']if gender == "m":gender = "男"else:gender = '女'try:time_str = time_str_list[i]dt = datetime.strptime(time_str, "%a %b %d %H:%M:%S %z %Y")# 格式化 datetime 对象time_str = dt.strftime("%Y-%m-%d %H:%M:%S")except:time_str = ''disable_reply = disable_reply_list[i]idstr = idstr_list[i]like_counts = like_counts_list[i]id = str(id_list[i])rootid = str(rootid_list[i])# ['标题', '发布者', 'id', 'rootid', '内容', 评论者名称' , '时间', '粉丝数','评论数','点赞数', 'IP', '居住地',]data_list = [content, name_au, id, rootid, comment, name, gender, time_str, followers_count, total_number,like_counts,location]save_data_to_csv(data_list)num += 1logging.info(f"{YELLOW}评论数 :{num} " + f"一级评论{data_list}")max_id = jsonpath(response, '$.max_id')[0]if max_id != 0 and response['data'] != '':get_comments(mid, uid, content, name_au, max_id)def save_data_to_xlsx(data):filename = f'李佳琪/{key_word}.xlsx'name_headers = ['标题', '发布者', 'id', 'rootid', '内容', '评论者名称' , ' 性别' , '时间', '粉丝数','评论数','点赞数', 'IP', '居住地',]if os.path.exists(filename):workbook = openpyxl.load_workbook(filename)sheet = workbook.activesheet.append(data)else:workbook = openpyxl.Workbook()sheet = workbook.active# 添加表头sheet.append(name_headers)sheet.append(data)# 保存 Excel 文件workbook.save(filename)def save_data_to_csv(data_list):global key_wordfilename = f'{key_word}.csv'name_headers = ['标题', '发布者', 'id', 'rootid', '内容', '评论者名称', ' 性别', '时间', '粉丝数', '评论数', '点赞数', 'IP', '居住地', ]if not os.path.isfile(filename):with open(f'{filename}', 'a', encoding='utf-8-sig', newline='')as f:csv_write = csv.DictWriter(f, fieldnames=name_headers)csv_write.writeheader()else:with open(f'{filename}', 'a', encoding='utf-8', newline='')as f:csv_write = csv.DictWriter(f, fieldnames=data_list)csv_write.writeheader()def run():url = "https://s.weibo.com/weibo"for i in range(1, page):params = {"q": f'{key_word}',"page": f"{i}","xsort": "hot","suball": "1","timescope": f"custom:'{start_time}':'{end_time}'","Refer": "g",}response = requests.get(url, headers=headers, cookies=get_cookies(), params=params).textxml = etree.HTML(response)err_msg = ",".join(xml.xpath("//div[@class='card card-no-result s-pt20b40']/p/text()"))if '抱歉,未找到相关结果。' in err_msg:breakprint(requests.get(url, headers=headers, cookies=get_cookies(), params=params).url)crawl(response)if __name__ == '__main__':RED = '\033[31m'  # 红色WHITE = '\033[37m'  # 白色YELLOW = '\033[33m'  # 黄色num = 0headers = {"accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.7","accept-language": "zh-CN,zh;q=0.9","cache-control": "no-cache","pragma": "no-cache","priority": "u=0, i","referer": "https://weibo.com/","sec-ch-ua": "\"Chromium\";v=\"124\", \"Google Chrome\";v=\"124\", \"Not-A.Brand\";v=\"99\"","sec-ch-ua-mobile": "?0","sec-ch-ua-platform": "\"Windows\"","sec-fetch-dest": "document","sec-fetch-mode": "navigate","sec-fetch-site": "same-site","sec-fetch-user": "?1","upgrade-insecure-requests": "1","user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36"}key_word = '#邯郸初中生被害案3人被刑事追诉#'start_time = '2024-4-1-1'end_time = '2024-4-20-1'page = 10  # 页数log_init()run()

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/6500.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

查找算法与排序算法

查找算法 二分查找 (要求熟练) // C// 二分查找法(递归实现) int binarySearch(int *nums, int target, int left, int right) // left代表左边界,right代表右边界 {if (left > right) return -1; // 如果左边大于右边,那么…

初始化Linux或者Mac下Docker运行环境

文章目录 1 Mac下安装Docker2 Linux下安装Docker2.1 确定Linux版本2.2 安装Docker2.3 配置加速镜像 3 Docker安装校验4 安装docker-compose4.1 直接下载二进制文件4.2 移动二进制文件到系统路径4.3 设置可执行权限4.4 验证安装 1 Mac下安装Docker mac 安装 docker 还是比较方便…

open3d 处理las点云数据

laspy读取las点云数据 转换格式 open3d 处理:法向量估计 分享给有需要的人,代码质量勿喷。 import numpy as np import os import math import laspy import open3d as o3d# 输入文件夹路径 dirInput = "F://data"# 要筛选的文件后缀 extension = ".las&q…

配置Zephyr编译环境

安装chocolatey 以管理员身份运行PowerShell,然后在PowerShell下执行以下命令,安装chocolatey。 Set-ExecutionPolicy Bypass -Scope Process -Force; [System.Net.ServicePointManager]::SecurityProtocol [System.Net.ServicePointManager]::Securi…

自然科学领域基于ChatGPT大模型的科研绘图

以ChatGPT、LLaMA、Gemini、DALLE、Midjourney、Stable Diffusion、星火大模型、文心一言、千问为代表AI大语言模型带来了新一波人工智能浪潮,可以面向科研选题、思维导图、数据清洗、统计分析、高级编程、代码调试、算法学习、论文检索、写作、翻译、润色、文献辅助…

【深度学习实战(32)】模型结构之解耦头(de-coupled head)与耦合头(coupled head)

一、传统耦合头局限性 传统的检测模型,如YOLOv3和YOLOv4,使用的是单一的检测头,它同时预测目标类别和框的位置。然而,这种设计存在一些问题。首先,将类别预测和位置预测合并在一个头中,可能导致一个任务的…

机器学习小tip

有监督学习 有监督学习是通过现有训练数据集进行建模,再用模型对新的数据样本进行分类或者回归分析的机器学习 方法。 无监督学习 而无监督学习,或者说非监督式学习,则是在没有训练数据集的情况下,对没有标 签的数据进行分析并…

Wireshark CLI | 过滤包含特定字符串的流

问题背景 源自于和朋友的一次技术讨论,关于 Wireshark 如何查找特定字符串所在的 TCP 流,原始问题如下: 仔细琢磨了下,基于我对 Wireshark 的使用经验,感觉一步到位实现比较困难,所以想着说用 Wireshark C…

Mybatis Interview Question Summary

1. In best practice, usually an Xml mapping file will write a Dao interface corresponding to it. What is the working principle of the Dao interface? Can the methods in the Dao interface be overloaded when the parameters are different? Answer: The Dao in…

旅游系列之:庐山美景

旅游系列之:庐山美景 一、路线二、住宿二、庐山美景 一、路线 庐山北门乘坐大巴上山,住在上山的酒店东线大巴游览三叠泉,不需要乘坐缆车,步行上下三叠泉即可,线路很短 二、住宿 长江宾馆庐山分部 二、庐山美景

Photoshop中图像编辑的基本操作

Photoshop中图像编辑的基本操作 Photoshop中调整图像窗口大小Photoshop中辅助工具的使用网格的使用标尺的使用注释工具的使用 Photoshop中置入嵌入式对象Photoshop中图像与画布的调整画布大小的修改画布的旋转图像尺寸的修改 Photoshop中撤销与还原采用快捷键进行撤销与还原采用…

机器学习之基于Jupyter多种混合模型的糖尿病预测

欢迎大家点赞、收藏、关注、评论啦 ,由于篇幅有限,只展示了部分核心代码。 文章目录 一项目简介 二、功能三、系统四. 总结 一项目简介 一、项目背景 随着现代生活方式的改变,糖尿病的患病率在全球范围内呈现上升趋势。糖尿病是一种慢性代谢…

上位机图像处理和嵌入式模块部署(树莓派4b使用lua)

【 声明:版权所有,欢迎转载,请勿用于商业用途。 联系信箱:feixiaoxing 163.com】 lua是一个脚本语言,比c语言开发容易,也没有python那么重,整体使用还是非常方便的。一般当成胶水语言进行开发&a…

【Hadoop】--基于hadoop和hive实现聊天数据统计分析,构建聊天数据分析报表[17]

目录 一、需求分析 1、背景介绍 2、目标 3、需求 4、数据内容 5、建库建表 二、ETL数据清洗 1、数据问题 2、需求 3、实现 4、扩展概念:ETL 三、指标计算 1、指标1:统计今日消息总量 2、指标2:统计每小时消息量、发送量和接收用…

哥白尼高程Copernicus DEM下载(CSDN_20240505)

哥白尼数字高程模型(Copernicus DEM, COP-DEM)由欧洲航天局(European Space Agency, 简称ESA或欧空局)发布,全球范围免费提供30米和90米分辨率DEM。COP-DEM是数字表面模型(DSM),它表示地球表面(包括建筑物、基础设施和植被)的高程。COP-DEM是经过编辑的D…

循环神经网络模块介绍(Pytorch 12)

到目前为止,我们遇到过两种类型的数据:表格数据和图像数据。对于图像数据,我们设计了专门的卷积神经网络架构(cnn)来为这类特殊的数据结构建模。换句话说,如果我们拥有一张图像,我们 需要有效地利用其像素位置&#xf…

指针,解引用,空指针,野指针,常量指针(const+指针),指针常量(const+常量)

指针变量通过*操作符,操作指针变量指向的内存空间,被称为解引用。 所有指针类型在32位操作系统下是4个字节,64位是8个字节。 int a 10;int *p; // 定义了一个整型指针p。 *表示p是一个指针 p &a; // 将变量a的地址赋给指针p。 &是取地址运算符…

算法课程笔记——蓝桥云课第六次直播

(只有一个数,或者因子只有一个)先自己打表,找找规律函数就是2的n次方 异或前缀和 相等就抵消 先前缀和再二分

斐波那契数列,Java版本实现

斐波那契数列是一个著名的数列,其中每个数字(从第三个开始)是前两个数字的和。数列的前几个数字是 0, 1, 1, 2, 3, 5, 8, 13, 21, 34, … 等。下面是一个用Java实现的斐波那契数列的详细版本,包括递归方法、迭代方法以及一个优化的…

[HDLBits] Simple wire

Create a module with one input and one output that behaves like a wire. module top_module( input in, output out );assign out in; endmodule