2024年微信公众号链接爬取

通过输入(或文件导入)公众号名称,即可爬取该公众号所有历史文章。

通过公众号官方网站调用API,打开开发者工具后发现有 

打开后发现有搜索结果的fakeid,这是每个公众号的标识。

点击某公众号后出现

 

这是具体公众号文章信息,它需要的就是fakeid,其中token是你自己公众号独有的。

打开后是这样的 

 这样就可以通过正则表达式找到所有的link,再将\替换掉,即可得到所有文章的链接,具体爬取文章哪些内容,html格式各不相同。

其中header和cookie按照自己浏览器填写即可。

from urllib.parse import quote,unquote
import requests
import os
import numpy as np
from concurrent.futures import ThreadPoolExecutor
import time
import re
import pandas as pd
import time
import json
from bs4 import BeautifulSoup
import sys
def get_articles(search_name,begin,count):sum=0header={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/121.0.0.0 Safari/537.36 Edg/121.0.0.0'}cookie={'Cookie':'RK=dp90GcuG9p; ptcz=d746c192ffbb523199183ab352d5fa9e9c910a4f3b54760f12b45adc13ae240b; qq_domain_video_guid_verify=990a13b1b7b9eee5; _qimei_uuid42=1811d111e17100b9c82a6d970b40848157bb8f5a7f; pgv_pvid=4349444734; _qimei_fingerprint=ef24df0d3d1526c851b8fd8e3e5046e1; _qimei_q36=; _qimei_h38=19c5e2dfc82a6d970b40848102000008e1811d; o_cookie=3260693694; ua_id=PE7tWJm65TXEuv2NAAAAAEH8DLqAC6U64zQAeHCWDHU=; wxuin=06761475252682; mm_lang=zh_CN; qz_gdt=s4h4gzicaaam2skd47cq; _clck=3935648545|1|fj2|0; uuid=936e5d75bad14672d72ecd9f1cddb465; rand_info=CAESIHrpTUh/dWE97s4zYr+5JmdooNE2+xgIQ7iSiyNoJNlP; slave_bizuin=3935648545; data_bizuin=3935648545; bizuin=3935648545; data_ticket=jlULryJfNpiYkVXO817h9zgmLsmmrPR9XkC+UPIpVXh6BVxUpj+NeDYKN0Fx1Hj4; slave_sid=UVVHcFduVmRmSFp5NUxxY3RSc3kxVFdGMVlGaVl0R01wR0E5UnlvSmFQb1VTeWlkSjBNVFpYc0hQdW9wc3lzWFJKNTNZNXc3bXY0dXFQWVE3dkMyU2ZlRnJNcUlsSWhDT0FsVGxJRDB5RGVXM2NYREl2aVZBZmQyS01QTktGbTFyVHQ2alZTcEpRMllLSE12; slave_user=gh_042488a75457; xid=31ef245af21c80ddc82bb852f22c5f87; rewardsn=; wxtokenkey=777; _clsk=doakr4|1707289611534|4|1|mp.weixin.qq.com/weheat-agent/payload/record'}refer={}search_url=f'https://mp.weixin.qq.com/cgi-bin/searchbiz?action=search_biz&begin=0&count=5&query={quote(search_name)}&token=726980468&lang=zh_CN&f=json&ajax=1'search_info=requests.get(search_url,headers=header,cookies=cookie)if search_info.status_code!=200:print('error!')print(search_url)sys.exit(0)search_info=search_info.json()['list']fakeid=search_info[0]['fakeid']article_url=f'https://mp.weixin.qq.com/cgi-bin/appmsgpublish?sub=list&search_field=null&begin=0&count=5&query=&fakeid={fakeid}&type=101_1&free_publish_type=1&sub_action=list_ex&token=726980468&lang=zh_CN&f=json&ajax=1'json_info=requests.get(article_url,headers=header,cookies=cookie)if json_info.status_code!=200:print('error!')print(article_url)sys.exit(0)json_info=json_info.json()['publish_page']links=re.findall(r'link.*?http:.*?#rd',json_info)for i in range(len(links)):links[i]=links[i].replace('\\','')[7:]print(links)
print('输入想要搜索的公众号名称:')
search_name=input()
get_articles(search_name,0,20)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/672745.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Windows中如何使用 Anaconda 和 gempy地质建模

GemPy是一个免费开源的Python软件包,主要用于建立三维地质模型。以下是windows下GemPy的安装过程。 一、(可选步骤)N卡加速 如果使用的是英伟达的RTX显卡,可以去N卡官网下载cuda安装包以启用GPU加速。 首先检查显卡支持的CUDA版…

二层交换机配置以太网通道

实验大纲 二层聚合端口配置 1.构建网络拓扑结构图 2.修改交换机名字 3.创建聚合组进入聚合接口模式 4.将端口绑定到聚合端口(接口模式) 5.聚合接口下端口配置(聚合接口模式) 6.具体配置 7.验证端口通道1的状态 8.配置ip 9.测试连通…

外汇天眼:欧洲证券和市场管理局(ESMA)撤销对迪拜商品清算公司的欧盟认可

欧洲证券与市场管理局(ESMA)宣布,欧洲监管机构(EBA、EIOPA和ESMA - 即ESA的联合上诉委员会)一致决定驳回迪拜商品清算公司(DCCC)对ESMA提起的上诉,并因此确认ESMA决定撤销其认可。DC…

分析网站架构:浏览器插件

一、Wappalyzer 1.1 介绍 Wappalyzer 是一款用于识别网站所使用技术栈的浏览器插件。它能够分析正在浏览的网页,检测出网站所使用的各种技术和框架,如内容管理系统(CMS)、JavaScript库、Web服务器等。用户只需安装 Wappalyzer 插…

1755. 最接近目标值的子序列和

Problem: 1755. 最接近目标值的子序列和 文章目录 思路解题方法复杂度Code 思路 给你一个整数数组 nums 和一个目标值 goal。你需要从 nums 中选出一个子序列,使子序列元素总和最接近 goal。也就是说,如果子序列元素和为 sum ,你需要 最小化绝…

Mac安装nvm装完项目内node找不到

教程:NVM 快速安装教程 - 知乎 装完只有装了nvm下的目录里能找到node&nvm,解决方法: 配置node环境变量 进入/etc目录下 复制profile文件(readonly),重命名profile-copy vi profile-copy 输入i开始编辑文件 加入node的环…

春节放大招,阿里通义千问Qwen1.5开源发布

2月6日阿里发布了通义千问1.5版本,包含6个大小的模型,“Qwen” 指的是基础语言模型,而 “Qwen-Chat” 则指的是通过后训练技术如SFT(有监督微调)和RLHF(强化学习人类反馈)训练的聊天模型。 模型…

golang 通过 cgo 调用 C++ 库

思路 将 C 库包装成 C 库 -> golang 通过 cgo 调用 C 库 C 相关文件 目录列表 include/ some.h C 库头文件some_wrapper.h < 用于将 C 库包装成 C 库的头文件 lib/ libsome.a C 库 src/ some_wrapper.cpp < 用于将 C 库包装成 C 库的源码文件 源码示例 some.h…

113.乐理基础-五线谱-五线谱的调号(二)

内容参考于&#xff1a;三分钟音乐社 上一个内容&#xff1a;五线谱的调号&#xff08;一&#xff09;-CSDN博客 调号一共有15个&#xff1a;如下图 上一个内容里写了&#xff0c;C、D、E、F、G、A、B这七个调号&#xff0c;如下图 然后所有调号的五线谱版本&#xff1a; 然后…

博客|基于Springboot的个人博客系统设计与实现(源码+数据库+文档)

个人博客系统目录 目录 基于Springboot的个人博客系统设计与实现 一、前言 二、系统功能设计 三、系统实现 1、管理员功能实现 &#xff08;1&#xff09;用户管理 &#xff08;2&#xff09;文章分类管理 &#xff08;3&#xff09;公告信息管理 &#xff08;4&#…

re:从0开始的CSS学习之路 5. 颜色单位

0. 写在前面 没想到在CSS里也要再次了解这些颜色单位&#xff0c;感觉回到了大二的数字图像处理&#xff0c;可惜现在已经大四了&#xff0c;感觉并没有学会什么AI的东西 1. 颜色单位 预定义颜色名&#xff1a;HTML和CSS规定了147种颜色名。例如&#xff1a;red yellow green …

Harbor介绍、整体架构和安装

Harbor介绍、整体架构和安装 文章目录 Harbor介绍、整体架构和安装1.Harbor介绍2.Harbor 整体架构3.安装Harbor3.1 主机初始化3.1.1 设置ip地址3.1.2 配置镜像源3.1.3 关闭防火墙3.1.4 禁用SELinux3.1.5 禁用swap3.1.6 设置时区 3.2 安装docker3.3 安装docker compose3.4 下载H…

kafka 文件存储机制

文章目录 1. 思考四个问题&#xff1a;1.1 topic中partition存储分布&#xff1a;1.2 partiton中文件存储方式&#xff1a;1.3 partiton中segment文件存储结构&#xff1a;1.4 在partition中如何通过offset查找message: 2. kafka日志存储参数配置 Topic是逻辑上的概念&#xff…

彻底弄懂mktemp命令的作用

mktemp 是一个在 Unix 和类 Unix 系统中用于创建临时文件或目录的命令行工具。它属于 GNU coreutils 套件的一部分。mktemp 的主要优点是它能够生成一个唯一的文件名&#xff0c;这有助于避免文件名冲突&#xff0c;并且可以安全地创建临时文件&#xff0c;因为这些文件通常只有…

EMC学习笔记(二十二)降低EMI的PCB设计指南(二)

降低EMI的PCB设计指南&#xff08;二&#xff09; 1.电源和地概述2.电感量3.两层板和四层板4.单层和双层设计中的微控制器接地5.信号返回地6.模拟、数字信号与大功率电源7.模拟电源引脚和模拟参考电源8.四层板电源设计参考注意事项 tips&#xff1a;资料主要来自网络&#xff0…

Unreal Engine 中的插值方法示例

1. 线性插值 线性插值方法 FMath::Lerp。这个方法用于在两个值之间进行线性插值&#xff0c;通过调整插值比例&#xff08;Alpha&#xff09;&#xff0c;我们可以实现平滑的数值过渡。下面是一个简单的例子&#xff1a; float FMath::Lerp(float A, float B, float Alpha); …

外汇天眼:Vistova──假投顾带单获利400%,黑平台一再拖延不出金

在这个物价高涨的时代&#xff0c;愈来愈人意识到投资抗通胀的重要性&#xff0c;但因缺乏相关的专业知识而感到迷茫&#xff0c;甚至因此误信诈骗集团保证获利、稳赚不赔的话术&#xff0c;蒙受极大的金钱损失。 不久前&#xff0c;一位投资人向外汇天眼爆料Vistova这平台&…

tkinter绘制组件(41)——菜单按钮

tkinter绘制组件&#xff08;41&#xff09;——菜单按钮 引言布局函数结构按钮部分菜单显示完整代码函数 效果测试代码最终效果 github项目pip下载结语 引言 TinUI5的新控件&#xff0c;菜单按钮&#xff0c;menubutton。 这是一个与TinUI菜单&#xff08;menubar&#xff0…

DAC调节DCDC输出电压的电路方案分析

BUCK型电源芯片的调压方式分析 1、前题 BUCK型的电源芯片非常多&#xff0c;常用的如LM2576、LM2596等等&#xff0c;这种芯片优点很多&#xff0c;比如功率大、体积小、效率高等。这种芯片一般都可以通过电阻分压的方式设定反馈脚VFB的电压来改变电源芯片的输出电压。但最近…