python每隔半个小时执行一次_一篇文章教你用Python抓取微博评论

python每隔半个小时执行一次_一篇文章教你用Python抓取微博评论

news/2025/4/17 2:29:53/文章来源:https://blog.csdn.net/weixin_39517054/article/details/111629267

【Part1——理论篇】

试想一个问题，如果我们要抓取某个微博大V微博的评论数据，应该怎么实现呢？最简单的做法就是找到微博评论数据接口，然后通过改变参数来获取最新数据并保存。首先从微博api寻找抓取评论的接口，如下图所示。

但是很不幸，该接口频率受限，抓不了几次就被禁了，还没有开始起飞，就凉凉了。

接下来小编又选择微博的移动端网站，先登录，然后找到我们想要抓取评论的微博，打开浏览器自带流量分析工具，一直下拉评论，找到评论数据接口，如下图所示。

之后点击“参数”选项卡，可以看到参数为下图所示的内容：

可以看到总共有4个参数，其中第1、2个参数为该条微博的id，就像人的身份证号一样，这个相当于该条微博的“身份证号”，max_id是变换页码的参数，每次都要变化，下次的max_id参数值在本次请求的返回数据中。

【Part2——实战篇】

有了上文的基础之后，下面我们开始撸代码，使用Python进行实现。

1、首先区分url，第一次不需要max_id,第二次需要用第一次返回的max_id。

2、请求的时候需要带上cookie数据，微博cookie的有效期比较长，足够抓一条微博的评论数据了，cookie数据可以从浏览器分析工具中找到。

3、然后将返回数据转换成json格式，取出评论内容、评论者昵称和评论时间等数据，输出结果如下图所示。

4、为了保存评论内容，我们要将评论中的表情去掉，使用正则表达式进行处理，如下图所示。

5、之后接着把内容保存到txt文件中，使用简单的open函数进行实现，如下图所示。

6、重点来了，通过此接口最多只能返回16页的数据(每页20条)，网上也有说返回50页的，但是接口不同、返回的数据条数也不同，所以我加了个for循环，一步到位，遍历还是很给力的，如下图所示。

7、这里把函数命名为job。为了能够一直取出最新的数据，我们可以用schedule给程序加个定时功能，每隔10分钟或者半个小时抓1次，如下图所示。

8、对获取到的数据，做去重处理，如下图所示。如果评论已经在里边的话，就直接pass掉，如果没有的话，继续追加即可。

这项工作到此就基本完成了。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/261621.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

eclipse导入class文件

eclipse导入class文件

右键src文件夹-》build path-》config build path-》library-》add class folder-》create new folder，此时在工程中会出现Referenced Librarier,在其中包含了你的新文件夹，同时在其下面出现了你的新文件夹，这时右键你的新文件夹-》import-》…

阅读更多...

统计一个数的补码中二进制中1的个数

统计一个数的补码中二进制中1的个数

方法一： #include<stdio.h>int count_one_bit(int n){int count 0;while (n){if (n % 2 1){count;}n n / 2;}return count; } int main() {int num 0;int count 0;scanf("%d", &num);countcount_one_bit(num);printf("%d\n", c…

阅读更多...

Oracle 随机获取N条数据

Oracle 随机获取N条数据

Oracle 随机获取N条数据当我们获取数据时,可能会有这样的需求,即每次从表中获取数据时,是随机获取一定的记录,而不是每次都获取一样的数据,这时我们可以采取Oracle内部一些函数,来达到这样的目的1) select * from (select * from tablename order by sys_guid()) where row…

阅读更多...

优先级队列，代码参考范例

优先级队列，代码参考范例

一个看起来比较规范的代码： 1、版本信息 2、预处理信息 3、库函数引用 4、泛型编程 5、宏定义 6、复制构造函数 7、内敛函数 8、变量命名规范 9、代码的时间空间效率 10、错误恢复能力 11、规范的注释和缩进代码范例： /*******************************…

阅读更多...

r数据框计算字符出现次数_R语言系列第二期：①R变量、脚本、作图等模块介绍...

r数据框计算字符出现次数_R语言系列第二期：①R变量、脚本、作图等模块介绍...

在上一篇文章里，给大家介绍了R语言的下载，界面操作，6个处理对象等等。在这些内容的基础上，我们在这个部分为大家介绍一些实用知识，包括描述工作区结构、图形设备以及它们的参数等问题，还有初级编程和数据输…

阅读更多...

$.AjaxFileUpload is not a function

$.AjaxFileUpload is not a function

2019独角兽企业重金招聘Python工程师标准>>> ..is not a function错误的可能情况： 1、JS引入的路径不对。检查方法是看浏览器控制台是否将JS载入了进来。 2、JS引入顺序不对。JS要在你使用之前引入 3、Jquery没有第一个引入。 4、函数所在script标签&…

阅读更多...

打印一个整数二进制表示中所有的奇数位和偶数位

打印一个整数二进制表示中所有的奇数位和偶数位

#include<stdio.h>void my_print(int n){int i 0;printf(" 打印奇数位\n");for (i 30; i >0; i i - 2){printf("%d ", (n >> i)&1);}printf("\n");printf("打印偶数位\n");for (i 31; i >1; i i - 2){prin…

阅读更多...

60个数据窗口技巧（转）

60个数据窗口技巧（转）

60个数据窗口技巧 1.如何让存储文件目录的列，显示图片? 答：选择对应的column的display as picture属性为true　2、如何复制grid类型的所选择的行的数据到系统剪切板？答：string ls_selectedls_selecteddw_1.Object.DataWindow.Sel…

阅读更多...

代理对象我所理解的设计模式（C++实现）——代理模式（Proxy Pattern）

代理对象我所理解的设计模式（C++实现）——代理模式（Proxy Pattern）

文章结束给大家来个程序员笑话：[M] 概述作为C工程师，免不了要管理内存，内存管理也是C中的难点，而智能指针采用引用计数的方法很方便的帮我们管理了内存的应用，极大方便了我们的任务效率。而智能指针的这类用法其实就是…

阅读更多...

suse 内核编译安装_升级SUSE Linux内核的完整步骤！

suse 内核编译安装_升级SUSE Linux内核的完整步骤！

安装完SLED 10后发现仍然有“热启动网络不通”的问题，原因是内核版本较低，于是升级到2.6.17版内核，成功解决此问题。为了造福广大菜鸟，分享一下我的经验，欢迎高手批评补充。1。将下载的新内核(比如linux-2.6.17.tar.bz…

阅读更多...

C语言逆序字符串（递归实现）

C语言逆序字符串（递归实现）

算法思想以字符串“abcdef”为例 1.将a保存到temp中 2.将f放到a的位置 3.f处填写‘\0’ 4.计算bcde的长度 5.如果bcde的长度大于1，则逆序 6.将a放到f的位置 #include <stdio.h> #include<string.h> int my_strlen(char* str) {char* start str;char*…

阅读更多...

android 自定义控件

android 自定义控件

自定义一般分三种情况 1. 自定义布局 2. 自定义控件 3.直接继承View 下面来着eoe例子，实现自定义控件 1. 自定义属性 res/values/attrs.xml 自定义属性 <?xml version"1.0" encoding"utf-8"?> <resources><declare-styleable …

阅读更多...

某项目要调用现有的100多个DLL 一开始

某项目要调用现有的100多个DLL 一开始

某个项目需要使用很多内部其他Team的DLL 和第三方的DLL (大概百来个吧......这是什么鬼啊...可怕的历史,又不能改这些dll都上生产环境了) 如果直接用dll引用之后调用会有很多很多的问题 1.程序的质量会下降到这百来个dll中质量最差的一个 (万一某些人在代码里面写什么lock(…

阅读更多...

Hibernate3 jar包的作用[转]

Hibernate3 jar包的作用[转]

from:http://nopainnogain.iteye.com/blog/761630 （1）hibernate3.jar: Hibernate的核心库，没有什么可说的，必须使用的jar包 （2）cglib-asm.jar: CGLIB库，Hibernate用它来实现PO字节码的动态生成&…

阅读更多...

Linux下mysql整库备份

Linux下mysql整库备份

基本语法：mysqldump -u[mysql账户名] -p [--default-character-setutf8] [--max_allowed_packet50M]数据库名 >文件保存路径.示例： mysqldump -uroot -p --default-character-setutf8 --max_allowed_packet50M hyman > /web/hyman.sql转载于:htt…

阅读更多...

svr公式推导_支持向量回归（SVR）的详细介绍以及推导算法

svr公式推导_支持向量回归（SVR）的详细介绍以及推导算法

1 SVR背景2 SVR原理3 SVR数学模型SVR的背景SVR做为SVM的分支从而被提出，一张图介绍SVR与SVM的关系这里两虚线之间的几何间隔rd ∣ ∣ W ∣ ∣ \frac{d}{||W||}∣∣W∣∣d,这里的d就为两虚线之间的函数间隔。(一图读懂函数间隔与几何间隔)这里的r就是根据两平行线之…

阅读更多...

计算整数中各位数字之和

计算整数中各位数字之和

#include<stdio.h> int digit_sum(int num) {int temp num % 10;if (num > 9)return temp digit_sum(num / 10);elsereturn temp; } int main() {int num 0;scanf("%d", &num);int sumdigit_sum(num);printf("%d\n", sum);return 0; }

阅读更多...

Office文档模型深入---Outlook文档模型与开发实战（1）

Office文档模型深入---Outlook文档模型与开发实战（1）

简介本篇为Office文档模型深入系列第4篇，原计划是Excel的图表，之后是Word，因为项目转手需要总结Outlook，先改变下顺序，后面的内容会慢慢补上。本篇为Outlook子系列的第一篇，主要介绍下outlook命名空间下…

阅读更多...

VS2003,VS2005,VS2008 低版本打开高版本的解决方案和工程文件

VS2003,VS2005,VS2008 低版本打开高版本的解决方案和工程文件

一、用记事本打开sln文件，将： Microsoft Visual Studio Solution File, Format Version 10.00 # Visual Studio 2008 改成： Microsoft Visual Studio Solution File, Format Version 9.00 # Visual Studio 2005 二、用记事本打开csproj文件&a…

阅读更多...

写一个js向左滑动删除交互特效的插件——Html5 touchmove

写一个js向左滑动删除交互特效的插件——Html5 touchmove

需求描述需要实现类似QQ中对联系人的操作：向左滑动，滑出删除按钮。滑动超过一半时松开则自动滑到底，不到一半时松开则返回原处。纯js实现使用了h5的touchmove等事件，以及用js动态改变css3的translate属性来达到动画效果&#x…

阅读更多...

最新文章