python爬取b站评论_python高效之爬了B站再爬微博

全文简介

本文是用Python爬取微博移动端的数据。可以看一下Robots协议。另外尽量不要爬取太快。如果你毫无节制的去爬取别人数据,别人网站当然会反爬越来越严厉。所以,不要难为别人,到最后其实是在难为你自己。至于为什么不爬PC端,原因是移动端较简单,很适合爬虫新手入门。有时间再写PC端吧!

环境介绍

Python3

Windows-10-64位

微博移动端

网页分析

以获取评论信息为例(你可以以自己的喜好获得其他数据)。如下图:

在这里就会涉及到一个动态加载的概念,也就是我们只有向下滑动鼠标滚轮才会加载出更多的评论数据。这也是网页经常使用的方式。接下来就应该找到评论信息的真实网址,找到真实网址的方法就是打开浏览器的开发者工具,火狐/谷歌是F12键。打开如下:

打开以后点击网络,网络用来记录浏览器和服务器交换的信息。接下来将鼠标滚轮缓慢向下滚动,在这个过程中就会弹出类似于上图的信息,也就是评论信息加载出来了。找到评论信息,应该会在第一条。如下图:

真实网址:https://m.weibo.cn/api/comments/show?id=4160547165300149&page=3

将网址在火狐里面打开如下图:

上面的网址其实pages=3就代表第三页,所以只需模拟网址即可,pages=4,5,6。。。。

另外由于是Json文件,所以提取数据非常方便,只需用切片操作即可。

Python代码

代码写的丑,凑合着看吧。

python有趣吗?好玩吗?想学吗?这里小编创建了一个python学习交流群:308754087 里面也会不定时分享关于Python的免费学习资料,欢迎想学习的小伙伴的加入,python有你更精彩!!嘿嘿!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/507315.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

c++ 内存管理_Python Bindings - 从 Python 调用 C/C++

python 最被人诟病的问题是什么? 慢,这是被人诟病最多的问题,很少人知道具体原因,极少人愿意去深入了解并找到原因,更极少的人愿意付出时间去解决这个问题,很多人都是停留在抱怨吐槽阶段,知乎上…

python安装idle_(1)Python 安装使用IDLE

安装Windows x86 web-based installer 在线安装 Windows x86 executable installer 离线安装 x86-64 64位软件 配置环境变量path下添加 python安装路径 查看版本号:运行Python 输入 help()一、IDLE介绍 IDLE是Python自带简单的集成开发环境,安装python的…

S-MBRec学习笔记

1 动机 传统推荐系统一般只考虑购买行为,忽略了放入购物车、浏览行为;本文将购买、放入购物车、浏览三个行为一起考虑;考虑购买和放入购物车行为的差异,进行对比学习;考虑购买和浏览行为的差异,进行对比学…

小米5点位图_最新!地铁5号线、6号线部分车站文化墙设计出炉!你选哪个?

情忆汉长安、惊鸿游龙、星辰大海……这些绝美的名字属于地铁文化墙近日西安地铁5号线和6号线一期工程的6座车站文化墙设计方案新鲜出炉邀请广大市民乘客对文化墙设计进行投票并提出宝贵建议西安地铁“一站一景”一直以来,西安地铁因其“一站一景”的独立logo设计、精…

python import io_Python——python3的io读写

前言:python2中的StringIO经常被用来作字符串的缓存,尤其是处理图片验证码的处理,近期牵扯tornado项目升级python3,简单学习了下python3中的io操作;因为StringIO的一些接口和文件操作是一致的,也就是说同样…

python 编辑距离_最小编辑距离python

1 什么是编辑距离 在计算文本的相似性时,经常会用到编辑距离(Levenshtein距离),其指两个字符串之间,由一个字符串转成另一个所需的最少编辑操作次数。在字符串形式上来说,编辑距离越小,那么两个…

php 清空一个数组_php如何删除一个数组

php如何删除一个数组2020-07-10 01:16:35php删除一个数组的方法:1、使用unset函数删除一个数组元素,且保持原有索引不变;2、使用“array_splice”函数删除一个数组元素,不保持索引;3、使用“array_diff”函数&#xff…

asp多表查询并显示_MySQL多表查询与事务

回顾1. DQL单表高级查询条件 where比较运算逻辑运算符in关键字between关键字if null关键字like关键字% 多个任意字符_ 单个任意字符排序 order byascdesc聚合函数count(*) 统计行,包括null值maxminavgsum分组 group by 分组字段 having 分组后条件过滤分页 limit 开…

pyqt按钮关闭窗口_PyQt5按钮单击事件,退出程序

1.注意项:当使用QPushButton.clicked.connect(lambda:self.信号槽方法)。connect方法传参数时,需要加上“lambda:”2.步骤:添加一个按钮 self.button1 QPushButton(按钮上的文本)。创建水平布局对象QHBoxLayout,并使用setWidget方…

Bias and Debias in Recommender System: A Survey and Future Directions学习笔记

1 引言 2006-2020发表的有关推荐系统去偏的论文统计: 2 推荐系统的偏差 偏差发生在推荐系统的不同阶段: 用户交互到生成数据的阶段: – 选择偏差: – 一致性偏差(从众偏差): – 曝光偏差&a…

卡扇区数据教程_分享一款硬盘分区和数据恢复软件

最近有朋友留言,自己的硬盘被格式化了,没法恢复。今天给大家介绍一款解决硬盘恢复软件--DiskGenius,文末附下载地址,觉得有用点个在看吧。DiskGenius是一款功能非常强大的硬盘分区及数据恢复软件,算法精湛、功能强大&a…

名图1.8智能隐藏功能_7年后再度回归 全新一代名图“大”不同_搜狐汽车

本文车型速览除了文章作者的主观观点外,我们正尝试基于全网可查的客观数据,为您提供中立、客观的参考依据:本文部分车型速览:畅销车型质量排行top10展开微信扫码,直接一次看完附近所有城市低价(附近城市均有经销商可售…

文本图像增强及opencv应用实例

1 文本图像增强简介 文本图像增强应用场景:扫描电子图像、图像去背景、去噪点、文字增强等;传统图像处理的方法:滤波锐化、形态学处理等,利用opencv就可以操作;基于深度学习的方法:风格迁移、超分重构等。2 基于opencv的文本图像增强算法之一 利用传统图像处理方式对文本…

3 vue 线条箭头_线条眉要如何处理才能更自然?

更多纹绣内容关注公众号:法米索半永久学堂。眉头的操作确实不是一件容易的事,都说万事开头难,很多纹绣师把握不好眉头的操作技巧,一不小心就会把眉头做的方了、圆了,总之就是非常不自然。但只要我们把眉头做好了&#…

文本图像增强文献调研

1 角度矫正 https://blog.csdn.net/weixin_39133209/article/details/127754001 https://zhuanlan.zhihu.com/p/370145715 https://blog.csdn.net/m_buddy/article/details/81463234 https://blog.csdn.net/weixin_42869334/article/details/123348328 https://www.codenong.c…

Jenkins Job 迁移小妙招【jenkins-cli】

文章目录 jenkins-cli 入门jenkins-cli 使用方法 1:使用 ssh 访问 jenkins第 1 步:认证第 2 步:查看支持的命令第 3 步:构建 job 案例方法 2:使用 cli 客户端 访问 jenkins第 1 步:下载 jar第 2 步:使用 cli 客户端查看所有选项客户端连接模式两种方式的对比迁移案例【基…

git rebase用法_Git:Clone别人的代码之后push到自己码云上失败的解决办法

最近也是刚开始使用gitee,比较生疏。场景是这样的:clone了朋友的一份代码到自己的本地,然后自己想把它保存到自己的gitee 私有仓库上,就在gitee上面创建了一个私有的仓库,然后多次push都失败了,实践了网上提…

fpga板子怎么和电脑连_windows7台式电脑怎么连接路由器?台式win7电脑连路由器步骤...

相信还有许多在使用windows7系统,尽管使用很长一段时间了,不过对win7系统的一些功能还是不太了解。大家家里应该都有路由器,那么windows7台式电脑怎么连接路由器,下面我们就一起来看看台式win7电脑连接路由器步骤。win7台式电脑连…

文本检测及识别小组周报

1 Huang L的工作 https://blog.csdn.net/qq_44950283/article/details/127739829 OCR小组会议纪要 2022/11/12 任意形状文本检测 1、特征提取:输入图片通过共享卷积得到共享特征Fs 2、边界建议模型使用Fs,得到先验特征Fp(包括分类图、距离场图、方向场…