全网最全爬取-b站爬取弹幕+评论之js逆向与xml降本增效

🌟 ❤️

作者:yueji0j1anke

首发于公号:剑客古月的安全屋

字数:801

阅读时间:    10min

声明:请勿利用文章内的相关技术从事非法测试,由于传播、利用此文所提供的信息而造成的任何直接或者间接的后果及损失,均由使用者本人负责,文章作者不为此承担任何责任。合法渗透,本文章内容纯属虚构,如遇巧合,纯属意外

一.总体概述

js逆向

最近被迫又打比赛了,属于是比赛等级一高就得重构一下子,准备凑齐几百万评论进行模型训练,这次盯上b站

先上效果图

爬取过程的日志记录

image-20240524145636929

image-20240524145649799

image-20240524145705513

弹幕结果

image-20240524145748844

评论结果

image-20240524145820440

目前加入了日志、多线程模块,在启动主程序前只需要在config下填入要爬取的视频即可

image-20240524150337268

二.爬虫过程

首先爬弹幕

image-20240524150427597

点击f12即可出现惊喜

但我发现这里的弹幕大多数是按照时间分类的,根本不可能提取到像我之前展示的效果,于是我仔细分析js,得出了其的弹幕其实还映射到了xml文件上的,爬这个xml文件大幅度就可以降本增效,这里就不泄露机密了,有兴趣的可以找我私聊。

其次爬评论,老生常谈了

image-20240524150655523

在评论区疯狂的下拉后即出现了该条请求,纵观全网好像并没有关于评论的翻页爬取,究极原因是因为翻页逻辑并不好找,并且涉及到了js逆向

image-20240524150750677

wts就是时间戳,w_rid一看就是md5了,所以打断点

全区搜索一下,都给他打上,然后加载评论

image-20240523214307650

image-20240523101459479

image-20240523214255591

image-20240524100605048

最后发现是根据我们的param与一个静态密钥组合而成,随后生成md5值(大过程略掉,避免小破站找我麻烦)

image-20240524150957318

三.后续

接口没有限制,爬了大概两百多万份,美滋滋了,接下来就是做情感分析,词云图和可视化入库等操作了~

目前已经爬取了x音,小x书,某乎

原文链接 爬虫实训-b站爬取弹幕+评论百万之js逆向与xml降本增效

如果对项目有兴趣的小伙伴可以关注公众号 剑客古月的安全屋 获取联系方式进行私聊~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/839832.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【C语言深度解剖】(14):结构体内存对齐(详细配图讲解)

🤡博客主页:醉竺 🥰本文专栏:《C语言深度解剖》 😻欢迎关注:感谢大家的点赞评论关注,祝您学有所成! ✨✨💜💛想要学习更多C语言深度解剖点击专栏链接查看&…

缩进在编程中的重要性及正确使用方法

新书上架~👇全国包邮奥~ python实用小工具开发教程http://pythontoolsteach.com/3 欢迎关注我👆,收藏下次不迷路┗|`O′|┛ 嗷~~ 目录 前言 缩进不当引发的问题 缩进的正确使用方法 缩进错误的调试与修复 总结 前言 在编程世…

Unity 资源 之 限时免费的Lowpoly农场动物,等你来领!

Unity资源 之 Lowpoly farm animals 农村动物 前言资源包内容领取兑换码 前言 Unity 资源商店为大家带来了一份特别的惊喜——限时免费的农场动物资源!这是一个充满趣味和实用性的资源包。 资源包内容 在这个资源包中,你可以找到丰富多样的低地养殖动物…

Vue3路由配置

路由其实就是一组对应关系,将一个路径与一个组件对应起来,当路径发生变化,路由器就可以通过路由规则,找到当前路径对应的组件,并将该组件呈现到页面上 使用路由步骤: 1.终端输入 npm i vue-router 2.在App…

Softing工业将亮相2024年阿赫玛展会——提供过程自动化的连接解决方案

您可于2024年6月10日至14日前往美因河畔法兰克福11.0号馆,Softing将在C25展位展出,欢迎莅临! 作为工业应用中数据交换领域公认的专家,Softing工业致力于帮助各行各业的客户部署网络自动化和优化生产流程。 使用Softing产品&…

如何在OpenHarmony上使用SeetaFace2人脸识别库?

简介 相信大部分同学们都已了解或接触过OpenAtom OpenHarmony(以下简称“OpenHarmony”)了,但你一定没在OpenHarmony上实现过人脸识别功能,跟着本文带你快速在OpenHarmony标准设备上基于SeetaFace2和OpenCV实现人脸识别。 项目效…

【Vue】Vue2路由

目录 路由作用Vue Router路由Vue Router路由的组成VueRouter常用的函数Vue Router的使用安装Vue Router创建router引入router使用 备注 Vue多级路由(嵌套路由)编写组件配置嵌套路由 Vue中的动态路由代码示例父组件Home.vue子组件路由配置 路由的 query 参…

黑龙江等保测评深入理解

“没有网络安全,就没有国家安全”,等级保护测评是指按照网络安全系统制定的一系列的防护过程,对已经有的和即将上线的商业服务的基础设施(系统,数据库,中间件等)所做的一系列的检查,…

HeyGen AI是什么?怎样使用HeyGen AI?

在数字时代,视频内容为王。无论是在社交媒体还是网站上,视频都以其独特的方式吸引着人们的眼球。然而,制作出专业水准的视频往往需要大量的时间和技术知识。HeyGen AI正是为了解决这一难题而诞生的。 HeyGen AI简介 HeyGen AI是一个创新的视…

618值得买的好物清单,这些数码好物你千万不能错过!

​随着618购物节的距离越来越近,你是不是已经开始疯狂浏览购物app,准备大肆采购一番了?但是在购物之前,还是得先做一做功课,避免陷入购物陷阱,而作为一名经验丰富的数码爱好者,想通过这次机会给…

Thinkphp内核开发盲盒商城源码v2.0 对接易支付/阿里云短信/七牛云存储

源码简介 这套系统是我从以前客户手里拿到的,100完整可用,今天测试防红链接失效了,需要修改防红API即可!前端页面展示我就不放了,懂的都懂 优点是Thinkphp开发的,二开容易。 源码图片 资源获取:Thinkphp内核开发盲盒商城源码v2.0 对接易支付/阿里云短…

kafka监控配置和告警配置——筑梦之路

kafka_exporter项目地址:https://github.com/danielqsj/kafka_exporter docker-compose部署kafka_exporter # docker-compose部署多个kafka_exporter,每个exporter对接一个kafka# cat docker-compose.ymlversion: 3.1 services:kafka-exporter-opslogs…

3DMax文件打开跳出请求操作需要提升

解决方法如下 打开autoremove,点击扩展功能,点击管理员已经阻止运行此应用 提示修复成功后,重启电脑再尝试打开max文件。

保研笔试复习——nju

文章目录 一、单选计算机网络计算机组成原理数字逻辑电路数据结构操作系统微机系统 多选题计算机网络计算机系统结构操作系统 免责声明:题目源自于网络,侵删。 就在今天2024-5-18,考的题下面的只有一道AVL的原题,其他都不是原题&a…

平板如何实现无纸化会议

为了实现高效的无纸化会议,连通宝可以是在内部网络部署,那么,平板如何实现无纸化会议? 1. 服务器配置: 部署专用无纸化会议系统服务器(如rhub无纸化会议服务器)至组织的内部网络中。确保该服务…

Ipad air6买什么电容笔?5款超值精品平替电容笔推荐!

电容笔作为ipad的最佳拍档,为学生党和打工人带来了极大的便利,二者搭配效率真的大大提升,但是,如何选购一支适合自己的电容笔呢?作为一个对数码设备非常感兴趣并且有一定了解的人,我根据自己多年的使用经验…

SQLite数据库免改造透明加密解决方案:给数据加把锁

在数字化时代,信息安全和隐私保护显得尤为重要。TDE透明加密技术,是一种在用户无感知的情况下对数据进行加密和解密的技术。它能够在数据生成、存储、传输和使用过程中自动进行加密处理,无需用户手动操作。透明加密技术的核心在于其透明性&am…

Wireshark 4.2.5:发现 QUIC 和 VXLAN 协议的新功能

Wireshark 是一种先进且广泛使用的网络协议分析仪,最近发布了新版本 4.2.5,它提供了许多新功能和改进。 Wireshark 4.2.5 发行说明 什么是 Wireshark? Wireshark 是世界上最流行的网络协议分析器。它用于故障排除、分析、开发和教育。 Wiresh…