Python 爬虫 根据ID获得UP视频信息

思路:

        用selenium库对网页进行获取,然后用bs4进行分析,拿到bv号,标题,封面,时长,播放量,发布时间

先启动webdriver.,进入网页之后,先等几秒,等加载完全了,再获取网页

options = webdriver.FirefoxOptions()

'''

无头模式启动,让selenium不用真的打开网页,节约资源同时加快速度

'''
options.add_argument('--headless')
firefox = webdriver.Firefox(options=options)

firefox.get( "https://space.bilibili.com/id/video?tid=0&pn=1keyword=&order=pubdate”)
'''

休眠

'''
time.sleep(4) 
'''

使用BeautifulSoup的html.parser进行分析

'''
html = BeautifulSoup(firefox.page_source, features="html.parser")

(id就是你要抓的up的id) 


当你拿到这些美妙的数据之后就要开始分析了,看看什么是要的,什么是不要的,首先我们先打开一个Up的主页,然后按F12,“让我们来看看,它的内构”

像这样,左边变色了,那么就代表你选中的这个块儿,是左边那个区域的
好,我们展开慢慢翻 

翻到这儿,会发现,哦,原来一页上的所有视频,都放在了一个叫li的里面,且这个liclass属性都是small-item new fakeDanmu-item 而我们需要的BV号就在li的data-aid属性里 不急往后看看,里面其他信息在那儿 

 

好好好,li里就只有一个img而这个img里的src属性和alt属性就是我们要的封面和标题 

 

在下面也能找到bv号,但是因为上面我们已经拿到了所以不用再拿了,我们拿class属性为lengthd的span里的时长class为play的span里的span的播放量,和class为time的span的发布时间 
        都找齐了,那,开整

'''

找到所有的class是mall-item fakeDanmu-item的li

''' 
videoList = html.find_all("li",attrs={"class":"small-item fakeDanmu-item"})

'''

下面就用一个li来演示怎么获得其中我们要的数据,从上到下分别说,bv号,标题,图片,时长,播放量,发布日期

'''

video = videoList[0]

#bv号

bv = video.get("data-aid")
img = video.find("img")

#标题
title = img.get("alt")

#图片
image = img.get("src")

#时长
duration = video.find("span",attrs={"class":"length"}).text

#播放量
playCount = video.find("span",attrs={"class":"play"}).find("span").text

#发布日期
date = video.find("span",attrs={"class":"time"}).text.strip()

然后发现,嘶,好像不止 一页,而且页数还和 
https://space.bilibili.com/id/video?tid=0&pn=1keyword=&order=pubdate
中的pn值有关,那好办了,找到最大有几页,然后循环获取网页,并处理就行了,现在来找找页数,有两个办法,第一,获得最多有几个视频,然后(视频数/30)向上取整数 ,就能获得页数,第二,从页面中直接获得

像这样,999+的就麻烦了,那就取获得页码吧
我们在装li的那个div下面找到了页码


然后在这里面按Ctrl+F

发现这个网页里就它class属性用的be-pager-total 

'''

因为他是把文字和数字用空格隔开,所有可用split来分割字符串,然后获得第二项,也就是我们要的页码

'''
pn = html.find('span', attrs={'class':'be-pager-total'}).

pn = pn.text.split(' ')[1] 

然后做个循环

 for pnnumber in range(pn):

        url = "https://space.bilibili.com/id/video?tid=0&pn=%skeyword=&order=pubdate"%(str(pnnumber +1))
       '''
        id那个位置记得换成你要的up的id

        然后下面循环进行获取和分析就行了

       '''

之后可以把这些数据放到json,execel,redis或者别的什么数据库中,当然,有了图片链接,你也可以去吧封面图下下来了 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/55066.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Unity 的Event的Use()方法

对于Event的Use方法,其在调用后将不会再判断同类型的事件 这种情况下,第二个MosueDown不会进入,因为已经Use 如果把Use注释掉 依旧能进入第二个MosueDown 也就是说当使用了Use方法,相同的事件类型不会进第二遍

【反素数】

题目 思路 首先分析 的性质 一定是 中约数最大的一定是约数同是最大的数字中值中最小的进一步挖掘性质,紧贴枚举的做法 约数最大值最小(也决定了层数、其它约束),是枚举的比较条件实现上述目的,枚举的质数种类在大小…

Tensorflow 2.0 cnn训练cifar10 准确率只有0.1 [已解决]

cifar10 准确率只有0.1 问题描述踩坑解决办法 问题描述 如果你看的是北京大学曹健老师的tensorflow2.0,你在class5的部分可能会遇见这个问题 import matplotlib.pyplot as plt import tensorflow as tf from tensorflow.keras.layers import Dense, Dropout,MaxPooling2D,Fla…

VS Code breadcrumbs view 是什么

VS Code breadcrumbs view 是什么 正文 正文 breadcrumbs view:中文翻译,面包屑视图,乍听起来感觉十分抽象。这里我们来解释一下这个视图的含义? 如下图所示,红色框标记的部分就是 这个视图可以显示出当前打卡文件所…

新手答疑 | 零基础该怎么学习嵌入式?嵌入式Linux学习路线是什么?嵌入式开发板推荐?

很多初学者想要涉足嵌入式Linux开发领域,但往往在刚入门阶段,会因为初次接触到大量复杂的概念术语和深奥的技术文档感到压力重重,面对这些内容不知从何下手,感到十分迷茫,网上的内容也纷繁复杂,没有清晰的学…

从 Kafka 到 WarpStream: 用 MinIO 简化数据流

虽然 Apache Kafka 长期以来一直是流数据的行业标准,但新的创新替代方案正在重塑生态系统。其中之一是 WarpStream,它最近在 Confluent 的所有权下进入了新的篇章。此次收购进一步增强了 WarpStream 提供高性能、云原生数据流的能力,巩固了其…

SAP Message - self-explanatory 自身说明

SAP Message 解释、创建和应用可见如下文章:SAP Abap】SE91 - SAP MESSAGE 消息类创建与应用-CSDN博客 SE91 SAP消息类型 - tongxiaohu - 博客园 这里主要想聊一下常用的SE91 中不常用的功能 - 自身说明 选项的作用。 以 VF - 004 为例: 我们都知道自…

2024双十一买啥最划算?2024双十一五款值得入手的好物入手

2024双十一购物狂欢节将至,还在为买什么而纠结吗?这里为你入手五款值得入手的好物。从生活必备到时尚单品,涵盖多个领域,让你在双十一以划算的价格买到心仪之物,开启品质生活新旅程。 一、西圣find可视挖耳勺 入手理…

毕业设计选题:基于ssm+vue+uniapp的校园订餐小程序

开发语言:Java框架:ssmuniappJDK版本:JDK1.8服务器:tomcat7数据库:mysql 5.7(一定要5.7版本)数据库工具:Navicat11开发软件:eclipse/myeclipse/ideaMaven包:M…

【补充】倒易点阵定义

晶体点阵:晶体内部结构在三维空间周期平移的客观存在的数学抽象,反映晶体实际原子排列。 倒易点阵:通过对晶体的正点阵进行傅里叶变换得到的,其中正点阵中每个阵点的位置矢量方向代表晶面族的法向,位置矢量的长度是晶…

CSS04-Chrome调试工具

Chrome 浏览器提供了一个非常好用的调试工具,可以用来调试我们的 HTML结构和 CSS 样式。

我们是向量数据库的领军企业,我们只招TOP人才

我们是全球领先的向量数据库企业,业务正在快速发展,现开放大量岗位: 前端、产品经理、数据库开发工程师、C、数据库运维、数据库测试…… 我们招聘的唯一目标,寻找 TOP人才! 如果你已经有丰富的经验,那么加…

jmeter-请求参数加密-MD5加密

方法1 :使用jmeter自带的函数助手digest Tool(工具)---Function Helper Dialog(函数助手对话框) 第一个参数是要md5加密的值,第二个参数是保存加密后值的变量 ( 此处变量是从txt文件导入的,所以使用的是${wd} ) …

overlayscrollbars使用

官网 https://github.com/KingSora/OverlayScrollbars 使用 <link href"https://cdn.bootcdn.net/ajax/libs/overlayscrollbars/2.10.0/styles/overlayscrollbars.css" rel"stylesheet"> <script src"https://cdn.bootcdn.net/ajax/libs/…

OMRON欧姆龙E5GN温控器手测

OMRON欧姆龙E5GN温控器手测

17【Protues单片机仿真】基于51单片机的太阳能智能谷物翻晒机器人

目录 一、主要功能 二、硬件资源 三、程序编程 四、实现现象 一、主要功能 基于51单片机&#xff0c;避障&#xff0c;低于50CM报警&#xff0c;LED灯亮起&#xff0c;自动翻晒用光敏电阻&#xff0c;光照强度大&#xff0c;电机转动&#xff0c;相当于翻晒粮食&#xff0…

【中间件——基于消息中间件的分布式系统的架构】

1. 基于消息中间件的分布式系统的架构 从上图中可以看出来&#xff0c;消息中间件的是 1&#xff1a;利用可靠的消息传递机制进行系统和系统直接的通讯 2&#xff1a;通过提供消息传递和消息的排队机制&#xff0c;它可以在分布式系统环境下扩展进程间的通讯。 1.1 消息中间件…

PostgreSQL的学习心得和知识总结(一百五十一)|[performance] PostgreSQL列对齐

目录结构 注&#xff1a;提前言明 本文借鉴了以下博主、书籍或网站的内容&#xff0c;其列表如下&#xff1a; 1、参考书籍&#xff1a;《PostgreSQL数据库内核分析》 2、参考书籍&#xff1a;《数据库事务处理的艺术&#xff1a;事务管理与并发控制》 3、PostgreSQL数据库仓库…

算法题——滑动窗口(图示+代码)

什么时候可以使用滑动窗口&#xff1f; 当我们尝试对一条题目进行暴力插解时&#xff0c;若发现 一、长度最小的子数组 题目链接&#xff1a;. - 力扣&#xff08;LeetCode&#xff09;. - 备战技术面试&#xff1f;力扣提供海量技术面试资源&#xff0c;帮助你高效提升编程…

一个 Java 语言简化处理 PDF 的框架,提供了一套简单易用的 API 接口,满足多样化需求又能简化开发流程的处理方案(附教程)

前言 当前市面上处理 PDF 文件的工具众多&#xff0c;但它们往往存在一定的局限性&#xff0c;比如复杂交互、功能单一等问题。尤其对于那些需要频繁生成或编辑 PDF 文档的应用场景来说&#xff0c;找到一个既能满足多样化需求又能简化开发流程的处理方案显得尤为重要。那么&a…