python爬虫实战案例——爬取A站视频,m3u8格式视频抓取(内含完整代码!)

1、任务目标

目标网站:A站视频(https://www.acfun.cn/v/ac40795151)
要求:抓取该网址下的视频,将其存入本地,视频如下:

在这里插入图片描述

2、网页分析

  1. 进入目标网站,打开开发者模式,我们发现视频播放过程中有一个特点,也就是在Network-Fetch/XHR下不断有一些相似的接口文件产生
    在这里插入图片描述
  2. 我们点击其中一个接口文件,发现 preview 下的内容都是类似乱码的数据,其实在网页中发现这种数据的文件,基本上都是二进制码流文件,其中存放的就是视频、音频、图片等数据,这里我们可以确定他就是我们要找的视频文件,在观察其URL发现它是一个ts文件,且以序号结尾,如:100000.ts ;我们多观察几个这种ts文件,发现都是按顺序排列的。我们称这种格式的视频文件为m3u8格式
    在这里插入图片描述


m3u8格式视频简单介绍:

m3u8 格式其实就是将一个长的视频切割成一个个小的视频片段,然后网站通过不断加载这些片段,从而播放视频,这些片段自然就是上面说的 .ts格式的文件,并且这些片段还会进行编号,如:1000.ts,1001.ts,1002.ts;m3u8格式视频的好处就是,当我们滑动视频进度条,网站会直接加载该时间段的ts文件,一般一个片段就几秒钟,这样就可以快速定位并播放此刻的视频内容,从而给用户很好的观看体验

  1. 从上面我们知道了视频内容就存放在这些ts文件片段中,我们需要将其下载下来合并到一个mp4 文件中,从而播放完整的视频,一般一个ts片段几秒钟,这个视频只有1分多钟,那么至少有20来个ts文件需要找到,那么如何寻找这些文件呢?若等视频慢慢播放加载,不太现实。但是该网站有个特点,他会将所有ts文件的地址存放至一个 m3u8格式的文件中,该文件我们同样可以在 Network-Fetch/XHR 下找到,可以看到在下面这个m3u8格式的文件中,存放着这所有ts文件的url地址,这些地址都缺少主域名,后续我们需要将其拼接为完整地址
    在这里插入图片描述
  2. 现在找到了存放ts文件地址的m3u8 格式文件了,那么m3u8格式文件的地址又在哪里呢?我们发现在 Network-Doc 有一个文件,其中存放的内容就包含了m3u8文件的地址
    在这里插入图片描述
  3. 我们在内容中搜索m3u8,可以发现许多相关的链接地址,这些地址代表着不同编码、不同清晰度的m3u8文件的地址,我们只需选择其中一个就行,下面我将选择 720p清晰度的地址
    在这里插入图片描述


总结:
在上面我们经过分析网页,对该网站的爬取有了一定的思路,大致步骤如下:

  1. 向存放m3u8文件地址的接口文件发起请求,从中分析出想要的m3u8文件链接
  2. m3u8文件发起请求,从中解析出所有的ts文件地址
  3. 向每个ts文件发起请求,将他们依次存入到mp4文件中,最后合并为一个完整的视频文件

3、代码编写


完整代码:

'''
目标网站:https://www.acfun.cn/v/ac40795151
要求:爬取该网站下的视频,将其存放至本地
'''
import requests
import re
import json
from jsonpath import jsonpath
from bs4 import BeautifulSoup
from tqdm import tqdm # 用于显示进度条,需要下载:pip install tqdm# 1、准备网站信息
# 目标网站
url = 'https://www.acfun.cn/v/ac40795151'
# 身份信息
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/117.0.0.0 Safari/537.36 Edg/117.0.2045.43',
}# 2、获取m3u8文件链接
def get_m3u8():re_html = requests.get(url,headers=headers).text # 获得视频页面的网页源码# 用正则解析出目标内容str_data = re.findall('<script>.*?window.pageInfo\s=\swindow.videoInfo\s=\s(.*?);.*?window.videoResource\s=\s{}',re_html,re.S)[0]# 将字符串数据转换为json格式数据json_data1 = json.loads(str_data)['currentVideoInfo']['ksPlayJson']json_data2 = json.loads(json_data1)# 得到m3u8文件的链接link_m3u8 = jsonpath(json_data2,'$..representation..url')[2]# 解析出视频标题soup = BeautifulSoup(re_html,'lxml')title = soup.select('.video-description.clearfix h1.title span')[0].string # 标题return link_m3u8,title# 2、获取所有的ts文件链接
def get_ts(link_m3u8):re_data = requests.get(link_m3u8,headers=headers).text # 得到m3u8文件的内容# 解析出所有的ts文件链接ts_link = re.sub('#.*', '', re_data).split()return ts_link# 3、合并所有ts文件
def combine(ts_link,title):print('下载进度:')# 遍历每个ts文件链接,并下载下来for l in tqdm(ts_link): # tadm 可以显示进度条ts_url = 'https://tx-safety-video.acfun.cn/mediacloud/acfun/acfun_video/' + l # 拼接为完整的链接ts_b = requests.get(ts_url,headers=headers).content # 得到下载的ts文件二进制流# 将ts文件全部保存至一个MP4文件中,完成合并!with open(f'{title}.mp4','ab') as f:f.write(ts_b)print('下载完成!')f.close()# 4、调用函数
def start():# 依次调用每个函数link_m3u8,title = get_m3u8()ts_link = get_ts(link_m3u8)combine(ts_link,title)if __name__ == '__main__':# 启动程序start()

执行效果:
在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/59436.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ES6标准-Promise对象

目录 Promise对象的含义 Promise对象的特点 Promise对象的缺点 Promise对象的基本用法 Promise对象的简单例子 Promise新建后就会立即执行 Promise对象回调函数的参数 Promise参数不会中断运行 Promise对象的then方法 Promise对象的catch()方法 Promise状态为resolv…

WSL 2 中 FastReport 与 FastCube 的设置方法与优化策略

软件开发人员长期以来一直在思考这个问题&#xff1a;“我们如何才能直接在 Windows 中运行 Linux 应用程序&#xff0c;而无需使用单独的虚拟机&#xff1f;” WSL 技术为这个问题提供了一个可能的答案。WSL 的历史始于 2016 年。当时&#xff0c;其实现涉及使用 Windows 内核…

Golang | Leetcode Golang题解之第556题下一个更大元素III

题目&#xff1a; 题解&#xff1a; func nextGreaterElement(n int) int {x, cnt : n, 1for ; x > 10 && x/10%10 > x%10; x / 10 {cnt}x / 10if x 0 {return -1}targetDigit : x % 10x2, cnt2 : n, 0for ; x2%10 < targetDigit; x2 / 10 {cnt2}x x2%10 -…

【EFK】Linux集群部署Elasticsearch最新版本8.x

【EFK】Linux集群部署Elasticsearch最新版本8.x 摘要环境准备环境信息系统初始化启动先决条件 下载&安装修改elasticsearch.yml控制台启动Linux服务启动访问验证查看集群信息查看es健康状态查看集群节点查询集群状态 生成service token验证service tokenIK分词器下载 Elast…

关于性能测试:数据库的 SQL 性能优化实战

在性能测试中&#xff0c;SQL性能优化往往是最具挑战性的任务之一。数据库作为系统的核心数据处理单元&#xff0c;其性能直接影响整体系统的响应速度。当面对复杂的业务需求和庞大的数据量时&#xff0c;如何高效执行SQL语句&#xff0c;减少查询耗时&#xff1f;今天&#xf…

力扣-每日温度

. - 力扣&#xff08;LeetCode&#xff09; 这是我的第一个思路 虽然可以得到正确答案 但是过于暴力 已经超出了时间限制 class Solution { public:vector<int> dailyTemperatures(vector<int>& temperatures) {vector<int>ans;for (int i 0; i <…

1. ArkTS起步

ArkTS是HarmonyOS的主力应用开发语言&#xff0c;基于TypeScript扩展&#xff0c;强化了静态检查和分析&#xff0c;旨在提升程序稳定性和性能。它采用静态类型&#xff0c;禁止运行时改变对象布局&#xff0c;并对UI开发框架能力进行扩展&#xff0c;支持声明式UI描述和自定义…

Vue3 -- 项目配置之stylelint【企业级项目配置保姆级教程3】

stylelint为css的lint工具。可格式化css代码&#xff0c;检查css语法错误与不合理的写法&#xff0c;指定css书写顺序等。 配置stylelint&#xff1a; 我们项目使用scss作为预处理器 安装依赖&#xff1a; pnpm add sass sass-loader stylelint postcss postcss-scss postc…

androidstudio下载gradle慢

1&#xff0c;现象&#xff1a; 2&#xff0c;原因&#xff0c;国内到国外网址慢 3&#xff0c;解决方法&#xff1a;更改gradle-wrapper.properties #Wed Sep 26 20:01:52 CST 2018 distributionBaseGRADLE_USER_HOME distributionPathwrapper/dists zipStoreBaseGRADLE_USER…

golang分布式缓存项目 Day4 一致性哈希

注&#xff1a;该项目原作者&#xff1a;https://geektutu.com/post/geecache-day1.html。本文旨在记录本人做该项目时的一些疑惑解答以及部分的测试样例以便于本人复习 为什么使用一致性哈希 我该访问谁 对于分布式缓存来说&#xff0c;当一个节点接收到请求&#xff0c;如…

计算机网络:运输层 —— 运输层端口号

文章目录 运输层端口号的分类端口号与应用程序的关联应用举例发送方的复用和接收方的分用 运输层端口号的分类 端口号只具有本地意义&#xff0c;即端口号只是为了标识本计算机网络协议栈应用层中的各应用进程。在因特网中不同计算机中的相同端口号是没有关系的&#xff0c;即…

STM32H503开发(1)----开发板测试

STM32H503开发----1.开发板测试 概述硬件准备视频教学样品申请源码下载产品特性参考程序生成STM32CUBEMX串口配置LED配置堆栈设置串口重定向主循环演示 概述 STM32H503 & SENSOR是一款基于STM32H5系列微控制器的评估套件。该微控制器采用了40nm工艺制造&#xff0c;具有更…

#Swift Automatic Initializer Inheritance

在Swift中&#xff0c;**自动初始化器继承&#xff08;Automatic Initializer Inheritance&#xff09;**是一种机制&#xff0c;用于简化类的初始化器继承规则。它决定了在什么条件下子类可以自动继承父类的初始化器&#xff0c;而无需手动实现或重写。自动继承初始化器的机制…

Nacos黑马笔记

1. Nacos安装&#xff08;黑马教程安装材料&#xff09; 1.1 Windows安装 开发阶段采用单机安装即可。 1.1.1 下载安装包 在Nacos的GitHub页面&#xff0c;提供有下载链接&#xff0c;可以下载编译好的Nacos服务端或者源代码&#xff1a; GitHub主页&#xff1a;https://gith…

通过投毒Bingbot索引挖掘必应中的存储型XSS

简介 在本文中&#xff0c;我将讨论如何通过从外部网站对Bingbot进行投毒&#xff0c;来在Bing.com上实现持久性XSS攻击。 什么是存储型或持久性XSS&#xff1f;存储型攻击指的是将恶意脚本永久存储在目标服务器上&#xff0c;例如数据库、论坛、访问日志、评论栏等。受害者在…

【Pikachu】File Inclusion文件包含实战

永远也不要忘记能够笑的坚强&#xff0c;就算受伤&#xff0c;我也从不彷徨。 1.File Inclusion(文件包含漏洞)概述 File Inclusion(文件包含漏洞)概述 文件包含&#xff0c;是一个功能。在各种开发语言中都提供了内置的文件包含函数&#xff0c;其可以使开发人员在一个代码…

Stored procedures in PostgreSQL

select 存储过程&#xff0c;在现了解的情况&#xff0c;还是没有mysql,sqlserver等好写好用。 --postgreSQL 11.0 以下版本 create or replace FUNCTION procInsertSchool (pSchoolId Char(5),pSchoolName VarChar(100),pSchoolTelNo VarChar(8) ) RETURNS void language plp…

Java:JVM

1.JVM内存区域的划分 一个Java写的程序跑起来,就得到了一个Java进程 JVM 上面运行的字节码指令; 进程:操作系统资源分配的基本单位; 内存区域的划分: 1.程序计数器 在内存空间里(比较小的空间),保存了下一个要执行的指令的内存地址(元数据区的地址); 这里的"下一条…

Overleaf数学符号乱码等问题

Overleaf使用XeLatex编译时&#xff0c;公式中数学符号非法显示&#xff0c;如下图&#xff0c;属于∈符号显示错误&#xff1a; 原因&#xff1a;一般是文内中文引起的&#xff0c;警惕是否有中文标点等。 XeLatex编译图片标题是中文 原因&#xff1a;用了UTF-8编码&#x…

【MySQL 保姆级教学】事务的隔离级别(详细)--下(13)

事务的隔离级别 1. 如何理解事务的隔离性2. 事务隔离级别的分类3. 查看和设置事务隔离级别3.1 全局和会话隔离级别3.2 查看和设置隔离级别 4. 事务隔离级别的演示4.1 读未提交&#xff08;Read Uncommitted&#xff09;4.2 读已提交&#xff08;Read Committed&#xff09;4.3 …