Python采集某网站小视频内容, m3u8视频内容下载

目录标题

      • 前言
      • 环境使用:
      • 模块使用:
      • 代码实现步骤
      • 代码展示
      • 尾语

前言

嗨喽~大家好呀,这里是魔王呐 ❤ ~!

环境使用:

  • python 3.8 运行代码

  • pycharm 2021.2 辅助敲代码

模块使用:

  • import requests >>> pip install requests

内置模块 你安装好python环境就可以了

  • import re

  • import json

python资料、源码、教程\福利皆: 点击此处跳转文末名片获取

代码实现步骤

  1. 发送请求, 模拟浏览器对于url地址发送请求

    请求链接: <视频播放页>

  2. 获取数据, 获取服务器返回响应数据

    开发者工具: response

  3. 解析数据, 提取我们需要的数据内容

    • m3u8文件链接

    • 视频标题

  4. 发送请求, 模拟浏览器对于url地址发送请求

    请求链接: m3u8文件链接

  5. 获取数据, 获取服务器返回响应数据

    开发者工具: response <m3u8返回数据>

  6. 解析数据, 提取我们需要的数据内容

    所有ts视频片段链接

  7. 保存数据, 把所有的视频片段获取下来, 整合成一个完整视频内容

代码展示

# 导入数据请求模块
import requests
# 导入正则表达式
import re
# 导入json模块
import json
# 导入格式化输出模块
from pprint import pprint
# 模拟浏览器 请求头, 字典数据 <根据网站可以选择添加某些参数>
headers = {# 用户代理 表示浏览器基本身份信息'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36'
}
link = 'https://****/u/29946310?quickViewId=ac-space-video-list&reqID=3&ajaxpipe=1&type=video&order=newest&page=2&pageSize=20&t=1689859405043'
link_data = requests.get(url=link, headers=headers).text
video_id_list = re.findall('"atomid.*?":.*?"(\d+).*?",', link_data)
for video_id in video_id_list:# 请求链接url = f'https://****/v/ac{video_id}'# 发送请求response = requests.get(url=url, headers=headers)# 视频标题title = re.findall('"title":"(.*?)",', response.text)[1]print(title)# 提取视频信息 <m3u8>html_data = re.findall('window.pageInfo = window.videoInfo = (.*?);', response.text)[0]json_data = json.loads(html_data)m3u8_url = json.loads(json_data['currentVideoInfo']['ksPlayJson'])['adaptationSet'][0]['representation'][0]['backupUrl'][0]m3u8_data = requests.get(url=m3u8_url, headers=headers).text# 替换 <删除>ts_info = re.sub('#E.*', '', m3u8_data).split()# for循环page = 1for ts in ts_info:# https://ali-safety-video.acfun.cn/mediacloud/acfun/acfun_video/3312e674b5c67510-0246f3db30d62240df35dfbd9db8fa1d-hls_720p_hevc_1.00000.ts?pkey=ABAWBr0wZN0700m3-3VDmVvb7FvV2zLnb14EBXZyRHSRddtlEBs9Z-DUrG9j26dmhfmBEs9kKtBWg4mx5TlnFdinobquiqeov-oH78KRaMcTgs3q5JYYMGNczJZ_iqalak9u1mZ722SqzCrfgZKMUaqLxKyt-zeSO7V-4mb6KRNBOVt8hM_aM6A8f1b0hLJyfhtr36NpBjzaMPKs60hFgyC-hEE_KGQwy9quolHFEZL_fu4OGvufzYXjv67HCel70j8&safety_id=AAKH9HGH666PSGDPyU_krf7Hts_url = 'https://ali-safety-video.acfun.cn/mediacloud/acfun/acfun_video/' + ts# 获取视频的二进制数据content = requests.get(url=ts_url, headers=headers).contentwith open('video\\' + f'{title}.mp4', mode='ab') as f:f.write(content)page += 1print(ts_url)

尾语

感谢你观看我的文章呐~本次航班到这里就结束啦 🛬

希望本篇文章有对你带来帮助 🎉,有学习到一点知识~

躲起来的星星🍥也在努力发光,你也要努力加油(让我们一起努力叭)。

最后,宣传一下呀~👇👇👇更多源码、资料、素材、解答、交流皆点击下方名片获取呀👇👇

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/8801.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Windows 微信更新内核(小程序框架)的指南

WMPF-PC 更新指引&#xff1a; 准备工作 1. 安装最新微信客户端&#xff08; https://dldir1.qq.com/weixin/Windows/WeChatSetup.exe &#xff09; 2. 在微信在搜索栏输入:showcmdwnd (包括前面冒号) 中输入以下代码以开启 wmpf 新内核版本(已经是现网默认&#xff0c;可以…

Spring Boot 3.x 系列【51】启动流程 | 最后阶段

有道无术,术尚可求,有术无道,止于术。 本系列Spring Boot版本3.1.0 源码地址:https://gitee.com/pearl-organization/study-spring-boot3 文章目录 1. 前言2. 执行流程2.1 打印启动完成日志2.2 发布启动完成事件2.3 调用Runner2.4 异常处理2.5 Ready 事件2.6 返回上下文1…

springboot整合log4j2

1.排除springboot本身日志 2.添加log4j2 maven没有父项目 就必须指定version!! 3.配置application.yml文件 打印sql级别为debug 4.配置log4j2.xmllogging.configclasspath:log4j2.xml logging.level.com.zhkj.shoppingdebug #mybatis-plus.mapper-locations classpath*:/mapp…

web前端开发小知识

当今互联网技术迅猛发展&#xff0c;web前端开发也成为了非常热门的职业之一。作为一个web前端开发者&#xff0c;不仅需要掌握各种前端开发技术&#xff0c;还需要了解一些小技巧和小知识。下面&#xff0c;我们将介绍一些web前端开发小知识&#xff0c;希望对你的工作有所帮助…

39. 组合总和

题目描述 给你一个 无重复元素 的整数数组 candidates 和一个目标整数 target &#xff0c;找出 candidates 中可以使数字和为目标数 target 的 所有 不同组合 &#xff0c;并以列表形式返回。你可以按 任意顺序 返回这些组合。 candidates 中的 同一个 数字可以 无限制重复被…

连续三年!瑞数信息入选Gartner《2023年中国ICT技术成熟度曲线报告》云安全代表厂商

连获殊荣 近日&#xff0c;全球权威IT研究与顾问咨询公司Gartner发布《2023年中国ICT技术成熟度曲线报告》&#xff08;Hype Cycle for ICT in China, 2023》&#xff0c;瑞数信息入选云安全领域代表厂商&#xff08;Sample Vendor&#xff09;。 这是继2021年、2022年后&…

ChatGPT API进阶调用指南

原文&#xff1a;ChatGPT API进阶调用指南 ChatGPT API 进阶调用指南 ChatGPT API 是基于 OpenAI 的 GPT模型的一个强大工具&#xff0c;可以用于构建各种对话式应用。以下是一些使用 Markdown 语法的进阶调用指南&#xff0c;以帮助您更好地利用 ChatGPT API。 设置用户角色…

vue3-vite使用amfe-flexible

1. 安装postcss-pxtorem npm install postcss-pxtorem --save-dev2. 安装lib-flexible npm i -s amfe-flexible3. 在main.js引入插件 import amfe-flexible4. 配置postcss.config.js文件 在根目录&#xff0c;和package.json同级&#xff0c;创建一个名为postcss.config.j…

Spring Security 6.x 系列【64】扩展篇之多线程支持

有道无术,术尚可求,有术无道,止于术。 本系列Spring Boot 版本 3.1.0 本系列Spring Security 版本 6.1.0 本系列Spring Authorization Server 版本 1.1.0 源码地址:https://gitee.com/pearl-organization/study-spring-security-demo 文章目录 1. 问题演示2. 解决方案:…

安装redis,适配阿里云服务器,Liunx安装redis

下载redis以及编译安装 下载redis文件 wget http://download.redis.io/releases/redis-6.0.8.tar.gz #下载redis压缩文件 tar xzf redis-6.0.8.tar.gz #解压缩 cd redis-6.0.8 make 查看是否安装了gcc编译输入gcc --version如果没有…

对比CahtGPT Bard Claude2对中文的理解

对比CahtGPT Bard Claude2对中文的理解 今天简单测试了一下目前这三个很火的模型对中文的理解能力 简单问题 鲁迅和周树人的关系 Bard CahtGPT Claude 介绍一下平凡的世界这本书 Bard CahtGPT

Java并发编程 | 创建线程的几种方式

文章目录 一、简介二、使用Thread类创建线程2.1 继承Thread类2.1.1 创建Thread子类2.1.2 重写run方法2.1.3 启动线程的方式方式一&#xff1a;创建线程对象后调用start方法方式二&#xff1a;直接使用匿名内部类创建线程对象并调用start方法 2.2 使用匿名内部类创建线程2.3 线程…

5.CSS(二)

目录 一、Emmet语法 &#xff08;一&#xff09;快速生成HTML结构语法 &#xff08;二&#xff09;快速生成CSS样式语法 二、CSS的复合选择器 &#xff08;一&#xff09;后代选择器&#xff08;重要&#xff09; &#xff08;二&#xff09;子选择器&#xff08;重要&…

自然语言处理从入门到应用——LangChain:模型(Models)-[聊天模型(Chat Models):使用少量示例和响应流式传输]

分类目录&#xff1a;《自然语言处理从入门到应用》总目录 使用少量示例 本部分的内容介绍了如何在聊天模型&#xff08;Chat Models&#xff09;中使用少量示例。关于如何最好地进行少量示例提示尚未形成明确的共识。因此&#xff0c;我们尚未固定任何关于此的抽象概念&#…

什么是Java中的JVM(Java虚拟机)?

JVM&#xff08;Java虚拟机&#xff09;是Java平台的核心组件之一&#xff0c;是一个用于执行Java字节码的虚拟计算机。Java源代码经过编译器编译&#xff0c;生成字节码文件&#xff08;.class文件&#xff09;&#xff0c;然后由JVM来解释和执行这些字节码。JVM负责将字节码翻…

kafka消息监听

1&#xff0c;spring配置kafka网址 2&#xff0c;listener Component public class OrderMsgListener {KafkaListener(topics "order",groupId "order-service")public void listen(ConsumerRecord record){System.out.println("收到消息&#xf…

Upload文件导入多条数据到输入框

需求场景&#xff1a;文本框内容支持批量导入(文件类型包括’.txt, .xls, .xlsx’)。使用AntD的Upload组件处理。 下面是Upload的配置&#xff08;伪代码&#xff09;&#xff0c;重点为beforeUpload中的逻辑 // Antd 中用到的Upload组件 import { UploadOutlined } from ant…

静态路由小实验

文章目录 一、实验要求及拓扑图二、实验步骤三、思考题 一、实验要求及拓扑图 二、实验步骤 1、创建VLAN&#xff0c;将端口划入vlan 在交换机S3、S4上创建VLAN10、20 Switch(config)#vl 10 Switch(config-vlan)#vl 20 S3(config)#int f0/3 S3(config-if)#switchport access …

vue3 实现排序按钮

需求背景解决效果index.vue 需求背景 需要实现一个复用性&#xff0c;是提供表单顺倒排序的按钮 解决效果 index.vue <!--/*** author: liuk* date: 2023/7/25* describe: 排序按钮*/--> <template><div class"sort-fn"><span :class"[…

一次线上OOM问题的个人复盘

我们一个java服务上线后&#xff0c;偶尔会发生内存OOM(Out Of Memory)问题&#xff0c;但由于OOM导致服务不响应请求&#xff0c;健康检查多次不通过&#xff0c;最后部署平台kill了java进程&#xff0c;这导致定位这次OOM问题也变得困难起来。 最终&#xff0c;在多次review代…