爬虫python下载视频_用python做爬虫下载视频

爬虫python下载视频_用python做爬虫下载视频

news/2025/4/27 0:56:51/文章来源:https://blog.csdn.net/weixin_39609500/article/details/109858176

用python有一段时间了，对python是十二分喜爱，在我看来python是个好工具，可以轻松简洁的帮我完成一些我想要完成的工作。下面和大家分享一下我用python爬取某网站视频的案例。用python去保存网站的视频，主要是为了后续的查看和备份。如果有需要做爬虫研究的同学可以一起探讨下。本文主要用到requests库和BeautifulSoup库。

1.抓取视频第一步，分析目标网站的地址

本文中我爬取的是X网站，这个网站需要登录，所以第一步是模拟网站登录，如果你抓取的网站是不需要登录的，可以忽略这一步。下面放上代码。

session = requests.session()

UA = "Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.13 Safari/537.36"

header = {"User-Agent": UA}

session.post(login_url,headers=header,data={'phone':'***','password':'***'})

2.抓取视频第二步，分析页面当中的视频地址

查看视频地址的方法有很多，我用的是google的开发者工具，通过查看network，查看视频页面所请求的链接地址，然后根据视频页面url的get参数，找出请求视频地址二者之间的关系。放上network的截图视频页面实际的请求链接

3.抓取视频第三步，模拟请求视频地址，保存到本地，下面放上部分代码

#模拟请求视频页面

f = session.get('http://www.xxx.com/xxxxxxxxxxxx',headers=header)

用到BeautifulSoup库解析页面源代码当中的一些参数

soup = BeautifulSoup(f.content,'html.parser')

lesson_list = soup.find_all('li',attrs={'class':'video'})

if lesson_list:

all_urls = {}

for lesson in lesson_list:

v = lesson.attrs['onclick']

matches = re.compile(r'\d+').findall(v)

id = matches[0]

lesson_id = matches[1]

#构造要保存的文件名

filename = lesson.attrs['data-123'] + '_' + lesson.attrs['data-456']

filename = re.sub("[\s+\.\!\/_,$%^*(+\"\']+|[+——！，。?？、~@#￥%……&*（）]+",' ',filename)

filename = filename.replace(' ', '_').strip('_')

mp4_url = session.get('http://www.xxx.com?id={}&token_id={}'.format(lesson_id,mp4_token_id),headers=header)

#拼接保存的文件地址

file = dirname + filename + '_'+ lesson.attrs['id'] + '.mp4'

with open(file, 'wb') as f:

video = requests.get(mp4_url.text, stream=True)

print('正在下载视频：id:{},lesson_id:{},file_name:{},url:{}'.format(id, lesson_id, file, mp4_url.text))

for chunk in video.iter_content(chunk_size=1024):

if chunk:

#保存视频

f.write(chunk)运行代码，已经开始下载视频^_^

补充两点

1>需要用到python requests库当中的requests.session()，如果是需要登录的网站，需要先登录，再使用同一个session去请求其它页面

2>如果想提高抓取效率，可以启用多进程，多进程可以大大提高爬取视频的效率

from multiprocessing import Pool

pool = Pool(10) #创建进程池，里面有10个进程

t = pool.map(run,args)

pool.close()

pool.join()

总结

使用python抓取视频还是很方便的，关键是找到视频页面url和视频地址url之间的联系，然后模拟请求视频地址url就可以了。最后注意必要时刻可以采取多进程，更换ip，更换请求头的方式去抓取视频，防止ip被网站封禁，这是需要注意的，如果大家有爬虫方面的其他奇淫技巧，欢迎联系我一起探讨。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/244953.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

python3软件怎么用_Python3学习之路~4.4 软件目录结构规范

python3软件怎么用_Python3学习之路~4.4 软件目录结构规范

为什么要设计好目录结构?可读性高: 不熟悉这个项目的代码的人，一眼就能看懂目录结构，知道程序启动脚本是哪个，测试目录在哪儿，配置文件在哪儿等等。从而非常快速的了解这个项目。可维护性高: 定义好组织规则后，维护者…

阅读更多...

linux安装nginx1.9,CentOS7.2安装Nginx 1.9

linux安装nginx1.9,CentOS7.2安装Nginx 1.9

今天在最新的centos7.2上安装nginx1.9，希望安装流程对你有所帮助，一定要查看对应centos的版本。一、确认一下centos的版本[rootlocalhost ~]# cat /etc/redhat-releaseCentOS Linux release 7.2.1511 (Core)二、安装依赖包和开发工具：yum ins…

阅读更多...

python获取文件夹下文件_Python 获取指定文件夹下的目录和文件的实现

python获取文件夹下文件_Python 获取指定文件夹下的目录和文件的实现

经常有需要扫描目录，对文件做批量处理的需求，所以对目录处理这块做了下学习和总结。Python 中扫描目录有两种方法：os.listdir 和 os.walk。一、os.listdir 方法 os.listdir() 方法用于返回指定的目录下包含的文件或子目录的名字的列表。这个…

阅读更多...

数据挖掘算法_算法篇(01) 数据挖掘算法初探

数据挖掘算法_算法篇(01) 数据挖掘算法初探

前言无论是传统行业，还是互联网行业。掌握数据，就是掌握规律。当你了解了市场数据，对它进行分析，就可以得到市场规律。当你掌握了产品自身的数据，对它进行分析，就可以了解产品的用户来源、用户画像等等。所…

阅读更多...

java中怎么判断一段代码时线程安全还是非线程安全_24张图带你彻底理解Java中的21种锁...

java中怎么判断一段代码时线程安全还是非线程安全_24张图带你彻底理解Java中的21种锁...

(给ImportNew加星标，提高Java技能)转自：悟空聊架本篇主要内容如下：本篇文章已收纳到我的 Java 在线文档、 Github。我的 SpringCloud 实战项目持续更新中。帮你总结好的锁：序号锁名称应用1乐观锁CAS2悲观锁synchronized、vector、…

阅读更多...

linux安装icc步骤,怎麼安装不到 icc?

linux安装icc步骤,怎麼安装不到 icc?

该楼层疑似违规已被系统折叠隐藏此楼查看此楼我是用 arch linux, 安装的 icc 版本是 2011.11.339(ia32 x86_64)错误如下:Step no: 5 of 6 | Installation--------------------------------------------------------------------------------Each component will be installed…

阅读更多...

利用python制作漂亮的词云图_利用python制作漂亮的词云图

利用python制作漂亮的词云图_利用python制作漂亮的词云图

新建一个新的目录随便找个地方新建一个目录,比如我在F盘下面新建一个word_cloud文件夹(名字都是随便取),并且打开这个文件夹.把刚刚下载的msyh.ttc复制到这里.新建一个my_word_cloud.py在这里.然后可以在my_word_cloud.py写代码了,首先导入相关的包##对于NLP(自然语言处理)来说…

阅读更多...

python大概学多久_自学Python要学多久可以学会?

python大概学多久_自学Python要学多久可以学会?

如果是自学，从零基础开端学习python的话，按照每个人理解能力的不同，大致上需求半年到一年半左右的时刻，当然，如果有其它编程言语的经历，入门还是比较快的，大概需求2~3个月可以用Python言语编写一…

阅读更多...

u盘 linux centos 5.3,鸟哥linux私房菜学习笔记，U盘安装centos5.3不能正常进入图形界面的问题...

u盘 linux centos 5.3,鸟哥linux私房菜学习笔记，U盘安装centos5.3不能正常进入图形界面的问题...

前面说过自己成功引导了centos系统，现在进入启动界面，首次进入会进行相关设置，按照步骤一步一步完成，取消完光盘安装，点击下一步，就进入下面这个界面，没有登录框。。。没错！怎么蓝屏…

阅读更多...

偏移shaderuv_Unity Shader 之 uv动画

偏移shaderuv_Unity Shader 之 uv动画

Unity 动画Unity Shader 内置时间变量引入时间变量名称类型描述_Timefloat4t是自该场景加载开始所经过的时间，4个分量分别是(t/20, t, 2t, 3t)_SinTimefloat4t是时间的正弦值，(t/8, t/4, t/2, t)_CosTimefloat4t是时间的余弦值，(t/8, t/4, t/…

阅读更多...

将excel转为python的字典_python读取excel表并把数据转存为字典

将excel转为python的字典_python读取excel表并把数据转存为字典

excel表如下：我们需要通过使用python的xlrd方法先读取excel，再遍历赋值给字典。代码如下： importxlrdclassRead_Ex():defread_excel(self):#打开excel表，填写路径 book xlrd.open_workbook("../Data/test.xlsx")#找到s…

阅读更多...

linux中的改变bin级别,Linux常用命令

linux中的改变bin级别,Linux常用命令

关机命令：shutdown -h now / shutdown -r now / reboot切换图形化界面：startx 切换到命令行：注销即可添加用户：useradd xiaoming设置密码：passwd xiaoming删除用户：userdel xiaoming 【userdel -r x…

阅读更多...

pythonencoding etf-8_etf iopv python 代码30个Python常用小技巧

pythonencoding etf-8_etf iopv python 代码30个Python常用小技巧

1、原地交换两个数字x, y 10, 20print(x, y)y, x x, yprint(x, y)10 2020 102、链状比较操作符n 10print(1 print(1 > n < 9)TrueFalse3、使用三元操作符来实现条件赋值[表达式为真的返回值] if [表达式] else [表达式为假的返回值]y 20x 9 if (y 10) else 8print(x…

阅读更多...

micropython是啥知乎_嵌入式开发必备调试工具：Micro-Lab

micropython是啥知乎_嵌入式开发必备调试工具：Micro-Lab

在工作中，以什么样的方式向领导汇报工作最直接高效呢？当然是图形界面！图形界面更好表达一个程序设计的逻辑思维，一目了然，本次介绍的Micro-Lab出自风媒电子-赵工之手。 1.什么是Micro-Lab? Micro-Lab可以称得上是迄今…

阅读更多...

win10树莓派改ip_Window 10通过网线和Wifi连接树莓派

win10树莓派改ip_Window 10通过网线和Wifi连接树莓派

几个月前买了个树莓派，扔在一边没有捣鼓，今天搞定了笔记本通过家里的wifi登录树莓派，下面列出设置过程。实验环境:网络：只有wifi材料：笔记本一台(Win10)，树莓派一台，EDUP USB无线网卡一枚&#…

阅读更多...

双机通信c语言程序,双机通信（C语言、主机和从机共用程序）

双机通信c语言程序,双机通信（C语言、主机和从机共用程序）

//头文件#include//循环移位文件#define uchar unsigned char//宏定义#define uint unsigned intsbit key1P3^5; //位声明uchar code table[]{0X00,0x3f,0x06,0x5b,//数码管显示的数值0x4f,0x66,0x6d,0x7d,0x07,0x7f,0x6f};uchar table_tr[6];//暂存最后按下的六个数值uchar…

阅读更多...

python读取大文件目录_65.Python读取大文件

python读取大文件目录_65.Python读取大文件

方式一 import os path r"C:\Users\yzt\Desktop\work\InfosecTestPlatform\libs\Log\mainline1-nohup.log" ##################### """ file.seek(off, whence0)： 从文件中移动off个操作标记（文件指针）&#xff0c…

阅读更多...

java设计按月每天签到_java实现app签到功能

java设计按月每天签到_java实现app签到功能

本文实例为大家分享了java实现app签到功能的具体代码，供大家参考，具体内容如下1.首先设计二张表，第一张表sign_calc记录用户连续签到次数，字段id,user_id,continue_days，第二张表sign_detail签到详情表id,user_id,sign…

阅读更多...

c语言第四版课后答案第三章3.4,算法与数据结构C语言版课后习题答案(机械工业出版社)第3,4章习题参考答案...

c语言第四版课后答案第三章3.4,算法与数据结构C语言版课后习题答案(机械工业出版社)第3,4章习题参考答案...

第3章栈和队列一、基础知识题3.1 有五个数依次进栈：1，2，3，4，5。在各种出栈的序列中，以3，4先出的序列有哪几个。(３在４之前出栈)。【解答】34215 ，34251&#x…

阅读更多...

python面向对象三大基本特性_python面向对象之三大特性

python面向对象三大基本特性_python面向对象之三大特性

继承先看个简单的例子了解一下继承。class Animal: #父类 def __init__(self, name, age, department): self.namename self.ageage self.departmentdepartmentdefrunning(self):print(‘%s可以奔跑！‘%self.name)class Cat(Animal): #括号里放要继承的父类 def __…

阅读更多...

最新文章