爬虫python下载视频_用python做爬虫下载视频

用python有一段时间了,对python是十二分喜爱,在我看来python是个好工具,可以轻松简洁的帮我完成一些我想要完成的工作。下面和大家分享一下我用python爬取某网站视频的案例。用python去保存网站的视频,主要是为了后续的查看和备份。如果有需要做爬虫研究的同学可以一起探讨下。本文主要用到requests库和BeautifulSoup库。

1.抓取视频第一步,分析目标网站的地址

本文中我爬取的是X网站,这个网站需要登录,所以第一步是模拟网站登录,如果你抓取的网站是不需要登录的,可以忽略这一步。下面放上代码。

session = requests.session()

UA = "Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.13 Safari/537.36"

header = {"User-Agent": UA}

session.post(login_url,headers=header,data={'phone':'***','password':'***'})

2.抓取视频第二步,分析页面当中的视频地址

查看视频地址的方法有很多,我用的是google的开发者工具,通过查看network,查看视频页面所请求的链接地址,然后根据视频页面url的get参数,找出请求视频地址二者之间的关系。放上network的截图视频页面实际的请求链接

3.抓取视频第三步,模拟请求视频地址,保存到本地,下面放上部分代码

#模拟请求视频页面

f = session.get('http://www.xxx.com/xxxxxxxxxxxx',headers=header)

用到BeautifulSoup库解析页面源代码当中的一些参数

soup = BeautifulSoup(f.content,'html.parser')

lesson_list = soup.find_all('li',attrs={'class':'video'})

if lesson_list:

all_urls = {}

for lesson in lesson_list:

v = lesson.attrs['onclick']

matches = re.compile(r'\d+').findall(v)

id = matches[0]

lesson_id = matches[1]

#构造要保存的文件名

filename = lesson.attrs['data-123'] + '_' + lesson.attrs['data-456']

filename = re.sub("[\s+\.\!\/_,$%^*(+\"\']+|[+——!,。??、~@#¥%……&*()]+",' ',filename)

filename = filename.replace(' ', '_').strip('_')

mp4_url = session.get('http://www.xxx.com?id={}&token_id={}'.format(lesson_id,mp4_token_id),headers=header)

#拼接保存的文件地址

file = dirname + filename + '_'+ lesson.attrs['id'] + '.mp4'

with open(file, 'wb') as f:

video = requests.get(mp4_url.text, stream=True)

print('正在下载视频:id:{},lesson_id:{},file_name:{},url:{}'.format(id, lesson_id, file, mp4_url.text))

for chunk in video.iter_content(chunk_size=1024):

if chunk:

#保存视频

f.write(chunk)运行代码,已经开始下载视频^_^

补充两点

1>需要用到python requests库当中的requests.session(),如果是需要登录的网站,需要先登录,再使用同一个session去请求其它页面

2>如果想提高抓取效率,可以启用多进程,多进程可以大大提高爬取视频的效率

from multiprocessing import Pool

pool = Pool(10) #创建进程池,里面有10个进程

t = pool.map(run,args)

pool.close()

pool.join()

总结

使用python抓取视频还是很方便的,关键是找到视频页面url和视频地址url之间的联系,然后模拟请求视频地址url就可以了。最后注意必要时刻可以采取多进程,更换ip,更换请求头的方式去抓取视频,防止ip被网站封禁,这是需要注意的,如果大家有爬虫方面的其他奇淫技巧,欢迎联系我一起探讨。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/244953.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

python3软件怎么用_Python3学习之路~4.4 软件目录结构规范

为什么要设计好目录结构?可读性高: 不熟悉这个项目的代码的人,一眼就能看懂目录结构,知道程序启动脚本是哪个,测试目录在哪儿,配置文件在哪儿等等。从而非常快速的了解这个项目。可维护性高: 定义好组织规则后,维护者…

linux安装nginx1.9,CentOS7.2安装Nginx 1.9

今天在最新的centos7.2上安装nginx1.9,希望安装流程对你有所帮助,一定要查看对应centos的版本。一、确认一下centos的版本[rootlocalhost ~]# cat /etc/redhat-releaseCentOS Linux release 7.2.1511 (Core)二、安装依赖包和开发工具:yum ins…

python获取文件夹下文件_Python 获取指定文件夹下的目录和文件的实现

经常有需要扫描目录,对文件做批量处理的需求,所以对目录处理这块做了下学习和总结。Python 中扫描目录有两种方法:os.listdir 和 os.walk。 一、os.listdir 方法 os.listdir() 方法用于返回指定的目录下包含的文件或子目录的名字的列表。这个…

数据挖掘算法_算法篇(01) 数据挖掘算法初探

前言无论是传统行业,还是互联网行业。掌握数据,就是掌握规律。当你了解了市场数据,对它进行分析,就可以得到市场规律。当你掌握了产品自身的数据,对它进行分析,就可以了解产品的用户来源、用户画像等等。所…

java中怎么判断一段代码时线程安全还是非线程安全_24张图带你彻底理解Java中的21种锁...

(给ImportNew加星标,提高Java技能)转自:悟空聊架本篇主要内容如下:本篇文章已收纳到我的 Java 在线文档、 Github。我的 SpringCloud 实战项目持续更新中。帮你总结好的锁:序号锁名称应用1乐观锁CAS2悲观锁synchronized、vector、…

linux安装icc步骤,怎麼安装不到 icc?

该楼层疑似违规已被系统折叠 隐藏此楼查看此楼我是用 arch linux, 安装的 icc 版本是 2011.11.339(ia32 x86_64)错误如下:Step no: 5 of 6 | Installation--------------------------------------------------------------------------------Each component will be installed…

利用python制作漂亮的词云图_利用python制作漂亮的词云图

新建一个新的目录随便找个地方新建一个目录,比如我在F盘下面新建一个word_cloud文件夹(名字都是随便取),并且打开这个文件夹.把刚刚下载的msyh.ttc复制到这里.新建一个my_word_cloud.py在这里.然后可以在my_word_cloud.py写代码了,首先导入相关的包##对于NLP(自然语言处理)来说…

python大概学多久_自学Python要学多久可以学会?

如果是自学,从零基础开端学习python的话,按照每个人理解能力的不同,大致上需求半年到一年半左右的时刻,当然,如果有其它编程言语的经历,入门还是比较快的,大概需求2~3个月可以用Python言语编写一…

u盘 linux centos 5.3,鸟哥linux私房菜学习笔记,U盘安装centos5.3不能正常进入图形界面的问题...

前面说过自己成功引导了centos系统,现在进入启动界面,首次进入会进行相关设置,按照步骤一步一步完成,取消完光盘安装,点击下一步,就进入下面这个界面,没有登录框。。。没错!怎么蓝屏…

偏移shaderuv_Unity Shader 之 uv动画

Unity 动画Unity Shader 内置时间变量引入时间变量名称类型描述_Timefloat4t是自该场景加载开始所经过的时间,4个分量分别是(t/20, t, 2t, 3t)_SinTimefloat4t是时间的正弦值,(t/8, t/4, t/2, t)_CosTimefloat4t是时间的余弦值,(t/8, t/4, t/…

将excel转为python的字典_python读取excel表并把数据转存为字典

excel表如下:我们需要通过使用python的xlrd方法先读取excel,再遍历赋值给字典。代码如下: importxlrdclassRead_Ex():defread_excel(self):#打开excel表,填写路径 book xlrd.open_workbook("../Data/test.xlsx")#找到s…

linux中的改变bin级别,Linux常用命令

关机命令:shutdown -h now / shutdown -r now / reboot切换图形化界面:startx 切换到命令行:注销即可添加用户:useradd xiaoming设置密码:passwd xiaoming删除用户:userdel xiaoming 【userdel -r x…

pythonencoding etf-8_etf iopv python 代码30个Python常用小技巧

1、原地交换两个数字x, y 10, 20print(x, y)y, x x, yprint(x, y)10 2020 102、链状比较操作符n 10print(1 print(1 > n < 9)TrueFalse3、使用三元操作符来实现条件赋值[表达式为真的返回值] if [表达式] else [表达式为假的返回值]y 20x 9 if (y 10) else 8print(x…

micropython是啥 知乎_嵌入式开发必备调试工具:Micro-Lab

在工作中&#xff0c;以什么样的方式向领导汇报工作最直接高效呢&#xff1f;当然是图形界面&#xff01;图形界面更好表达一个程序设计的逻辑思维&#xff0c;一目了然&#xff0c;本次介绍的Micro-Lab出自风媒电子-赵工之手。 1.什么是Micro-Lab? Micro-Lab可以称得上是迄今…

win10树莓派改ip_Window 10通过网线和Wifi连接树莓派

几个月前买了个树莓派&#xff0c;扔在一边没有捣鼓&#xff0c;今天搞定了笔记本通过家里的wifi登录树莓派&#xff0c;下面列出设置过程。实验环境:网络&#xff1a;只有wifi材料&#xff1a;笔记本一台(Win10)&#xff0c;树莓派一台&#xff0c;EDUP USB无线网卡一枚&#…

双机通信c语言程序,双机通信(C语言、主机和从机共用程序)

//头文件#include//循环移位文件#define uchar unsigned char//宏定义#define uint unsigned intsbit key1P3^5; //位声明uchar code table[]{0X00,0x3f,0x06,0x5b,//数码管显示的数值0x4f,0x66,0x6d,0x7d,0x07,0x7f,0x6f};uchar table_tr[6];//暂存最后按下的六个数值uchar…

python读取大文件目录_65.Python读取大文件

方式一 import os path r"C:\Users\yzt\Desktop\work\InfosecTestPlatform\libs\Log\mainline1-nohup.log" ##################### """ file.seek(off, whence0)&#xff1a; 从文件中移动off个操作标记&#xff08;文件指针&#xff09;&#xff0c…

java设计按月每天签到_java实现app签到功能

本文实例为大家分享了java实现app签到功能的具体代码&#xff0c;供大家参考&#xff0c;具体内容如下1.首先设计二张表&#xff0c;第一张表sign_calc记录用户连续签到次数&#xff0c;字段id,user_id,continue_days&#xff0c;第二张表sign_detail签到详情表id,user_id,sign…

c语言第四版课后答案第三章3.4,算法与数据结构C语言版课后习题答案(机械工业出版社)第3,4章 习题参考答案...

第3章栈和队列一、基础知识题3.1 有五个数依次进栈&#xff1a;1&#xff0c;2&#xff0c;3&#xff0c;4&#xff0c;5。在各种出栈的序列中&#xff0c;以3&#xff0c;4先出的序列有哪几个。(&#xff13;在&#xff14;之前出栈)。【解答】34215 &#xff0c;34251&#x…

python面向对象三大基本特性_python面向对象之三大特性

继承 先看个简单的例子了解一下继承。class Animal: #父类 def __init__(self, name, age, department): self.namename self.ageage self.departmentdepartmentdefrunning(self):print(‘%s可以奔跑&#xff01;‘%self.name)class Cat(Animal): #括号里放要继承的父类 def __…