Python 爬虫

一、创建项目

1.双击打开pycharm,点击新建项目
2.项目设置- 勾选[继承全局站点软件包]- 勾选[可用于所有项目]- 取消勾选[创建main.py欢迎脚本]- 点击创建
3.项目名称右键--新建--python文件
4.输入文件名--回车

二、编辑代码

# 导入请求模块
import requests
# 如果报错,需要先安装模块
# windows:cmd中执行:pip install requests
# Mac:       终端中执行:pip3 install requests# 视频url
# url获取方式:
# 1.首先打开视频的网页,然后打开开发者工具
# 2.选中网络(Network)   选中媒体(Media)
# 3.点击上方刷新按钮,就能看见一条或者两条数据
# 4.点击这条数据,右侧出现“标头”,在“标头”的“常规”下面,找到“请求网址”即为url,复制过来
url = ''# 使用requests的get获取网站的响应
res = requests.get(url)# 打开一个空的视频,把得到res.content放进去,得到一个可以播放的视频
open('KSVideo.mp4','wb').write(res.content)

有的网站视频和音频是分开的,url也是分开的,需要分开抓取,获取视频、音频url方式如下

1.首先打开视频的网页,然后打开开发者工具
2.选中网络(Network) 点击全部(All)
3.点击上方刷新按钮,下方能看到很多条数据,点击数据上方的“大小”,使多条数据从大到小排列。点击最上面的(最大的那一条)右侧出现“标头”,在“标头”的“常规”下面,找到“请求网址”即为视频url。然后点击下面的几条找到音频的url。

在这里插入图片描述

# 导入请求库
import requests
# 视频URL
videourl = ''
# 构造伪装信息
# user-agent、referer、cookie在上面截图右侧【标头】下方获取,没有的值空着就行
headers = {'user-agent':'','referer':'','cookie':''}
# 带上伪装信息去请求
res = requests.get(videourl,headers=headers)
# 打开一个文件并且写入
open('video.mp4','wb').write(res.content)
# 音频url
audiourl = ''
# 构造伪装信息
# user-agent、referer、cookie在上面截图右侧【标头】下方获取,没有的值空着就行
headers1 = {'user-agent':'','referer':'','cookie':''}
# 带上伪装信息去请求
resaudio = requests.get(audiourl,headers=headers1)
# 打开一个文件并且写入
open('audio.mp3','wb').write(resaudio.content)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/891307.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【信息系统项目管理师】高分论文:论信息系统项目的沟通管理(银行绩效考核系统)

更多内容请见: 备考信息系统项目管理师-专栏介绍和目录 文章目录 论文1、规划沟通管理2、管理沟通3、监督沟通论文 2022年3月,我参加了XX省商业银行绩效考核系统项目的建设,担任了项目经理的角色,该项目投资共100万元人民币,建设工期为一年。通过该项目的建设实现了从多角…

【环境配置】Jupyter Notebook切换虚拟环境

在Jupyter Notebook中是可以切换虚拟环境的,以下是几种常见的方法: 方法一:使用nb_conda_kernels扩展(适用于Anaconda环境) 安装 如果你使用的是Anaconda环境,首先确保你已经安装了 nb_conda 包。如果没…

idea项目导入gitee 码云

1、安装gitee插件 IDEA 码云插件已由 gitosc 更名为 gitee。 1 在码云平台帮助文档http://git.mydoc.io/?t153739上介绍的很清楚,推荐前两种方法, 搜索码云插件的时候记得名字是gitee,gitosc已经搜不到了。 2、使用码云托管项目 如果之…

云计算在医疗行业的应用

云计算在医疗行业的应用广泛而深入,为医疗服务带来了前所未有的变革。以下是对云计算在医疗行业应用的详细解析: ### 一、医疗数据共享与整合 云计算平台具有强大的数据存储和处理能力,使得医疗数据共享与整合成为可能。通过云计算平台&…

基于JAVA+SpringBoot+Vue的机动车号牌管理系统

基于JAVASpringBootVue的机动车号牌管理系统 前言 ✌全网粉丝20W,csdn特邀作者、博客专家、CSDN[新星计划]导师、java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌ 🍅文末附源码下载链接🍅 …

活动预告 |【Part1】Microsoft Azure 在线技术公开课:基础知识

课程介绍 参加“Azure 在线技术公开课:基础知识”活动,培养有助于创造新的技术可能性的技能并探索基础云概念。参加我们举办的本次免费培训活动,扩充自身的云模型和云服务类型知识。你还可以查看以计算、网络和存储为核心的 Azure 服务。 活…

郑州时空-TMS运输管理系统 GetDataBase 信息泄露漏洞复现

0x01 产品简介 郑州时空-TMS运输管理系统是一款专为物流运输企业设计的综合性管理软件,旨在提高运输效率、降低运输成本,并实现供应链的协同运作。系统基于现代计算机技术和物流管理方法,结合了郑州时空公司的专业经验和技术优势,为物流运输企业提供了一套高效、智能的运输…

当下热点系列 篇二:大消费题材解析和股票梳理

文章目录 系列文章题材解析食品饮料白酒与酒类乳制品及奶酪生活用纸调味品及腌制食品酵母及生物制品现场演艺及文化旅游股票梳理系列文章 当下热点系列 篇一:首发经济题材解析和股票梳理 题材解析 食品饮料 概念概览:涵盖日常饮食中的各类饮品和加工食品,包括能量饮料、植…

BUUCTF Pwn ciscn_2019_es_2 WP

1.下载 checksec 用IDA32打开 定位main函数 发现了个假的后门函数: 看看vul函数: 使用read读取 想到栈溢出 但是只有48个 只能覆盖EBP和返回地址 长度不够构造 所以使用栈迁移: 栈迁移需要用到leave ret 使用ROPgadget找地址: …

07-ArcGIS For JavaScript--隐藏参数qualitySettings(memory和lod控制)

目录 1、综述2、sceneview.qualitySettings2.1、sceneview.qualitySettings.memoryLimit2.2、lodFactor2.3 additionalCacheMemory 3、结论 1、综述 先上重点,SceneView.qualitySettings为隐藏对象参数,该对象的memoryLimit和lodFactor等值,…

【SQL Server】教材数据库(1)

1 利用sql建立教材数据库,并定义以下基本表: 学生(学号,年龄,性别,系名) 教材(编号,书名,出版社编号,价格) 订购(学号…

RP2040 C SDK I2C外设使用

RP2040 C SDK I2C外设使用 📌相关篇《RP2040 VSCode C/C开发环境快速部署》📍I2C API 外设:https://www.raspberrypi.com/documentation/pico-sdk/hardware.html#group_hardware_i2c🔧驱动I2C ssd1306 屏幕需要使用到的库&#xf…

模仿微信小程序wx.showModal自定义弹窗,内容可以修改

实现以下弹框样式功能 1.在components新建一个文件showModel.wpy作为组件&#xff0c;复制下面代码 <style lang"less" scoped> .bg_model {display: flex;justify-content: center;align-items: center;// 弹框背景.bg_hui {width: 100%;height: 100%;posi…

二十三种设计模式-工厂方法模式

工厂方法模式是一种创建型设计模式&#xff0c;其核心思想是通过定义一个创建对象的接口&#xff0c;让子类决定实例化哪一个类。工厂方法模式将对象的实例化推迟到子类中进行&#xff0c;从而使得扩展变得容易&#xff0c;而不需要修改现有的代码&#xff0c;符合开闭原则&…

25上半年软考高级系统分析师易混淆知识点

第1章 系统工程与信息系统基础 易混淆点1&#xff1a;系统工程生命周期与信息系统的生命周期 1、系统工程生命周期阶段 探索性研究→概念阶段→开发阶段→生产阶段→使用阶段→保障阶段→退役阶段 2、信息系统的生命周期 产生阶段→开发阶段&#xff08;单个系统开发&…

WebP Vs. PNG:哪种图像格式适合您的网站?

图像对任何网站都至关重要,可以增强视觉吸引力和用户体验。但是,图像也会显着影响网站的加载时间,因此必须针对 Web 使用对其进行优化。一种方法是使用正确的图像格式。

mysql乱码、mysql数据中文问号

网上排出此错误方法的很多&#xff0c;但是 都不简洁&#xff0c;找不到根本原因 主要排查两点&#xff1a; 1.代码中jdbc链接的编码规则 urljdbc:mysql://localhost:3306/title?useUnicodetrue&amp;characterEncodingutf8 将characterEncoding设置为utf8 2.设置mysq…

INT303 Big Data Analytics 笔记

Lecture1 Introduction 不考&#xff01; “Data Mining is the study of collecting, processing, analyzing, and gaining useful insights from data” EXPLORATORY ANALYSIS Make measurements to understand what the data looks like first steps when collecting da…

Web漏洞之CSRF和SSRF

Web漏洞之CSRF和SSRF CSRF CSRF&#xff08;Cross Site Request Forgery&#xff0c;跨站请求伪造&#xff09;是一种通过利用用户身份认证信息&#xff0c;诱导用户执行非预期请求的攻击方式。 一、基础知识 1. 漏洞原理 CSRF 的核心在于黑客利用用户的身份认证信息&…

【YashanDB知识库】hive初始化崖山报错YAS-04209

本文内容来自YashanDB官网&#xff0c;原文内容请见 https://www.yashandb.com/newsinfo/7849008.html?templateId1718516 【问题分类】功能使用 【关键字】hadoop&#xff0c;hive&#xff0c;YAS-02058 【问题描述】hive初始化崖山报错&#xff1a; 0: jdbc:yasdb://192…