爬虫相关的简单操作

爬虫:一种程序,从网站上爬取各种各样的数据,包括图片、视频、音乐、文档等

一、爬哪一个网址?

怎么找到一个视频的网址:

1、在浏览器右上角菜单--更多工具--开发者工具

2、选中网络(network)、媒体(media)

3、浏览器左上角点击刷新,看见1-3条数据

4、【点击】一条数据,即可在【标头】中看见这个链接

二、获取网址里面的数据

什么叫做模块?

在Python中,去实现一些具体的任务,带上模块

比如:向一个网址请求数据带上一个模块“requests" 请求模块。

导入“请求模块”:import requests

运行提示:No module named requests 没有找到该模块

解决方案:pycharm运行框中在终端中输入以下命令,等待下载就好

  /#安装请求模块pip install requests

requests是一个模块,有一个get功能,给一个网址URL,能够得到网址的响应res

res = requests.get(url)

三、把得到的内容保存到电脑上

  打开文件:open('文件名', '打开方式')  王志林!打开方式:1.读还是写的问题!2.文本文件还是二进制文件!文本文件txt  二进制文件mp3 mp4 avi rmvb jpg png bmp exe ppt doc xlsx。。。读  从文件中读取数据     r(read)        rb(read-binary)写  向文件中写入数据     w(write)       wb(write-binary)成绩单.xlsx   打开它  想看一下月亮同学  语文成绩是多少!  读!成绩单.xlsx   打开它  把李海超同学英语成绩填进去!        写!

四、完整示例代码

# 找一个网址 以字符串的形式保存在一个变量中!
url = "https://v26-web.douyinvod.com/351620a280feb6dc9002423f7a76fa5a/63d7cbeb/video/tos/cn/tos-cn-ve-15/owmt7LiA9okAJNfbClQg4znjYIueDAmwBgiAAs/?a=6383&ch=54&cr=3&dr=0&lr=all&cd=0%7C0%7C0%7C3&cv=1&br=998&bt=998&cs=0&ds=3&ft=LjhJEL998xIouEkmD0P5H4eaciDXtks0d5QEeg-czijD1Ini&mime_type=video_mp4&qs=0&rc=ZDM5aTY1ZjRpM2U7PDZnOkBpanc6OjQ6ZjxqaDMzNGkzM0BjMS4yNmA1NTUxYzY2XzRfYSNvYTA2cjRnLW1gLS1kLWFzcw%3D%3D&l=202301302053005280D9206CC8081A59C4&btag=20000"# 导入请求模块 一定要先安装!
import requests# 使用requests的get功能 获取网站的响应
res = requests.get(url)# 打开一个空的视频(真·狗粮.mp4) 把得到res.content丢进去 得到一个可以播放的视频
open('美女1.mp4', 'wb').write(res.content)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/806225.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

51单片机 DS1302

DS1302 实现流程 将提供的ds1302底层参考程序拷贝到工程下 注意在ds1302.c中可能硬件引脚没有定义,注意去看一下。还有头文件什么的在ds1302中记得加上 参考代码: #include "reg52.h" #include "ds1302.h"unsigned char Write_…

Java 数据类型和变量

基本类型 整数类型:byte short int long,分别占 1、2、4、8 个字节; 在给 long 类型变量赋值时,如果超过了 int 的表示范围,需要在常量后面加大写 L 或小写字母 l,例如:long value 3425352515…

深度解析SPARK的基本概念

关联阅读博客文章: 深入理解MapReduce:从Map到Reduce的工作原理解析 引言: 在当今大数据时代,数据处理和分析成为了企业发展的重要驱动力。Apache Spark作为一个快速、通用的大数据处理引擎,受到了广泛的关注和应用。…

使用QT 开发不规则窗体

使用QT 开发不规则窗体 不规则窗体贴图法的不规则窗体创建UI模板创建一个父类创建业务窗体main函数直接调用user_dialog创建QSS文件 完整的QT工程 不规则窗体 QT中开发不规则窗体有两种方法:(1)第一种方法,使用QWidget::setMask函…

缓存相关知识总结

一、缓存的作用和分类 缓存可以减少数据库的访问压力,提升整个网站的数据访问速度,改善数据库的写入性能。缓存可以分为两种: 缓存在应用服务器上的本地缓存:访问速度快,但受应用服务器内存限制 缓存在专门的分布式缓存…

【网络安全技术】——网络安全设备(学习笔记)

📖 前言:网络防火墙(简称为“防火墙”)是计算机网络安全管理中应用最早和技术发展最快的安全产品之一。随着互联应用的迅猛发展,各种安全问题和安全隐患日渐突出。防火墙及相关安全技术能够最大可能地解决各类安全问题…

官网下载IDE插件并导入IDE

官网下载IDEA插件并导入IDEA 1. 下载插件2. 导入插件 1. 下载插件 地址:https://plugins.jetbrains.com/plugin/21068-codearts-snap/versions 说明:本次演示以IDEA软件为例 操作: 等待下载完成 2. 导入插件 点击File->setting->Pl…

Oracle数据库imp文件导入失败提示:“不是有效的导出文件, 标头验证失败”解决方法

导入数据库时,直接提示不是有效的导出文件,标头验证失败 原因:这是因为导出的imp文件和你当前导入的数据库版本不一致造成的,例如:导出文件版本号12.0.1 导入数据库的版本号11.0.2,会报这个错误。 解决办法…

【GIS学习笔记】ArcGIS/QGIS如何修改字段名称、调整字段顺序?

在先前的ArcGIS学习中,了解到字段名称是不能修改的,只能用新建一个字段赋值过去再删除原字段这种方法实现,字段顺序的调整如果通过拖拽也是不能持久的,需要用导出一个新数据这种方法进行保存,可参考以下链接&#xff1…

Swift中的数据类型

在Swift中,常见的数据类型包括: 整数类型(Int):表示整数值,可以是正数、负数或零。例如:-10、0、100。浮点数类型(Double和Float):表示带有小数的数值。Doub…

Node.js模块URL的使用

引入 URL 模块 要使用 URL 模块,首先需要在代码中引入它。可以使用以下代码将 URL 模块导入到你的脚本中: const url require(url);实例代码 const urlrequire(url); var apihttp://www.baidu.com?nameshixiaobin&age20; console.log(url.parse(…

RUM 最佳实践-交互延迟的探索与发现

FID 在互联网高速发展的时代,用户体验已成为企业竞争的关键所在。网页性能作为用户体验的重要组成部分,直接影响着用户的满意度和工作效率。First Input Delay(FID)作为衡量网页性能的重要指标,越来越受到业界关注。今…

迷宫 — — 蓝桥杯(动态规划)

迷宫 题目: 输入样例: 3 1 1 1 2 3 4 5 6 7 8 9 2 2 1 3 1 R输出样例: 21思路: 题目大意:给定一个n x m的平面网格,并且每一个格子都有一定的代价,并且设有障碍物和陷阱,障碍物的意…

Redux和Redux Toolkit

Redux 概念:redux是react最常用的集中状态管理工具,类似于Vue中的Pinia(vuex),可以独立于框架运行作用:通过集中管理的方式管理应用的状态 Redux快速体验 不和任何框架绑定,不使用任何构建工具,使用纯Re…

MySQL-创建和管理表:基础知识、创建和管理数据库、创建表、修改表、重命名表、删除表、清空表、拓展

创建和管理表 1. 基础知识1.1 一条数据存储的过程1.2 标识符命名规则1.3 MySQL中的数据类型 2. 创建和管理数据库2.1 创建数据库2.2 使用数据库2.3 修改数据库2.4 删除数据库 3. 创建表3.1 创建方式13.2 创建方式23.3 查看数据表结构 4. 修改表4.1 追加一个列4.2 修改一个列4.3…

mac电脑安装软件报错:无法检查更新,请检查你的互联网连接

1、点菜单栏搜索图标,输入:终端 ,找到后,点击打开 2、输入以下命令:(复制粘贴进去)回车安装 /usr/sbin/softwareupdate --install-rosetta --agree-to-license 3、提示【Install of Rosetta …

flask 访问404

当你的项目有自己的蓝图,有添加自己的前缀,也注册了蓝图。 在访问的路由那里也使用了自己的蓝图,如下图 然后你访问的地址也没问题,但是不管怎么样访问就是返回404,这个时候不要怀疑你上面的哪里配置错误,…

虚幻引擎架构自动化及蓝图编辑器高级开发进修班

课程名称:虚幻引擎架构自动化及蓝图编辑器高级开发进修班 课程介绍 大家好 我们即将推出一套课程 自动化系统开发。 自动化技术在项目开发的前中后期都大量运用。如何您是一家游戏公司,做的是网络游戏,是不是经常会遇到程序员打包加部署需…

免费的GPT-3.5 API服务aurora

什么是 aurora ? aurora 是利用免登录 ChatGPT Web 提供的无限制免费 GPT-3.5-Turbo API 的服务,支持使用 3.5 的 access 调用。 【注意】:仅 IP 属地支持免登录使用 ChatGPT的才可以使用(也可以自定义 Baseurl 来绕过限制&#x…

一起找bug之网盘已知未修复

平常用的最多的就是百度网盘,充值最多的也是百度网盘。阿里网盘有朋友推荐使用,但是看了下限制赠送的空间之后,没有过多使用。百度网盘的体验一直很好,直到一次需要批量上传代码文件时暴露了一个存在了很久的bug。客服解释这个问题…