爬虫学习3

防盗链 

#1.拿到conyId
#2.拿到videoStatus返回的json.->srURL
#srcURL里面的内容进行整理
#下载视频import requestsurl = "https://www.pearvideo.com/video_1797054"
contId = url.split("_")[1]videoStatusUrl = f"https://www.pearvideo.com/videoStatus.jsp?contId={contId}&mrd=0.0902521356773"
headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/130.0.0.0 Safari/537.36",#防盗链:溯源,当前本次请求的上一级是谁"Referer":url
}resp = requests.get(videoStatusUrl,headers=headers)
dic = resp.json() #从一个名为resp的响应对象中解析JSON数据,并将其存储在名为dic的变量中srcUrl = dic['videoInfo']['videos']['srcUrl']  #这行代码从dic字典中提取videoInfo键对应的值,然后进一步从这个值中提取videos键对应的值,最后从这个值中提取srcUrl键对应的值,并将其赋值给变量srcUrl。
systemTime = dic['systemTime'] #这行代码从dic字典中提取systemTime键对应的值,并将其赋值给变量systemTime。
srcUrl = srcUrl.replace(systemTime,f"cont-{contId}")#这行代码使用replace方法将srcUrl字符串中的systemTime值替换为cont-{contId}格式的字符串。这里假设contId是一个已经定义的变量,它代表某个内容的ID#下载视频
with open("a.mp4",mode="wb") as f: #使用with语句打开一个名为a.mp4的文件,以二进制写入模式(wb)打开。with语句确保文件在操作完成后会被正确关闭f.write(requests.get(srcUrl).content) #这行代码使用requests库发起一个GET请求到srcUrl指定的URL。requests.get(srcUrl)返回一个响应对象,.content属性包含了响应体的内容,即视频文件的二进制数据。然后,这些数据被写入到之前打开的文件f中。

 代理请求


import requestsurl = "https://www.baidu.com"#准备代理信息
proxy = {"http":"http://218.87.205.147:23322","https":"https://202.101.213.61:19302"
}
#proxies代理
resp = requests.get(url,proxies=proxy)
resp.encoding = 'utf-8'
print(resp.text)
next() 函数是 Python 中的一个内置函数,用于从一个迭代器中获取下一个元素
# 列表迭代器
my_list = [1, 2, 3, 4, 5]
iterator = iter(my_list)# 获取下一个元素
print(next(iterator))  # 输出: 1
print(next(iterator))  # 输出: 2

一个简单的spider()函数可能包含以下几个步骤:

  1. 发送HTTP请求获取网页内容。
  2. 解析网页内容(通常是HTML),提取所需数据。
  3. 存储提取的数据。
  4. 跟踪网页中的链接,继续抓取其他页面。
import requests
from bs4 import BeautifulSoupdef spider(url):# 发送HTTP GET请求response = requests.get(url)# 检查请求是否成功if response.status_code == 200:# 解析网页内容soup = BeautifulSoup(response.text, 'html.parser')# 提取网页中的所有链接links = soup.find_all('a')# 遍历链接并打印for link in links:print(link.get('href'))else:print("Failed to retrieve the webpage")# 使用spider函数抓取指定URL的内容
spider('http://example.com')

spider()函数接受一个URL作为参数,发送HTTP GET请求,然后使用BeautifulSoup解析HTML内容,并提取所有的链接(<a>标签的href属性)。最后,函数打印出这些链接。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/59148.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

字典学习python

字典中的健可以添加&#xff0c;删除&#xff0c;但是不可以修改&#xff0c;只可以改后面的值 修改 字典名称[] value 若不存在健&#xff0c;那就添加&#xff0c;否则修改 pop删除&#xff0c;根据key实现对键值对&#xff0c;返回值是对应的value popitem返回值是一整个键…

QT-C++ 西门子snap7通讯库接口

QT-C 西门子snap7通讯库接口 一、核心程序1.头文件2.源文件 二、下载连接 一、核心程序 1.头文件 #pragma once #include <QObject> #include <QMutex> #include <QThread> #include "ToolSnapGlobal.h" #include "snap7.h" /* 特别说…

【设计模式】结构型模式(一):适配器模式、装饰器模式

结构型模式&#xff08;一&#xff09;&#xff1a;适配器模式、装饰器模式 1.适配器模式&#xff08;Adapter&#xff09;2.装饰器模式&#xff08;Decorator&#xff09;2.1 主要特点2.2 组成部分2.3 示例代码2.3.1 Component 组件2.3.2 ConcreteComponent 具体组件2.3.3 Dec…

认识物联网

新一代信息技术 物联网 物物相连的互联网&#xff0c;即物联网&#xff0c;又称传感器常见的传感器 • 温度传感器 • 压力传感器 • 声音传感器 • 02 • */08521 物联网概念 • 通过射频识别&#xff0c;红外传感器&#xff0c;全球定位系统GPS&#xff0c;激光扫描…

iOS 再谈KVC、 KVO

故事背景&#xff1a;大厂面试&#xff0c;又问道了基本的kvc kvo的原理和使用&#xff0c;由于转了前端&#xff0c;除了个setter和getter&#xff0c;我全忘记了&#xff0c;其实还是没有理解记忆&#xff0c;下面再看一下kvc 和kvo ,总结一个让人通过理解而无法忘记的方法&a…

07.适配器模式设计思想

07.适配器模式设计思想 目录介绍 01.适配器模式基础 1.1 适配器模式由来1.2 适配器模式定义1.3 适配器模式场景1.4 适配器模式思考 02.适配器模式实现 2.1 罗列一个场景2.2 用例子理解适配器2.3 适配器基本实现2.4 如何选择适配器 03.适配器模式分析 3.1 类适配器案例3.2 对象…

C语言 | Leetcode 题解之第535题TinyURL的加密与解密

题目&#xff1a; 题解&#xff1a; typedef struct {int key;char *val;UT_hash_handle hh; } HashItem;HashItem *dataBase NULL;char* encode(char* longUrl) {srand(time(0));int key;HashItem * pEntry NULL;while (true) {key rand();pEntry NULL;HASH_FIND_INT(dat…

Linux:线程安全的单例模式

设计模式 设计模式听上去是个很高贵的名词&#xff0c;其实就是是一套 多数人知晓、被反复使用、经过分类编目的、代码设计经验的总结&#xff0c;简称&#xff1a;对于编程比较典的场景的解决方案 单例模式 单例模式就是其中一种设计模式&#xff0c;是设计模式里的创建型模…

基于qt vs下的视频播放

**在 VS 2022 和 Qt 环境下利用 FFmpeg 实现一个基础视频播放器&#xff0c;需要完成以下几个步骤&#xff1a; 准备工作&#xff1a; 下载并配置 FFmpeg。确保 FFmpeg 的库和头文件可供 VS 2022 项目使用。 配置 Qt 项目&#xff0c;并导入 FFmpeg 库。 项目结构&#xff1a…

Django ORM详解:事务与F、Q函数使用

事务 #事务 from django.db import transaction from django.db.models import F # 装饰器用法&#xff1a;transaction.atomic def viewfunc(request):# 这些代码会在一个事务中执行... # with用法 try:#开启事物之后只有在事物里面的代码都正确运行完成才会执行相应的操作wit…

【网络安全】揭示 Web 缓存污染与欺骗漏洞

未经许可,不得转载。 文章目录 前言污染与欺骗Web 缓存污染 DoS1、HTTP 头部超大 (HHO)2、HTTP 元字符 (HMC)3、HTTP 方法覆盖攻击 (HMO)4、未键入端口5、重定向 DoS6、未键入头部7、Host 头部大小写规范化8、路径规范化9、无效头部 CP-DoS10、HTTP 请求拆分Web 缓存污染与有害…

AI打造超写实虚拟人物:是科技奇迹还是伦理挑战?

内容概要 在这个科技飞速发展的时代&#xff0c;超写实虚拟人物仿佛从科幻小说中走进了我们的日常生活。它们以生动的形象和细腻的动作&#xff0c;不仅在影视、广告和游戏中吸引了无数目光&#xff0c;更让我们对AI技术的未来充满了期待和疑惑。这些数字化身在逼真的外貌下&a…

第三次RHCSA作业

1、配置网络&#xff1a;为网卡添加一个本网段IPV4地址&#xff0c;x.x.x.123 2、配置yum本地仓库&#xff0c;并完成traceroute命令的安装 yum库配置成功过后&#xff0c;显示这个报错&#xff0c;没能写完 3、用至少两种方法查看sshd服务的进程号 4、添加一块10G大小的磁盘&…

前端用docker部署

1、环境检查 首先需要确认服务器上是否已经安装docker了。 在服务器上执行docker -v 显示对应的版本号说明已经安装好了docker 2、部署 使用Docker部署若依项目的前端服务&#xff0c;我们最终实现的是&#xff1a;启动一个镜像&#xff0c;我们的整个前端就启动了&#xf…

【Python开发】大模型应用开发项目整理

不知不觉已经入职3个月了&#xff0c;同事很好&#xff0c;工作充实&#xff0c;学到了很多东西&#xff0c;大大小小的需求也实现了接近20个。负责2个主要component&#xff0c;数据抓取和利用GenAI做数据提取。 1 背景 提取新闻中事件关键信息&#xff0c;比如人名&#xff…

论文翻译:ICLR 2024.DETECTING PRETRAINING DATA FROM LARGE LANGUAGE MODELS

文章目录 检测大型语言模型的预训练数据摘要1 引言2 预训练数据检测问题2.1 问题定义和挑战2.2 WIKIMIA&#xff1a;动态评估基准 3 MIN-K% PROB&#xff1a;简单的无参考预训练数据检测方法4 实验4.1 数据集和指标4.2 基线检测方法4.3 实现和结果4.4 分析 5 案例研究&#xff…

使用Jest进行JavaScript单元测试

&#x1f493; 博客主页&#xff1a;瑕疵的CSDN主页 &#x1f4dd; Gitee主页&#xff1a;瑕疵的gitee主页 ⏩ 文章专栏&#xff1a;《热点资讯》 使用Jest进行JavaScript单元测试 引言 Jest 简介 安装 Jest 创建基本配置 编写测试用例 运行测试 快照测试 模拟函数 代码覆盖率…

根据关键字搜索商品API返回值解析:深入解析与代码实践

在电子商务和数据集成领域&#xff0c;API&#xff08;应用程序编程接口&#xff09;扮演着至关重要的角色。通过API&#xff0c;开发者可以访问和利用平台的数据资源&#xff0c;实现自动化和智能化的数据交互。本文将探讨如何根据关键字搜索商品API的返回值进行解析&#xff…

哈尔滨华时信息技术有限公司,特色之处见怎么样

哈尔滨华时信息技术有限公司的特色之处体现在以下几个方面&#xff1a; 1. **技术优势**&#xff1a; - **无线网络技术专长**&#xff1a;在无线网络领域有深厚的技术积累和优势。具备高度的灵活性与移动性&#xff0c;能为客户提供灵活的网络解决方案&#xff0c;满足如移动…

【书生.浦语实战营】——入门岛

【书生.浦语实战营】——入门岛_第一关_Linux基础 任务分布1. 本地vscode远程连接并进行端口映射端口映射What——何为端口映射How——怎么进行端口映射 2. Linux基础命令touch &#xff1a;创建文件mkdir &#xff1a;创建目录cd:进入 退出 目录pwd :确定当前所在目录cat:可以…