爬虫获取静态网页数据

自动爬取网页数据

正常情况下是我们使用浏览器输入指定url,对服务器发送访问请求,服务器返回请求信息,浏览器进行解析为我们看到的界面,爬虫就是使用python脚本取代正常的浏览器,获取相应服务器的返回请求信息,并配合python强大的库进行解析分析,能够快速高效地帮助我们进行大数据分析。

不需要登录即可返回请求

以爬取虎牙交友频道每个直播封面图片为例

  1. 请求服务器

        url = 'https://www.huya.com/g/4079'result = requests.get(url=url).text
    

    其实就是与cmd命令的 curl url一样,他们两个的返回是一样的,都是返回请求网页的源代码

    curl url的返回太长,可以直接保存到文件中,方便比较 curl https://www.huya.com/g/4079 > C:\Users\72403\Desktop\py\cmdRes.txt

  2. 在网站源码内筛选我们需要的数据,这里用到xpath

    我们可以在网站要爬取的内容右键选检查,就会看到对应内容的标签等信息

        data = etree.HTML(result)imgs = data.xpath('//img[@class="pic"]')
    
  3. 保存数据

      for img in imgs:imgUrl = img.xpath('./@data-original')[0]imgName = img.xpath('./@alt')[0]request.urlretrieve(imgUrl, r'C:/Users/72403/Pictures/video/huya/' + imgName + '.jpg')
    

都被爬到了本地:

需要登录才可返回请求

有的网站访客请求不能成功返回请求,这里以小b站为例

其他的都是一样的,就是要加上一个cookie,来告诉服务端我不是访客,我是你们尊贵的vip用户,快给我返回请求

获取自己已经登录账户的cookie

  1. 打开小b站,登录

  2. 按下F12进入调试窗口

  3. 选中网络

  4. 按下 alt+r 刷新界面

  5. 滑动到界面的最上方,找到www.bilibili.com这条

    cookie就在图下方所示位置

请求的时候请求头加上cookie

headers = {# 假装自己是浏览器'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Ubuntu Chromium/73.0.3683.75 			Chrome/73.0.3683.75 Safari/537.36',# 把你刚刚拿到的Cookie塞进来'Cookie':'把上一步得到的Cookie复制到此处'
}
session = requests.Session()
result = session.get('https://www.bilibili.com', headers=headers).text

完整代码

headers = {# 假装自己是浏览器'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Ubuntu Chromium/73.0.3683.75 			Chrome/73.0.3683.75 Safari/537.36',# 把你刚刚拿到的Cookie塞进来'Cookie':'把上一步得到的Cookie复制到此处'
}
if __name__ == '__main__':url = 'https://www.bilibili.com'session = requests.Session()result = session.get('https://www.bilibili.com', headers=headers).text#result = requests.get(url=url).textdata = etree.HTML(result)imgs = data.xpath('//img')for img in imgs:imgUrl = img.xpath('./@src')[0]imgName = img.xpath('./@alt')[0]print(imgName+":"+imgUrl)# 会出现有的图片路径不带https,加下面的判断if imgUrl.find("https://") !=-1:request.urlretrieve(imgUrl, r'C:/Users/72403/Pictures/video/bilibili/' + imgName + '.jpg')else:request.urlretrieve("https:"+imgUrl, r'C:/Users/72403/Pictures/video/bilibili/' + imgName + '.jpg')print("{%s}下载完毕!" % imgName)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/85716.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于springboot+vue的毕业生实习与就业管理系统

博主主页:猫头鹰源码 博主简介:Java领域优质创作者、CSDN博客专家、公司架构师、全网粉丝5万、专注Java技术领域和毕业设计项目实战 主要内容:毕业设计(Javaweb项目|小程序等)、简历模板、学习资料、面试题库、技术咨询 文末联系获取 项目介绍…

SOC芯片在精度测量领域的设计应用

soc芯片即System-on-a-Chip,简单解释就是系统级芯片。它是一个产品,是一个有专用目标的集成电路,其中包含完整系统并有嵌入软件的全部内容。同时它又是一种技术,用以实现从确定系统功能开始,到软/硬件划分,并完成设计的整个过程。 soc芯片是近两年时下的热门话题&a…

Learn Prompt-“标准“提示

在前面的教程中,我们介绍了指令输入的简单提示,提供实例的提示和角色扮演类的提示,那么是否有一个公式来列出提示的各个部分,并将其组合成一个标准化的提示?答案是肯定的。 角色扮演(Role) 指令…

iOS添加Mapbox地图库

配置凭据 注册并导航到Account页面。你将需要: 公共访问令牌: 从帐户的tokens页面,你可以复制默认的公共令牌或单击"create a token"按钮来创建新的公共令牌。 带有Downloads:Read范围的秘密访问令牌: 从你帐户的t…

代码随想录算法训练营 动态规划part07

一、爬楼梯 (进阶) 70. 爬楼梯 - 力扣(LeetCode) 解题思路: 设跳上 n 级台阶有 f(n) 种跳法。在所有跳法中,青蛙的最后一步只有两种情况: 跳上 1 级或 2 级台阶。 当为 1 级台阶:…

MySQL详解六:备份与恢复

文章目录 1. 数据库备份的分类1.1 从物理和逻辑上分类1.1.1 物理备份1.1.2 逻辑备份 1.2 从数据库的备份策略角度上分类1.2.1 完全备份1.2.2 差异备份1.2.3 增量备份 1.3 常见的备份方法 2. MySQL完全备份2.1 完全备份简介2.2 优点与缺点2.3 实现物理冷备份与恢复2.3.1 实现流程…

AUTOSAR汽车电子嵌入式编程精讲300篇-面向驾驶辅助技术融合算法的日志系统设计与实现(下)

目录 5.4.8 核间通信的设计 5.5 日志系统通信模块的实现 5.5.1 以太网通信的整体架构

Bytebase 2.8.0 - ​全新升级的数据脱敏功能

🚀 新功能 全新升级的数据脱敏功能,提供更加细化的脱敏和访问权限配置。全新升级的 SQL 编辑器界面。库表同步功能支持 Oracle。支持设置公告。 🎄 改进 新增基于 MySQL parser 的数据脱敏内核。调整了侧边栏数据库列表,用最近…

学习记忆——宫殿篇——记忆宫殿——记忆桩——工人宿舍

脸盆铁盒白色泡沫绳子电热炉 6. 椅子 7. 门帘 8. 塑料 9. 书 10.安全帽 11. 凳子 暖壶烟灰缸计算器水杯刷子

科目三基础四项(一)

​ 第一天,基础操作,仪表,方向,挡位 按照模块来 1、方向盘两手在两侧 ​ 编辑 转向时的角度,只用:向左540,向右180 向左打和向右打的角度要抵消,回正 掉头向左打满再回 注意…

LaTeX中的[htbp!]选项:控制浮动体的位置

LaTeX中的[htbp!]选项:控制浮动体的位置 在LaTeX中,浮动体(例如表格和图像)的位置通常由LaTeX的排版算法自动决定。然而,有时我们可能需要更精确地控制浮动体的位置。这时,我们可以使用[htbp!]等选项来指导…

18.3 【Linux】登录文件的轮替(logrotate)

18.3.1 logrotate 的配置文件 logrotate 主要是针对登录文件来进行轮替的动作,他必须要记载“ 在什么状态下才将登录文件进行轮替”的设置。logrotate 这个程序的参数配置文件在: /etc/logrotate.conf /etc/logrotate.d/ logrotate.conf 才是主要的参…

shell 编程

shell 编程 vim-quick-sh window 下 从零开始——PowerShell应用入门(全例子入门讲解) 各种逗比脚本参考 参考代码1 参考代码2 Linux-Shell脚本编程书籍代码 把平时有用的手动操作做成脚本,这样可以便捷的使用 awk 与 sed 学习&…

代码随想录训练营二刷第三十二天 | 122.买卖股票的最佳时机II 55. 跳跃游戏 45.跳跃游戏II

代码随想录训练营二刷第三十二天 | 122.买卖股票的最佳时机II 55. 跳跃游戏 45.跳跃游戏II 一、 122.买卖股票的最佳时机II 题目链接:https://leetcode.cn/problems/best-time-to-buy-and-sell-stock-ii/ 思路:可以当天买当天卖,只要nums[i…

uni-app实现点击复制按钮 复制内容

注意:uni.setClipboardData({})里面的data参数必须是字符串类型这个是大坑 第一种 <view>{{orderId}}</view> //复制的内容 <button click"copy(orderId)">复制</button>copy(value) {uni.setClipboardData({data: value , // 这里是个坑接…

1795_ChibiOS网络书籍阅读_实时系统的一些概念

全部学习汇总&#xff1a; GreyZhang/g_ChibiOS: I found a new RTOS called ChibiOS and it seems interesting! (github.com) 不同的OS在介绍自己的机理的时候都有自己的模型或者抽象概念&#xff0c;ChibiOS也不例外。这里的几个概念需要做一个基本的理解&#xff1a; 1. 进…

解决方案 | 如何构建市政综合管廊安全运行监测系统?

如何构建市政综合管廊安全运行监测系统&#xff1f;WITBEE万宾城市生命线智能监测仪器&#xff0c;5年免维护设计&#xff0c;集成10多项结构与气体健康监测指标&#xff0c;毫秒级快速响应&#xff0c;时刻感知综合管廊运行态势

嵌入式网络接口之MAC芯片与PHY芯片

目录 0. 参考文档 1.嵌入式网络接口简介 2.嵌入式网络硬件架构方案 2.1 SOC内未集成MAC芯片 2.2 SOC内集成MAC芯片 2.3 主流方案总结 2.3 参照实际网卡的说明 3.MII/RMII及MDIO接口 3.1 MII 3.2 RMII 3.3 MDIO 0. 参考文档 网卡构造&#xff1a;MAC与PHY的关系&…

ETLCloud工具让美团数据管理更简单

美团为第三方开发者和商家提供了一系列开放的API接口和工具&#xff0c;使其可以与美团的业务进行对接和集成&#xff0c;从而获得更多的业务机会和增长空间。 通过美团开放平台&#xff0c;第三方开发者和商家可以实现以下功能&#xff1a; 开放接口&#xff1a;美团开放平台…

nacos 作为注册中心时是强一致性还是最终一致性

答案&#xff1a;强一致性 nacos 有两个一致性的协议&#xff0c;AP、CP 持久性数据、配置数据都是CP强一致性 AP&#xff1a;保障各节点的可用性&#xff0c;不必要求强一致性&#xff0c;比如心跳数据等 参考&#xff1a; Nacos内核设计之一致性协议(上)-阿里云开发者社…