python 爬虫 入门 一、基础工具

一,网页开发者工具的使用

        我们可以用 requests 库来从一个url或者说一个网址来爬取资源,这里以百度主页和windows初始浏览器Microsoft Edge为例,我们进入百度主页后按F12进入开发者模式,我们常用的功能是元素和网络,源代码除了反爬反加密外很少用。元素显示的是当前页面的实时代码,网络则是能看到打开工具后当前网页的所有请求。

        在弹出的开发者界面中选择网络,然后刷新一下页面,可以看到工具抓取了很多请求,我们选中第一个请求。其中,标头就是网络传输时,http协议规定的格式。

        常规里包含了目标url,请求方法,是我们着重需要看的地方。请求标头中要注意的有Cookie、Referer、User-Agent。Cookie主要用于管理登录状态、验证自动登录,在一些登录的地方需要使用,Referer指从哪个网址发起请求的,可能和反爬有关。User-Agent则是表示了请求是从什么设备(操作系统,浏览器信息)发出的,一些网站会验证设备信息反爬。

        响应就是服务器对这回请求发送的回信,往往就是我们需要的数据。预览是返回数据的可视化,一般如网页、图片或者代码就能显示预览。

        很多请求还具有负载,其实就是get请求时附带的参数或者post请求附带的数据。

二、通过python发送请求

        常见的请求方式有get和post,其中,get是向服务器请求资源,一般的访问资源都是get。post会向服务器提交数据,像是百度翻译的待翻译文本提交就是post。而向一个网页提出请求是用get还是post具体就看上面标头中的请求方法。

(一)、get

        现在我们就试试下载百度主页吧。

import requestsurl = "https://www.baidu.com"
headers = {# 用户代理,某些网站验证用户代理,微微改一下,如果提示要验证码之类的,使用它"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome""/118.0.0.0 Safari/537.36",
}
with requests.get(url=url,headers=headers) as resp:resp.encoding = "utf-8"  # 当页面乱码改这里print(resp)with open("baidu.html", mode="w", encoding="utf-8") as f:  # 下载源码f.write(resp.text)

        不加 headers也是可以的,但请求到的东西会有差异,某些网站甚至会无视请求或者要求验证码,因为python默认的headers如下,相当于告诉网站我是python。

with作用是执行完毕后自动执行resp.close()关闭链接

        下载文件结果如下,没有百度图片是因为图片在其他请求中获得。

 

(二)、带参数的get

 接下来我们试试下载这个网页:(为什么不用百度,因为百度搜出来第二条结果过不了审,而且搜狗参数少点,但原理一样)

通过开发者工具,我们发现,这个网页还是get请求,但是url特别长

不过不要被吓到了,打开负载页面,比对一下,你就会发现这些都相当于是附带的参数,只是格式和编码原因看起来有点乱。上面的 query=i%E9%81%93i 其实就是utf-8编码下的 query=i道i 。

对于这种情况,我们可以直接将url修改为这回请求的url(可以适当裁剪,只保留关键信息),或者采用下面的方法:

import requestsurl = "http://www.sogou.com/web"
headers = {# 用户代理,某些网站验证用户代理,微微改一下,如果提示要验证码之类的,使用它"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/126.0.0.0 Safari/537.36 Edg/126.0.0.0",
}
params = {"query": "i道i"
}
with requests.get(url=url, headers=headers, params=params) as resp:resp.encoding = "utf-8"  # 当页面乱码改这里print(resp)print(resp.text)with open("sogou.html", mode="w", encoding="utf-8") as f:  # 下载源码f.write(resp.text)

下面是显示的结果,看起来像是只有内容,失去了格式,这是因为搜狗网页html源代码就是这样的,网页除了html源代码以外,还能通过诸如css js脚本 等来动态的显示格式,所以,我们有时候在页面能看见的东西,使用ctrl+u查看页面源代码时却看不见,因为这些东西是后面通过js发送的其他请求动态添加到页面的。

(三)、post

        许多需要向服务器提交数据的行为,比如上传文件,论坛发帖等都是要post请求来修改服务器数据。这里就拿百度翻译为例子。百度翻译网页打开时,发送的请求是get请求,但提交待翻译文本时用的时post请求(只用于练手,请勿商用,请勿过多访问)

         直接获取右面翻译结果有些太难了,不亚于泼猴去梅山,这里走条捷径,顺着需要翻译的字一划,能开启划译功能

从抓包工具中能看到多了两条请求,我们看transapi的负载和响应:

 

可以看出,这条就是我们需要的请求响应中["data"][0]["dst"],所以,我们通过以下python代码就可以获得百度翻译的结果:

import requestsurl = "https://fanyi.baidu.com/transapi"
headers = {# 用户代理,某些网站验证用户代理,微微改一下,如果提示要验证码之类的,使用它"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/126.0.0.0 Safari/537.36 Edg/126.0.0.0",
}
params = {"query": "i道i","from": "zh","to": "en","source": "txt",
}
with requests.post(url=url, headers=headers, params=params) as resp:resp.encoding = "utf-8"print(resp)print(eval(resp.text)["data"][0]["dst"])

注意,这里post返回的resp.text是str,你可以使用eval或者resp.json()来转字典。这样我们就获取到结果了。

后续:数据解析

改天写数据解析的三种工具:正则、bs4、xpath,详情见二、数据解析

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/56434.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

了解Retrofit和Volley这两个网络请求框架

Retrofit和Volley都是Android开发中常用的网络请求框架,它们各自具有独特的特点和适用场景。以下将详细阐述对这两个网络请求框架的了解,包括它们的基本概念、使用方法、优缺点以及适用场景等方面。 一、Retrofit网络请求框架 1. 基本概念 Retrofit是…

word,exl,txt转pdf

有些时候需要上传一些附件,比如exl,word,预览的时候客户需要用pdf展示,下面就简答介绍下转换方法 效果图 依赖: 这是我从网上下载到本地然后再依赖的,也可以使用pom文件依赖更好 代码如下: i…

LeetCode:LCP77.符文储备(排序 Java)

目录 LCP77.符文储备 题目描述: 实现代码与解析: 排序 原理思路: LCP77.符文储备 题目描述: 远征队在出发前需要携带一些「符文」,作为后续的冒险储备。runes[i] 表示第 i 枚符文的魔力值。 他们将从中选取若干符…

qiankun 应用之间数据传递

qiankun 应用之间数据传递 全局共享 initGlobalState qiankun initGlobalState API 单击前往 qiankun 内部提供了 initGlobalState 方法用于注册 MicroAppStateActions 实例用于通信,该实例有三个方法,分别是onGlobalStateChange、setGlobalState、of…

重塑输电线路运维管理,巡检管理系统守护电网稳定运行

在输电线路巡检管理中,一个高效、直接的巡检系统对于确保电力供应的稳定性和安全性至关重要。巡检系统能够直接对接运维需求,减少繁琐流程,并强化数据分析能力,这无疑为输电线路的运维管理带来了诸多优势。以下是对这些优势的具体…

求指导储层饱和度及含水率测井解释

🏆本文收录于《全栈Bug调优(实战版)》专栏,主要记录项目实战过程中所遇到的Bug或因后果及提供真实有效的解决方案,希望能够助你一臂之力,帮你早日登顶实现财富自由🚀;同时,欢迎大家关注&&am…

缓存穿透/击穿/雪崩(附生产BUG)

优质博文:IT-BLOG-CN 一、背景 为什么要写这篇文章? 生产缓存生成服务转java时,需要通过配置文件进行流量切换。开发人员同时打开了两个配置页面。原配置信息ABCDEF。在第一个配置页面进行缓存切换,添加G业务缓存,配…

Java - Spring 表达式语言 (SpEL) 简单入门

Java - Spring 表达式语言 (SpEL) 简单入门 文章目录 Java - Spring 表达式语言 (SpEL) 简单入门引言一、环境二、资料三、引用SpEL依赖四、SeEL支持的功能基础1:获取对象值基础2:获取对象值基础3:集合对象象的访问基础4:使用SeEL…

各种排序方法总结

目录 1. 冒泡排序 (Bubble Sort 2. 选择排序 (Selection Sort) 3. 插入排序 (Insertion Sort) 4. 快速排序 (Quick Sort) 5. 归并排序 (Merge Sort) 6. 堆排序 (Heap Sort) 排序算法 时间复杂度 空间复杂度 备注冒泡排序 最好情况: O(n) 平均情况: O(n^2) 最坏情况: O(n^…

制冷压缩机液击介绍

液态制冷剂或润滑油随气体吸入压缩机气缸时损坏吸气阀片的现象,以及进入气缸后没有在排气过程迅速排出,在活塞接近上止点时,被压缩而产生的瞬间高液压的现象通常被称为液击。液击可以在很短时间内造成压缩受力件 ( 如阀片、活塞、连杆、曲轴、活塞销等 )的损坏,是往复式压…

Linux:linux系统中目录的遍历

Linux系统中目录的遍历 1、Linux中目录的遍历(1)函数opendir(2)函数readdir(3)函数closedir(4)遍历指定目录的所有文件和子目录 1、Linux中目录的遍历 (1)函数opendir 打开需要被遍历的目录 DIR *opendir(const char *pathname);pathname:待遍历的目录return&#…

国际期货收费行情源CTP推送式/期货配资软件开发对接行情源的技术性说明

在现代金融市场中,期货交易因其高风险和高回报特性而备受关注。为了满足期货交易者的需求,开发高效、稳定和安全的期货交易软件变得尤为重要。本文将对国际期货收费行情源CTP推送式及期货配资软件的开发对接行情源的技术细节进行详细说明。 一、CTP&…

Sequelize 提示报错ERR_HTTP_HEADERS_SENT

ERR_HTTP_HEADERS_SENT 是一个在 Node.js 环境中常见的错误,它通常发生在尝试向一个已经发送了 HTTP 头部的响应对象发送更多头部或数据时。在 Sequelize(一个基于 promise 的 Node.js ORM,用于 Postgres, MySQL, MariaDB, SQLite 和 Microsoft SQL Server 数据库)的上下文…

AJAX——express框架

本文分享到此结束,欢迎大家评论区相互讨论学习,接下来我们将用一个案例来接着学习AJAX的内容,下一篇给大家准备一个案例的准备工作分享。

Android studio中排除文件功能的小总结

刚开始发现android studio的sourceSets的main下面java的excludes无效,改了好多次都没成功,以为关键字不支持,或者是gradle版本问题,结果查了半天没成功。后来经过对比发现是相对路径问题。 在此总结一下,希望节省大家…

本地连接linux服务器上的sqlite数据库

要从本地机器连接到 Linux 服务器上的 SQLite 数据库文件,你需要采取以下步骤: 确保你有权限访问 Linux 服务器。 使用 SSH 隧道将本地端口转发到远程服务器。这允许你通过加密连接安全地访问远程数据库。 在本地机器上使用 SQLite 客户端或编程语言来…

过拟合和欠拟合小解

过拟合(Overfitting)和欠拟合(Underfitting)是机器学习领域中常见的两种问题,它们分别代表模型在训练数据和测试数据上表现不佳的两种极端情况。 过拟合(Overfitting) 过拟合是指模型在训练数…

微知-如何临时设置服务器风扇转速?(ipmitool raw 0x30 0x30 0x02 0xff 0x40)

服务器风扇可以通过PWM输出来控制转速。 设置方式 设置单次PWM ipmitool raw 0x30 0x30 0x02 0xff 0x40如果要持续设置需要类似while循环持续输出: while true; do ipmitool raw 0x30 0x30 0x02 0xff 0x64; done > /dev/null参数说明: 其他参数&a…

ClaimsettlementController

目录 1、 ClaimsettlementController 1.1、 保存三包表 1.2、 审核预约单 1.3、 反审核预约单 ClaimsettlementController using QXQPS.Models; using QXQPS.Vo; using System; using System.Collections; using System.Collections.Generic; using System.Linq…

云原生后端开发指南:拥抱未来的可扩展架构

云原生后端开发指南:拥抱未来的可扩展架构 随着企业数字化转型的深入,传统的IT架构正在向云原生架构迁移。云原生是一种充分利用云计算交付模式的方法,结合微服务、容器化和DevOps,帮助企业构建灵活、可扩展和高效的系统。在这篇…