异步爬虫之aiohttp的使用

在上一篇博客我们介绍了异步爬虫的基本原理和 asyncio 的基本用法,并且在最后简单提及了使用aiohttp 实现网页爬取的过程。本篇博客我们介绍一下 aiohttp 的常见用法。

基本介绍

前面介绍的 asyncio模块,其内部实现了对 TCP、UDP、SSL协议的异步操作,但是对于 HTTP 请求来说,就需要用 aiohttp 实现了。

aiohttp 是一个基于 asyncio 的异步 HTTP 网络模块,它既提供了服务端,又提供了客户端。其中我们用服务端可以搭建一个支持异步处理的服务器,这个服务器就是用来处理请求并返回响应的,类似于 Django、Flask、Tormado 等一些 Web服务器。而客户端可以用来发起请求,类似于使用 requests 发起一个 HTTP 请求然后获得响应,但 requests 发起的是同步的网络请求,aiohttp 则是异步的。

本篇博客我们主要了解一下 aiohttp 客户端部分的用法。

基本实例

我们来看一个基本的 aiohttp 请求案例,代码如下:

import aiohttp
import asyncioasync def fetch(session, url):async with session.get(url) as response:return await response.text(), response.statusasync def main():async with aiohttp.ClientSession() as session:html, status = await fetch(session, 'https://cuiqingcai.com')print(f'html:{html[:100]}...')print(f'status:{status}')if __name__ == '__main__':loop = asyncio.get_event_loop()loop.run_until_complete(main())

这里使用 aiohttp 爬取了本书作者的个人博客,获得了源码和响应状态码,并打印出来,运行结果如下:

html:<!DOCTYPE html>
<html lang="zh-CN"><head><meta charset="UTF-8"><meta name="viewport" content...
status:200

由于网页源码过长,这里只截取了输出的一部分。可以看到,我们成功获取了网页的源代码及响应状态码 200,也就是完成了一次基本的 HTTP请求,即我们成功使用 aiohttp 通过异步的方式完成了网页爬取。当然,这个操作用之前讲的 requests 也可以做到。

能够发现,aiohttp 的请求方法的定义和之前有明显的区别,主要包括如下几点。

  • 首先在导人库的时候,除了必须引人 aiohttp这个库,还必须引人asyncio 库。因为要实现异步爬取,需要启动协程,而协程则需要借助于asyncio 里面的事件循环才能执行。除了事件循环asyncio 里面也提供了很多基础的异步操作。
  • 异步爬取方法的定义和之前有所不同,每个异步方法的前面都要统一加 async 来修饰。
  • with as 语句前面同样需要加 async 来修饰。在 Pvthon 中,with as 语句用于声明一个上下文管理器,能够帮我们自动分配和释放资源。而在异步方法中,withas前面加上async代表声明一个支持异步的上下文管理器。
  • 对于一些返回协程对象的操作,前面需要加 await 来修饰。例如 response 调用 text 方法,查询 API可以发现,其返回的是协程对象,那么前面就要加 await;而对于状态码来说,其返回值就是一个数值,因此前面不需要加 await。所以,这里可以按照实际情况做处理,参考官方文档说明,看看其对应的返回值是怎样的类型,然后决定加不加await 就可以了。
  • 最后,定义完爬取方法之后,实际上是 main 方法调用了 fetch 方法。要运行的话,必须启用事件循环,而事件循环需要使用 asyncio库,然后调用 run_until_complete 方法来运行。

注意:在 Python 3.7 及以后的版本中,我们可以使用 asyncio.run(main())代替最后的启动操作,不需要显示声明事件循环,run 方法内部会自动启动一个事件循环。但这里为了兼容更多的Python 版本,依然显式声明了事件循环。

URL参数设置

对于 URL 参数的设置,我们可以借助 params 参数,传入一个字典即可,实例如下:

import aiohttp
import asyncioasync def main():params = {'name': 'germey', 'age': 25}async with aiohttp.ClientSession() as session:async with session.get('https://www.httpbin.org/get', params=params) as response:print(await response.text())if __name__ == '__main__':asyncio.get_event_loop().run_until_complete(main())

运行结果如下:

{"args": {"age": "25", "name": "germey"}, "headers": {"Accept": "*/*", "Accept-Encoding": "gzip, deflate", "Host": "www.httpbin.org", "User-Agent": "Python/3.9 aiohttp/3.11.11", "X-Amzn-Trace-Id": "Root=1-677217f5-3bc6954d23f245465ccbb806"}, "origin": "111.18.92.1", "url": "https://www.httpbin.org/get?name=germey&age=25"
}

这里可以看到,实际请求的 URL 为 https://www.httpbin.org/get?name=germey&age-25,其中的参数对应于 params 的内容。

其他请求类型

aiohttp 还支持其他请求类型,如 POST、PUT、DELETE 等,这些和 requests 的使用方式有点类
似,实例如下:

session.post('http://www.httpbin.org/post',data=b'data')
session.put('http://www.httpbin.org/put', data=b'data')
session.delete('http://www.httpbin.org/delete')
session.head("http://www.httpbin.org/get')
session.options('http://www.httpbin.org/get')
session.patch('http://www.httpbin.org/patch', data=b'data')

要使用这些方法,只需要把对应的方法和参数替换一下。

POST请求

对于 POST表单提交,其对应的请求头中的Content-Type为application/x-www-form-urlencoded.我们可以用如下方式来实现:

import aiohttp
import asyncioasync def main():data = {'name': 'germey', 'age': 25}async with aiohttp.ClientSession() as session:async with session.post('https://www.httpbin.org/post', data=data) as response:print(await response.text())if __name__ == '__main__':asyncio.get_event_loop().run_until_complete(main())

运行结果如下:

{"args": {}, "data": "", "files": {}, "form": {"age": "25", "name": "germey"}, "headers": {"Accept": "*/*", "Accept-Encoding": "gzip, deflate", "Content-Length": "18", "Content-Type": "application/x-www-form-urlencoded", "Host": "www.httpbin.org", "User-Agent": "Python/3.9 aiohttp/3.11.11", "X-Amzn-Trace-Id": "Root=1-67721981-6891ead2152d4e70567cd9ab"}, "json": null, "origin": "111.18.92.1", "url": "https://www.httpbin.org/post"
}

对于 POST JSON 数据提交,其对应的请求头中的 Content-Type 为 application/json,我们只需要将 post 方法里的 data 参数改成 json 即可,实例代码如下:

import aiohttp
import asyncioasync def main():data = {'name': 'germey', 'age': 25}async with aiohttp.ClientSession() as session:async with session.post('https://www.httpbin.org/post', json=data) as response:print(await response.text())if __name__ == '__main__':asyncio.get_event_loop().run_until_complete(main())

运行结果如下:

{"args": {}, "data": "{\"name\": \"germey\", \"age\": 25}", "files": {}, "form": {}, "headers": {"Accept": "*/*", "Accept-Encoding": "gzip, deflate", "Content-Length": "29", "Content-Type": "application/json", "Host": "www.httpbin.org", "User-Agent": "Python/3.9 aiohttp/3.11.11", "X-Amzn-Trace-Id": "Root=1-67721ce2-0439155d5dce282c3803cca6"}, "json": {"age": 25, "name": "germey"}, "origin": "111.18.92.1", "url": "https://www.httpbin.org/post"
}

可以发现,其实现也和requests 非常像,不同的参数支持不同类型的请求内容。

响应

对于响应来说,我们可以用如下方法分别获取其中的状态码、响应头、响应体、响应体二进制内容、响应体 JSON 结果,实例代码如下:

import aiohttp
import asyncioasync def main():data = {'name': 'germey', 'age': 25}async with aiohttp.ClientSession() as session:async with session.post('https://www.httpbin.org/post', data=data) as response:print('status:', response.status)print('headers:', response.headers)print('body:', await response.text())print('bytes:', await response.read())print('json:', await response.json())if __name__ == '__main__':asyncio.get_event_loop().run_until_complete(main())

运行结果如下:

status: 200
headers: <CIMultiDictProxy('Date': 'Mon, 30 Dec 2024 04:40:46 GMT', 'Content-Type': 'application/json', 'Content-Length': '510', 'Connection': 'keep-alive', 'Server': 'gunicorn/19.9.0', 'Access-Control-Allow-Origin': '*', 'Access-Control-Allow-Credentials': 'true')>
body: {"args": {}, "data": "", "files": {}, "form": {"age": "25", "name": "germey"}, "headers": {"Accept": "*/*", "Accept-Encoding": "gzip, deflate", "Content-Length": "18", "Content-Type": "application/x-www-form-urlencoded", "Host": "www.httpbin.org", "User-Agent": "Python/3.9 aiohttp/3.11.11", "X-Amzn-Trace-Id": "Root=1-6772244e-191cbb78229cbd5412777470"}, "json": null, "origin": "111.18.92.1", "url": "https://www.httpbin.org/post"
}bytes: b'{\n  "args": {}, \n  "data": "", \n  "files": {}, \n  "form": {\n    "age": "25", \n    "name": "germey"\n  }, \n  "headers": {\n    "Accept": "*/*", \n    "Accept-Encoding": "gzip, deflate", \n    "Content-Length": "18", \n    "Content-Type": "application/x-www-form-urlencoded", \n    "Host": "www.httpbin.org", \n    "User-Agent": "Python/3.9 aiohttp/3.11.11", \n    "X-Amzn-Trace-Id": "Root=1-6772244e-191cbb78229cbd5412777470"\n  }, \n  "json": null, \n  "origin": "111.18.92.1", \n  "url": "https://www.httpbin.org/post"\n}\n'
json: {'args': {}, 'data': '', 'files': {}, 'form': {'age': '25', 'name': 'germey'}, 'headers': {'Accept': '*/*', 'Accept-Encoding': 'gzip, deflate', 'Content-Length': '18', 'Content-Type': 'application/x-www-form-urlencoded', 'Host': 'www.httpbin.org', 'User-Agent': 'Python/3.9 aiohttp/3.11.11', 'X-Amzn-Trace-Id': 'Root=1-6772244e-191cbb78229cbd5412777470'}, 'json': None, 'origin': '111.18.92.1', 'url': 'https://www.httpbin.org/post'}

可以看到,这里有些字段前面需要加 await,有些则不需要。其原则是,如果返回的是一个协程对象(如 async修饰的方法),那么前面就要加 await,具体可以看 aiohttp的API,其链接为:https://docs.aiohttp.org/en/stable/client_reference.html.

超时设置

我们可以借助 clientTimeout 对象设置超时,例如要设置1秒的超时时间,可以这么实现:

import aiohttp
import asyncioasync def main():timeout = aiohttp.ClientTimeout(total=1)async with aiohttp.ClientSession(timeout=timeout) as session:async with session.get('https://www.httpbin.org/get') as response:print('status:', response.status)if __name__ == '__main__':asyncio.get_event_loop().run_until_complete(main())

如果在1秒之内成功获取响应,那么运行结果如下:

200

如果超时,则会抛出 TimeoutError 异常,其类型为 asyncio.TimeoutError,我们进行异常捕获即可。另外,声明clientTimeout对象时还有其他参数,如connect、socket、connect等,详细可以参考官方文档:https://docs.aiohttp.org/en/stable/client_quickstart.html#timeouts。

并发限制

由于 aiohttp 可以支持非常高的并发量,如几万、十万、百万都是能做到的,但面对如此高的并发量,目标网站很可能无法在短时间内响应,而且有瞬间将目标网站爬挂掉的危险,这提示我们需要控制一下爬取的并发量。

一般情况下,可以借助 asyncio 的 Semaphore 来控制并发量,实例代码如下:

import aiohttp
import asyncioCONCURRENCY = 5
URL = 'https://www.baidu.com'
semaphore = asyncio.Semaphore(CONCURRENCY)
session = Noneasync def scrape_api():async with semaphore:print('scraping', URL)async with session.get(URL) as response:await asyncio.sleep(1)return await response.text()async def main():global sessionsession = aiohttp.ClientSession()scrape_index_tasks = [asyncio.ensure_future(scrape_api()) for _ in range(10000)]await asyncio.gather(*scrape_index_tasks)if __name__ == '__main__':asyncio.get_event_loop().run_until_complete(main())

参考文献

https://docs.aiohttp.org/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/65853.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

操作系统课后题总复习

目录 一、第一章 1.1填空题 1.2单项选择题 1.3多项选择题 1.4判断题 1.5名词解释 1.6简答题 二、第二章 2.1填空题 2.2单项选择题 2.3 多项选择题 2.4判断题 2.5名词解释 2.6简答题 三、第三章 3.1填空题 3.2单项选择题 3.3多项选择题 3.4判断题 3.5名词解…

《探寻真正开源的大模型:开启AI创新新纪元》

《探寻真正开源的大模型&#xff1a;开启AI创新新纪元》 一、开源大模型崛起&#xff1a;AI 发展的新曙光二、开源大模型的 “庐山真面目”三、明星开源大模型闪耀登场&#xff08;一&#xff09;LLaMA 3&#xff1a;实力强劲的开源先锋&#xff08;二&#xff09;Phi-3&#x…

Debian-linux运维-ssh配置(兼容Jenkins插件的ssh连接公钥类型)

系统版本&#xff1a;Debian 12.5、11.1 1 生成密钥对 可以用云服务商控制台生成的密钥对&#xff0c;也可以自己在客户端或者服务器上生成&#xff0c; 已经有密钥对就可以跳过这步 用户默认密钥文件路径为 ~/.ssh/id_rsa&#xff0c;可以在交互中指定路径&#xff0c;也可…

基于服务器部署的综合视频安防系统的智慧快消开源了。

智慧快消视频监控平台是一款功能强大且简单易用的实时算法视频监控系统。它的愿景是最底层打通各大芯片厂商相互间的壁垒&#xff0c;省去繁琐重复的适配流程&#xff0c;实现芯片、算法、应用的全流程组合&#xff0c;从而大大减少企业级应用约95%的开发成本。国产化人工智能“…

小程序学习05——uniapp路由和菜单配置

目录 一、路由 二、如何管理页面及路由&#xff1f; 三、pages.json 页面路由 四、 tabBar 一、路由 路由&#xff1a;在前端&#xff0c;往往指代用不同地址请求不同页面&#xff0c;决定了用户如何在应用的不同页面之间导航。 菜单&#xff1a;对于每个路径&#xff08;…

【网络安全实验室】SQL注入实战详情

如果额头终将刻上皱纹&#xff0c;你只能做到&#xff0c;不让皱纹刻在你的心上 1.最简单的SQL注入 查看源代码&#xff0c;登录名为admin 最简单的SQL注入&#xff0c;登录名写入一个常规的注入语句&#xff1a; 密码随便填&#xff0c;验证码填正确的&#xff0c;点击登录…

使用 ThinkPHP 和 Vue.js 开发现代 Web 应用的指南

使用 ThinkPHP 和 Vue.js 开发现代 Web 应用的指南 在当今的 Web 开发中&#xff0c;前后端分离架构逐渐成为一种主流趋势。结合 ThinkPHP 和 Vue.js&#xff0c;可以高效地构建现代化的 Web 应用。本文将详细介绍如何使用这两种技术栈&#xff0c;从环境搭建到基本功能实现&a…

_使用CLion的Vcpkg安装SDL2,添加至CMakelists时报错,编译报错

语言&#xff1a;C20 编译器&#xff1a;gcc 14.2 摘要&#xff1a;初次使用Vcpkg添加SDL2&#xff0c;出现CMakelists找不到错误、编译缺失main错误、运行失败错误。 CMakelists缺失错误&#xff1a; 使用CLion的Vcpkg安装SDL2时&#xff0c;按照指示把对应代码添加至CMakel…

可解释性:走向透明与可信的人工智能

随着深度学习和机器学习技术的迅速发展&#xff0c;越来越多的行业和领域开始应用这些技术。然而&#xff0c;这些技术的“黑盒”特性也带来了不容忽视的挑战&#x1f3b2;。在许多任务中&#xff0c;尽管这些模型表现出色&#xff0c;取得了相当高的精度&#xff0c;但其决策过…

SQL Server导出和导入可选的数据库表和数据,以sql脚本形式

一、导出 1. 打开SQL Server Management Studio&#xff0c;在需要导出表的数据库上单击右键 → 任务 → 生成脚本 2. 在生成脚本的窗口中单击进入下一步 3. 如果只需要导出部分表&#xff0c;则选择第二项**“选择具体的数据库对象(Select specific database objects)”**&am…

uniapp——App下载文件,打开文档(一)

uniapp如何下载文件、打开文件 文章目录 uniapp如何下载文件、打开文件下载文件下载文件成功返回数据格式 打开文档处理 iOS 打开文件可能失败问题 相关API&#xff1a; uni.downloadFileuni.openDocument 注意&#xff1a; 只支持 GET 请求&#xff0c;需要 POST的&#xff…

Eclipse下载安装图文教程

一、下载Eclipse 1、打开 Eclipse官网 2、下载免安装版&#xff1b; 3、切换国内下载源 4、下载压缩包到本地&#xff1b; 5、下载完成后直接解压就可以使用了&#xff1b; 二、汉化 1、打开eclipse&#xff0c;点击 ‘Help’ → ‘Install new software…’ 2、点击A…

【开源免费】基于SpringBoot+Vue.JS音乐网站(JAVA毕业设计)

本文项目编号 T 109 &#xff0c;文末自助获取源码 \color{red}{T109&#xff0c;文末自助获取源码} T109&#xff0c;文末自助获取源码 目录 一、系统介绍二、数据库设计三、配套教程3.1 启动教程3.2 讲解视频3.3 二次开发教程 四、功能截图五、文案资料5.1 选题背景5.2 国内…

Sonic:开源Go语言开发的高性能博客平台

Sonic&#xff1a;一个用Go语言开发的高性能博客平台 简介 Sonic&#xff0c;一个以其速度如声速般快速而命名的博客平台&#xff0c;是一个用Go语言开发的高性能博客系统。正如其名字所暗示的&#xff0c;Sonic旨在提供一个简单而强大的博客解决方案。这个项目受到了Halo项目…

Pygame Zero(pgzrun)详解(简介、使用方法、坐标系、目录结构、语法参数、安装、实例解释)

Pygame Zero&#xff08;pgzrun&#xff09;详解 &#xff08;简介、使用方法、坐标系、目录结构、语法参数、安装、实例解释&#xff09; 本文目录&#xff1a; 零、时光宝盒 一、Pygame Zero简介 二、Pygame Zero的编写游戏的一般流程 三、Pygame Zero 的坐标系 四、Py…

Java jni调用nnom rnn-denoise 降噪

介绍&#xff1a;https://github.com/majianjia/nnom/blob/master/examples/rnn-denoise/README_CN.md 默认提供了一个wav的例子 #include <stdint.h> #include <stdlib.h> #include <stdio.h> #include <math.h> #include <string.h>#include …

图像处理-Ch7-小波函数

个人博客&#xff01;无广告观看&#xff0c;因为这节内容太多了&#xff0c;有点放不下&#xff0c;分了三节 文章目录 多分辨率展开(Multi-resolution Expansions)序列展开(Series Expansions)尺度函数(Scaling Function)例&#xff1a;哈尔尺度函数(Haar scaling func)多分…

深度学习在文本情感分析中的应用

引言 情感分析是自然语言处理&#xff08;NLP&#xff09;中的一个重要任务&#xff0c;旨在识别和提取文本中的主观信息。随着深度学习技术的发展&#xff0c;我们可以使用深度学习模型来提高情感分析的准确性和效率。本文将介绍如何使用深度学习进行文本情感分析&#xff0c…

solr9.7 单机安装教程

1.环境要求:jdk11以上 2.下载wget https://dlcdn.apache.org/solr/solr/9.7.0/solr-9.7.0.tgz 3.解压 4.修改solr.in.sh配置 5.启动命令 bin/solr start 6.创建core bin/solr create -c <core名称> 注意:用solr ui界面创建&#xff0c;会提示找不到solrconfig.xml和m…

arm rk3588 升级glibc2.31到2.33

一、查看glibc版本 rootztl:~# ldd --version ldd (Ubuntu GLIBC 2.31-0ubuntu9.2) 2.31 Copyright (C) 2020 Free Software Foundation, Inc. This is free software; see the source for copying conditions. There is NO warranty; not even for MERCHANTABILITY or FITNE…