Python爬虫—requests模块简单应用

Python爬虫—requests模块简介

requests的作用与安装

作用:发送网络请求,返回响应数据

安装:pip install requests

requests模块发送简单的get请求、获取响应

需求:通过requests向百度首页发送请求,获取百度首页的数据

import requests# 目标url
url = 'https://www.baidu.com'# 向目标url发送get请求
response = requests.get(url)# 打印响应内容
print(response.text)# 获取响应
res = requests.get(url, headers=headers)
print(res)
print(type(res))# 获取请求的url, 响应的编码方式
print(res.url)
res.encoding = 'utf-8'# 获取响应内容,会使用默认编码(有时候会乱码, 需要指定编码)
print(res.encoding)
print(res.text)
print(res.content.decode('utf-8'))# 获取请求状态码
print(res.status_code)# 获取响应对应的请求头
print(res.request.headers)# 获取相应的cookie
print(res.cookies)
response的常用属性:
  • response.text 响应体str类型
  • response.encoding 从HTTP header中猜测的响应内容的编码方式
  • response.content 响应体bytes类型
  • response.status_code 响应状态码
  • response.requests.headers 响应对应的请求头
  • response.headers 响应头
  • response.cookies 响应的cookie(经过了set-cookie动作)
  • response.url 获取访问的url
  • response.json() 获取json数据得到内容为字典(如果接口响应体的格式是json格式时)
  • response.ok

​ 如果status_code小于200,response.ok返回True。

​ 如果status_code大于200,response.ok返回False。

response.text和response.content的区别

  • response.text
    • 类型:str
    • 解码类型:requests模块自动根据HTTP头部对响应的编码作出有根据的推测,推测的文本编码
    • 如何修改编码方式:response.encoding=“gbk/UTF-8”
  • response.content
    • 类型:bytes
    • 解码类型:没有指定
    • 如何修改编码方式:response.content.decode(‘utf-8’)

获取网页源码的通用方式:

response.content.decode()
response.content.decode('utf-8')
response.text

requests下载图片

# 在百度首页搜索李小龙图片,然后下载到本地
import requestsurl = 'https://photocdn.sohu.com/20080725/Img258368622.jpg'
res = requests.get(url)
with open('李小龙.jpg', 'wb') as f:f.write(res.content)
import requestsurl = 'https://photocdn.sohu.com/20080725/Img258368622.jpg'
# 请求
res = requests.get(url)
# 写入
with open('李小龙.jpg', 'wb') as f:# 写入文件 注意:必须二进制形式f.write(res.content)

Screenshot 2024-01-10 at 16.25.36

发送带header请求头的请求

import requestsheaders = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36'
}url = 'https://i3.sinaimg.cn/ent/m/c/2010-11-26/U3987P28T3D3159293F326DT20101126121845.jpg'
# 请求
res = requests.get(url, headers=headers)# 写入
with open('李小龙1.jpg', 'wb') as f:f.write(res.content)

Screenshot 2024-01-10 at 16.51.44

发送带参数的请求

  • GET请求
import requestsheaders = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36'
}
kw = {'wd': '李小龙'
}
url = 'https://www.baidu.com/s?'res = requests.get(url, params=kw, headers=headers)
print(res.content.decode('utf-8'))
  • POST请求
import requestsheaders = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36'
}
url = 'https://ifanyi.iciba.com/index.php?c=trans&m=fy&client=6&auth_user=key_web_new_fanyi&sign=NyHAgRlbDg6%2BBbQIiKcntdRriqVIAJSQ%2BxmfU0q7dIE%3D'
# post 携带表单数据
form_data = {
'from': 'zh',
'to': 'en',
'q': '我爱你中国'
}# 发送post请求
res = requests.post(url, data=form_data, headers=headers)
print(res.json())

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/613456.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Visual Studio Code 连接远程服务器方法

1、输入用户名和服务器ip连接远程服务器 2、选择配置文件 配置文件路径:C:\Users\Administrator\.ssh\config config的内容大致如下: Host 192.168.134.3HostName 192.168.134.3User zhangshanHost 192.168.134.3HostName 192.168.134.3User lisiHost…

Java中异常处理-详解

异常(Exception) JVM 默认处理方案 把异常的名称,异常的原因,及异常出错的位置等信息输出在控制台程序停止执行 异常类型 编译时异常必须显示处理,否则程序会发生错误,无法通过编译运行时异常无需显示处理…

干货|移动端App自动化之触屏操作自动化

工作中我们经常需要对应用的页面进行手势操作,比如滑动、长按、拖动等,AppiumDriver 为我们提供一个模拟手势操作的辅助类 TouchAction,可以通过它对手机屏幕进行手势操作。 具体用法参见链接:chromedriver下载地址与webview自动化…

C语言入门教程,C语言学习教程(第三部分:C语言变量和数据类型)一

第三部分:C语言变量和数据类型 本章也是C语言的基础知识,主要讲解变量、数据类型以及运算符,这其中涉及到了数据的存储格式以及不同进制。 一、大话C语言变量和数据类型 在《数据在内存中的存储(二进制形式存储)》一…

winSCP是什么?它有什么功能和特性?它值不值得我们去学习?我们该如何去学习呢?

WinSCP是一款免费的开源SFTP、SCP、FTP和WebDAV客户端,用于Windows操作系统。它提供了一个图形化界面,使用户可以方便地在本地计算机和远程计算机之间传输文件。 WinSCP支持SSH加密通信和多种认证方法,包括密码、公钥和键盘交互。它还支持自…

【调研】人工智能(大模型)生成内容AIGC检测

本篇文章分享近期人工智能生成内容AIGC检测的相关工作,主要介绍大模型的文本生成检测和图片生成检测 目录 1. AI-Generated Content 人工智能生成内容2. 大语言模型LLM生成内容检测方法分类黑盒检测方法论文举例白盒检测方法论文举例3. 大模型图片生成检测论文举例1. AI-Gene…

el-form中一个el-form-item需要规则校验多个input

我的数据的格式&#xff1a; formData: {ipAddress: {one: ,two: ,}, }, 代码结构&#xff1a; <el-form-item label"IP地址" prop"ipAddress"><el-input-numberv-model"formData.ipAddress.one"class"ip-address":contro…

松木和桉木建筑模板:它们的性能和用途有何区别?

在建筑行业中&#xff0c;选择合适的模板材料对于保证施工质量和效率至关重要。松木和桉木是两种常用的建筑模板材料&#xff0c;它们各有特点和优势。特别是桉木&#xff0c;在某些方面相比松木有显著的优势。 松木建筑模板的特点 松木因其广泛的可用性和经济性而被广泛应用…

【刷题笔记3】

笔记3 输出小数位数控制。&#xff08;自动四舍五入&#xff0c;不够就自动补0&#xff09; double a123.456; cout<<fixed<<setprecision(2)<<a;递归题目的记录 &#xff08;1&#xff09;&#xff1a;n*m的棋盘格子&#xff08;n为横向的格子数&#xf…

响应式编程Reactor API大全(下)

Reactor 是一个基于响应式编程的库&#xff0c;主要用于构建异步和事件驱动的应用程序。Reactor 提供了丰富的 API&#xff0c;包括创建、转换、过滤、组合等操作符&#xff0c;用于处理异步数据流。以下是一些 Reactor 的主要 API 示例&#xff1a; pom依赖 <dependencyMan…

Git Large File Storage介绍

Git Large File Storage&#xff08;Git LFS&#xff09;是一个 Git 扩展&#xff0c;用于改善大文件的处理。著名的huggingface就是使用它存储大模型文件。在使用传统的 Git 时&#xff0c;所有历史记录中的文件都存储在 Git 仓库中&#xff0c;这可能导致仓库变得异常庞大&am…

抛弃安卓,追赶iOS,鸿蒙能否成为中国第二大系统?

据半导体行业观察机构Techinsights发布报告预测&#xff0c;从2024年起&#xff0c;鸿蒙Harmony OS将取代苹果iOS&#xff0c;成为中国市场上第二大智能手机操作系统。 鸿蒙系统&#xff0c;支棱起来了&#xff01;去年&#xff0c;华为前脚“复活”麒麟芯片&#xff0c;后脚宣…

C#-sort()利用委托自定义排序

文章速览 前言&#xff1a;核心代码&#xff1a;完整示例&#xff1a;对链表实现自定义排序1、链表类2、解决方案&#xff1a; 坚持记录实属不易&#xff0c;希望友善多金的码友能够随手点一个赞。 共同创建氛围更加良好的开发者社区&#xff01; 谢谢~ 前言&#xff1a; 使用…

学习笔记18——个人理解为什么快速重传是3次ACK

为什么快速重传是选择3次ACK&#xff1f; 个人理解&#xff1a;首先网络中的丢包&#xff0c;乱序以及网路故障都会让服务器端发回duplicated ACK&#xff0c;表示有一个包一直未收到。快速重传是通过3次ACK来区分乱序&#xff0c;丢包和网路拥塞的情况&#xff0c;是基于实践经…

解决jenkins需要jdk11,项目需要jdk8的问题

思路&#xff1a;jdk8 采用解压缩模式&#xff0c;jdk11采用安装模式&#xff0c;然后在jenkins中指定jdk路径 下载解压缩jdk8 https://www.oracle.com/java/technologies/downloads/#java8 解压缩&#xff1a;jdk-8u391-linux-i586.tar.gz /lib/ld-linux.so.2: bad ELF inte…

2023年全国职业院校技能大赛(高职组)“云计算应用”赛项赛卷⑥

2023年全国职业院校技能大赛&#xff08;高职组&#xff09; “云计算应用”赛项赛卷6 目录 需要竞赛软件包环境以及备赛资源可私信博主&#xff01;&#xff01;&#xff01; 2023年全国职业院校技能大赛&#xff08;高职组&#xff09; “云计算应用”赛项赛卷6 模块一…

时空数据各大顶会最新论文和代码分享,结合多模态、扩散学习等热门主题

本次继续分享时空数据相关的论文。上一期戳这里↓&#xff1a;时空预测方向最新研究成果汇总&#xff0c;附13篇必看顶会论文https://blog.csdn.net/weixin_42645636/article/details/135369217 在刚刚过去的2023年间&#xff0c;我们不仅在时空数据领域的传统任务上取得了许多…

Java线程学习笔记

1、判断线程存活 1. 当线程run()或者call()方法执行结束&#xff0c;线程进入终止状态 2. 当线程内发生异常&#xff0c;并且异常没有被捕获&#xff0c;线程进入终止状态 3. 线程调用stop()方法后&#xff0c;线程进入终止状态(不推荐使用) 当主线程结束时&#xff0c;其他线程…

下一代人工智能的设计思路

大模型扭转了此前人工智能研究的思路&#xff0c;放弃了可解释性&#xff0c;而开始拥抱复杂网络和大规模参数。 这些让现代神经网络的能力超越前代&#xff0c;但也带来了不少问题。 巨大的成本&#xff1a;训练模型需要的数据和算力都是海量&#xff0c;动辄数百万千万&…

Redis 内存淘汰策略有哪些?过期数据如何删除?

Redis 在面试中出现的概率非常大&#xff0c;毕竟后端项目如果用到分布式缓存的话&#xff0c;一般用的都是 Redis。目前&#xff0c;还没有出现一个能够取代 Redis 的分布式缓存解决方案。 这篇文章中&#xff0c;我会分享几道 Redis 内存管理相关的问题&#xff0c;都很常见…