Python爬虫:http和https介绍及请求

HTTP和HTTPS

学习目标:

  1. 记忆 http、https的概念和区别
  2. 记忆 浏览器发送http请求的过程
  3. 记忆 http请求头的形式
  4. 记忆 http响应头的形式
  5. 了解 http响应状态码

1 为什么要复习http和https

发送请求,获取响应的过程中 就是发送http或https的请求,获取http或https的响应

2 http和https的概念

  • HTTP
    • 超文本传输协议
    • 默认端口号:80
  • HTTPS
    • HTTP + SSL(安全套接字层),即带有安全套接字层的超本文传输协议
    • 默认端口号:443

HTTPS比HTTP更安全,但是性能更低

3 浏览器发送HTTP请求的过程(重点理解)

在这里插入图片描述

3.1 http请求的过程

  1. 浏览器先向地址栏中的url发起请求,并获取相应

  2. 在返回的响应内容(html)中,会带有css、js、图片等url地址,以及ajax代码,浏览器按照响应内容中的顺序依次发送其他的请求,并获取相应的响应

  3. 浏览器每获取一个响应就对展示出的结果进行添加(加载),js,css等内容会修改页面的内容,js也可以重新发送请求,获取响应

  4. 从获取第一个响应并在浏览器中展示,直到最终获取全部响应,并在展示的结果中添加内容或修改————这个过程叫做浏览器的渲染

3.2 注意:

但是在爬虫中,爬虫只会请求url地址,对应的拿到url地址对应的响应(该响应的内容可以是html,css,js,图片等)

浏览器渲染出来的页面和爬虫请求的页面很多时候并不一样

所以在爬虫中,需要以url地址对应的响应为准来进行数据的提取

4 HTTP请求的形式

在这里插入图片描述

这个图大家见过很多次,那么在浏览器headers中,点击view source来具体观察其中的请求行,请求头部和请求数据是什么样子的

5 HTTP常见请求头

  1. Host (主机和端口号)
  2. Connection (链接类型)
  3. Upgrade-Insecure-Requests (升级为HTTPS请求)
  4. User-Agent (浏览器名称)
  5. Accept (传输文件类型)
  6. Referer (页面跳转处)
  7. Accept-Encoding(文件编解码格式)
  8. Cookie (Cookie)
  9. x-requested-with :XMLHttpRequest (表示该请求是Ajax异步请求)

6 HTTP重要的响应头

  1. Set-Cookie (对方服务器设置cookie到用户浏览器的缓存)

7 响应状态码(status code)

常见的状态码:

  • 200:成功
  • 302:临时转移至新的url
  • 307:临时转移至新的url
  • 404:找不到该页面
  • 500:服务器内部错误
  • 503:服务不可用,一般是被反爬

小结

  1. 记忆 http、https的概念和区别:
  • http: 超本文传输协议
  • https: HTTP + SSL,即带有安全套接字层的超本文传输协议
  1. 记忆 浏览器发送http请求的过程:
  • 浏览器先向地址栏中的url发起请求,并获取相应
  • 在返回的响应内容(html)中,会带有css、js、图片等url地址,以及ajax代码,浏览器按照响应内容中的顺序依次发送其他的请求,并获取相应的响应
  • 浏览器每获取一个响应就对展示出的结果进行添加(加载),js,css等内容会修改页面的内容,js也可以重新发送请求,获取响应
  • 从获取第一个响应并在浏览器中展示,直到最终获取全部响应,并在展示的结果中添加内容或修改
  1. 记忆 http请求头的形式:
GET /item/503/1227315?fr=aladdin HTTP/1.1
Host: www.baidu.com
......
  1. 记忆 http响应头的形式 :
HTTP/1.1 200 OK
Connection: keep-alive
......
  1. 了解 http响应状态码
  • 200:成功
  • 302:临时转移至新的url

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/724738.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

面试题--01

GC机制 GC机制又称垃圾回收机制,是Python解释器自带一种机,专门用来回收不可用的变量值所占用的内存空间 有三个核心,分别是引用计数、标记清除和分代回收 引用计数:一个变量值如果有一个变量名指向,那么在它身上就计…

DMA 链表模式(LLI)深度解析

在进行一次 DMA 读或者写的时候,可以配置多个链表,从而当一个链表的数据传输完成时,会跳到下一个链表的起始地址,并继续传输数据,直到链表的下一个地址为 0。如果 DMA 使能了完成中断,则当 DMA 发送或者接收…

c++ ponder库实现机制的理解

Ponder是一个用于C的反射库,它允许在运行时查询和操作类型信息。反射通常是动态语言的特性,但Ponder通过提供一套API,使得在静态类型语言C中也能实现类似的功能。这对于需要动态处理对象,如序列化/反序列化、脚本绑定等场景非常有…

微信小程序--注册时获取微信头像

参考官方文档&#xff1a;点击跳转 具体实现&#xff1a; wxml&#xff1a; <button class"avatarBtn" open-type"chooseAvatar" chooseavatar"onChooseAvatar"><image class"avatar" :src"avatarUrl"></…

【语音识别】- 几个主流模型 2024年2月整理

文章目录 1. Wav2Vec 2.02. Whisper3. WeNet4. Paraformer5. Flan-T51. Wav2Vec 2.0 由Facebook AI Research(FAIR)于2020年提出的在语音方向里具有一定影响力的预训练模型。 论文地址:https://arxiv.org/pdf/2006.11477.pdf 项目地址:https://github.com/pytorch/fairse…

程序计数器介绍

程序计数器是计算机处理器中的寄存器&#xff0c;它包含当前正在执行的指令的地址(位置)。当每个指令被获取&#xff0c;程序计数器的存储地址加一。在每个指令被获取之后&#xff0c;程序计数器指向顺序中的下一个指令。当计算机重启或复位时&#xff0c;程序计数器通常恢复到…

java微服务技术选型,Java学习的三个终极问题及学习路线规划

前言 在网络技术中基于浏览器的B/S结构无论在PC端还是手机端都充当着至关重要的角色。 PC端自不必说&#xff0c;手机中很多应用虽然是以APP的形式存在&#xff0c;但它采用的还是B/S结构。如今日头条、微信的朋友圈等&#xff0c;这些应用在内部封装了浏览器&#xff0c;后端…

【项目实战】高并发内存池(仿tcmalloc)

【项目实战】高并发内存池&#xff08;仿tcmalloc&#xff09; 作者&#xff1a;爱写代码的刚子 时间&#xff1a;2024.2.12 前言&#xff1a; 当前项目是实现一个高并发的内存池&#xff0c;它的原型是google的一个开源项目tcmalloc&#xff0c;tcmalloc全称 Thread-Caching M…

MySQL 8.0 架构 之 DDL日志(元数据日志)(DDL log)

文章目录 MySQL 8.0 架构 之 DDL日志&#xff08;元数据日志&#xff09;&#xff08;DDL log&#xff09;MySQLDDL日志&#xff08;元数据日志&#xff09;&#xff08;DDL log&#xff09;参考 【声明】文章仅供学习交流&#xff0c;观点代表个人&#xff0c;与任何公司无关。…

【JavaScript】将数组中的数字按照从小到大排序(sort)

如果在 sort()方法中带参&#xff0c;我们就可以自定义排序规则。具体做法如下&#xff1a; 我们可以在 sort()的参数中添加一个回调函数&#xff0c;来指定排序规则。回调函数中需要定义两个形参&#xff0c;JS将会分别使用数组中的元素作为实参去调用回调函数。 JS根据回调…

宠物的异味,用空气净化器可以解决吗?宠物空气净化器品牌推荐

养猫的人都了解&#xff0c;一个养猫家庭的环境卫生和气味问题与主人的关系密切相关。主人的勤劳程度和对卫生的重视程度直接影响着家中的气味。尽管主人通常会经常更换猫砂&#xff0c;但有时候仍然会存在一些难闻的气味。事实上&#xff0c;忙碌的猫主人可能会因为没有足够的…

MySQL Strict Mode is not set for database connection ‘default‘

在使用 DJango 框架执行迁移文件的命令时&#xff0c;可以看到出现如下警告&#xff1a; (ll_env) D:\workspace\workspace-mengll\learning-log>python manage.py migrate System check identified some issues: WARNINGS: ?: (mysql.W002) MySQL Strict Mode is not set …

TS常见问题

文章目录 1. 什么是 TypeScript&#xff1f;它与 JavaScript 有什么区别&#xff1f;2. TS 泛型、接口、泛型工具record、Pick、Omit3. TS unknow和any的区别&#xff0c;如何告诉编译器unknow一定是某个类型&#xff1f;4. 元组与常规数组的区别5. 什么是泛型,有什么作用&…

解决移除数字问题的两种方法:暴力法和使用栈

题目 给你一个以字符串表示的非负整数 num 和一个整数 k &#xff0c;移除这个数中的 k 位数字&#xff0c;使得剩下的数字最小。请你以字符串形式返回这个最小的数字 示例 1 &#xff1a; 输入&#xff1a;num "1432219", k 3 输出&#xff1a;"1219"…

【yolov8自带脚本划分数据集】yolov8自己数据集训练

1. 命令 ultralytics.data.utils.autosplit(pathDATASETS_DIR / coco8/images, weights(0.9, 0.1, 0.0), annotated_onlyFalse)from ultralytics.data.utils import autosplitautosplit( path"path/to/images",weights(0.9, 0.1, 0.0), # (train, validation, test)…

分组交换网的性能指标

一、概述 在理想情况下&#xff0c;我们希望因特网能够在任意两个端系统之间随心所欲地移动数据而没有任何数据的丢失。然而&#xff0c;这是一个极高的目标&#xff0c;实践中难以达到。与之相反&#xff0c;计算机网络必定要限制在端到端之间的吞吐量&#xff08;每秒能够传送…

利用Python爬取高德地图全国地铁站点信息

利用Python中的requests库进行地铁站点信息的获取,同时将数据保存在本机excel中 # 首先引入所需要的包 import requests from bs4 import BeautifulSoup import pandas as pd import json# 发送 GET 请求获取网页内容 url http://map.amap.com/subway/index.html response r…

腾讯云服务器99元一年是真的吗?又降价,现在只要61元

腾讯云服务器99元一年是真的吗&#xff1f;又降价&#xff0c;现在只要61元。腾讯云服务器多少钱一年&#xff1f;61元一年起&#xff0c;2核2G3M配置&#xff0c;腾讯云2核4G5M轻量应用服务器165元一年、756元3年&#xff0c;4核16G12M服务器32元1个月、312元一年&#xff0c;…

LiveGBS流媒体平台GB/T28181功能-集中录像存储前端设备录像回看解决方案设备录像|云端录像|实时录像说明

LiveGBS集中录像存储前端设备录像回看解决方案设备录像|云端录像|实时录像说明 1、平台概述2、视频录像2.1、设备录像2.1.1、存储位置2.1.1.1、下级硬件设备2.1.1.2、下级国标平台 2.1.2、页面操作2.1.2.1、国标设备2.1.2.1.1、查看通道2.1.2.1.1.1、设备录像 2.1.2.1.2、配置中…

分布式事务(SeataClient)

问题场景 元数据 库存 100订单记录为空下单操作 @AutowiredRestTemplate restTemplate;/*** 下单** @return*/@Transactional // 开启事务 异常后触发数据库回滚操作@Overridepublic Order create(Order order) {// 插入订单orderMapper.insert(order);// 扣减库存 MultiValu…