python爬虫入门(一)之HTTP请求和响应

一、爬虫的三个步骤(要学习的内容)

1、获取网页内容 (HTTP请求、Requests库)

2、解析网页内容  (HTML网页结构、Beautiful Soup库)

3、存储或分析数据

b站学习链接:

【【Python+爬虫】爆肝两个月!拜托三连了!这绝对是全B站最用心(没有之一)的Python+爬虫公开课程,从入门到(不)入狱 !】 https://www.bilibili.co/video/BV1d54y1g7db/?share_source=copy_web&vd_source=7e5d8bc8e5429bc3a99a6b8e86b901f8

二、HTTP

1、什么是HTTP?

http: Hypertext Transfer Protocol(超文本传输协议)

      客户端和服务器之间的请求-响应协议

eg: 浏览器可看作一个服务端,在浏览器中输入网址,

浏览器就会向运行该网站的服务器发送请求,

然后等待服务器返回给浏览器响应

2、HTTP的两种请求方法

1、GET(获得数据)

大部分用get

2、POST(创建数据)

3、HTTP请求的组成结构

(1)请求行:

POST         / user / info ? new_user=true         HTTP / 1.1

方法类型            资源路径?查询参数             HTTP的协议版本

资源路径:指明要访问服务器的哪个资源

查询参数:写在?后面,传递给服务器额外的信息,不同信息之间用&分隔

eg: www.douban.com / movie /top250 ?start=75&filter=unwatched

      主机域名 (+资源路径)(+查询参数)== 网址

(2)请求头:

Host: www.douban.com  主机域名

User-Agent: curl /7.77.0  用来告知服务器客户端的相关信息

请求是什么东西发出来的,以及这个东西的版本

eg:  curl / 7.77.0(curl命令行工具发出的) 

       python-requests / 2.25.1 (python的requests库发出的)

Accept: */*  告诉服务器,客户端想接收的响应数据的类型

eg: 接受HTML:text / html

      接受HTML和JOSN:text / html, application / json (多种类型用逗号分隔开)

      接受任意类型:*/*

(3)请求体:客户端传给服务器的其他任意数据

(GET的请求体一般是空的)

{"username":"西瓜大侠",

"email":"3380958706@qq.com"}

简言之,HTTP请求由三部分组成:

请求行:用什么方法查询什么资源 + HTTP的版本

请求头:主机域名 + 客户端是什么及其版本 + 客户端想接受的响应类型 

            (where who what 服务器在哪儿  客户端是谁  客户端想要什么)

请求体:客户端的其他数据

4、HTTP响应的组成结构

(1)状态行:

HTTP / 1.1     200          OK

协议版本      状态码    状态消息

状态码和状态消息相对应:

2开头:表示请求成功

3开头:表示重定向,需要进一步的操作

4开头:表示客户端错误(请求不能被理解、请求未授权或404请求的资源不存在...)

5开头:表示服务器错误(出现问题或正在维护)

(2)响应头:包含一些告知客户端的信息

Date: Fri, 27 Jan 2023 02:10:48 GMT 生成相应的日期和时间

Content-Type: text/html; charset=utf-8 返回内容的类型及编码格式

(3)响应体:服务器想给客户端的数据内容

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/42129.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于大象机器人UltraArm P340机械臂和传送带,实现教育场景中的自动化分拣系统!

引言 今天我们将展示一个高度自动化的模拟场景,展示多个机械臂与传送带协同工作的高效分拣系统。在这个场景中,机械臂通过视觉识别技术对物体进行分类,并通过精确的机械操作将它们放置在指定的位置。这一系统不仅提高了分拣的速度和准确性&am…

CH12_函数和事件

第12章:Javascript的函数和事件 本章目标 函数的概念掌握常用的系统函数掌握类型转换掌握Javascript的常用事件 课程回顾 Javascript中的循环有那些?Javascript中的各个循环特点是什么?Javascript中的各个循环语法分别是什么?…

java面试-java基础(中)

文章目录 一、面向对象OOP和面向过程OPP区别?二、面向对象有哪些特性?三、重载和重写区别?四、private,default,protected,public访问控制符范围五、抽象类和接口有什么区别?如何选用&#xff1…

什么是医学影像数据?

医学影像数据是指通过各种影像技术获取的人体内部结构和功能的可视化数据。这些影像技术包括但不限于X射线、计算机断层扫描(CT)、磁共振成像(MRI)、超声波(US)和正电子发射断层扫描(PET&#x…

【ue5】虚幻5同时开多个项目

正常开ue5项目我是直接在桌面点击快捷方式进入 只会打开一个项目 如果再想打开一个项目需要进入epic 再点击启动就可以再开一个项目了

Hadoop-16-Hive HiveServer2 HS2 允许客户端远程执行HiveHQL HCatalog 集群规划 实机配置运行

章节内容 上一节我们完成了: Metastore的基础概念配置模式:内嵌模式、本地模式、远程模式实机配置远程模式 并测试 背景介绍 这里是三台公网云服务器,每台 2C4G,搭建一个Hadoop的学习环境,供我学习。 之前已经在 V…

昇思25天学习打卡营第13天|K近邻算法实现红酒聚类

K近邻算法(K-Nearest-Neighbor, KNN)是一种用于分类和回归的非参数统计方法,是机器学习最基础的算法之一。它正是基于以上思想:要确定一个样本的类别,可以计算它与所有训练样本的距离,然后找出和该样本最接…

牛客链表题:BM1 反转链表(取头放尾法)

描述 给定一个单链表的头结点pHead(该头节点是有值的,比如在下图,它的val是1),长度为n,反转该链表后,返回新链表的表头。 数据范围: 0≤𝑛≤10000≤n≤1000 要求:空间复杂度 &…

TA都可以使用哪些存储接口?分别都存放在了哪里?

思考: 如何开发一个TA? sdk又是什么?开发一个TA的流程是怎样的?How to do?有关TA的签名介绍TEE开发Secure driver介绍RPMB的简介以及开发流程共享内存的最大限制是什么?TA的栈内存/堆内存又有哪些限制TA都支持哪些密码学算法?TA都可以使用哪些存储接口?分别都存放在了哪…

数据埋点从入门到了解

想讲讲为什么有埋点,举个例子 目录 什么是埋点?用途小红书上 埋点的主要类型代码示例1. 代码埋点前端埋点后端埋点 (Node.js 示例) 2. 全埋点示例3. 可视化埋点示例 解释常见问题埋点管理系统结论 王五是一名数据分析师,负责分析公司产品的用…

C++语言相关的常见面试题目(三)

1. List底层实现原理 省流: list底层实现了一个双向循环链表。 每个元素(或节点)包含三个部分:数据域(_M_Storage)、前驱指针(_M_prev)、后继指针(_M_next)。 数据域:存储实际数据。 前驱指针:指向链表中…

Mysql 数据库主从复制-CSDN

查询两台虚拟机的IP 主虚拟机IP 从虚拟机IP服务 修改对应的配置文件 查询对应配置文件的命令 find / -name my.cnf编辑对应的配置文件 主 my.cnf (部分配置) [mysqld] ########basic settings######## server_id 1 log_bin /var/log/mysql/mysql-…

gnome 建议安装的扩展

安装 扩展管理器: sudo apt install gnome-shell-extension-manager在 扩展管理器 里搜索并添加 扩展 推荐 Applications Menu:自带。左上角显示 应用程序 按钮,以下拉菜单分类显示应用RunCat:状态栏里显示一只猫和 cpu 利用率…

[激光原理与应用-98]:南京科耐激光-激光焊接-焊中检测-智能制程监测系统IPM介绍 - 2 - 什么是激光器焊接? 常见的激光焊接技术详解

目录 一、什么是激光焊接 1.1 概述 1.2 激光焊接的优点 二、激光焊接的应用 2.1 哪些场合必须使用激光焊接 1. 汽车制造业 2. 航空航天领域 3. 电子行业:消费类电子3C 4. 医疗器械制造 5. 新能源锂电池行业 6. 其他领域 三、激光焊接的分类 3.1 按焊接…

【ONLYOFFICE8.1】ONLYOFFICE8.1版本桌面编辑器测评

有宝子说office太贵,不适合个人和学生,而WPS不仅贵广告还多,那么有没有一款软件可以替代office和WPS呢?...当然有喽。当当当当!它就是众望所归、备受好评的ONLYOFFICE。下面就和小编一起来探索和测评一下ONLYOFFICE8.1…

深入解析怀庄之醉酱酒的独特魅力

在众多美酒中,酱酒以其独有的风格和丰富的文化内涵,赢得了无数鉴赏家的青睐。本文旨在从专业角度深入探讨酱酒的空杯留香现象、典型色泽特性及品鉴技巧,揭示其背后的科学原理与艺术魅力,助您更全面地理解与欣赏这一中华传统佳酿。…

C++报错无法访问Private

严重性 代码 说明 项目 文件 行 禁止显示状态 错误 C2248 “main::Person::~Person”: 无法访问 private 成员(在“main::Person”类中声明) #include<iostream> #include<ctime> int main() {using namespace std;class Person{//Per…

响应式设计的双璧:WebKit 支持 CSS Flexbox 和 Grid 布局深度解析

响应式设计的双璧&#xff1a;WebKit 支持 CSS Flexbox 和 Grid 布局深度解析 在现代网页设计中&#xff0c;响应式布局是实现跨设备兼容性的关键。CSS Flexbox 和 Grid 作为 CSS 布局的两大支柱&#xff0c;提供了强大的工具来构建灵活和复杂的用户界面。WebKit&#xff0c;作…

JS的块级作用域是什么

在JavaScript中&#xff0c;块级作用域&#xff08;Block Scope&#xff09;是指变量或函数在代码块&#xff08;如{}内的代码区域&#xff09;中声明后&#xff0c;其作用域被限制在这个块级结构内部。这意味着&#xff0c;块外部的代码无法访问块内部声明的变量或函数&#x…

Linux之三剑客(grep、sed、awk)

&#x1f49d;&#x1f49d;&#x1f49d;欢迎来到我的博客&#xff0c;很高兴能够在这里和您见面&#xff01;希望您在这里可以感受到一份轻松愉快的氛围&#xff0c;不仅可以获得有趣的内容和知识&#xff0c;也可以畅所欲言、分享您的想法和见解。 推荐:Linux运维老纪的首页…