发展历程-http组成-http是什么-相关的应用-相关的协议
参考来源:
极客时间-透视HTTP协议(作者:罗剑锋);
01-HTTP的发展历程
1989 年,任职于欧洲核子研究中心(CERN)的蒂姆·伯纳斯 - 李(Tim Berners-Lee)发
表了一篇论文,提出了在互联网上构建超链接文档系统的构想。这篇论文中他确立了三项关
键技术。
- URI:即统一资源标识符,作为互联网上资源的唯一身份;
- HTML:即超文本标记语言,描述超文本文档;
- HTTP:即超文本传输协议,用来传输超文本
HTTP/1.0 版本在 1996 年正式发布。
它在多方面增强了 0.9 版,形式上已经和我们现在的 HTTP 差别不大了,例如:
- 增加了 HEAD、POST 等新方法;
- 增加了响应状态码,标记可能的错误原因;
- 引入了协议版本号概念;
- 引入了 HTTP Header(头部)的概念,让 HTTP 处理请求和响应更加灵活;
- 传输的数据不再仅限于文本。
但 HTTP/1.0 并不是一个“标准”,只是记录已有实践和模式的一份参考文档,不具有实际
的约束力,相当于一个“备忘录”。
1999 年,HTTP/1.1 发布了 RFC 文档,编号为 2616,正式确立了延续十余年的传
奇。
- 增加了 PUT、DELETE 等新的方法;
- 增加了缓存管理和控制;
- 明确了连接管理,允许持久连接;
- 允许响应数据分块(chunked),利于传输大文件;
- 强制要求 Host 头,让互联网主机托管成为可能。
不过由于 HTTP/1.1 太过庞大和复杂,所以在 2014 年又做了一次修订,原来的一个大文档
被拆分成了六份较小的文档,编号为 7230-7235,优化了一些细节,但此外没有任何实质
性的改动。
在 2015 年发布了 HTTP/2,
RFC 编号 7540。
HTTP/2 的制定充分考虑了现今互联网的现状:宽带、移动、不安全,在高度兼容
HTTP/1.1 的同时在性能改善方面做了很大努力,主要的特点有:
- 二进制协议,不再是纯文本;
- 可发起多个请求,废弃了 1.1 里的管道;
- 使用专用算法压缩头部,减少数据传输量;
- 允许服务器主动向客户端推送数据;
- 增强了安全性,“事实上”要求加密通信。
2018 年,互联网标准化组织 IETF 提议将“HTTP over QUIC”更名
为“HTTP/3”并获得批准
02-http(超文本传输协议)的组成
协议:
第一点,协议必须要有两个或多个参与者,也就是“协”。
第二点,协议是对参与者的一种行为约定和规范,也就是“议”。
协议意味着有多个参与者为了达成某个共同的目的而站在了一起,除了要无疑义地沟通交流
之外,还必须明确地规定各方的“责、权、利”,约定该做什么不该做什么,先做什么后做
什么,做错了怎么办,有没有补救措施等等。
传输
第一点,HTTP 协议是一个“双向协议”。
有两个最基本的参与者 A 和 B,从 A 开始到 B 结束,数据在 A 和 B 之间双向
而不是单向流动。通常我们把先发起传输动作的 A 叫做请求方,把后接到传输的 B 叫做应
答方或者响应方。
第二点,数据虽然是在 A 和 B 之间传输,但并没有限制只有 A 和 B 这两个角色,允许中
间有“中转”或者“接力”。
这样,传输方式就从“A<===>B”,变成了“A<=>X<=>Y<=>Z<=>B”,A 到 B 的
传输过程中可以存在任意多个“中间人”,而这些中间人也都遵从 HTTP 协议,只要不打
扰基本的数据传输,就可以添加任意的额外功能,例如安全认证、数据压缩、编码转换等
等,优化整个传输过程。
超文本
所谓“文本”(Text),就表示 HTTP 传输的不是 TCP/UDP 这些底层协议里被切分的杂
乱无章的二进制包(datagram),而是完整的、有意义的数据,可以被浏览器、服务器这
样的上层应用程序处理。
所谓“超文本”,就是“超越了普通文本的文本”,它是文字、图片、音频和视频等的混合
体,最关键的是含有“超链接”,能够从一个“超文本”跳跃到另一个“超文本”,形成复
杂的非线性、网状的结构关系。
03-http是什么
HTTP 是一个在计算机世界里专门在两点之间传输文字、图片、音频、视频等超文本数据的约定和规范。
它不是浏览器、手机 APP 那样的应用程序,也不是 Windows、Linux 那样的操作系统,更不是 Apache、Nginx、Tomcat 那样的 Web 服务器。
HTTP 不是 HTML,单论次数,在互联网上
HTTP 传输最多的可能就是 HTML,但要是论数据量,HTML 可能要往后排了,图片、音频、视频这些类型的资源显然更大。
HTTP 不是一个孤立的协议
在互联网世界里,HTTP 通常跑在 TCP/IP 协议栈之上,依靠 IP 协议实现寻址和路由、TCP
协议实现可靠数据传输、DNS 协议实现域名查找、SSL/TLS 协议实现安全通信。此外,还
有一些协议依赖于 HTTP,例如 WebSocket、HTTPDNS 等。这些协议相互交织,构成了
一个协议网,而 HTTP 则处于中心地位。
04-与HTTP相关的各种应用
CDN,全称是“Content Delivery Network”,翻译过来就是“内容分发网络”。它应用
了 HTTP 协议里的缓存和代理技术,代替源站响应客户端的请求。
05-各种HTTP相关协议
代理(Proxy)是 HTTP 协议中请求方和应答方中间的一个环节,作为“中转站”,既可以
转发客户端的请求,也可以转发服务器的应答。
代理有很多的种类,常见的有:
- 匿名代理:完全“隐匿”了被代理的机器,外界看到的只是代理服务器;
- 透明代理:顾名思义,它在传输过程中是“透明开放”的,外界既知道代理,也知道客
户端; - 正向代理:靠近客户端,代表客户端向服务器发送请求;
- 反向代理:靠近服务器端,代表服务器响应客户端的请求;
由于代理在传输过程中插入了一个“中间层”,所以可以在这个环节做很多有意思的事情,
比如:
5. 负载均衡:把访问请求均匀分散到多台机器,实现访问集群化;
6. 内容缓存:暂存上下行的数据,减轻后端的压力;
7. 安全防护:隐匿 IP, 使用 WAF 等工具抵御网络攻击,保护被代理的机器;
8. 数据处理:提供压缩、加密等额外的功能。
URI(Uniform Resource Identifier),中文名称是 统一资源标识符,使用
它就能够唯一地标记互联网上资源。
URI 另一个更常用的表现形式是 URL(Uniform Resource Locator), 统一资源定位
符,也就是我们俗称的“网址”,它实际上是 URI 的一个子集,不过因为这两者几乎是相
同的,差异不大,所以通常不会做严格的区分。
你可以看到,URI 主要有三个基本的部分构成:
- 协议名:即访问该资源应当使用的协议,在这里是“http”;
- 主机名:即互联网上主机的标记,可以是域名或 IP 地址,在这里是“nginx.org”;
- 路径:即资源在主机上的位置,使用“/”分隔多级目录,在这里是“/en/download.html”。