系统设计系列初衷
System Design Primer: 英文文档 GitHub - donnemartin/system-design-primer: Learn how to design large-scale systems. Prep for the system design interview. Includes Anki flashcards.
中文版: https://github.com/donnemartin/system-design-primer/blob/master/README-zh-Hans.md
初衷主要还是为了学习系统设计,但是这个中文版看起来就像机器翻译的一样,所以还是手动做一些简单的笔记,并且在难以理解的地方对照英文版,根据自己的理解在AI的帮助下进行翻译和知识扩展。
负载均衡器
来源:可扩展的系统设计模式
说到负载均衡器,首先就是要引入负载均衡的概念
什么是负载均衡
负载均衡(Load Balance)是一种网络优化技术,用于在高并发访问和高负载情况下,分摊网络设备和服务器的工作压力,提高系统的处理能力、吞吐量和可用性。通过将请求流量自动分配给多个操作单元(例如 Web 服务器、FTP 服务器、企业关键应用服务器等),共同完成任务,从而避免单一服务器设备过载,降低系统故障的风险。
负载均衡技术可以有效提高网络设备的利用率,降低硬件投资成本,同时确保用户享受到较高的服务质量和响应速度。在实际应用中,负载均衡通常用于以下场景:
高并发访问:当网站、应用或服务面临大量用户同时访问时,负载均衡可以将请求分发至多个服务器,确保每个服务器的负载适中,避免其中某台服务器过载。
高负载处理:对于计算密集型任务或数据处理任务,负载均衡可以将任务分配给多台服务器,提高整体处理速度,缩短任务完成时间。
服务器故障恢复:当某台服务器出现故障时,负载均衡可以自动将其从服务队列中移除,并将请求分发至其他正常运行的服务器,确保服务的连续性和稳定性。
什么是负载均衡器
负载均衡器(Load Balancer)是一种网络优化设备,用于在多个服务器或网络链接之间分配负载,提高系统的可靠性、可用性和性能。负载均衡器可以有效地解决服务器或网络链路过载问题,保证用户请求能够及时得到响应,从而提高用户体验。
负载均衡器可以根据不同的策略对流量进行分配,例如轮询(Round Robin)、最少连接(Least Connections)和源 IP 哈希(Source IP Hash)等。此外,负载均衡器还具有其他功能,如应用交换、会话保持、状态监控、智能网络地址转换(NAT)、通用持续性响应(GSR)、错误处理、TCP 优化等。有些负载均衡器还集成了防火墙、包过滤和攻击防护等功能。
负载均衡器可以部署在服务器与互联网链接之间,也可以作为两块网络适配器实现。在庞大的网络结构中,集群服务器的使用可能带来流量和负载问题,因此负载均衡技术应运而生。负载均衡器在网络管理中发挥着重要作用,通过它能够关注网络中的哪些方面需要进行优化和改进。
负载均衡器将传入的请求分发到应用服务器和数据库等计算资源。无论哪种情况,负载均衡器将从计算资源来的响应返回给恰当的客户端。负载均衡器的效用在于:
- 防止请求进入不好的服务器
- 防止资源过载
- 帮助消除单一的故障点
负载均衡器可以通过硬件(昂贵)或 HAProxy 等软件来实现。 增加的好处包括:
- SSL 终结
- 不需要再每台服务器上安装 X.509 证书
- Session 留存
通常会设置采用工作─备用 或 双工作 模式的多个负载均衡器,以免发生故障。
负载均衡器能基于多种方式来路由流量:
- 随机
- 最少负载
- Session/cookie
- 轮询调度或加权轮询调度算法
- 四层负载均衡
- 七层负载均衡
四层负载均衡
四层负载均衡根据监看传输层的信息来决定如何分发请求。通常,这会涉及来源,目标 IP 地址和请求头中的端口,但不包括数据包(报文)内容。四层负载均衡执行网络地址转换(NAT)来向上游服务器转发网络数据包。
七层负载均衡器
七层负载均衡器根据监控应用层来决定怎样分发请求。这会涉及请求头的内容,消息和 cookie。七层负载均衡器终结网络流量,读取消息,做出负载均衡判定,然后传送给特定服务器。比如,一个七层负载均衡器能直接将视频流量连接到托管视频的服务器,同时将更敏感的用户账单流量引导到安全性更强的服务器。
以损失灵活性为代价,四层负载均衡比七层负载均衡花费更少时间和计算资源,虽然这对现代商用硬件的性能影响甚微。
水平扩展
负载均衡器还能帮助水平扩展,提高性能和可用性。使用商业硬件的性价比更高,并且比在单台硬件上垂直扩展更贵的硬件具有更高的可用性。相比招聘特定企业系统人才,招聘商业硬件方面的人才更加容易。
水平扩展的缺点
- 水平扩展引入了复杂度并涉及服务器复制
- 服务器应该是无状态的:它们也不该包含像 session 或资料图片等与用户关联的数据。
- session 可以集中存储在数据库或持久化缓存
- 缓存和数据库等下游服务器需要随着上游服务器进行扩展,以处理更多的并发连接。
负载均衡器的缺点
- 如果没有足够的资源配置或配置错误,负载均衡器会变成一个性能瓶颈。
- 引入负载均衡器以帮助消除单点故障但导致了额外的复杂性。
- 单个负载均衡器会导致单点故障,但配置多个负载均衡器会进一步增加复杂性。
反向代理(web 服务器)
资料来源:维基百科
什么是反向代理
反向代理是一种可以集中地调用内部服务,并提供统一接口给公共客户的 web 服务器。来自客户端的请求先被反向代理服务器转发到可响应请求的服务器,然后代理再把服务器的响应结果返回给客户端。
反向代理的好处
- 增加安全性
- 提高可扩展性和灵活性
- 本地终结 SSL 会话
- 免除了在每个服务器上安装 X.509
- 压缩
- 缓存
- 静态内容
- HTML/CSS/JS
- 图片
- 视频
- 等等
负载均衡器与反向代理
- 当你有多个服务器时,部署负载均衡器非常有用。通常,负载均衡器将流量路由给一组功能相同的服务器上。
- 即使只有一台 web 服务器或者应用服务器时,反向代理也有用,可以参考上一节介绍的好处。
- NGINX 和 HAProxy 等解决方案可以同时支持第七层反向代理和负载均衡。
反向代理的缺点
- 引入反向代理会增加系统的复杂度。
- 单独一个反向代理服务器仍可能发生单点故障,配置多台反向代理服务器(如故障转移)会进一步增加复杂度。