为什么 Kafka 这么快？它是如何工作的？

随着数据以指数级的速度流入企业，强大且高性能的消息传递系统至关重要。Apache Kafka 因其速度和可扩展性而成为热门选择，但究竟是什么让它如此之快？

在本期中，我们将探讨：

Kafka 的架构及其核心组件，如生产者、代理和消费者
Kafka 如何优化数据存储和复制
这些优化使 Kafka 能够实现令人印象深刻的吞吐量和低延迟

让我们先深入了解一下 Kafka 的核心组件。

Kafka 架构提炼

在将 Kafka 用作 pub-sub 消息中间件的典型场景中，有 3 个重要组件：生产者、代理者和消费者。生产者是消息发送者，消费者是消息接收者。代理通常以集群模式部署，该模式处理传入的消息并将其写入代理分区，从而允许使用者从中读取数据。

请注意，Kafka 被定位为事件流平台，因此在消息队列中经常使用的术语“消息”在 Kafka 中不使用。我们称之为“事件”。

下图汇集了 Kafka 架构和客户端 API 结构的详细视图。我们可以看到，尽管生产者、消费者和代理仍然是架构的关键，但构建高吞吐量、低延迟的 Kafka 需要更多。让我们一一介绍这些组件。

从高层次的角度来看，体系结构中有两层：计算层和存储层。

计算层

计算层或处理层允许各种应用程序通过 API 与 Kafka 代理进行通信。

生产者使用生产者 API。如果数据库等外部系统想要与 Kafka 通信，它还提供 Kafka Connect 作为集成 API。

消费者通过消费者 API 与经纪人交谈。为了将事件路由到其他数据接收器，如搜索引擎或数据库，我们可以使用 Kafka Connect API。此外，使用者可以使用 Kafka Streams API 执行流式处理。如果我们处理无限的记录流，我们可以创建一个 KStream。下面的代码片段为主题“orders”创建一个 KStream，其中 Serdes（序列化程序和反序列化程序）用于键和值。如果我们只需要更新日志中的最新状态，我们可以创建一个 KTable 来维护状态。Kafka Streams 允许我们对事件流执行聚合、过滤、分组和联接。

final KStreamBuilder builder = new KStreamBuilder();final KStream<String, OrderEvent> orderEvents = builder.stream(Serdes.String(), orderEventSerde, “orders”);

虽然 Kafka Streams API 适用于 Java 应用程序，但有时我们可能希望部署纯流处理作业，而不将其嵌入到应用程序中。然后，我们可以使用 ksqlDB，一个针对流处理优化的数据库集群。它还为我们提供了一个 REST API 来查询结果。

我们可以看到，通过计算层中的各种 API 支持，可以非常灵活地链接我们想要对事件流执行的操作。例如，我们可以订阅主题“orders”，根据产品聚合订单，并将订单计数发送回主题“ordersByProduct”中的 Kafka，另一个分析应用程序可以订阅并显示该主题。

存储层

该层由 Kafka 代理组成。Kafka 代理在服务器集群上运行。数据存储在不同主题的分区中。主题就像一个数据库表，一个主题中的分区可以分布在集群节点上。在分区中，事件严格按其偏移量排序。偏移量表示事件在分区中的位置，并单调增加。代理上持久化的事件是不可变的，并且仅追加，甚至删除也被建模为删除事件。因此，生产者只处理顺序写入，而使用者只按顺序读取。

Kafka 代理的职责包括管理分区、处理读取和写入以及管理分区的复制。它的设计很简单，因此易于扩展。我们将更详细地回顾代理架构。

由于 Kafka 代理是以集群模式部署的，因此管理节点需要两个组件：控制计划和数据平面。