持续总结中！2024年面试必问 20 道 Kafka面试题（十）

上一篇地址：持续总结中！2024年面试必问 20 道 Kafka面试题（九）-CSDN博客

十九、Kafka的ACK机制是什么？

Kafka的ACK（Acknowledgement，确认）机制是确保消息被成功发送和接收的重要部分。在Kafka中，生产者发送消息到Broker，而消费者从Broker接收消息。ACK机制确保了数据的可靠性和一致性。以下是Kafka中ACK机制的详细说明：

生产者端ACK配置：
- acks：这个配置指定了在生产者发送消息后，需要从Broker接收多少个确认（ACKs）。这个值可以是以下之一：
  - 0：生产者在发送消息后不会等待任何来自Broker的确认。这提供了最低的延迟，但消息可能会丢失，如果Broker在确认之前失败。
  - 1：这意味着只要有一个Broker（领导者）确认消息，生产者就会收到确认。这提高了消息的可靠性，但仍然有消息丢失的风险，如果领导者在将消息复制到追随者之前失败。
  - all 或 -1：这要求所有同步副本（ISR，In-Sync Replicas）确认消息。这是最可靠的设置，因为它确保了消息被所有副本接收。
重试机制：
- retries：指定生产者在消息发送失败时重试的次数。
- retry.backoff.ms：指定重试之间的等待时间。
幂等性生产者：
- Kafka提供了幂等性生产者的概念，这意味着启用幂等性的生产者可以保证消息不会重复发送，即使在重试的情况下也是如此。这需要Kafka集群支持幂等性操作。
消费者端ACK配置：
- 消费者在接收消息后，需要提交偏移量（offset）来告知Broker已经成功处理了消息。这可以通过自动提交或手动提交来完成。
- 自动提交：消费者配置enable.auto.commit=true，将定期自动提交偏移量。
- 手动提交：消费者需要在处理完消息后，显式调用提交偏移量的API。
消费者组和偏移量管理：
- 在消费者组中，每个消费者负责处理分配给它的分区。消费者组协调者（Group Coordinator）负责管理偏移量的提交。
偏移量监控：
- Kafka提供了监控工具来跟踪偏移量，确保消费者按预期进度消费消息。
消息丢失和重复：
- 如果生产者或消费者配置不当，可能会导致消息丢失或重复。例如，如果acks=0，生产者不会等待Broker的确认，消息可能会在网络问题时丢失。如果消费者在提交偏移量之前失败，可能会导致消息重复处理。

Kafka的ACK机制是其高可靠性设计的核心，通过适当的配置，可以满足不同场景下对数据一致性和可靠性的需求。然而，这也需要在延迟和吞吐量之间做出权衡。

二十、Kafka的日志分段策略和日志刷新策略有哪些？

Kafka的日志是由一系列的记录（即消息）组成的，它们被存储在Broker上。为了有效管理这些日志，Kafka采用了日志分段（Log Segmentation）和日志刷新（Log Flushing）策略。以下是这些策略的详细说明：

日志分段策略

日志分段： Kafka的日志被分成多个段（Segment），每个段由两个文件组成：一个索引文件（.index）和一个数据文件（.log）。这种分段机制有助于提高日志的管理效率和可扩展性。
段的大小：日志分段的大小由log.segment.bytes配置参数决定，默认大小为1GB。当一个日志文件达到这个大小时，Kafka会创建一个新的日志段。
段的索引：每个日志段都有一个对应的索引文件，用于快速检索消息。索引文件存储了每个消息的偏移量和在数据文件中的位置。
时间衰减：除了大小之外，日志段还可以基于时间进行衰减。log.roll.ms参数定义了日志段的生命周期，无论大小如何，超过这个时间的日志段都会被关闭并创建新的日志段。
日志保留策略： Kafka使用log.retention.hours、log.retention.bytes和log.retention.check.interval.ms等参数来定义日志的保留策略。这些策略可以基于时间或大小来决定哪些日志段应该被删除。

日志刷新策略

内存缓存： Kafka的消息首先被写入到内存中的缓冲区（Buffer）。这样可以减少磁盘I/O操作，提高写入性能。
刷新到磁盘：内存中的消息会在以下情况下被刷新到磁盘：
- 达到log.flush.interval.messages设定的消息数量。
- 达到log.flush.interval.ms设定的时间间隔。
- 消费者拉取消息时，如果启用了log.flush.scheduler.interval.ms配置，可能会触发刷新操作。
刷新模式：
- append：默认模式，消息被追加到现有的日志段中。
- fsync：在每次刷新时执行fsync操作，确保数据立即同步到磁盘。这种模式会降低性能，但提高了数据的持久性。
- allocate：在刷新之前预先分配所需的磁盘空间。
日志清理：对于删除和压缩日志，Kafka提供了log.cleanup.policy配置。它可以设置为delete（删除旧的日志段）或compact（对日志进行压缩，只保留最新的消息键值对）。
同步刷新：通过log.flush.scheduler.interval.ms参数，可以配置Kafka刷新日志到磁盘的时间间隔。这有助于控制磁盘I/O的压力。
日志预分配： log.preallocate参数控制是否预先分配日志文件的大小。如果启用，Kafka将在日志创建时分配整个文件的大小，这可能会提高性能，但也可能会浪费磁盘空间。