bookkeeper基本概念

Apache BookKeeper 架构与基本概念

Apache BookKeeper 是一个高性能的分布式日志存储系统，主要用于存储和管理顺序写入的数据。它被设计用来提供低延迟、高吞吐量和强一致性的服务，常用于分布式系统中的日志存储需求（例如，Apache Kafka 的底层存储就用到了类似的机制）。以下是它的架构概述：

Bookie：BookKeeper 的存储节点，负责存储日志条目（entries）。每个 Bookie 是一个独立的服务器，管理自己的磁盘存储。
Ledger：逻辑上的日志单元，是 BookKeeper 的核心抽象。一个 Ledger 是一系列日志条目的集合，类似于一个文件。Ledger 是只追加的，写入后不可修改。
Client：应用程序通过 BookKeeper Client 与系统交互，负责创建 Ledger、写入数据和读取数据。
Metadata Store：元数据存储，通常使用 Apache ZooKeeper，负责存储 Ledger 的元数据，例如哪些 Bookie 存储了某个 Ledger 的数据。

分布式存储：数据被分片存储在多个 Bookie 上。每个 Ledger 的日志条目会被复制到多个 Bookie（通常是 3 个副本），以保证高可用性和容错性。
写入流程：
1. Client 创建一个 Ledger。
2. Client 将日志条目写入 Ledger，数据会被发送到多个 Bookie。
3. Bookie 收到数据后，先写入本地日志（Journal），然后再写入存储（Ledger Storage），确保数据持久化。
4. 当足够数量的 Bookie 确认写入成功（满足一致性要求，例如多数派确认），Client 收到写入成功的响应。
读取流程：Client 可以从任意存有副本的 Bookie 读取数据。如果某个 Bookie 不可用，Client 会自动切换到其他副本。
元数据管理：ZooKeeper 负责协调 Bookie 的状态、Ledger 的分配和故障检测。

Ledger：
- 一个有序的日志条目序列。
- 每个 Ledger 有唯一的 ID，由 Client 创建。
- 支持只追加写入，关闭后不可再写。
Entry：
- Ledger 中的最小数据单元，类似于日志中的一条记录。
- 每个 Entry 都有一个唯一的 Entry ID。
Ensemble：
- 存储某个 Ledger 的 Bookie 集合。Ensemble 大小决定了副本数量（例如，3 个 Bookie 组成一个 Ensemble）。
Quorum：
- 写入或读取时需要的最小确认数。例如，写入 Quorum（Write Quorum, WQ）和确认 Quorum（Ack Quorum, AQ）可以配置，以平衡性能和一致性。
Journal：
- Bookie 上的预写日志（WAL, Write-Ahead Log），用于在数据写入存储前记录操作，确保数据不丢失。
Striping：
- 数据分片机制，将 Ledger 的条目分布到多个 Bookie 上，提升并行性和性能。