@cholerae 大神已经做了详细回答,http://zenlife.tk/interview-for-distributed-storage.md
写于几年前,内容有点稚嫩,WAL辨识度很高, 其他问题一般.
CAP不会再问了,专业的存储文献中很少(几乎不)提及CAP或PACELC, 这个词用于市场和销售,用于和业务系统对接. 反而是,面试官问CAP问题,候选人可以由此断定面试官没有做过存储builtin研发,应聘团队可能不符合预期.
现在加一个问题,failstop的故障基本假设和处理原则是什么? 这个问题比较重要,企业可信环境(不发生或者避免发生拜占庭故障)的分布式存储构建一定要满足的基本原则,不符合预期的处理,就是设计上的缺陷或bug. 大家可以试着分析,共识算法,复制协议,集群的上下线管理,元数据的HA是如何实现failstop的.
设计一种诘问(打破砂锅问到底)的面试套路.
1. 用cas实现spinlock.
2. 实现单机kv存储系统, 多节点共享kv存储服务, 怎么解决external consistency的问题?
kv存储N=0
用户A和B操作kv存储系统按照下面时序:
1.用户A执行操作: INC N;
2.用户A通知用户B执行操作;
3.用户B执行操作: if (N % 2 == 0) {N*=2;} else {N +=3;}怎么保证结果符合预期呢? 在网络传输影响操作到达次序的情况下, 怎么保证B后于A完成操作.如果这个过程插入了C, 又如何做呢?
3. 锁实现和版本控制用那个呢?
4. kv系统数据要持久化, 怎么保证在供电故障的情况下, 依然不丢数据.
5. flush/fsync/WAL/磁盘和ssd的顺序写
6. 单机kv存储系统, 从掉电到系统重启这段时间, 不可用, 如何保证可用性呢?
7. 数据复制, 日志复制, 有哪些实现方法呢?
8. 做主从复制, 采用pull和push操作, 那个好呢?
9. 如何保证多副本的一致性? RSM
10. 分布式共识算法: zab, paxos, raft.
11. commit语意是什么呢?
12. 单机或者单个leader的qps/tps较低, 如何扩大十倍?
13. 怎么做partitioning和replicating呢?
14. 存储或者访问热点问题, 应该怎么搞?
15. CAP原理
16. 元数据怎么管理?
17. membership怎么管理?
18. 暂时性故障和永久性故障有哪些呢?
19. failover和data replication怎么搞呢?
20. 磁盘的年故障率预估是多少?
21. kv系统存储小王, 小李, 小张三个人的账户余额信息, 数据分别在不同的节点上, 怎么解决小王向小李, 小李向小张同时转款的问题呢?