如何使用蚂蚁集团自动化混沌工程 ChaosMeta 做 OceanBase 攻防演练？

当前，业界主流的混沌工程项目基本只关注如何制造故障的问题，而经常做演练相关工作的工程师应该明白，每次演练时还会遇到以下痛点：

检测当前环境是否符合演练预设条件（演练准入）；
业务流量是否满足（流量注入）；
注入后判断故障效果是否符合预期（故障度量）；
是否在预设时间内恢复了业务服务（恢复度量）；
复盘分析总结风险点。

这也是蚂蚁集团内部混沌工程平台 XMonkey 在多年复杂故障演练场景中时常遇到的问题。

作为蚂蚁集团研发、测试、质量、SRE 等人员进行历史故障演练和挖掘系统潜在风险的重要平台，XMonkey 在公司级大规模红蓝攻防演练实践中沉淀了丰富且专业的方法论，在业界有极高的分享价值。基于经验共享与探讨的角度，XMonkey 的对外开源版本 ChaosMeta 在近日宣布正式开源。同时，ChaosMeta 也成为了 OceanBase 生态伙伴的新成员。

ChaosMeta 能做什么？

混沌工程生命周期

ChaosMeta 是一款面向云原生、自动化演练而设计的混沌工程平台，基于业界现状和攻防演练的常见痛点，结合蚂蚁集团在混沌工程领域的多年经验，提出了混沌工程生命周期模型（见图1）。该模型覆盖了“准入检测”“流量注入”“故障注入”“故障度量”“恢复度量”“注入恢复”等各个阶段的技术支撑，为自动化混沌工程提供技术依据。

图1 混沌工程生命周期模型

也就是说，ChaosMeta 提供了完整的混沌工程生命周期的一站式演练综合解决方案，助力用户快速挖掘业务应用和系统的潜在风险。除此之外，ChaosMeta 还内置了蚂蚁集团在技术风险领域多年沉淀的“风险目录”，这是一份对各技术领域的基础通用风险的汇总。

沉淀多年的“风险目录”

蚂蚁集团内部每年都会举行公司级大规模红蓝攻防演练活动，面向公司全体业务，并且也有不少业务进行 7X24 小时演练以及月度常态演练。

演练对象类型覆盖云产品、Kubernetes、Operator 应用、数据库（ OceanBase、MySQL 等）、中间件（消息队列、分布式调度、配置中心等）、业务应用（交易系统、营销系统等）等。

以 OceanBase 的攻防演练为例，使用 ChaosMeta 对 OceanBase 集群的任意节点注入磁盘 I/O 夯的故障，其底层原理是通过使用 cgroup 的 blkio 子系统对 OBServer 进程进行 I/O 限制，考查 OceanBase 集群对磁盘 I/O 类故障的发现、定位、自愈的效率；还会随机对 OceanBase 集群中任意节点的 clog、ilog、slog 等日志目录的磁盘填满，考查能否快速定位哪个节点的哪个日志目录被填满并进行相应的应急处理。

对于每种类型的应用，都能抽象出一些比较通用的公共风险：