Apsara Stack 技术百科 | 数字化业务系统安全工程

简介：数字化平台已经与我们生活紧密结合，其用户规模庞大，一旦系统出现故障，势必会造成一定生活的不便。比如疫情时代，健康码已经成为人们出门必备的条件，一旦提供健康码服务平台出现故障，出行将变得寸步难行。因此，系统安全问题成为威胁企业正常运行的重大风险，其安全稳定将变的越来越重要。

数字化时代，如果说哪些信息是最受关注的，能不能上“热搜”一定是评价的方法之一。在每天进入“热搜”的新闻中，有一类事件不仅上热搜的频率高，并且热搜的名称格式也高度统一，那就是“某某崩了”或者“某某打不开了”。这里“某某”指那些与我们生活息息相关的数字化平台，可能是购物平台，也可能是信息分享平台。之所以人们如此的关注这类事件，因为这些数字化平台已经与我们生活紧密结合，其用户规模庞大，一旦系统出现故障，势必会造成一定生活的不便。比如疫情时代，健康码已经成为人们出门必备的条件，一旦提供健康码服务平台出现故障，出行将变得寸步难行。

系统安全问题成为威胁企业正常运行的重大风险

数字化系统在给我们生活带来便利的同时，也提升了他在人们生活中的重要性，一旦系统出现故障，不仅仅会影响到业务的正常运行，也会影响到用户的日常生活和体验。因此，系统安全问题成为威胁企业正常运行的重大风险，其安全稳定将变的越来越重要。

在此背景下，一方面企业开始加大系统安全领域的投入，另一方面国家监管要求也变得越来越高。2021年6月10日，第十三届全国人民代表大会通过了《全国人民代表大会常务委员会关于修改[中华人民共和国安全生产法]的决定》，自2021年9月1日实施。新安全生产法首次提出平台经济等新兴行业、领域的生产经营单位应当根据本行业、领域的特点，建立健全并落实全员安全生产责任制，加强从业人员安全生产教育和培训，履行有关安全生产义务。在工信部和应急管理部印发《“工业互联网+安全生产”行动计划（2021-2023年）》中，也提出了要增强工业安全生产的感知、监测、预警、处置和评估能力，加速安全生产从静态分析向动态感知、事后应急向事前预防、单点防控向全局联防的转变，提升工业生产本质安全水平。

内部风险成为威胁系统安全的主要风险之一

在影响系统稳定和安全的原因中，按照其发生的主体，可以分为外部安全和内部安全，外部安全指常见由于黑客攻击、木马、DDOS攻击等原因导致的系统安全问题，而内部安全则是由误操作、变更故障、程序缺陷、硬件故障等原因导致的系统安全问题。外部安全属于信息安全的覆盖域，目前已经相对成熟，而内部风险的控制还是薄弱环节。

通过对企业内部安全故障原因分析可以发现，其中变更类故障导致的安全问题约占60-70%，环境变化类故障（如流量过大）导致的问题约占约15-25%，硬件类故障约占约5-15%。由此可见，由于变更风险导致的系统安全问题是威胁系统安全的主要风险之一。

传统风险控制方法难以解决内部风险带来的系统安全挑战

传统变更风险的控制是通过制度规范、宣贯、审批等方式来进行控制，由于风险控制复杂性，通过传统方式进行风险管控存在较大挑战，主要表现在：

1）产品更新迭代快，仅靠制度和人工审核控制风险难度大。由于目前数字化产品研发追求敏捷性，产品迭代频繁，可能导致系统故障发生频繁，而规章制度难以深入到产品研发、运维细节中，执行难度较大。通过人工审核、审批的方式成本高，难以直接量化风险，在需要大量审核的场景下，容易忽视风险。

2）系统安全涉及范围广，控制成本高。范围广主要体现在数字化系统和人员范围广，数字化系统包括重要业务系统、相应变更系统（云资源变更、应用变更、业务变更）；人员包括产品、研发、测试、运维、运营人员等。

3）点状风险控制方案难以有效控制风险，控制效果差。风险控制是复杂系统工程，控制效果受短板影响明显，没有体系化控制手段，难有效控制风险发生。

解决方案实践

系统故障诱因复杂，这导致单点控制很难解决问题，需要一个系统化解决方案。第一届天猫双十一，开发和运维人员需要整夜保障，随时解决出现的问题，即便这样，也会出一些意想不到的故障。2020年双十一用户数量和销售规模与第一届双十一对比，已经不可同日而语，系统也更加复杂，但双十一大促系统保障过程却越来越流畅，保障人数也在持续降低，这背后就是一个系统化解决方案。

组织的顶层设计

组织设计是指从组织层面设置专门组织机构来负责系统稳定和安全，包括最高层安全生产委员会和各个研发部门稳定性负责人。安全生产委员会职能包括负责全局稳定性决策、安全生产规则制定、整体应急协同、安全文化培养、全局管控系统的规划与管理。当故障发生时，由相关人员负责故障应急与统筹，各研发部门稳定性负责人负责各系统风险治理和稳定性保障，在研发、运维过程中避免系统故障出现。

事前的风险预防

防患于未然是安全最高能力。首先，事前风险预防包括事前分析系统各个组成要素、组成要素可能面临威胁和存在脆弱性，并将分析结果作为安全治理输入。对于威胁，需要制定相应措施避免或减少威胁发生。对于脆弱性，需要针对性进行巩固，比如对于经常会导致系统故障的系统变配操作，通过统一的变更平台集中管理各种变配申请，从而实现对变配操作集中管控。其次，通过最小权限原则，限制操作人操作权限，包括操作时间限制、操作对象限制和操作范围限制。另外，每一次的变配操作，系统可以根据操作人、操作对象、操作类型等要素，计算操作过程中存在的风险，一旦发现过程中存在确定风险，则会直接阻断当前操作；如果是高风险，则会发起交叉确认流程；如果是低风险，则会直接放行。这种方式，既实现了对风险的实时管控，防止由于人为失误导致故障，同时又平衡了研发效率与安全生产间关系。

事中的实时观测

快速发现是避免损失扩大的重要手段。首先，在系统运行过程中，通过业务指标观测、应用程序观测、云资源观测相结合的方式，能够及时发现系统存在的问题，一旦发现故障，按照事先制定的预案，系统会通知相关人员进行处理。其次，基于大数据和人工智能算法，平台会实时预测相关指标变化趋势，将故障预警时间再次提前。

事后的快速恢复

尽管事前事中制定了详尽的方案，但是还是很难避免故障发生。一旦故障发生，如何快速进行故障恢复就是首要事情。按照故障不同类型，可以使用故障恢复手段有限流、拦截、熔断、快恢、降级、扩容、切流、重启等。不同恢复方式都需要有相应系统支持和日常演练测试。

故障恢复后，安全生产委员会还需要组织相关人员排查和分析故障原因，制定整改方案，确定故障责任人，推进和落实整改方案，防止相同故障再次发生。

业务系统安全工程

从以上的实践过程可以看出，企业很难依靠单一手段解决系统故障，而需要通过系统化的手段，从顶层的组织设计、事前的风险分析和策略制定、事中的持续监测和预警、日常的演练和事后的应急响应等多方面进行控制。

在传统行业中，为了保证生产经营活动能够正常运行，国家制定了一系列的措施使生产过程在符合规定的物质条件和工作秩序下进行，从而有效消除或控制危险和有害因素，减少人身伤亡和财产损失，保障人员安全与健康、设备和设施免受损坏、环境免遭破坏。在建筑、石油化工、交通运输、航空航天等行业，安全生产已相对成熟和完备，但在互联网领域还是空白。以下图采矿业安全生产流程为例，我们可以看出安全生产的管理要求已经落实到了作业的各个过程和环节。

参考传统行业中的安全生产解决方案，同时结合阿里巴巴内部的最佳实践，我们提出了业务系统安全工程解决方案，该方案是指导业务系统防范故障的安全指南，其目标是通过预防、监测预警、应急响应等手段，减少业务系统故障，保障业务系统稳定、可用和可靠，防范由于业务系统故障导致的资产损失和用户影响。

业务系统安全工程框架

由于业务系统以及故障原因的复杂性，单纯的从一个或多个点出发很难解决问题。业务系统安全工程以控制论和系统论为指导，以风险控制方法为工具，形成了自己的实施框架 IPDRI，即识别（identify)、预防（protect）、监测（detect）、恢复（recover）和改进（improvement）五个环节。从事前、事中、事后进行风险的控制，形成闭环的反馈网络。