Apsara Stack 技术百科 | 数字化业务系统安全工程

简介:数字化平台已经与我们生活紧密结合,其用户规模庞大,一旦系统出现故障,势必会造成一定生活的不便。比如疫情时代,健康码已经成为人们出门必备的条件,一旦提供健康码服务平台出现故障,出行将变得寸步难行。因此,系统安全问题成为威胁企业正常运行的重大风险,其安全稳定将变的越来越重要。

数字化时代,如果说哪些信息是最受关注的,能不能上“热搜”一定是评价的方法之一。在每天进入“热搜”的新闻中,有一类事件不仅上热搜的频率高,并且热搜的名称格式也高度统一,那就是“某某崩了”或者“某某打不开了”。这里“某某”指那些与我们生活息息相关的数字化平台,可能是购物平台,也可能是信息分享平台。之所以人们如此的关注这类事件,因为这些数字化平台已经与我们生活紧密结合,其用户规模庞大,一旦系统出现故障,势必会造成一定生活的不便。比如疫情时代,健康码已经成为人们出门必备的条件,一旦提供健康码服务平台出现故障,出行将变得寸步难行。

系统安全问题成为威胁企业正常运行的重大风险

数字化系统在给我们生活带来便利的同时,也提升了他在人们生活中的重要性,一旦系统出现故障,不仅仅会影响到业务的正常运行,也会影响到用户的日常生活和体验。因此,系统安全问题成为威胁企业正常运行的重大风险,其安全稳定将变的越来越重要。

在此背景下,一方面企业开始加大系统安全领域的投入,另一方面国家监管要求也变得越来越高。2021年6月10日,第十三届全国人民代表大会通过了《全国人民代表大会常务委员会关于修改[中华人民共和国安全生产法]的决定》,自2021年9月1日实施。新安全生产法首次提出平台经济等新兴行业、领域的生产经营单位应当根据本行业、领域的特点,建立健全并落实全员安全生产责任制,加强从业人员安全生产教育和培训,履行有关安全生产义务。在工信部和应急管理部印发《“工业互联网+安全生产”行动计划(2021-2023年)》中,也提出了要增强工业安全生产的感知、监测、预警、处置和评估能力,加速安全生产从静态分析向动态感知、事后应急向事前预防、单点防控向全局联防的转变,提升工业生产本质安全水平。

内部风险成为威胁系统安全的主要风险之一

在影响系统稳定和安全的原因中,按照其发生的主体,可以分为外部安全和内部安全,外部安全指常见由于黑客攻击、木马、DDOS攻击等原因导致的系统安全问题,而内部安全则是由误操作、变更故障、程序缺陷、硬件故障等原因导致的系统安全问题。外部安全属于信息安全的覆盖域,目前已经相对成熟,而内部风险的控制还是薄弱环节。

通过对企业内部安全故障原因分析可以发现,其中变更类故障导致的安全问题约占60-70%,环境变化类故障(如流量过大)导致的问题约占约15-25%,硬件类故障约占约5-15%。由此可见,由于变更风险导致的系统安全问题是威胁系统安全的主要风险之一。

传统风险控制方法难以解决内部风险带来的系统安全挑战

传统变更风险的控制是通过制度规范、宣贯、审批等方式来进行控制,由于风险控制复杂性,通过传统方式进行风险管控存在较大挑战,主要表现在:

1)产品更新迭代快,仅靠制度和人工审核控制风险难度大。由于目前数字化产品研发追求敏捷性,产品迭代频繁,可能导致系统故障发生频繁,而规章制度难以深入到产品研发、运维细节中,执行难度较大。通过人工审核、审批的方式成本高,难以直接量化风险,在需要大量审核的场景下,容易忽视风险。

2)系统安全涉及范围广,控制成本高。范围广主要体现在数字化系统和人员范围广,数字化系统包括重要业务系统、相应变更系统(云资源变更、应用变更、业务变更);人员包括产品、研发、测试、运维、运营人员等。

3)点状风险控制方案难以有效控制风险,控制效果差。风险控制是复杂系统工程,控制效果受短板影响明显,没有体系化控制手段,难有效控制风险发生。

解决方案实践

系统故障诱因复杂,这导致单点控制很难解决问题,需要一个系统化解决方案。第一届天猫双十一,开发和运维人员需要整夜保障,随时解决出现的问题,即便这样,也会出一些意想不到的故障。2020年双十一用户数量和销售规模与第一届双十一对比,已经不可同日而语,系统也更加复杂,但双十一大促系统保障过程却越来越流畅,保障人数也在持续降低,这背后就是一个系统化解决方案。

组织的顶层设计

组织设计是指从组织层面设置专门组织机构来负责系统稳定和安全,包括最高层安全生产委员会和各个研发部门稳定性负责人。安全生产委员会职能包括负责全局稳定性决策、安全生产规则制定、整体应急协同、安全文化培养、全局管控系统的规划与管理。当故障发生时,由相关人员负责故障应急与统筹,各研发部门稳定性负责人负责各系统风险治理和稳定性保障,在研发、运维过程中避免系统故障出现。

事前的风险预防

防患于未然是安全最高能力。首先,事前风险预防包括事前分析系统各个组成要素、组成要素可能面临威胁和存在脆弱性,并将分析结果作为安全治理输入。对于威胁,需要制定相应措施避免或减少威胁发生。对于脆弱性,需要针对性进行巩固,比如对于经常会导致系统故障的系统变配操作,通过统一的变更平台集中管理各种变配申请,从而实现对变配操作集中管控。其次,通过最小权限原则,限制操作人操作权限,包括操作时间限制、操作对象限制和操作范围限制。另外,每一次的变配操作,系统可以根据操作人、操作对象、操作类型等要素,计算操作过程中存在的风险,一旦发现过程中存在确定风险,则会直接阻断当前操作;如果是高风险,则会发起交叉确认流程;如果是低风险,则会直接放行。这种方式,既实现了对风险的实时管控,防止由于人为失误导致故障,同时又平衡了研发效率与安全生产间关系。

事中的实时观测

快速发现是避免损失扩大的重要手段。首先,在系统运行过程中,通过业务指标观测、应用程序观测、云资源观测相结合的方式,能够及时发现系统存在的问题,一旦发现故障,按照事先制定的预案,系统会通知相关人员进行处理。其次,基于大数据和人工智能算法,平台会实时预测相关指标变化趋势,将故障预警时间再次提前。

事后的快速恢复

尽管事前事中制定了详尽的方案,但是还是很难避免故障发生。一旦故障发生,如何快速进行故障恢复就是首要事情。按照故障不同类型,可以使用故障恢复手段有限流、拦截、熔断、快恢、降级、扩容、切流、重启等。不同恢复方式都需要有相应系统支持和日常演练测试。

故障恢复后,安全生产委员会还需要组织相关人员排查和分析故障原因,制定整改方案,确定故障责任人,推进和落实整改方案,防止相同故障再次发生。

业务系统安全工程

从以上的实践过程可以看出,企业很难依靠单一手段解决系统故障,而需要通过系统化的手段,从顶层的组织设计、事前的风险分析和策略制定、事中的持续监测和预警、日常的演练和事后的应急响应等多方面进行控制。

在传统行业中,为了保证生产经营活动能够正常运行,国家制定了一系列的措施使生产过程在符合规定的物质条件和工作秩序下进行,从而有效消除或控制危险和有害因素,减少人身伤亡和财产损失,保障人员安全与健康、设备和设施免受损坏、环境免遭破坏。在建筑、石油化工、交通运输、航空航天等行业,安全生产已相对成熟和完备,但在互联网领域还是空白。以下图采矿业安全生产流程为例,我们可以看出安全生产的管理要求已经落实到了作业的各个过程和环节。

参考传统行业中的安全生产解决方案,同时结合阿里巴巴内部的最佳实践,我们提出了业务系统安全工程解决方案,该方案是指导业务系统防范故障的安全指南,其目标是通过预防、监测预警、应急响应等手段,减少业务系统故障,保障业务系统稳定、可用和可靠,防范由于业务系统故障导致的资产损失和用户影响。

业务系统安全工程框架

由于业务系统以及故障原因的复杂性,单纯的从一个或多个点出发很难解决问题。业务系统安全工程以控制论和系统论为指导,以风险控制方法为工具,形成了自己的实施框架 IPDRI,即识别(identify)、预防(protect)、监测(detect)、恢复(recover)和改进(improvement)五个环节。从事前、事中、事后进行风险的控制,形成闭环的反馈网络。

其中,识别包括资产分析、威胁识别、脆弱性识别等。预防是为了避免风险的发生而采取的一定的预防措施。监测是监测系统和保护措施是否在正常的运行。恢复是在故障出现时快速的采取措施恢复系统的运行。改进是查找故障原因,制定改进方案避免相同故障的再次发生。

业务系统安全工程标准

在此背景下,阿里云联合国家信通院牵头起草了《基于云计算的数字化业务安全工程标准》,该标准是国内首部聚焦于保护系统持续正常运行的行业标准。标准核心目标是保护业务系统能够持续正常运行,防范由于业务系统故障导致资产损失和用户影响,保证系统可用、稳定和可靠。

标准规定了企业实现业务系统持续正常运行需要具备的各项能力,包括组织设计能力、风险分析与识别能力、策略与管控能力、监测与预警能力以及应急响应能力。

其中:

·       组织设计能力规定企业应设立顶层安全生产委员会,下辖公司安全生产部门,用技术手段提升风险控制能力,保障业务稳定;打造安全生产文化,确保人人重视、有持续性提升;明确行为准则,用机制保护人,减少犯错,降低损失,以此快速推进稳定治理,大幅收敛公司全局性故障和重大影响故障。

·       风险分析与识别模块帮助企业通过对系统脆弱性、业务安全生产需求、系统已发生故障分析,寻找影响信息系统安全生产的潜在风险。

·       策略与管控模块是针对已经分析发现的风险制定安全生产管控策略,通过降低、预防威胁发生,提前巩固、消除脆弱性等手段预防风险的发生。

·       观测与预警模块是通过业务状态观测、云资源状态观测、大数据风险分析与预警以及预警管理等能力,快速发现风险。

·       应急响应模块规定了企业缩短故障时间、快速恢复故障应该具备的响应和快恢能力,包括容灾演练、切流、限流、降级、重启、拦截、扩容等能力。

总结

系统安全受内部和外部双重影响,在防止企业系统受外部影响上,信息安全目前相关理论研究和产品建设已经较为完善。当前系统故障更多原因是由于企业内部问题导致,安全工程成为降低系统故障体系化解决方案。

随着企业上云和用云深入,阿里云混合云安全工程为企业上好云、安全用云提供了全套解决方案, 内容包括:安全工程标准培训、企业安全工程标准评测认证(联合信通院)、安全工程产品体系(运维风控等)、业务稳定性咨询等产品与服务, 提升云上业务的安全可控。

原文链接

本文为阿里云原创内容,未经允许不得转载。 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/511103.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

支撑百万级传感器的延时队列

文/升哲科技 刘鹏 摘要:本文主要描述升哲科技在打造物联智慧城市平台过程中关于如何实现延时队列服务的技术选型经验、延时队列服务的架构设计以及延时队列的底层细节实现原理。 背景 升哲科技是一家物联网与人工智能领域的国家高新技术企业、独角兽企业。 要打…

深度解析|基于 eBPF 的 Kubernetes 一站式可观测性系统

简介:阿里云 Kubernetes 可观测性是一套针对 Kubernetes 集群开发的一站式可观测性产品。基于 Kubernetes 集群下的指标、应用链路、日志和事件,阿里云 Kubernetes 可观测性旨在为 IT 开发运维人员提供整体的可观测性方案。 作者:李煌东、炎…

系列解读SMC-R:透明无感提升云上 TCP 应用网络性能(一)| 龙蜥技术

简介:已有的应用若想使用RDMA技术改造成本高,那么有没有一种技术是不做任何改造就可以享受RDMA带来的性能优势? 文/龙蜥社区高性能网络SIG 引言 Shared Memory Communication over RDMA (SMC-R) 是一种基于 RDMA 技术、兼容 socket 接口的内…

技术引领未来, IDC TechScape中国数据安全发展路线图首发

2022年8月26日,IDC 2022 CSO全球网络安全峰会(中国站)在上海隆重开幕,会上首次发布《IDC TechScape:中国数据安全发展路线图,2022》。报告认为,帮助用户构建全方位数据安全治理体系将成为大趋势…

DataV 3D 平面地图 2.0 焕新上线

简介:DataV3月,3D平面地图2.0现已上线~ 3D 平面地图 2.0 现已上线~ 让我们来看看更新了哪些功能吧! 01 交互升级,省市区自由下钻 自带行政区域数据,无需配置: 甚至,可以通过「蓝图编辑器」实…

PolarDB-X 发布 2.1.0 版本,Paxos 开源

简介:2022年4月1号,PolarDB-X 正式开源X-Paxos,基于原生MySQL存储节点,提供Paxos三副本共识协议,可以做到金融级数据库的高可用和容灾能力,做到RPO0的生产级别可用性,可以满足同城三机房、两地三…

828成首个B2B企业节,华为联合3万生态伙伴助力中小企业数字化转型

中小企业既是市场的主体,也是保就业的主力军。截至2021年末,中小企业在全国企业中数量占比已超过99%,并贡献了80%的就业机会。 为助力中小企业创新发展,8月28日,华为联合3万家生态伙伴,共同发起了全国首个…

阿里云贾扬清:数据湖正成为企业数据应用创新标配

简介:全球数据湖峰会开幕 数字经济蓬勃发展的今天,越来越多的用户已经从“上好云”,走到了“用好云”的这个阶段。如果说在“上好云这个阶段,大多数用户关心的是如何在成本上获得更好的回报。那么在上好云这个阶段,更…

强强联手,NVIDIA 与 Ampere Computing 重磅推出云原生服务器平台

随着 5G、元宇宙的兴起,云游戏再一次迎来爆发。据 IDC 与中国信息通信研究院联合发布的《全球云游戏产业深度观察及趋势研判(2022年)》显示,2021年,中国地区云游戏市场收入已达 40.6 亿元,同比增长 93.3%。…

有了这款工具,定位线上问题事半功倍|云效工程师指北

简介:有了这款工具,定位线上问题事半功倍,程序员在日常工作中经常会遇到一些线上问题需要排查,本文的主人公程序员小张也不例外。但排查的过程却时常令他困扰不已。让我们一起看看他遇到了哪些问题,又是怎么解决的。 …

云原生时代如何用 Prometheus 实现性能压测可观测-Metrics 篇

简介:可观测性包括 Metrics、Traces、Logs3 个维度。可观测能力帮助我们在复杂的分布式系统中快速排查、定位问题,是分布式系统中必不可少的运维工具。 作者:拂衣 什么是性能压测可观测 可观测性包括 Metrics、Traces、Logs3 个维度。可观测…

基于 KubeVela 的机器学习实践

简介:本文主要介绍如何使用 KubeVela 的 AI 插件,来帮助工程师更便捷地完成模型训练及模型服务。 作者:KubeVela 社区 在机器学习浪潮迸发的当下,AI 工程师除了需要训练、调试自己的模型之外,还需要将模型进行部署上…

Gartner发布2022年云平台服务技术成熟度曲线,iPaaS、低代码将达到成熟期

Gartner 2022年云平台服务技术成熟度曲线显示,集成平台即服务(iPaaS)和低代码应用平台(LCAP)技术将在不到两年的时间内达到生产成熟期(Plateau of Productivity)。 编辑 | 宋慧 供稿 | Gartner…

贼喊捉贼?“盗版”软件开发者向 GitHub 投诉被侵权

整理 | 于轩 出品 | CSDN(ID:CSDNnews)拥有超过2亿个代码存储库,由8000多万用户共享,GitHub已然成为世界上最大和最先进的开发平台。 与其他托管用户生成内容的平台一样,这个庞大的代码库经常会接到版权…

基于 Serverless 架构的头像漫画风处理小程序

简介: 当一个程序员想要个漫画风的头像时... 前言 我一直都想要有一个漫画版的头像,奈何手太笨,用了很多软件 “捏不出来”,所以就在想着,是否可以基于 AI 实现这样一个功能,并部署到 Serverless 架构上让…

异动分析技术解决方案—异动归因之指标拆解

简介:归因的方法有多种,这篇文章的重点是指标拆解,也是我们做业务分析时最常用到的方法。我们的目的是解放人力,将指标拆解实现自动化,一方面可以加快业务迭代速度,快速定位问题;另一方面可以对…

阿里巴巴云原生混部系统 Koordinator 正式开源

简介: 脱胎于阿里巴巴内部,经过多年双 11 打磨,每年为公司节省数十亿的混部系统 Koordinator 今天宣布正式开源。通过开源,我们希望将更好的混部能力、调度能力开放到整个行业,帮助企业客户改进云原生工作负载运行的效…

足不出户,确保交付——独家交付秘籍(第二回)

简介:在后疫情时代,遇到无法出差、无法访客时,如何保障交付按时保质的进行,做好运维质量的保障,从而不影响企业整体营收,已成为我们生死攸关的难题。小锤在遇到无法只通过远程就完成项目交付验收&#xff0…

如何使用 PTS 快速发起微服务压测

简介:本文讲阐述什么是微服务架构、微服务架构对系统稳定性带来的影响,以及用性能测试验证稳定性的必要性、用户进行微服务压测的痛点和 PTS 的独特优势、云上使用 PTS 快速发起微服务压测的步骤,以及压测完成后排查分析相关问题的 Tips。 作…

一首让计算机崩溃的歌曲!

大家好,我是轩辕。想象一个场景:手机里播放一首音乐,然后你带着手机从一台电脑旁经过,电脑就被你弄崩溃死机了。这是不是有点像电影里的桥段?一年前,我写过一篇文章:电脑关机了,黑客…