前言
自2021年中国人民银行发布《金融科技发展规划(2022-2025年)》以来,商业银行迈入数字化转型的高阶阶段。在此背景下,为了进一步提高金融科技的管理水平,商业银行需要改变传统金融运维模式,对已有运维体系进行全面升级。
现实情况中,想要实现数字化运维管理,在运维的各个流程、作业、人员管理中,都需要引入数字化管理思想并深化数字化管理方法,让数字化运维管理成为运维部门一切工作开展的出发点。
本文基于某国内知名大行的实践经验,梳理和分析了银行运维体系的困境、建设方法和核心技术,为银行构建智能运维体系提供了有益的参考和借鉴。
全国性股份制商业银行介绍
该银行是一家全国性股份制商业银行,已架构起全国性、国际化商业银行的经营服务格局,在境内外设立了40多家一级分行、1000多家营业机构,其中境内分行覆盖内地所有省级行政区域,境外分行包括香港分行、新加坡分行和伦敦分行。凭借良好的业绩、诚信的声誉,该银行成为中国证券市场中备受关注和尊敬的上市公司。
随着用户体量持续增长,业务场景日益复杂。为满足业务需求,系统架构已从传统的单节点架构逐渐转变为分布式架构和集群架构。技术变革的同时,系统运行的不稳定因素也在累积。为减少不稳定因素,提升系统业务连续性,保障客户服务水平,运维数字化管理成为重中之重。
该银行运维体系建设背景及痛点
多年来,行内对运维业务的探索分为以下几个阶段:
★ 初始阶段
初始阶段的主要任务是维护服务器、网络设备、数据库和应用程序的稳定运行,包含故障排除、备份、恢复、系统监控等基础工作。
★ 自动化阶段
自动化阶段,团队引入自动化工具,建成以服务中心为入口,CMDB、作业平台、流程引擎三位一体核心平台为基座,实现90%以上的运维自动化管理。同时团队开始关注资源的优化利用,通过容量规划、性能检测和优化手段,提高系统的利用率和性能。
★ 持续交付阶段
在持续交付阶段,团队整体扩张到80多人,开始实践持续交付和DevOps理念,将运维工作纳入系统开发的全生命周期中。同时,团队更加聚焦于提高运维工作的线上化管理水平,将ITSS的规范化管理模型落地到实际工作中。
ITSS,Information Technology Service Standards,信息技术服务标准,简称ITSS。是一套成体系和综合配套的信息技术服务标准库,全面规范了信息技术服务产品及其组成要素,用于指导实施标准化和可信赖的信息技术服务。
ITSS由信息技术服务标准工作组组织研究制定,是信息技术服务行业最佳实践的总结和提升,也是从事信息技术服务研发、供应、推广和应用等各类组织自主创新成果的固化。
当运维业务走到今天,该行已实现了90%以上的运维自动化,并做到渐进式构建、集中监控、统一自动化,基础运维能力不断提升。
但不同的阶段面临不同的挑战。
随着运维管理需求日益增长,开发资源难跟上,大量、高频敏态的管理需求和各类平台之间的数据孤岛,成为了现阶段的瓶颈问题。
为此,该行决定考虑建设低代码平台,解决传统开发周期长、版本管理复杂、对专业人才要求高等痛点,同时大幅提高应用开发生产力,实现运维管理场景的快速搭建和ITSS体系的整体基座构建。
该银行TSS体系建设步骤
从ITSS顶层设计出发,结合现有运维管理实际场景需求,经过严谨的低代码选型和论证,该行决定使用得帆低代码平台,持续深化建设平台工程。
该行的建设火成分为平台搭建、平台运营、场景线上化三步,目标实现运维管理线上化,业务需求场景应用自助搭建,及建设运维指标体系。
Step 01
建设低代码平台,构建低代码平台能力
首先,该行构建低代码能力,包括表单动态编辑,在线流程编排,模块化API接口、自定义仪表盘、插件化功能拓展等能力。同时对接各基础平台能力API,搭建应用管理中心,权限控制中心等基础类应用,实现基础能力封装。
Step 02
建立低代码平台运营体系
接着,该行制定低代码平台规范,包括低代码平台使用规范、低代码需求管理流程、低代码应用发布流程等;并建设运营体系,包括用户使用手册、平台功能目录等以支撑平台运营推广,全面赋能用户安全自助。
Step 03
运维侧需求线上化转型
最后,通过低代码平台将线下场景线上化,实现需求场景过程透明化,上线以下三大类别,近100个需求。
-
表单收集类:系统交维信息、审计信息收集等20余个需求。
-
流程管理类:运维制度中的流程包括,告警、巡检、补丁、可用性、容量管理等10余个需求。
-
数据统计汇总类:运营指标体系落地,包括服务体量、服务运营、服务支持、服务保障类指标和数据统计50余个。
典型场景
➤ 科管团队:41项报审工作的线上化管理
-
业务场景:
总行信息科技部报审过程管理日趋严格,要求和标准更新较为频繁。传统的系统平台开发及上线时间过长,且受开发人力和成本、投产窗口等因素的限制,当临时新增要求时,原有线上填报方式无法快速按照新规则变更,而产生相应的制度风险;同时系统的严重滞后带来了人工检查的成本负担。
-
解决方法:
低代码平台通过拖拉拽的方式,及时变更和调整报送字段,可对临时任务快速设置相应的应用建模。开发到上线,最快1-3天即可部署完毕,从而保障了软件正版化、安全可控、信息科技资产三个管理事项,共计41项相关报审报备工作数据和文件的有效性、及时性、一致性和完整性,有效提升各科技团队的填报、团经审批、科管人员复核的效率;并避免了漏报、迟报、误报等操作风险。
➤ 需求团队:快速上线数据收集类应用
-
业务场景:
行内存在大量表单数据,这些表单数据缺乏专业平台承接,无法系统地收集、分析、利用,成为行内的数字化缺口。
-
解决方法:
低代码平台快速上线设备统筹与分发管理、设备资产管理、报表统计、问卷调查等应用,承接大部分表单收集,数据汇总及文档模版的需求,以及一些边缘化报表的需求,为数据整理和统计工作提供了平台支撑,实现数据系统化;并通过高可配置的数据可视化能力,提高数据分析深度和准确度。
同时,低代码平台能够优化服务流程,自主设置人工提醒、催办等重复繁琐工作,实现自动化,节省人力支出。
➤ 信息安全团队:合规管理
-
业务场景:
用户体验、安全防护等要求日趋严格。但行内安全管理工作分散在各个安防系统中,形成数据孤岛,且部分安全管理工作尚未实现线上化。
-
解决方法:
团队基于低代码平台搭建了漏洞管理、安全时间管理、钓鱼邮件分析和处置、账号管理等应用。
结合信息安全团队现有工作场景,通过低代码平台在检查、沟通、核查、任务处置、材料下发、收集等相关工作上线上化,提升工作效能,且各个系统相互串联,解决了各安防系统间的孤岛问题,提高了整体自动化程度。
同时,通过低代码平台建设了统一的调度中枢,快速进行流程编排,有效支撑安全告警分析及安全事件响应的敏捷化处置。
该银行的价值收益
新时期的IT运维不仅要做到快速响应,还要完成对海量数据的实时采集分析,进而为运维决策提供数据支撑。
该行整合人员(People)、过程(Process)、技术(Technology)、资源(Resource)四大关键要素。通过API化、可视化、配置化的”托拉拽“方式进行自助搭建低代码应用,屏蔽底层开发的专业性,省去版本投产变更流程等步骤,满足“短、频、快”的开发需求。
同时,行业基于低代码平台,提升运维判断、决策、规划能力,逐步实现数据驱动运维;通过分层、分类、分级构建数据采集、计算模型的方式,由运维各能力平台(监控、网络自动化等)进行采集,使指标可量化、可跟踪、可分析;并实现数据自动化采集,自动计算,可视化展示,真正实现运维管理数字化。