第1章. 基本情况
1.1. 项目名称
XX 公司 XX 云计算平台工程。
1.2. 业主公司
XX 公司。
1.3. 项目背景
1.3.1. XX 技术发展方向
XX,即运用计算机、网络和通信等现代信息技术手段,实现政府组织结构和工作流程的优化重组,超越时间、空间和部门分隔的限制,建成一个精简、高效、廉洁、公平的政府运作模式,以便全方位地向社会提供优质、规范、透明、符合国际水准的管理与服务。
随着网络技术、 web2.0、 下一代互联网等技术的发展, 我国 XX 建设也发生着变化。2010年10月, 国务院发布了 《国务院关于加快培育和发展战略性新兴产业的决定》 ,就把新一代信息技术产业作为十二五时期的重点方向,要推动新一代移动通信、下一代互联网核心设备和智能终端的研发及产业化,加快推进三网融合,促进物联网、云计算的研发和示范应用。
1.3.2. 有关 XX 公开的相关要求
全国 XX 领导小组发布了《关于开展依托 XX 平台加强县级政府 XX 和政务服务试点工作的意见》 ,就开展依托 XX 平台加强县级政府 XX 和政务服务试点工作提出了相关意见。要求在试点县(市、区) ,用一年左右时间,建立和完善统一的 XX 平台,充分利用平台全面、准确发布政府信息公开事项,实时、规范办理主要行政职权和便民服务事项,并实现电子监察全覆盖,为在全国全面推行奠定基础、积累经验。
1.4. 建设规模
本期建设规模为(后续根据实际服务器及机房环境进行调整) :
1.5. 投资概算
本项目本期工程概算总投资为 XXXX 万元(人民币) 。
1.6. 设计依据
《中华人民共和国国民经济和社会发展第十二个五年规划纲要》 ;
《计算机场地技术条件》 (GB2887-89)
《计算站场地安全要求》 (GB9361-88)
《电子计算机机房设计规范》 (GB50174-93)
《供配电系统设计规范》 (GB50052-92)
《低压配电装置及线路设计规范》 (GBJ—83)
《建筑物防雷设计规范》 (GB50057-94)
《电子设备雷击保护守则》 (GB7450-87)
《工业企业通信接地设计规范》 (GBJ79-95)
《中华人民共和国保密标准》 (BMB3-1999)
《涉密信息设备使用现场的电磁泄漏发射防护要求》 (BMZ1-2000)
《涉及国家机密的计算机信息系统保密技术要求》 (BMZ1-2000)
《涉及国家机密的计算机信息系统安全保密方案设计指南》 (BMZ2-2001)
《涉及国家计算机信息系统安全保密测试指南》 (BMZ3-2001)
1.7. 设计范围
本方案涉及范围包括以下几个部分:
(1) 基本情况;
(2) 现状与需求分析;
(3) 总体设计;
(4) 建设方案;
(5) 设备配置要求;
(6) 培训及维护;
(7) 项目实施;
(8) 概算编制。
1.8. 设计分工
待定。
第2章. 现状及需求分析
2.1. 项目意义及建设必要性
XX 公司作为信息化建设持续居于全国前列的经济信息大省,对云计算的表现模式及其能够带来的经济效益表现出持续关注。本项目提出建设政务云计算平台,对于整合 XX 资源、提高省直部门计算资源配置效率,建设重复信息化投资,打造绿色XX,推动高新技术产业发展,都具有长远的现实意义。
(1)云计算是信息技术和产业发展的必然趋势
云计算是网格计算、分布式计算、虚拟化等传统计算机技术和网络技术发展融合的产物。它旨在通过网络把多个成本相对较低的计算实体整合成一个具有强大计算能力的完美系统,并借助 SaaS、PaaS、IaaS、MSP 等先进的商业模式把这强大的计算能力分布到终端用户手中。作为一种新兴技术和商业模式,云计算将加速信息产业和信息基础设施的服务化进程,催生大量新型互联网信息服务,带动信息产业和信息化建设格局的整体变革。加快云计算发展,不仅是我省提升数字 XX 综合竞争力、培育新增长点的重要途径,也是促进产业机构调整、率先实现跨越式发展的重要举措。
(2)县级 XX 是推动 XX 公司云计算应用的第一步
云计算是当今信息技术、信息化的战略制高点。当前,我省正在贯彻落实《国务院办公厅转发全国 XX 领导小组关于开展依托 XX 平台加强县级政府 XX 和政务服务试点工作意见的通知》 ,将县级 XX 作为推动 XX 公司云计算应用的第一步,在实践中摸索云计算为 XX 公司带来的新机遇,通过政府应用起到的示范和带动作用,促进全省信息化建设水平的提高, 带动信息产业的发展, 战略信息技术及产业的战略高地。
(3)提高政务部门计算资源配置效率,减少重复建设,节能减排XX 公司 XX 建设以来,全省部署了大量的业务应用系统,涉及海量的网络设备、服务器及存储设备。这些设备 CPU 和内存利用率残差不齐,大多数较低,部分工作效率在 20%以下,同时也有部分部门计算硬件资源极端匮乏。这样,不仅闲置了宝贵的计算资源,浪费了电力,不利于节能减排,又未能很好地解决资源匮乏部门的实际问题。如果将这些设备整合建设为云计算平台,服务器的利用效率将得到极大提升(40%~60%) ,能够动态、弹性、可回收地为各政务部门提供服务。
总之,云计算可望提高应用程序部署速度、促进创新和降低成本,同时还增强了业务运作的敏捷性。本项目对我省云计算的发展和应用具有带动、示范、服务、探索等多重作用,对带动我省信息化建设进入新阶段,探寻我省新的经济建设模式具有重大的现实意义,有必要尽快实施。
2.2. 现状分析
XX 公司已经建成了较为完善的 XX 网络系统,经过 04 年、06 年两次大的扩容改造后,覆盖全省的 XX 网络全面建成,信息资源目录体系与交换体系、信息资源公开和共享机制、信息安全基础设施基本建立,重点业务应用系统实现互联互通,管理体制进一步完善,信息技术在政府工作中得到普遍应用。
XX 公司信息中心作为负责 XX 公司政府政务数据中心建设和维护的核心信息化部门,服务于 XX 公司政府部门宏观决策支持、信息资源开发利用、数据交换、XX、信用体系建设等六大重点业务,按照工信部和国家发改委的要求,近年来一直致力于政务云计算的铺垫和准备工作,逐步完成了政务数据整合和云就绪准备的前期工作。为推动数字 XX 建设科学发展,创新 XX 建设模式,推进云计算应用及相关产业的发展,根据省领导指示精神,下一步将重点建设 XX 公司政务云。在完成了各部门分散的 IT 资源和信息数据的整合之后,政府将通过云计算平台,实现面向更多公众服务、带动本地信息化发展等目标。
2.3. 需求分析
2.3.1. 长期需求
满足未来 10 年 XX 公司信息化建设基于 XX 的信息系统对网络、服务器、存储、软件等基础架构的需要,面向全省政务系统提供信息共享平台及云计算平台。根据 XX 公司政府和省经信委对数字 XX 的长远规划,不仅要搭建 XX 云计算平台,试点并承载相关业务,还需要进行 XX 云计算平台的开发和建设,运行核心业务系统。
2.3.2. 本期需求
满足今后 3 到 5 年 XX 公司信息化建设基于 XX 的信息系统对网络、服务器、存储、软件等基础架构的需要。
鉴于每个应用系统对基础架构资源的需求难以确定,本期工程暂时按照最小经济规模的云计算平台建设,计算资源池的服务器物理数量规划为 XXX 台,存储及网络设备根据实际需要进行配套。
2.3.2.1. 硬件需求
本次需要配置的硬件包括:
主机:刀片服务器、机架式服务器等;
存储:SAN 存储、NAS 存储、IP 存储、虚拟带库、易购存储控制系统、SAN交换机等;
网络设备:路由器、交换机、负载均衡、VPN 网关等;
安全设备:防火墙、入侵防御、防毒墙、运维安全审计系统、数据库安全审计系统、漏洞扫描系统。
2.3.2.2. 软件需求
除了需要配置一定数量的服务器、存储、网络设备和安全防护设备外,还需要配备相应的系统软件,如:
1、 每台物理服务器和虚拟服务器的操作系统:Windows、Linux 等服务器操作系统。
2、 虚拟化软件:实现服务器和存储资源的虚拟化,建立弹性、智能、可回收的资源池;对于新购置的设备,需要进行虚拟化套件的安装调试。
3、 中间件:JAVA 及.NET 架构的应用服务器等。
4、 大型数据库系统:Oracle、SQL Server、MySQL 等。
5、 云计算管理平台:包括网络管理、资源管理、用户管理、统计报表、账单、监控、告警等管理功能。
2.3.2.3. 安全需求
虚拟机的应用将导致物理网卡上的流量成几何倍数增加, 为了应对云计算环境下的流量变化,安全防护体系的部署需要朝着高性能的方向调整。安全设备必然要具备对高密度的 10GE 设置 100G 接口的处理能力。同时,考虑到云计算环境的业务永续性,设备的部署必须要考虑到高可靠性的支持,不仅要考虑到设备的可靠性,如采用高性能高可靠高成熟的产品, 还应该考虑到设计的可靠性, 如双机热备、 设备虚拟化、配置同步、板件冗余和预留、跨设备链路捆绑、硬件 ByPass 等技术的应用。
配置防火墙、入侵防御、漏洞扫描、网页防篡改、全接入网关和身份认证系统,并从安全区域划分、接入层安全、服务器区的安全和安全管理等多方面加强云计算平台的防护。特别是接入层,采用 VPN 网关,注册用户从云计算管理中心获得 VPN Client,通过 VPN Client 就可以连接到自己需要的云。服务器安全方面,所有物理服务器全部配置相应的安全策略,禁止不用的端口的访问,同时在虚拟机模板系统中只打开最小可用端口(如 SSH、http、https 等) ,以保证初始系统的安全性。建立应用节点准入规范,保证应用节点自身的安全防护,避免云内发生交叉感染。安全管理方面,则以管理制度为主、技术管控为辅,双管齐下。
2.3.2.4. 机房需求
鉴于信息中心机房 UPS、精密空调承载有限,本项目本期工程应做相应扩容建设。
第3章. 总体设计
3.1. 建设目标
3.1.1. 预期总目标
整合信息化建设资源, 充分利用现有政府网站和政务 (行政) 服务中心基础设施,结合集约化社区服务信息网络平台建设,对现有 XX 平台进行调整、升级和改造,满足 XX 和政务服务应用需要。具体包括:
(1) 采用云计算技术,结合创新建设模式,搭建标准统一、功能完善、系统稳定、安全可靠、纵横互通、集中统一的 XX 云计算平台,为各部门信息资源共享、数据交换和系统办公提供良好的支撑。
(2) 通过建设 XX 云计算平台, 方便未来将新增 XX 应用快速部署到云计算平台上,大大缩短新 IT 系统的上线时间,预期将节省设备 30%,节约能耗 50%。
(3) 解决“信息孤岛”,实现信息共享,提高信息安全水平,提升政府监控能力和响应速度,提高工作效率和公共服务水平,提供面向社会的专业性服务和为社会公众提供政务信息服务。
(4) 通过降低成本、提升效率、节能减排,满足 XX 要贯彻落实科学发展观,转变发展模式的需要。
(5) 满足在云计算平台上搭建 XX 应用系统的需要, 包括以三层架构为主的应用系统,以及大访问量的应用系统、大数据处理量的应用系统以及大计算量的应用系统。
云计算试点业务运行稳定之后,普及和推广云计算模式,将 XX 系统、政府网站应用系统、政务服务业务应用系统、电子监察应用系统等纳入政务云计算平台,通过建立政务服务事项信息库、办理过程信息库、办理结果信息库、监察规则信息库、监察业务信息库等五个信息库,实现政务服务和电子监察信息资源管理。
XX 公司政务云计算建设的总体目标是,实现省级政务系统数据共享,利用云计算弹性、智能、可回收的技术优势,低投资、低能耗、高效率地部署居民健康档案系统、统计直报系统、生猪屠宰监管与溯源系统等与政务职能工作相关的应用系统。
XX 网络、政府网站、业务管理系统、应用及数据服务中心和信息安全保障体系等纳入统一的政务云计算平台。
3.1.2. 阶段性目标
为满足 XX 和政务服务试点工作的业务需求,基于网络技术、云计算等新兴 IT技术手段,建设统一的 XX 承载平台,根据 XX 和政务服务目录,将更多的行政职权纳入电子化平台的业务系统办理, 建设覆盖行政职权和便民服务事项办理流程的各个环节的电子监察体系。
在初步阶段基础设施先行,建设 XX 公司 XX 统一基础承载平台,基于云计算的模式,融入虚拟化等技术,具备统一、共享的特性,可以承载 XX、金宏工程等试点业务应用。
同时为下一阶段进一步开展云计算的 PAAS、SAAS 等业务平台应用,进行经验积累和技术探索。
3.2. 建设内容
本项目在充分整合 XX 数据中心资源的基础上,配置必要软硬件设备,为省直部门的信息系统提供统一的基础设施服务, 在 IaaS 层构建较为完整的 XX 云计算平台。
建设内容包括以下几部分:
硬件设备:刀片服务器、机架式服务器、SAN 存储、NAS 存储、IP 存储、虚拟带库、易购存储控制系统、SAN 交换机、路由器、交换机、负载均衡、VPN 网关。
软件设备:物理服务器和虚拟服务器的操作系统、虚拟化软件、中间件、大型数据库系统、云计算管理平台。
安全系统:防火墙、入侵防御、防毒墙、网页防篡改、身份认证系统、运维安全审计系统、数据库安全审计系统、漏洞扫描系统。同时采购专业机构提供的云安全服务等。
机房配套设备:UPS、精密空调、标准机架。
3.3. 系统的总体结构
3.3.1. 设计原则
1、标准化
当前阶段云计算整个产业化还不够成熟,相关标准还不完善。网络是云计算的核心承载平台,为保证多厂商的良好兼容性,避免厂商技术锁定,网络方案的设计应需要采用标准技术与协议,能够与第三方厂商保持良好的对接。
此外,为保证方案的前瞻性,设备的选型应充分考虑对云计算相关标准(如EVB/802.1Qbg,TRILL 等)的扩展支持能力,保证良好的先进性,以适应未来的技术发展。
2、 高可用
为保证数据业务网的核心业务的不中断运行, 在网络整体设计和设备配置上均是按照双备份要求设计的。在网络连接上消除单点故障,提供关键设备的故障切换。关键设备之间的物理链路采用双路冗余连接, 按照负载均衡方式或 active-active 方式工作。关键主机可采用双路网卡来增加可靠性。全冗余的方式使系统达到 99.999%的电信级可靠性。要求网络具有设备/链中故障毫秒的保护倒换能力。
具有良好扩展性,网络建设完毕并网后应可以进行大规模改造,服务器集群、软件功能模块应可以不断扩展。
良好的易用性。简化系统结构,降低维护量。
对突发数据的吸附,缓解端口拥塞压力,能保证业务的流畅性等。
3、 增强二层网络
云计算环境下,虚拟机迁移与集群是两种典型的应用模型,这两种模型均需要二层网络的支持。随着云计算资源池的不断扩大,二层网络的范围正在逐步扩大,甚至扩展到多个数据中心内, 大规模部暑二层网络则带来一个必然的问题就是二层环路问题。采用传统 STP+VRRP 技术部署二层网络时会带来部署复杂、链路利用率低、网络收敛时间慢等诸多问题,因此网络方案的设计需要重点考虑增强二层网络技术(如IRF/VSS、TRILL、VPLS 等)的应用,以解决传统技术带来的问题。
4、 虚拟化
虚拟资源池化是网络发展的重要趋势,将可以大大提高资源利用率,降低运营成本。应有效开展服务器、存储器的虚拟资源池化技术建设,网络设备的虚拟化也应进行设计实现。服务器、存储器、网络及安全设备应具备虚拟化功能。
5、 高性能
由于云计算网络中的流量模型发生了变化, ,而随着整个云计算业务的开展,业务都分布在各个服务器上,流量模型从纵向流量转换成复杂的多维度混合的方式,整个系统具有较高的吞吐能力和处理能力,系统各层均不存在阻塞,具备对突发流量的承受能力。
6、 开放接口
为保证服务器、存储、网络等资源能够被云计算运营平台良好的调度与管理,要求系统提供开放的 API 接口,云计算运营管理平台能够通过 API 接口、命令行脚本实现对设备的配置与策略下发。
7、 绿色节能
节能减排是目前网络建设的重要系统工程之一,从网络机房的整体能耗来看,IT设备约占到 30%,空调等制冷系统约占 45%,UPS、照明等辅助系统约占 25%。所以作为 IT 设备的节能,不仅要考虑本身能耗比较低,而且要考虑其热量对空调散热系统的影响。应采用低能耗的绿色网络设备,采用多种方式降低系统功耗。
3.3.2. 建设思路
云计算是一种新型的计算资源利用模式。它将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和信息服务。按照服务实现的程度,目前云计算主要有 IaaS、PaaS、SaaS 三种业务模式:
1)基础架构服务(IaaS)
Iaas 层是以服务的模式提供虚拟硬件资源,主要是将基础设施资源(计算、存储、 网络带宽等) 进行虚拟化和池化管理, 便于实现资源的动态分配、 再分配和回收。目前资源池主要分为计算资源池、存储资源池和网络资源池,同时也包括软件和数据等内容资源池。在服务提供方面主要以计算资源、存储资源提供为主,如为业务信息系统分配虚拟服务器、有储空间,提供应用服务器、数据库管理系统等应用系统运行环境。
2)应用平台服务(PaaS)
PaaS 层主要提供应用开发、测试和运行的平台,用户可以基于该平台,进行应用的快速开发、测试和部署运行,它依托于云计算基础架构,把基础架构资源变成平台环境提供给用户和应用。为业务信息系统提供软件开发和测试环境,同时可以将各业务信息系统功能纳入一个集中的 SOA 平台上,有效地复用和编排组织内部的应用服务构件,以便按需组织这些服务构件。典型的如门户网站平台服务,可为用户提供快速定制开发门户网站提供应用软件平台, 用户只需在此平台进行少量的定制开发即可快速部署应用。
3)应用软件服务(SaaS)
SaaS 软件即服务,典型的运用模式就是用户通过标准的 WEB 浏览器来使用Internet 上的软件,因此可以不必购买软件,只需要按需租用软件,直接应用。典型的如电子邮件系统的在线软件服务,用户只需作简单的域名设置,即可部署本公司的电子邮件服务。
鉴于云计算平台应用需求的提出是一个渐进的过程, 云平台建设是一项复杂的系统工程,建议 XX 云计算平台遵循长期规划、分步实施的原则,本期工程首先实现IaaS,后续工程根据应用的实际需求逐步支持 PaaS 和 SaaS 的实现。
3.3.3. 总体拓扑结构
图 1:XX 云计算平台总体拓扑结构图
根据本期工程的需求和建设目标,XX 云计算平台总体逻辑拓扑结构如上图所示。通过链路负载均衡器实现多互联网出口(具体链路供应商待定)链路负载均衡及高可用。任何 ISP 专线故障,不影响业务系统正常访问;通过智能 DNS 系统实现接入用户的就近访问,即电信用户访问互联网接入区走电信链路,联通用户访问互联网接入区走联通链路。
图 2:XX 云计算平台云服务分层架构图
XX 公司 XX 云计算平台云服务分层架构图如上图所示。整个架构分为三层和两体系:基础设施服务层(IaaS)、平台服务层(PaaS)、应用软件服务层(SaaS)、信息安全体系和运营管理体系, 其中信息安全体系和运营管理体系有信息安全管理平台和运营管理平台构成。IAAS 及管理、安全体系建设是本次的建设内容,PAAS、SAAS 在后续规划建设。
1、基础设施服务层包括硬件基础设施子层、虚拟化&资源池化子层、资源调度与管理自动化子层。
硬件基础设施子层:包括主机、存储、网络及其他硬件在内的硬件设备,它们是实现云计算的最基础资源;
虚拟化&资源池化层:通过虚拟化技术进行整合,形成一个对外提供对资源的池化管理(包括网络池、服务器池、存储池等) ,同时通过云管理平台,对外提供运行环境等基础服务。
资源调度与管理自动化子层:在对资源(物理资源和虚拟资源)进行有效监控、管理的基础上,并且通过对服务模型的抽取,提供弹性计算、负载均衡、动态迁移、按需供给、自动化部署等功能,它是实现云计算的关键所在。
2、 平台服务层主要在 IaaS 之上提供统一的平台化系统软件支撑服务, 包括统一身份认证服务、访问控制服务、工作流引擎服务、通用报表、决策支持等。这一层不同于以往传统方式的平台服务,这些平台服务也要满足云架构的部署方式,通过虚拟化、集群、负载均衡等技术提供云状态服务,可以根据需要随时定制功能及相应的扩展。
3、应用软件服务层,是整个 XX 对外提供的终端服务,可以划分为基础服务和专业服务。基础服务提供统一门户登录、统一通讯等功能,专业服务主要指 XXXX的各种业务应用如流动人口管理、GIS 系统、行政审批、网上执法等等。它们通过应用部署模式相底层的稍微变化,都可以在云计算架构下实现灵活的扩展和管理。
按需服务是 XXXXSaaS 应用的核心理念,多租约 SaaS 应用可以满足不同政府用户的个性化需求,通过多个租约向用户提供有差别的服务,通过负载均衡满足大并发量用户服务访问等。
4、云计算平台信息安全管理体系,针对云计算平台建设以高性能高可靠的网络安全一体化防护体系、虚拟化为技术支撑的安全防护体系、集中的安全服务中心应对无边界的安全防护、 利用云安全模式加强云端和客户端的关联耦合和采用非技术手段补充等保障云计算平台的安全。
5、运营管理体系:保障云计算平台的正常运行,提供故障管理、计费管理、性能管理、配置管理、安全管理等等。
3.4. 信息的分类编码体系
信息分类编码体系将遵循《政务信息资源目录体系》( GB/T21063-2007)及相关业务、技术、数据标准和规范进行标准化建设。
(1).信息分类编码设计遵循的主要原则
分类和编码的基本原则遵循 GB/T7027-2002 规定,采用混合分类法;分类类目编码使用的罗马字符和阿拉伯数字遵循 GB18030-2000 的规定。
①唯一性原则:编码要唯一识别,不能有二意性,不能重复;
②标准化原则:尽量采用国际标准、国家标准、部级标准及“数字 XX”的标准规范;
③简单化原则:代码要简单明了,易读、易懂、易使用;
④快捷性原则:有快速识别、快速输入和计算机快速处理的性能;
⑤系统性原则:要全面、系统地考虑编码设计的体系结构;
⑥扩充原则:可根据实际情况对主题分类进行类目扩充,扩充的类目应分别符合类目的设置规则,分类代码的配置应符合代码结构中的规定,并注意助记性。
⑦映射原则:使用中若采用了主题分类以外的其他分类,应建立这些分类的类目表与主题分类的双向映射关系。
⑧分类扩展原则:在建立信息资源目录体系时,目录体系中的信息资源分类应采用主题分类,也可根据具体应用情况选择其他分类方法与主题分类共同进行分类,如部门分类、服务分类、资源形态分类等;若采用扩展分类代码,则其分类代码的配置应符合代码结构中的规定。
(2).信息分类编码框架体系
根据实际情况,XX 公司 XX 云计算平台建设项目的信息分类编码体系按信息技术自身属性进行划分,其体系框架有以下几个分体系:
①信息分类:包括适用于各种应用系统的开发、数据库系统的建设和数据交换的标准;
②代码结构:采用统一的代码结构,代码编制规则:分类类别用 l 位大写罗马字符表示“Z"代表主题分类;一级类用 l 位大写罗马字符表示;二级类用 l 位大写罗马字符及 2 位阿拉伯数字表示。
③术语和技术词江:主要包括与信息化有关的术语标准,XX 云计算平台建设过程中遇到的主要名词、术语和技术词汇。
④项目管理和建设标准:根据国家的有关规定,规范项目系统的管理和运行机制;制定 XX 云计算平台建设项目实施及管理的有关规程。
⑤系统的管理和运行机制:规范项目系统的管理和运行机制;
⑥计算机通信网络:包括计算机通信和网络基础设施建设、技术规范、管理规范等;
⑦信息安全:适用与信息安全有关的信息技术应用系统建设。
3.5. 质量保证体系
(1).系统质量保证体系将遵循“数字 XX”的系统设计标准
◇建立质量控制流程;
◇建立系统编制标准;
◇制定系统测试的标准和方法;
◇在每个阶段规范项目工作和改进项目质量。
(2).本项目将制定系统设计规范包括程序名、文件名和变量的规范化以及数据字典等,并要求在实施过程中提供以下技术文档:
◇项目规划与系统实施方案;
◇系统体系架构及描述;
◇系统软件功能设计说明书;
◇系统需求规格说明书;
◇系统概要设计、详细设计说明书;
◇数据库设计说明书;
◇系统代码设计说明书;
◇系统测试方案及测试分析报告;
◇系统软硬件配置说明;
◇系统安装维护手册、用户使用手册;
◇系统软硬件培训资料;
◇系统故障及应急处理预案说明书
第4章. 建设方案
基于本期 XX 公司 XX 云计算平台的建设思路一一搭建基于 IaaS 层面的云计算平台,如何采用云计算技术建立动态的 IT 资源平台,并使之具备快速 IT 服务交付能力,进而通过动态的 IT 架构来应对有关省直公司 XX 业务发展的需要;将应用和业务从底层的 IT 资源中分离出来,提高系统的可移植性,并能够充分利用更加优化的系统和网络资源以提高效率、降低整体成本是本期建设方案需要重点解决的问题。
为此,我们建议以 XX 应用系统为顶层架构来搭建 XX 公司 XX 云计算资源池,它是由计算资源池、存储资源池、网络资源池、XX 应用程序以及运营管理平台共同组成,运营管理平台负责对资源池和应用进行管理调度及告警监控。其组成框架如下图所示。
图 3:资源池组成框架图
以下针对 XX 云计算资源池的各组成部分分别进行具体阐述。
4.1. 网络资源池
4.1.1. 组网物理拓扑图
XXXX 云计算平台组网物理拓扑如下图所示:
图 4:XX 云计算平台组网物理拓扑图
本工程新增 3 根移动专线接入,单根 200Mpbs 带宽。一根为 XX 互联网接入区对外提供服务用,一根用于 VPN 专线,一根用于 XX 办公人员访问互联网使用。
整个云计算平台在组网设计上满足双网双平面结构,从网络接口、网络链路到关键网络设备均配置冗余部件。在网络接口上每台物理服务器至少配置 3 张网卡, 分别用于业务服务、虚拟化平台宿主机管理、IP 存储系统互联。业务服务网络根据业务属性不同,通过 MPLS VPN 划分为公用网络区、互联网接入区、专用网络区。虚拟化计算资源可以在不同的网络区域中自由迁移。
在汇聚层旁挂防火墙、隔离网闸、运维审计、数据库审计系统等安全设备。其中防火墙用于实现同一网络区域中不同业务系统的之间的安全隔离;隔离网闸用于在MPLS VPN 隔离的不同网络区域之间进行安全数据交换, 同时用于 XX 和 XX 之间的数据安全交换。
4.1.2. 网络负载均衡设计
网络负载均衡分链路负载均衡和本地负载均衡,总体逻辑示意图如下图所示:
图 5:网络负载均衡示意图
4.1.2.1. 链路负载均衡设计
如上图所示,将移动互联网专线和电信互联网专线接入链路负载均衡器,链路负载均衡器通过对所有 Internet 链路进行流量路由和控制带宽服务水平实现多互联网接入的高可用性。链路负载均衡器将多条互联网线路进行虚拟化处理,保障用户从最好的线路访问内外部资源。任意一条 ISP 线路中断,都不会对服务造成任何影响。通过链路负载均衡器可实现 ISP 接入线路的无缝扩展。
1) OutBound 流量负载均衡
XX 办公人员访问互联网的流量到达链路负载均衡器时,将通过链路负载均衡器多种链路状态检测结果选择最佳出口链路,提升用户体验。
2) InBound 流量负载均衡
为使移动用户和电信用户通过不同互联网链路访问互联网接入区应用系统, 链路负载均衡器的智能 DNS 解析功能将不同用户访问的域名解析成不同的公网 IP 地址,加速应用访问,提升用户体验。
4.1.2.2. 本地负载均衡设计
本工程新增本地负载均衡器两台, 旁挂于汇聚交换机。实现对服务器的负载均衡。本地负载均衡器可以保障内部资源的容错性, 内部任何一个应用节点出现问题都不会对用户造成任何的影响,本地负载均衡器能够自动的屏蔽有问题的应用节点,让其停止对外服务,同时把该故障节点上的用户迁移到其他正常的节点上去。
汇聚层本地负载均衡器可以虚拟成为多个设备, 满足 XX 不同分区的安全隔离要求。
XX业务系统以B/S架构为主, 目前的WEB应用都包含了大量的图片, javascript,CSS 文件等,这些文件的重复传输不但给服务器造成了压力,同时也使得用户的体验受到了影响。本地负载均衡器通过 HTTP 压缩的方式来节省带宽以及提高访问速度。通过静态文件和动态文件的 cache.文件压缩,浏览器端文件 cache 控制等优化技术,来提供对 WEB 应用进行加速,提高用户访问速度。使用本地负载均衡器开放的 API 接口可以实现和云计算管理平台的集成。
4.1.3. 网络虚拟化设计
4.1.3.1. 云计算对传统网络的挑战
传统的网络规划设计依据高可靠思路,形成了冗余复杂的网状网结构,结构化网状网的物理拓扑在保持高可靠、故障容错、提升性能上有着极好的优势,是通用设计规则。云计算的大规模运营,给传统网络架构和传统应用部署都带来了挑战,新一代网络支撑这种巨型的计算服务,不论是技术革新还是架构变化,都需要服务于云计算的核心要求,动态、弹性、灵活,并实现网络部署的简捷化。具体来说传统网络面临的挑战主要有以下几点:
一一传统网络的复杂性在实际的运维中,管理人员承担了极其繁冗的工作量;
一一云计算平台下多虚拟机部署在同一台物理服务器上运,服务器的利用率从20%提高到 80%,服务器端口流量大幅提升,对网络性能提出更高要求;
一一云计算平台中,虚拟机在物理服务器之间进行迁移,为了避免虚拟机迁移后路由的震荡和修改网络规划,迁移通常只在在二层域进行,因此云计算平台需要具备一个性能更高、二层域更大的网络环境为迁移提供保障。
通过分析云计算对传统网络基础架构带来的挑战,我们可以从两个方面来应对。
一是通过构建高性能、高可靠的网络,从而满足云计算给网络带来的压力;二是通过构建虚拟化网络来满足云计算中由于虚拟机部署、迁移、以及安全策略实施对网络提出的灵活性、安全性的要求。
总的来说,为满足云计算的业务要求,统一的基础网络要素必然包括:高性能交换、虚拟化应用、透明化交换。
4.1.3.2. 高性能二层网络
为提供一个性能更高、二层域更大的网络环境,本工程新增核心交换机和汇聚交换机通过交换机虚拟化技术(华三 IRF2、思科 VSS)分别虚拟成一台逻辑设备,减少了设备节点,简化了配置。通过跨设备链路聚合技术取代传统部署方式中的STP+VRRP 协议,使网络拓扑变得简洁,具备更强的扩展性;同时,其毫秒级的故障收敛时间,为虚拟机迁移提供了更加宽松的实现环境。
图 6:交换机横向虚拟化
经过二层透明化改造后,云计算平台的汇聚接入层是一个透明二层网络。不同业务(虚拟服务器)接入不同的二层 VLAN,但同一个业务(虚拟服务器)可以在不同网络分区里灵活部署与迁移, 满足了云计算的要求;同时, 汇聚层以上进行的是 VPN标签交换与路由转发,又保证了不同业务(虚拟服务器)的安全隔离。
4.1.3.3. 网络服务虚拟化
为满足不同 XX 分区的安全隔离要求, 本项目在云计算平台的汇聚层部署有汇聚交换机、防火墙、IPS、负载均衡器等设备。传统网络下,将为不同分区单独配置一套安全设备, 设备利用率低, 运维管理复杂。在云计算平台下, 通过网络服务虚拟化,统一建设一套性能强大、可扩展性良好的网络服务设备,满足为不同分区提供安全、应用加速等服务。
图 7:1:N 网络虚拟化技术
汇聚层交换机也通过虚拟化技术多实例, 每个模拟出的交换机都拥有它自身的软件进程、专用硬件资源(接口)和独立的管理环境,可以实现独立的安全管理界限划分和故障隔离域。有助于将分立网络整合为一个通用基础设施,保留物理上独立的网络的管理界限划分和故障隔离特性,并提供单一基础设施所拥有的多种运营成本优势。如下图所示:
图 8:交换机纵向虚拟化
4.1.3.4. 虚拟交换机技术
1) VMware
VMware 分布式虚拟交换机功能满足网络分区条件下, 虚拟主机在线迁移等功能时,保证业务网络的持续性。
虚拟交换机是构成虚拟平台网络的关键角色,VMware 虚拟化通过 VMware vNetwork Distributed Switch, 使虚拟机跨多个主机移动时始终处于同一个 VLAN 内,它为虚拟机在物理服务器之间移动时监视和保持其安全性提供了一个框架。VMware vNetwork Distributed Switch 示意图如下所示:
图 9:VMware vNetwork Distributed Switch 示意图
在多网络分区环境时,VMware 通过虚拟交换机的 VLAN TRUNK,当一个端口启用了 TRUNK 功能后, 就具备端口聚合的功效, 会自动检测流向此端口的所有流量,并把不同 VLAN 的流量导向物理交换机上相应的 VLAN 中。在一台 ESX 主机上由多个千兆网卡绑定在一起(组合成 vSwitch)提供 VM 对外通讯的流量,并与物理交换机上的多个启用了 TRUNK 功能的端口相连接。此时 VMs 分别在 VLAN l、VLAN2、VLAN3 上,同时在物理交换机上也有同样 ID 的 VLAN。那么,在 VLAN1 中的虚拟机,就可以和与物理交换机上 VLAN1 中的端口相连的机器相互通讯。同时实现虚拟化服务器在多网络分区间的动态迁移。
2)XEN
通过将 OPEN vSwitch(开放虚拟交换标准)作为其默认组件,自xenserver5.6 FPI 就实现对虚拟交换机的支持,而且自 verxenserver5.6 SP2 开始也实现了分布式的虚拟交换机功能。
Xen-Motion 是 Citrix Xenserver 的动态迁移技术, 当然, 该系列 4 款虚拟化产品中,目前只有最高等级的白金版和企业版才具备这项功能,至于标准版及完全免费的 Express 精简版则无此项能力。
不但是 C ITRIX 旗下的虚拟化产品, 其他基于 Xen 技术开发出来的虚拟化产品,例如 Virtual Iron,也具备相似的动态迁移功能 LiveMigrate,除了免费提供的个人版之外,需要付款购买的企业版及企业加强版具有内置该项功能。
4.1.4. IP 地址及 DNS 规划
XXXX 云计算平台新增两个独立网段,一个用于云平台及虚拟机宿主机之间通信,一个用于云计算平台内 IP 存储系统网互联;业务系统的 IP 地址和 NDS规划,沿用当前 XX 统一规划。具体参考实施意见《XXXXIP 地址规划及管理规范》和《XX 政府外网 DNS 及设备命名规范》。
4.1.4.1. IP 地址规划原则
XX 公司 XXIP 地址规划遵从国信办和国家外网工程办有关规定和指导意见。
XXIP 直至规划原则包括:
IP 地址规划主要涉及到网络资源利用的方便有限的管理网络的问题,公有地址相对紧张的情况下,合理有效的利用 IP 地址成为 IP 地址规划的主要问题,合理的 IP 地址规划是有利于网络管理的;
IP 地址的合理分配是保证网络顺利运行和网络资源有效利用的关键。对于外网广域骨干网 IP 地址的分配应该采用国家 XX 工程办分配的合法地址空间, 充分考虑到地址空间的合理利用,保证实现最佳的网络内地址分配及业务流量的均匀分布;
IP 地址的规划和划分应该考虑到网络的后续规模和业务上的发展,能够满足未来发展的需要;既要满足本期工程对 IP 地址的需求,同时要充分考虑未来的业务发展,预留相应的地址段;
IP 地址的分配需要有足够灵活性,能满足各种用户接入需要;地址分配是有业务驱动,按照业务量的大小分配各地的地址段;IP 地址的分配必须采用VLSM(变长掩码)技术,保证 IP 地址的利用效率;
采用 CIDR 技术,这样可以减小路由器路由表的大小,加快路由的收敛速度,也可以减小网络广播的路由信息的大小;
充分合理利用已申请的地址空间,提高地址的利用效率;
IP 地址的规划应该是 XX 广域骨干整体规划的一部分, 即 IP 地址规划要和网络层次规划、路由协议规划、流量规划等结合起来考虑。IP 地址的规划应尽可能和网络层次相对应,应该是自顶向下的一种规划。
4.1.4.2. IP 地址规划总体规划
根据国家外网工程办的规定, XXXX 云平台的公用网络区使用国家申请的 IP地址范围为:XXX—XXX。
互联网区供互联网访问的设备的 IP 目前有省电信、省移动提供外 网地址,数量考虑上留有余地。互联网区 XX 移动提供有 3 根互联网专线,每条专线提供一个 C 类外网 IP 地址段,共 3 个 C 类地址段供本平台使用。
XX 公司 XX 横向需要互联各个政府部门,纵向需要打通省,设区市、县、乡镇(街道)四级部门公司,在外网地址规划中,使用综合地址规划方案,采用公有地址和私有地址双轨并行的办法,在公有地址不够时,允许采用私有地址作为部门公司的 XX 业务地址。
XX 承载三种不同的网络业务,为了最大程度地减少不同网络业务区 IP 地址空间的重叠,XXXXIP 地址总体规划如下:
业务地址从相应的业务网络区地址空间中划分。
4.1.4.3. DNS 域名体系结构
XX 公司 XX 升级和社区市网络分别采用独立的三级域名。
域名由根域和若干个子域名用“.”连接而成,com.cn 作为根域名,采用 fj.com.cn作为省网三级域名,采用 fjxx.com.cn 作为各设区市三级域名。各级政府组成部门咋 XX 设置服务器后, 应将服务器的 IP 地址和对应的域名在省电子网 XX 管中心注册。
域名以 4--5 段为主,原则上不超过 5 段。如:“主机名.公司名.fj.com.cn”;由省数据中心建立域名(fj.com.cn)管理中心,所有公司的域名及 DNS 均向 XX网管中心 fj.com.cn 域名册;可在 9 个设区市市分别建立子域(fjxx.com.cn);各公司若需注册 aaa.com.cn, 需在 XX 外网管理中心备案之后向国家外网管理中心注册。
4.1.4.4. 集成智能 DNS 系统
本工程新增 2 台链路负载均衡器,实现智能 DNS 解析功能。XX 互联网接入区应用系统的 DNS 域名系统需与链路负载均衡器的智能 DNS 系统进行集成。
通过对系统原有 DNS 授权域服务器配置进行修改,将动态记录委派到链路负载均衡器上进行解析,再返回给发起 DNS 请求的用户。根据解析结果引导用户请求到不同的运营商链路,实现就近访问。
4.1.4.5. 网络安全域划分与隔离
根据国家 XX 所承载的业务和系统服务类型的不同, 在逻辑上, 将国家 XX划分为公用网络区(Global) 、 专用网络区(VPN)和互联网接入区(Internet)三个功能域, 分别提供国家 XX 互联互通业务、专用 VPN 业务和互联网业务。
图 10:XXMPLS VPN 分区示意图
公用网络区:采用国家 XX 公用地址(即从 NNNIC 注册的地址)的网络区域,是国家 XX 的主干道,实现各部门、各地区互联互通,为跨地区、跨部门的业务应用提供支撑平台。
互联网接入区:是各级政务部门通过逻辑隔离手段安全接入互联网的网络区域,满足各级政务部门公共服务业务应用的需要。
专用网络区:是依托国家 XX 基础设施,为有特定需求的部门或业务设置的VPN 网络区域,实现不同部门或不同业务之间的相互隔离,VPN 网络区域主要为少数部门的特定业务数据传输提供安全通道。
通过 MPLS VPN 技术运用,三个业务区之间逻辑隔离,不能互访。升级 XX数据中心分为四个区,这四个区分属于三个业务隔离区,对应关系如下表:
某些业务系统需要跨公用网络区和互联网接入区部署,也有些需要跨专用网络区和互联网接入区部署,为了保证安全,需要进行逻辑隔离,在公用网络区和互联网接入区间部署一个网闸,同时在专用网络区和互联网接入区也部署一个网闸。
除以上从业务系统层划分为公用网络区、专用网络区、互联网接入区外,还需为云计算平台管理和 IP 存储子系统划分 2 个独立网络区域,实现业务网络、管理网络、IP 存储网络的安全逻辑隔离。
4.1.5. 网络端口资源估算
关于汇聚层交换机端口配置,接入服务器建议用千兆以太网电口,网络设备间互联用万兆以太网口。本期新增机架服务器 XX 台,单台服务器配置 XX 千兆以太网电口,共需 XXX 口千兆以太网电口,刀片服务器 XX 台,占用 X 个刀片服务器机框,每机框对外 XX 口千兆以太网电口,共 XX 口,合计连接服务器需要 XXX 口千兆以太网电口;汇聚交换机与防火墙、负载均衡器等汇聚网络设备需等需要万兆口互联, 考虑一定端口冗余, 本期建议配置 X 台汇聚交换机, 单台配置 10/100/1000M 电口不少于 XX 个;千兆光口不少于 XX 个、万兆以太网光口不少于 XX 个并配置相应数量多模光纤模块。
4.2. 计算资源池
4.2.1. 计算资源池架构
服务器虚拟化技术很好地解决了传统服务器系统建设的问题,通过提高物理服务器利用率大幅度消减物理服务器购置需求、数量和运营成本;通过利用服务器虚拟化中 CPU、内存、I0 资源的动态调整能力实现对业务应用资源需求的动态响应,提升业务应用的服务质量;通过在线虚拟机迁移实现更高的可用性和可靠性以及各种基于资源优化或节能减排策略的跨物理服务器的调度等等。因此,服务器虚拟化技术是新一代数据中心最理想的解决方案。
服务器虚拟化架构设计是服务器虚拟化技术运用的核心,直接决定了整个服务器资源体系对应用系统的承载能力、运行效率以及可靠性。
XX 云计算资源池由机架式服务器、刀片服务器构成;刀片服务器通过服务器虚拟化部署一般业务系统和 web 应用系统。机架式服务器用于部署管理平台和高负载数据库服务器等。
服务器虚拟化架构图如下所示:
图 11:XXMPLS VPN 分区示意图
4.2.2. 应用系统分析
经前期需求调研分析,根据业务特点将 XX 平台所承载的应用系统分为大访问量应用系统、大计算量应用系统、大数据量应用系统三类。
4.2.2.1. 大访问量应用系统
大访问量应用系统如政府门户网站、 气象查询等 web 类应用系统, 这类应用的特点是业务逻辑简单,不同业务请求互不关联,但请求的并发量根据业务特点不同可能很大,如水利信息网在灾害天气下访问量将剧增。
大访问量应用系统要求对大量互不关联的并发请求进行快速响应。这种情况下,需要应用服务器有足够数量的线程响应请求,而单个线程计算量不大,因而对单个CPU处理性能要求不高, 可通过提供足够CPU用服务器数量来满足需求。XX 云计算平台通过虚拟化技术为大访问量应用系统部署是大小配置的虚拟机作为应用服务器,多应用服务器工作在负载均衡模式,提升用户使用体验。大访问量应用系统对数据库要求不高,配置一般虚拟机即可满足要求。
4.2.2.2. 大计算量应用系统
大计算量应用系统如数字城管、GIS 地理信息系统等复杂信息处理系统,这样应用的特点是计算量较大、运算复杂、内存需求大,对服务器计算性能要求高。建议配置单一高性能虚拟服务器。大计算量应用系统对数据库要求不高,配置一般虚拟机即可满足要求。
4.2.2.3. 大数据量应用系统
大计算量应用系统流动人口管理、社保管理系统等。根据数据库储存模式不同,可分为文件型和数据库的系统。
数据库型大量数据量应用系统要求较高性能数据库服务器。建议配置强大的数据库服务器,提供足够的 CPU、Memory 及 IO 性能来处理大量的数据,根据应用系统重要级别,数据库服务器可以选用虚拟物理器或物理服务器,应用服务器业务逻辑简单,对配置要求不高,配置 虚拟机即可满足要求。
文件型大数据两应用系统基础数据量大,通过传统的集中储存方式,存储并发读写 IO 能力无法满足计算资源要求, 建议通过并行计算模型实现。根据业务计算特点,服务器可灵活选择虚拟机或物理服务器。
4.2.3. 计算资源池建议配置与选型建议
4.2.3.1. 计算资源池建议配置
经咨询 H3C、IBM、HP、微软、红帽、VMware 等行业主流云计算常商,云计算平台的建设,从避免浪费和规模效应的角度考虑,最佳实践经验是从 50 台物理服务器的规模开始建设,然后根据实际业务发展情况按需扩容、滚动建设。
本期工程以 XX 公司 XX 的实际情况为基础参照行业主流云计算厂商的建议进行设计考虑。考虑不同业务系统的负载差异, 本期工程同时配置刀片服务器和机架式服务器。
参考各厂商建议,用作 WEB 服务器时,一台物理服务器最多可以虚拟 12 台虚拟机;用作应用服务器时,一台物料服务器最多可以虚拟 7 台虚拟机.。本工程,刀片服务器按照每台虚拟 10 台虚拟机, 刀片服务器虚拟化后的虚拟机建议部署一般 web/应用服务器;高性能服务器按照每台虚拟 8 台虚拟机, 高性能服务器虚拟化后的虚拟机建议部署重载应用/数据库服务器。
统筹考虑不同应用系统对硬件资源的需求差异,建议配置刀片服务器 XX 套,2路机架式服务器 X 台,4 路机架式服务器 XX 台。
其中 X 台 2 路机架式服务器用于云计算管理平台,X 台 4 路机架式服务器作为测试服务器(计划用来支持各类移动办公等移动应用,统一纳入 XX 公司信息中心监控管理) 。计算资源池刀片服务器和 4 路机架式服务器组成,其中 XX 台刀片服务器可以虚拟化为 XXX 台虚拟机, XX 台高性能机架式服务器可以虚拟化 XXX 台虚拟机,平台共计 XXX 台虚拟机。
一般应用系统需要 web 服务器、应用服务器各 2 台,采用应用负载均衡做集群,数据库服务器 2 台做互备,共需 6 台虚拟机。
对于大型数量应用,大型数据库可直接部署在高性能物理服务器,通过多实例共享面向不同业务系统提供数据库管理平台服务, 则需 4 台虚拟机和共享使用两台物理服务器。
按此测算,本期建设规模在满足 50 个部门 50 套应用系统需求之外还能有一定的冗余,冗余的资源可以用于安装数据备份软件、目录服务器、安全软件等平台相关软件外,同时作为备用资源。今后还可以视实际需求增加计算资源,同步配套建设网络资源、存储资源及信息安全设备等,按照需扩容、滚动建设的方式满足省直部门的需求。
本期新增计算资源配置如下图表所示:
此外,每台物理服务器要求配置不少于 3 个千兆以太网电口,分别用于虚拟化平台管理口、应用系统对外提供服务、连接 NAS 存储设备。
未来实际应用中,还将根据各厅局的复杂性,比如高吞吐量、高计算、高访问量类业务系统对计算资源的需要进行调整。
4.2.3.2. 服务器选型建议
宿主机服务器架构是虚拟化架构的关键组件,也是服务器整合比例和成本分析的重要变量。宿主机服务器处理大量整合服务器的工作负载的能力会提高整合比例并有助于提供满足需要的成本收益,以下提供二种宿主机服务器的参考架构。
宿主服务器的系统架构是指对服务器硬件自身的一般分类,例如包括机架式服务器、刀片式服务器。在选在系统架构时,首先要考虑的原则是每个宿主机将运行包含多种负载的多个客户机。处理器、 内存、 存储和网络能力以及高速的 I/O和低延迟都很关键,重要的是要保证这些分类中的每一个宿主机服务器能够提供所需要满足的处理能力。
A)标准机架式服务器
最常见的系统架构是标准机架式服务器。典型的是 2U 或 4U 的型号,这些服务器一般包含 2 到 4 个 CPU 插座,2 到 8 个 PCI—E 或 PCI—X 插槽,4 到 6个硬盘托架。由于其在 2 和 4 个插座服务器商品中的低成本,以及通过增加网卡和 HBA 插槽提供与生俱来的可扩展性,机架式服务器是虚拟宿主机服务器的最佳选择。
B)刀片式服务器
随着对能力和服务器密度不断增加的需求,刀片式服务器在普及程度和能力上都获得了显著的提高。在选择刀片服务器时,需要考虑刀片式架构中的每个刀片所包含 CPU 数及最大内存。对于每个宿主机服务器用于支持一定数量的客户机所需的网络和存储 I/O 必须加以仔细考虑,以保证刀片上运行的每个宿主机服务器和刀片底盘自身能够提供支持。
4.2.4. 计算资源池部署
4.2.4.1. 应用服务器部署
应用服务器可部署在虚拟机系统(VM)和物理 PC 服务器。当应用服务器负载接近单台物理服务器性能时,可直接部署于物理服务器,一般应用服务器部署在虚拟机上。
根据应用系统的可用性要求等级不同,在虚拟机上实现高可用的方式有以下三种,虚拟机热迁移,虚拟机 HA,物理机 HA。
虚拟机热迁移用于满足计划内停机维护操作。当服务器需要停机执行维护操作时,可通过虚拟机热迁移功能,将某一物理服务器上的虚拟机动态迁移至另一物理服务器。动态迁移过程,业务不中断,不影响用户的正常访问。
虚拟机 HA 用于满足一般应用服务器计划外宕机。当发生服务器故障时,通过虚拟机 HA,虚拟机可在其他的物理服务器上自动重启,实现故障转移。此过程会引起短暂业务中断,业务中断时间由虚拟机操作系统在另一物理服务器上启动的时间及应用系统启动的时间决定。通过虚拟机 HA 比传统群集较少一半的服务器数量,在保证了一定高可用的同时提高资源利用率。
对于直接部署在物理服务器的应用系统, 可通过高可用群集软件提供可用性保证。在 windows 系统可配置 MSCS 群集, 在 redhat Linux 操作系统可配置 VCS群集。通过部署高可用群集,在确保在物理服务器故障或应用故障时,进行快速的故障转移,减小并消除业务中断带来的负面影响。
为了能够提供具有更高可扩展性和可靠性的应用平台,并能够在服务器集群中只能地分配负载,从而确保客户最大限度地发挥其应用服务器投资价值,结合硬件负载均衡设备,为部署在应用服务器上的服务和应用提供最佳的可扩展性和性能。
4.2.4.2. 关键数据库部署
数据库服务区作为业务系统的数据处理平台,对服务区的 I /O 处理能力、内存、CPU 等有较高要求的,建议采用高性能机架式服务器部署,不同的业务系统数据库可通过多实例进行共享同一物理服务区群集。对服务器性能要求一般的数据库管理系统可部署在虚拟机上。
数据库服务器做业务系统的核心节点,为了保障其的高可用性,建议至少使用 2 台物理服务器或 2 台虚拟机做 HA。部署虚拟机上数据库管理系统可通过Application HA保证其高可用;部署于物理服务器的数据库管理系统可通过VCS、MSCS 或数据库管理系统自带群集软件(RAC)实现其高可用。
4.2.5. 虚拟化软件选型分析
目前主流虚拟化平台(Hypervisor)主要有以下四种,分别是 VMwarevSphere、MicroSoft Hyper-V、KVM 和 Xen。其中 KVM 和 Xen 为开源产品。目前部分厂商根据开源 Xen 开发出自己的虚拟平台,如 Critix 公司的 XenServer。从虚拟化软件的成熟度来看,VMware 经多年的市场经验,产品成熟稳定、功能也最为强大。开源 KVM、开源 XEN 来源于开源社区,功能单一;基于开源Xen 的 Citrix XenServer,其功能、稳定性、可靠性优于开源 Xen。XX 虚拟化平台的建设充分考虑产品的成熟性、稳定性和开放性。通过以上比较分析,VMware 产品成熟、功能完善,为目前虚拟化市场的主流产品,但其采购成本较高;基本开源 Xen 的部分国产产品功能不及 VMware,但具有更好的性价比,作为国产虚拟化平台,其安全性也更有保证。充分考虑技术成熟度和开放性,本项目建议配置 VmwareXX 套、国产开源虚拟化软件 XXX 套,建成一个稳定、开放、支持异构的基础虚拟化平台。
当前关键应用建议部署在成熟稳定的 VMware 虚拟化平台上, 非关键应用及测试环境可部署于国产开源虚拟化平台上。随着国产虚拟化平台的逐步成熟,在后续扩容中将逐步减少 VMware 在 XX 云计算平台的比重。
4.2.5.1. 虚拟化管理平台
本期计算资源池采用 X86 服务器, 虚拟化平台管理软件需实现高可用性、 动态迁移,对整个应用架构实现统一的安全控制和权限管理。
目前 X86 虚拟化平台管理软件主要有两大类:
一类为虚拟化平台原厂提供的。如 VMware 虚拟化管理平台 VMwarevCenter、Citrix XenServer 虚拟化管理平台 Xen Center、Hyper-V 虚拟化管理平台 Azure,Redhat KTM 管理平台 redhat RHEVM 的。各厂商的虚拟化管理平台均可较好地管理自家虚拟化平台,管理平台开放必要的 API 接口。但是各个厂商均只能管理自己的 Hypervisor,不能管理其它厂商的 Hypervisor。
另一类是由第三方厂商提供的。如移动大云等,这等虚拟化平台管理软件的优点是可以实现多家虚拟化平台的统一管理,但在专用性方面不如各原厂提供的管理软件。
4.2.5.2. 容灾方案说明
根据设计原则分布实现云平台系统的容灾方案:
1、第一步实现云平台存储级容灾系统,通过新购虚拟存储网关,整合现有异构SAN 存储资源池,存储结构化数据,实现存储虚拟化功能,并可满足数据迁移、容灾等功能,实现容灾。
该步骤实现又可分为两步走,即先建立同城同步容灾,再建立城际两地三中心的容灾。
在容灾中心新购买一套虚拟存储网关, 容灾中心的存储设备可以与生产中心同构或异构,通过光纤交换机构成一个基于存储区域网(SAN)的基础架构平台。不仅提供容灾系统使用,也是容灾中心的统一 SAN 平台。
在容灾中心存储上按照生产中心实际存储部署情况, 依照存储性能相同的原则进行存储设备的逻辑划分, 每台存储设备分别连接到 2 台光纤交换机上, 这久保证了存储设备在整个链路上冗余、不存在单点故障。
在同城容灾方案中通过虚拟存储网关同步复制技术, 由虚拟存储网关将生产中心的数据实时复制到容灾中心, 确保生产中心的各种数据能同步复制到容灾中心的存储上。在两地三中心或两站地城际容灾方案中通过虚拟存储网关异步复制技术,准时将生产中心数据复制到容灾中心,灾难发生时仅涉及数十秒的数据丢失。
可同时在容灾中心配置两台服务器,进行数据验证工作。利用虚拟存储网关快照功能对容灾中心的复制数据 (只读) 产生快照卷, 挂载到验证服务器上进行访问验证。
2、第二步实现云平台应用级容灾。在容灾中心配置相应的服务器池链接容灾存储。当灾难发生或进行灾难恢复演练时,停止容灾复制关系后,容灾中心服务器池的虚拟机可以访问容灾数据并接管生产。制定接管计划,包括人员支持,网络支持,恢复计划,演练计划等,建立完善的全人工干预接管机制。
3、第三步结合云平台管理和业界自动化远程容灾软件实现高度自动化的容灾体系,争取实现数小时内的容灾接管能力。
4.3. 云计算管理平台
云计算管理平台包括云资源管理平台、云连营管理平台、网络管理平台。云资源管理平台包括 IT 基础架构中的物理资源和虚拟资源的管理,其中虚拟计算资源的管理集成厂商的云平台;云运营管理平台含业务管理模块和运营管理模块。
云计算管理平台总体架构如下:
图 12:云管理平台架构图
4.3.1. 云资源管理平台建设方案
整个复杂的云计算架构中, 必须通过一个强大的管理平台来实现对硬件资源的整合和虚拟化, 对功能服务器的模板制作与部署, 对云计算资源进行启动、 停止、 删除、回收等,对整个云计算平台运行性能进行实时监控和日志报告等功能,同时还实现用户交换接口,用户可以方便地登录到云计算平台,申请各种硬件资源和中间件资源,启动、停止自己功能服务器功能。这样打破了业务应用对资源的=独占的方式,实现硬件资源和软件资源的统一管理、统一分配、统一部署、统一监控和统一备份。
考虑到 XX 中的 3 个区(专用网络区、公共网络区、互联网接入区)之间是通过MPLS VPN 相关隔离,为了实现云计算平台对 3 个区的统一管理,我们建议将宿主机的管理口 (统一设置宿主机上某一个单独物理网卡用于云计算管理平台对虚拟机的管理通讯) 进行统一 VLAN 规划, 通过此方式可以实现不同分区的虚拟机在同一个资源组中迁移和统一管理。
云资源管理平台主要由以下两个模块组成:云资源管理系统云计算服务 Portal。
图 13:云资源管理功能模块图
4.3.1.1. 云资源管理系统
云资源管理系统其通过虚拟化技术和基于策略的自动化管理技术, 构成虚拟化资源池,实现对物理资源、虚拟资源的统一管理和分配。云资源管理系统架构需要实现功能:
1、设备管理
提供对物理设备的接入和管理功能, 包括设备发现展示、 配置部署、 告警上报等。
2、虚拟适配层
提供对不同虚拟层 (VMM) 的适配、 集成能力, 如 VMware、 Xen、 KVM、 Hyper-V等,对上层屏蔽不同虚拟层差异,提供统一的虚拟化管理接口。
3、云适配层
提供对不同云资源的适应能力,实现公有云和私有云资源的统一管理能力。
4、虚拟化资源池管理
实现计算、存储和网络的虚拟化和资源统一管理。
5、资源池调度
提供资源动态分配,动态耗能管理、调度策略管理、资源池高可用性和备份恢复等功能。
6、资源池服务
对外提供基础资源池服务能力,如动态伸缩、负载均衡等。
7、对外接口
对外提供标准的接口和能力,供上层业务或解决方案集成。
8、管理系统
运资源池的统一管理维护功能,如用户管理、日志管理、告警和性能监控。
其功能特性:
1、资源池统一管理和高效利用
◆ 物理机、虚拟机统一管理和调度
采用虚拟计划技术、分布式计算和存储等技术,实现资源的池化管理。云计算平台管理系统不仅能管理虚拟机,也能管理物理机,各种资源通过统一的对外接口进行管理和调度。
图 14:资源池管理示意图 1
图 15:资源池管理示意图 2
◼ 动态节能
云计算平台管理系统通过对业务忙闲交错和峰谷交错的特点分析,通过将闲的、处于低谷的业务进行迁移,从而清理出一些机器将其关闭,达到节能的效果。
图 16:资源池管理示意图 3
2、自动化部署能力
◼ 物理设备自动发现,即插即用
物理设备从接入资源池到纳入资源池统一管理的过程自动化实现, 将需要人工干预的工作降至最低。
图 17:自动化部署示意图 1
◼ 系统软件和业务软件自动安装部署能力
支持系统软件和业务的自动安装部署,包括部署设计、执行,软件源管理,镜像创建,镜像生命周期管理等。流程化的部署计划,支持部署模块和快速部署能力。
在业务部署过程中,支持业务各网元亲和关系定义,避免将具有 1+1、N+1 等关系的网元部署在相同的物理设备上,进一步实现业务的高可靠部署。
图 18:自动化部署示意图 2
◼ 开放的接口和二次开发能力
云计算平台管理系统的自动部署功能提供开放的二次开发接口,业务系统可以基于该接口制作符合业务要求的软件源和安装脚本,实现业务自动部署。
3、资源池高可用性
◼ 虚拟机故障迁移
当监控到某台虚拟机宕机时,自动将其迁移其它到其它物理机上重新拉起。
◼ 物理机故障迁移
当整台物理机宕机时, 自动将其上所有虚拟机迁移到其它借用的物理主机上重新拉起。
图 19:资源池高可用性示意图
◼ 灵活的备份恢复
云计算平台管理系统提供虚拟机备份策略的灵活定制功能,包括:
a) 备份范围:全备份(VM 完整备份) 、增量备份(仅备份上次备份以来发生变化的数据)
b) 备份周期:每天、每周、每月
c) 备份保存时间可配置
4、基于业务的只能管控能力和接口
自动化的资源调度,实现资源的自组织、自管理,减少人工干预。通过采集业务运行数据,基于一定的分析模型和算法,建立业务运行特性模型,从多个维度对业务运行情况进行分析和监控。采集的数据同时作为后续业务调度基础,实现资源只能调度。
资源池对业务开放标准的接口和能力, 业务可以基于资源能力定制业务管理和调度策略。
5、高性能、高安全
通过存储大内存 Cache 技术、高性能分布式存储算法、QoS 保证等满足业务系统的高性能要求。
通过网络隔离、系统加固、漏洞检测、数据加密、用户认证鉴权等满足业务系统的高安全性要求。
4.3.1.2. 云资源服务门户
云资源服务门户 Portal 是一套向内部虚拟化系统的自动化管理系统, 覆盖虚拟机部署、审批、运行、回收整个流程。提供了易于使用的 Web 界面可实现依照策略自动化部署虚拟机(VM) ,简化虚拟机请求和审批流程,跟踪和控制虚拟机,其运营流程如下图所示。
图 20:运营流程图
其管理角色和功能应具备包括如下方面:
1) 门户角色及功能简介
◇ 用户角色
图 21:CCP 用户流程
a) 登录 Web 页面,请求虚拟机(可批量)并确定请求状态。
b) 查询所属的虚拟机,并进行基本控制(包括开机、关机、远程控制、监控性能等)。
c) 提交虚拟机服务器的扩容(如 CPU、内存、磁盘)申请并确定请求状态。
◇ 管理员角色
图 22:管理员视图
a) 查看用户请求(包括新增虚拟机/变更虚拟机性能)的详细信息,并决定是接受还是拒绝请求。
b) 管理账号(可以便捷的增加用户和管理员的账号信息) 。
c) 查看任一虚拟机运行状态
d) 查询日志和维护其他配置。
2) 云资源使用流程简介
◇ 虚拟资源申请流程
图 23:资源变更流程图
下面以某一省直公司,如水利厅申请台风预测预报系统上线,结合云计算业务运营流程如下:
最终用户(水利厅)在云计算平台上申请虚拟资源,虚拟资源包括:虚拟机配置及虚拟机数量;数据库类型及数据库存储空间大小、网络互联要求。申请提交后进入云计算运营平台审批流程,由发改委经信中心对最终用户(水利厅)提出资源申请进行审核。确认云计算平台满足所提需求后通过审批,由云计算平台执行自动部署生成用户所需业务系统基础架构,业务系统基础架构包括虚拟机及操作系统环境、网络互联环境、数据库环境 。自动部署完成后,系统自动通过邮件或短信等其他方式通知最终用户(水利厅) 。最终用户(水利厅)通过用户自助门户登录虚拟机进行业务系统部署、测试,直至业务系统(台风预测预报系统)上线的所有工作。
4.3.2. 云运营管理平台建设方案
运营管理是云计算服务提供的关键环节, 任何一项业务的成功开展都离不开运营管理系统的支撑。
云计算运营管理平台的设计应遵循了如下的原则,即:立足现有应用和业务发展需求,兼顾未来的应用扩展,采用分层次、冗余、分布式的软、硬件体系结构以保证系统安全、可靠、现金、易扩充性。运营管理平台采用分布式、模块化结构,具有良好的可扩展性和集成性,应包含如下模块:业务管理模块、运营管理模块、业务运营门户。
其系统架构设计如下:
图 24:云管理平台系统架构图
4.3.2.1. 业务管理模块
系统采用以服务为基础,以产品类别为核心的业务管理模式:一个业务包括多个服务、产品或者套餐;一个产品由多个服务组成;服务有各自的服务类别;套餐由产品组成;提供给用户={产品,服务,套餐} 。
⚫ 支持添加、修改、删除服务:包括服务的名称,描述;
⚫ 支持添加、修改、删除服务级别:包括服务级别的名称,描述状态等信息;
⚫ 支持添加、修改、删除产品:选择相关的服务组合成为先的产品及其它的查询等管理功能;
具体框架设计逻辑图如下图所示:
图 25:框架设计逻辑图
针对运业务实际情况,可以参考定义如下运营产品:
1)虚拟主机出租
各业务系统使用者依照系统对设备的需求,进行订购所需配置的虚拟机,并能通过互联网访问&使用订购的虚拟机,依照实际资源使用情况付费,使用者不需要对虚拟机进行日常维护,从而大幅度减低采购成本和维护成本和运营时成本。鉴于本项目资源供省直部门免费使用 10 年, 有关计费部分暂无实际付费的要求, 仅作统计参考,下同,不另赘述。
可以以内部结算的方案,以租用虚拟机的时间进行收费,建议支持三种形式:
2)在线存储
各业务系统使用者可以依照自身的业务需求,进行订购存储空间。通过 Web 方式将文件批量上传、下载文件。
使用者还可以在线对 microsoft office 系列文档进行编辑, 在线播放音频文件视频文件,在线预览图片。使用者可以在线维护管理存储空间。
以租用在线存储空间的时间进行计费,建议支持三种形式:
3)在线备份
云计算平台还可提供数据在线备份功能, 对于不在云中心运行的系统进行远程在线备份。
各业务系统使用者将需要备份的数据依照客户定义的策略自动传输到远程云存储空间中。但灾难发生了,使用者可以从远程云存储空间中将指定备份时间点的备份数据下载到本地或者业务服务器进行还原恢复。
以租用在线备份空间的时间进行计费,建议以下三种形式:
4.3.2.2. 运营管理模块
运营管理模块的功能应包括客户的基本信息管理,客户的订购关系管理(包括客户的计费管理) ,机房维护及 OA 管理,工单流程管理,统计与查询管理,系统管理等。各模块功能介绍如下:
⚫ 客户管理(客户/业务/合同/账户) :为支持用户全年的财务管理需求,引入账户合同。以业务为中心,客户、账户和合同为基础的资料管理完全满足了用户对业务信息查询,更新等的需求。
⚫ 业务管理:以客户订购关系为核心,直观呈现客户的订购业务及业务所对应的资源的关系,与此同时,还对客户所订购业务的计费信息做处理,帮助管理人员从全局把握云计算平台的运营情况,辅助决策者及时制定新的工作重点与发展方向。
⚫ 机房维护及 OA 管理:为了更好的维护机房,本模块提供了对机房的出入、巡检、值班等的管理, 同时为了更好地让相关的业务部门, 运维部门更高效地开展工作,本模块提供了对云计算平台相关部门间的通讯录管理,会议管理,公告管理,考勤管理,资料管理等。
⚫ 工单流程管理:工单是驱动云计算平台业务部门和运维部分协同工作的根本,本模块提供了业务预受理、业务变更、施工、问题咨询、故障处理等不同的工单类型来满足业务的开展需要。
⚫ 统计与查询管理:提供丰富的报表模板,可以生成各种业务报表;提供无限制的信息访问能力,结合信息采集,形成从业务到运营,从管理到服务的各类报表。提供丰富的查询方法,便于客户、业务员、管理人员和运营人员全面了解的业务和资源运行情况;
⚫ 系统管理 (权限/配置/日志) :系统提供详尽的日志记录, 记录了所有的用户操作,设置登录,推出系统的信息。
1) 客户管理
客户信息是云计算平台重要的财富。基于“三户“的设计原则,我们提供了对客户基本信息(客户) 、客户的联系人(用户) ,客户的银行账户(账户)等信息的管理,在此基础上,还整合提供了客户的合同,客户订购的业务,客户占用的资源,客户的计费信息,客户的各类工单信息等。
客户信息管理具体功能应包括:
⚫ 添加、修改客户信息;
⚫ 设定客户联系人;
⚫ 设定客户地址;
⚫ 设定客户的代理商;
⚫ 为客户添加业务;
⚫ 查看客户的业务信息;
⚫ 添加、修改合同信息;
⚫ 查看合同的业务和账户信息;
⚫ 添加、修改账户信息;
⚫ 查看账户的合同和联系人信息;
⚫ 添加代理商信息;
⚫ 查看代理商的客户信息;
⚫ 同时,系统还提供了客户业务的查询统计,具体包括:
⚫ 客户数量统计;
⚫ 客户数量变化统计;
⚫ 业务数量统计。
2) 业务管理
云计算平台运营的主要是各类资源,资源包装为服务、产品和套餐之后再打包提供给客户,对云计算平台运营来说,客户的订购关系就是业务管理的核心。
本系统通过业务发展点的概念,提供了无缝的业务扩展模式。从全省的角度来看,业务发展点可以理解为云计算平台在不同的地区设置的业务开展的窗口;各业务发展点业务开展,受上级业务发展点和顶级业务发展点的共同指导;支持代理模式/营业厅开展业务。如下图所示:
图 26:用户关系图
本模块还应提供了对客户订购业务的计费管理,系统全面引入帐务管理功能,在资料上通过完善的数据保障帐务功能的实现,以产品 一服务一服务级别一帐目这样的关系保障费率定义的灵活。
系统的业务基础是服务,每种服务具有不同的帐目类型。系统提供四种帐目类型:系统帐目类型,一次性帐目类型,租费帐目类型和使用费帐目类型。用户可以针对服务的不同级别定义不同的费率,配合帐务周期的定义,全面支持帐务管理。
3)机房维护及 OA 管理
为了更好地维护云计算平台机房,同时为了更好地让相关的业务部门,运维部门更高效地开展工作,系统应提供值班管理、出入管理、会议管理、通信录管理、文档管理及公告管理、巡检管理、密码管理等功能。
4)工单流程管理
对业务流程的管理是业务管理系统的核心。通过流程管理, 系统 将其他的功能模块有机的结合起来,实现对云计算平台日常的运行维护的集成化管理。
下图说明了在云计算平台的各业务流程中参与用户与流程之间 的关系:
图 27:工单流程图
借助工作流(电子工单)用户可以有效的联系各个部门,快速、 高效的完成客户的业务请求。系统根据业务流程管理的实际需求,建立了满足绝大多数用户业务开展的,简洁,可靠,易用的工作流模型。
5)统计与查询管理
● 设备使用情况统计:包括设备总数,设备空闲数,设备使用情 况明细等,用户可以一目了然掌握资源使用情况;
●高速,快捷的查询功能;
●用户可以通过客户名称或者 IP 查询到客户业务资源使用情 况, 迅速定位客户的设备位置,配置等。
6) 系统管理
对于不同的层次设置不同的用户角色,对于云计算业务管理机构来说有以下角色:
管理员:负责在系统中处理所有与商务相关的操作,包括设置费 率、创建用户等。管理员相当于操作系统系统中的超级用户,一般用 于实施系统和紧急维护时使用,在日常工作中不推荐使用。
业务员:负责推广和销售云计算平台平台,发展和维护客户云计算平台负责人:可以查看运维、销售和财务的所有信息。负责对业务员的绩效考核。
财务人员:负责核对业务销售金额、财务登帐、收费、销帐等财务相关操作。
机房运营人员:负责实现所有业务和业务运维。
运维负责人:负责查看和监视运维任务的执行,当业务流程中断 时可以重新指定运维业务执行人。
普通用户(使用者):可以模拟用户查看服务信息。
4.3.2.3. 业务运营门户
云计算平台运营门户是为客户提供统一服务的在线平台,在此平台上,可以进行各类服务的在线自服务,以及所订购业务的在线监控。为客户提供一个统一的在线的服务体验。具体的功能介绍如下:
1) 产品及增值服务订购
云计算平台的产品主要可分为基础产品和增值产品,结合在线的 门户,可以进行一些适合在线运营的产品的在线订购,通过在线的业务预受理,客户申请相关产品后将自动通过工单系统流转给相应的客户经理进行处理业务审核处理。
2)在线服务支持
本模块主要为客户(使用者)提供各类服务的在线支持,如问题 咨询,进出机房申请,报障,服务预约,管理员公告等。
3)业务在线监控
业务在线监控模块主要提供给客户监控自己所订购业务对对应的各类资源的运行情况及统计分析,包括基本信息,进程、存储、流量等等。此模块支持对各类增值服务在线监控的扩展,如^^扫描, 安全设备日志分析,机柜视频监控,温湿度监控等。
4.4. 云计算安全防护方案
4.4.1. 云计算平台安全威胁
在云计算平台的建设上,云安全成为了众人关注的焦点,也是企业部署云技术时候最关心的问题。要解决安全问题,应该先正确的认识其安全威胁。
1、传统的安全边界消失
基于边界的安全隔离与访问控制是传统安全防护的重要原则,很 大程度上依赖于各区域之间明显清晰的区域边界, 强调的是针对不同 的安全区域设置有差异化的安全防护策略;在云计算环境下,基础网络架构统一化,存储和计算资源高度整合,传统的安全设备部署边界正逐步消失,云计算环境下的安全部署需寻找新的模式。
2、虚拟化服务的安全问题
“计算机科学中的任何问题都可以通过增加一层映射而解决”,按照这种思路,当前计算机系统的许多问题可以通过计算机系统的虚拟化而解决。同时,虚拟化作为云计算平台的关键技术,基于存储资源和服务器资源的高度整合,其自身的可扩展性能够极大地拓展基础设施和软件平台层面提供云服务的能力。在这种情况下,如何应对云计算平台基础网络架构、数据存储和应用服务的虚拟化交付,对安全设备的设计构建和安装部署提出了更高的技术要求,也成为云计算环境下信息安全建设所关注的重点。
3、数据集中后的安全问题
一是传统的网络中各种应用服务的标准流量和突发流量有迹可循,流量模型设计相对较为规范、简单,对安全设备的处理能力没有太高的要求。而在云计算环境下,同类型存储或者应用服务器的规模增长迅猛,动辄以万为公司进行扩展,并且不能分而治之,必须依托统一架构的基础网络来承载。与传统网络环境相比,这就对安全设备本身的性能指标提出了更高的要求。二是用户的数据存储、处理、网络传输等都与云计算系统有关。如何避免多用户共存带来的潜在风险;如何保证云服务的身份鉴别、认证管理和访问控制等安全机制符合用户的需求,并能够实施有效的安全审计,这些都成为云计算环境所面临的安全挑战。
4、稳定性和可靠性问题
一是云计算环境下,用户的数据和业务应用流程等均依赖于云计算所提供的虚拟化服务,这必然对云计算服务的稳定性、安全策略部署、容灾恢复能力和事件处理审计等提出了更高更进一步的需求。二是用户、信息资源的高度集中,相对传统的网络平台更加容易成为网络攻击的目标,因各类恶意代码、黑客程序、病毒木马等工具造成的破坏程度将会呈指数级上升。
4.4.2. 云计算平台安全防护目标
为确保 XX 公司 XX 信息的机密性、完整性、可用性、可控性与可审查性,本项目通过部署安全系统,投入技术力量,加强网络安全管理,达到如下目标:
一一合理管理和分配网络资源,防止滥用网络资源导致网络瘫痪;
一一抵御病毒、恶意代码等对信息系统发起的恶意破坏和攻击,保障网络系统硬件、软件稳定运行;
一一保护重要数据的存储与传输安全,防止和防范数据被篡改,建立数据备份机制和提高容灾能力;
一一加强对重要敏感数据信息的保护,确保数据的机密性;
一一构建统一的安全管理与监控机制,统一配置、调控整个网络 多层面、分布式的安全问题,提高安全预警能力,加强安全应急事件 的处理能力,实现网络与信息安全的可控性;
一一建立认证体系保障网络行为的真实可信以及可审查性,并建 立基于角色的访问控制机制。
4.4.3. 云计算平台安全架构
IaaS 是所有云服务的基础, PaaS 建立在 IaaS 之上, 而 SaaS 又建立在 PaaS之上;在不同云服务模型中,提供商和用户的安全职责有着很大的不同。具体来说,IaaS 提供商负责解决物理安全、 环境安全和虚拟化安全这些安全控制, 而用户则负责与 IT 系统(事件〉 相关的安全控制、包括操作系统、应用和数据;PaaS 提供商负责物理安全、环境安全、虚拟化安全和操作系统等的安全,而用户则负责应用和数据的安全;SaaS 提供商不仅负责物理和环境安全,还必须解决基础设施、应用和数据相关的安全控制。
本项目重点建设 XXIaaS 层云服务。层安全,主要包 括物理与环境安全、主机安全、网络安全、虚拟化安全、接口安全、 数据安全、加密和密钥管理、身份识别和访问控制、安全事件管理、 业务连续性等。
4.4.4. IaaS 层安全
4.4.4.1. 物理与环境安全
1)机房环境安全
物理与环境安全,是指保护云计算平台免遭地震、水灾、火灾等 事故以及人为行为导致的破坏。主要措施包括物理位置的正确选择、 物理访问控制、防盗窃和防破坏、防雷、防火、防静电、防尘、防电 磁干扰等。
XX 云计算平台建设在 XX 公司信息中心机房,机房、 电源、监控等场地设施和周围环境及消防安全,严格按照国家相关标 准,并满足政务网 24 小时不间断运行的要求进行设计建设。
其具体安全措施符合了 9361-1988 和 2887-1989 的规定。
2)物理线路安全
◇通信线路安全
通信线路是实现数据传输的物理线路,包括网线、光纤等。应符 合以下要求:
通信线路采用铺设或租用专线方式建设;
通信线路应远离强电磁场辐射源,埋于地下或釆用金属套管;
定期测试信号强度, 以确定是否有非法装置接入线路;特别是在线路附近有新的网络架设、电磁企业开工时,应该请专业机构负责检 测;
定期检查接线盒及其他易被人接近的线路部位,防止非法接入或 干扰。
◇骨干线路冗余防护
骨干线路冗余防护应符合以下要求:
骨干线路或重要的节点与省 XX 网相连,应有冗余线路和环 形路由措施;
骨干线路的网络设备应有冗余电源配置,保障线路正常运转;
省级重要部门重要业务系统所属的相关线路,应建立冗余或环形 路由措施;
◇核心设备防雷击措施
通信线路骨干线路和核心设备,应该具备防雷击的措施。
4.4.4.2. 主机安全
云计算平台的主机包括物理服务器、虚拟机,以及安全设备在内 的所有计算机设备,主要指它们在操作系统和数据库系统层面的安 全。主机安全问题主要包括操作系统本身缺陷所带来的不安全因素, 包括身份认证、访问控制、系统漏洞等,操作系统的安全配置问题、 病毒对操作系统的威胁等。
主机安全,要求做到身份鉴别、访问控制、安全审计、入侵防御、 恶意代码控制、资源控制等,主要釆取的措施和技术手段包括身份认 证、主机安全审计、主机入侵防御、主机防病毒系统等。
1)漏洞管理
漏洞管理是一个重要的威胁管理内容,云服务引入漏洞管理的主 要目的是帮助保护主机、网络设备,以及应用程序不受已知漏洞的攻击。
漏洞管理需要先明确漏洞的定义。在这里,漏洞分为两种情况, 一是指主机、网络设备、应用程序等存在的已知的问题;二是指人为导致的问题,例如安装了有潜在风险的应用或者进行了有潜在风险的配置。这些问题都会由于没有及时安装最新的补丁或者没有釆用其它手段解决而成为整个系统中的潜在安全隐患。
而针对漏洞的管理则是指在最短的时间内发现漏洞并设法解决, 并形成一套可重复的成熟流程,同时需要对该套流程的所有内容进行 记录、生成最终报告。所以针对漏洞的管理可以分为两部分内容:漏洞的扫描和漏洞的解决。
XX 云计算平台通过行业主流漏洞管理软件实现漏洞扫描与安全处理。
(1)漏洞的扫描:
对于设备现状的准确收集以及展现,是设备管理的重要方面,只有准确了解设备状况,才能了解到现存的漏洞(包括有可能的配置失 误、错误、应用性能瓶颈、应用功能缺失等),并根据运维釆集的性能趋势数据,了解到潜在的问题及漏洞。
通过硬件配置的记录,再准确制定出硬件配置的维护、修复计划, 可以清晰地帮助 17 管理员掌握全面的服务器硬件资产信息及后续的 行动计划。
此外,对于服务器目前的软件配置及漏洞状况,同样需要管理员 通过自动化手段进行自动记录和统计。以便于管理员了解主机的具体 应用部署及漏洞情况,清晰的了解软件目前的状态及其影响。
(2)漏洞的解决:
通过安装补丁:通过更新系统中的宿主机、虚拟机、客户端计算 机的操作系统的系统服务包(Service Pack)、补丁等。
通过手动修复:通过统一安全管理平台向所有计算机中分发并启 动控制脚本,从而实现更多的内容的控制。包括修复计算机配置或者用户配置、 删除有潜在漏洞的文件、文档。
后续阶段,在统一安全管理平台上,管理员可以看到每台计算机 的补丁安装状况,也可以通过报表了解平台内部所有补丁安装状况。
2)病毒防护
本方案中 XX 云计算平台集中部署网络型防病毒设备,包括 防病毒网关、防病毒软件,过滤蠕虫、病毒、恶意代码等,防止对网 络造成影响。并统一实现病毒定义库的实时升级, 可以通过升级防病毒服务器, 实现数据中心全网防病毒软件的升级。
病毒防护提供以下功能:
防病毒软件的部署由点及面,全方位进行部署,彻底截断病毒入 侵的途径;
开启实时检测,保护在病毒入侵时可以随时发现并清除;
定期进行病毒库升级,在重大病毒事件时,做到手工立即升级, 保障系统防病毒软件的病毒库是最新的;
定期进行服务器和 PC 全磁盘查杀病毒,保障系统中不存在病毒;
建立病毒防范的日常管理机制和审查机制;
一旦发现病毒立即杀灭, 并通过病毒防护系统的多级结构上报主 管领导或上级主管部门;
对于染毒次数、杀毒次数、杀毒后果进行详细记录。
3)补丁管理
未能及时安装操作系统补丁给主机带来诸多安全隐含, 然后补丁 的更新频繁通过人工为每个主机安装系统补丁,不仅仅耗时耗力,也容易造成人为操作失误导致更大的灾难。为了能够更加便捷,更加快 速而且完整的对操作系统补丁进行修补,管理员需要一套专门的补丁修补工具;为了能够更加清晰地了解补丁修补的情况,管理员需要一套专门的补丁报告报表。
XX 配备了独立的补丁管理软件,补丁管理软件提供以下功能:
自动为客户端安装补丁程序, 减轻管理员的工作负担提高补丁程 序的安装效率(系统管理员不用到每台计算机上去安装补丁程序,就能完成远端计算机的补丁安装);
支持基于策略和目标的补丁分发 (可以将补丁只发给指定的用户 群, 便于用户按照部门之间不同的安全级别进行补丁修补);
补丁可用性测试,减少补丁对应用的影响:一些补丁程序可能会导致系统或者应用程序的不稳定,所以管理员需要在安装前进行测试。补丁管理可以先建立一个小规模的集合或者组,然后进行测试,通过小范围测试提前发现这些补丁程序可能对系统或者应用程序造成的影响;
如果忘记了补丁可用性测试,万一因为安装补丁程序,使系统瘫痪(系统崩溃)或应用程序不能正常工作,通过和备份方案的整合能实现系统和应用尽快的恢复;
支持多种非 Window 操作系统;
能够生成详细的补丁更新和分发的详细报表。
4)数据库审计系统
数据库系统及其数据是系统中的核心资产,应用系统操作的本质是基于数据库的操作,数据库系统的安全性受到各公司日益重视。面对目前数据库和应用系统在逻辑和技术上层出不穷的安全漏 洞,以及管理层制定的监督管理制度缺乏有效执行保障的现状,XX 云计算平台将建立完善的数据库安全审计平台,从根本上杜绝任何技术手段或违规操作对数据的非法获取和篡改。数据库安全审计系统通过监听方式,实时第三方获取、保留网络中所有数据库客户端和服务器间的用户对数据库系统的访问操作,对各种违规行为或高危行为进行综合审计,并以通知、报表形式提交给安全管理人员,真正实现对数据库资源的有效管理。
数据库系统主要存在以下几种安全风险,缺乏监控手段和追查依据。
(1)非授权访问数据库
内部或外部用户绕过表现层、应用层(中间处理层),对数据服务层进行非授权的直接访问,如直接非法获取数据库数据。
绝大多数应用系统(包括 C/S 应用及内部 C/S 系统)都没有考虑 到因为管理、应用层或数据库漏洞导致黑客或者内部非授权用户非法访问数据库的巨大风险,这是架设防火墙也无法解决的问题。管理员无法主动发现数据库里的机密信息是否已被泄露。
(2)非法修改和删除数据库数据
如发生绕过应用系统,直接对数据库应用系统数据进行非法修改 和删除,破坏关键应用数据,将导致业务的疏漏、混乱、停顿甚至直接造成机密信息泄露,甚至导致直接经济损失。
(3)非授权调整数据库配置
数据库系统的合理配置是保证数据库正常运行的基本条件,如发 生管理员或入侵者非授权调整数据库配置,造成数据库系统异常,审计系统应提供有效的配置操作记录。
(4)异常数据库权限管理
正常运行的应用系统极少需要进行数据库用户权限调整,入侵者 可通过赋予普通用户特殊的权限来建立系统的后门。
(5)数据库敏感数据访问跟踪
非正常用途情况下对数据库中的特定敏感数据如客户资料、政务 内部文件等数据访问。
XX 云计算平台除了通过身份认证系统提供的用户身份认 证、 用户访问权限控制外,还为数据库配置数据库审计系统,有效应 对上面数据库安全风险。
5)运维安全审计系统
信息系统中的安全事件 80%发生在公司内部,而公司内部管理人员通过 SSH、RDP、VNC 等加密协议的远程管理工具进行的网络操作行为缺乏有效的规范和行为审计,出现安全事故的没有追查依据;
第三方运维服务公司的技术人员所有的运维操作(包括使用远程 管理工具、数据库远程维护)缺乏统一的管理和有效的监督以及事后 审计的依据;
对高敏感度的数据库、服务器的管理,高危的、异常的操作行为进行实时的、有效的阻断及告警,保护重要的信息系统数据不被破坏;
XX 云计算平台通过部署集中运维审计系统,统一规范内部 运维管理行为,预防、及时阻断异常,定位安全事故,为恢复系统和追查责任提供原始依据。所有登录云计算平台进行业务系统维护的操作都应该通过运维安全审计系统。运维安全审计系统可以对所有操作进行实时记录,包括 SSH/Telnet 等字符界面,或 VNC/RDP 等图形化操作界面。对违规操作进行实时拦截,并提供审计日志供事后核实。运维审计系统的部署架构图如下所示:
图 28:运维审计系统部署架构图
应用安全审计提供以下功能:
身份认证审核,结合本工程购买身份认证系统,实现基于真实用户身份的多因素身份认证;
对数据、文件的删除和修改等行为监控;
系统管理员、系统安全员、审计员和一般用户所实施的操作监控; 其他与系统安全有关的事件或专门定义的可审计事件;
对于每一个事件,其审计记录包括:事件的日期和时间、用户、 事件类型、事件是否成功,及其他与审计相关的信息;
日志信息可转存或备份到存储设备;
对审计数据进行报表分析功能,包括分类排序、筛选、趋势分析;
应用系统可基于特定异常事件进行审计分析;
应用软件应支持将日志事件以某种通用格式输出,作为集中审计的输入。
4.4.4.3. 网络安全
在网络安全方面,主要做到以下几个方面的安全防护,包括网络 架构安全、网络访问控制、网络安全审计、边界完整性检查、网络入 侵防御、网络设备防护。可釆取的主要安全措施和技术包括防火墙、 IPS、网络安全审计系统、防病毒、防病毒网关、强身份认证等。
此处, 特别值得提出的是, 拒绝服务攻击对云计算来说, 其风险是非常凸显的。
拒绝服务攻击 DoS 和 Ddos 不是云服务所特有的。但是,在云服务的技术环境中,企业中的关键核心数据、服务来开了企业网,企业到云服务中心。更多的应用和集成业务开始依靠互联网。解决服务带来的后果和破坏,将会明显地超过传统的企业网络环境。因此,必须釆取相应的抗拒绝服务攻击技术措施,以保障云计算平台的正常工作。
1)安全域划分
针对网络内部不同的业务部门及应用系统安全需求,对其进行安 全域划分,并按照这些安全功能需求设计和实现相应的安全隔离与保护措施。
安全区域的划分主要规定了各个安全区域的重要级别和重点防护对象, 同时将各区域之间的安全边界严格制定。XXXX 安全域划分可以釆用分层次的区域划分,
从 XX 网络可以划分为:
公用网络区:釆用国家 XX 公用地址(即从 CNNIC 注册的地址)的网络区域,是国家 XX 的主干道,实现各部门、各地区互联互通,为跨地区、跨部门的业务应用提供支撑平台。
互联网接入区:是各级政务部门通过逻辑隔离手段安全接入互联网的网络区域,满足各级政务部门公共服务业务应用的需要。
专用网络区:是依托国家 XX 基础设施, 为有特定需求的部门或业务设置的 VPN网络区域,实现不同部门或不同业务之间的相互隔离,VPN 网络区域主要为少数部门的特定业务数据传输提供安全通道。
公众服务区、 互联网接入骨干网区和互联网用户接入区之间需要通过防火墙进行逻辑隔离。
考虑到某些业务系统需要跨公用网络区和互联网接入区部署, 也有些需要跨专用网络区和互联网接入区部署,为了保证安全,需要进行逻辑隔离,在公用网络区和互联网接入区间部署一个网闸,同时在专用网络区和互联网接入区也部署一个网闸。
2)防火墙
XX云计算平台在互联网接入层和数据及中心汇聚层分别部署了高性能防火墙。
启动 0003 防御功能,保护网络或者主机系统, 可对大流量 DDOS 攻击给予拦截,保证云平台出口网络的带宽,保障云平台向客户提供承诺的网络带宽业务。
在汇聚层部署防火墙设备,将不同安全区进行有效的隔离, 只允许应用端口通过,并对通过的流量进行检测,确保各区域服务器、应用的安全。不同区域的安全级别通过 0〜100 的数字表示,数字越大表示安全级别越高。只有当数据在分属于两个不同安全级别的区域(或区域包含的接口)之间流动的时候, 才会激活防火墙的安全规则检查功能。数据在属于同一个安全区域的不同接口间流动时不会引起任何检查。
通过汇聚层防火墙实现对可同一网络区中不同业务系统的安全隔离。
3)安全隔离网闸
隔离网闸作为新一代网络安全产品,部署在可信网络和不可信网络之间,连接两个网络并控制网络间的信息交换。隔离网闸通过专用硬件在可信网络与不可信网络间实现物理隔断,可以防止各种基于网络层和操作系统层的攻击,并通过基于硬件设计的反射 GAP 系统,实现在线高速实时的数据传输。还具备强大的协议终止、协议检查、内容审查等功能,可确保可信网络不受攻击,并保护网络间资源、信息和数据交换的安全进行。
XX 云计算平台部署安全隔离网闸用于在 MPLS VPN 隔离的不同网络区域之间进行安全数据交换,也可以用于 XX 和 XX 之间的数据安全交换。安全隔离网闸技术
要点:
4)入侵防御系统
防火墙的功能侧重在于边界划分, 边界互访策略的制定, 安全控制的颗粒度较大,随着来自互联冈动态的、有害的攻击譬如 DDOS 病毒、特洛伊木马、蠕虫等已经不能通过防火墙的方式譬如 UDP 端口或者 TCP 端口的限制来防护, 因此我们建议在云计算平台的核心交换机和防火墙之间配置专用的入侵防御系统 IPS。
考虑到政府应用的高可用性,IPS 的阻断功能平常不启用,在特殊情况时可以启用。
5) VPN 网关
本工程新增 VPN 网关 2 台。远程安全接入网关(VPN)主要实现远程用户接入认证、数据加密和传输安全。VPN 通过提供 IPsec/SSL 等方式进行用户认证和加密。用户认证管理系统结合第三方双因素身份认证系统。
VPN 网关的部署同时满足政务办公用户和政务移动用户 VPN 接入需要, 以及解决零散分布的用户在异地访问 XX,并提供了身份验证、授权的功能。在移动用户侧通过安装客户端软件,直接发起 VPN 连接请求,VPN 网关上对这些移动用户进行分组,并结合 VPN 网关 VPE 功能,使移动用户认证通过后,可以按不同的身份分别登录到不同的 MPLS VPN 内部。VPN 网关部署示意图如下所示:
图 28: VPN 网关部署示意图
用户 VPN 接入流程如下图所示:
图 29:用户 VPN 接入流程
对于出差在外的领导和公务员可通过安全认证网关设备, 启用虚拟专用网(VPN)技术访问 XX 云计算平台上的部分资源。虚拟专用网(VPN)技术的实现包括:
提供灵活的 VPN 网络组建方式,支持 IPSecVPN+SSL VPN 方式,保证系统的兼容性;
支持多种认证方式:支持用户名+口令、证书、USB+证书+口令等多因素身份认证方式;
支持隧道传输保障技术,可以穿越网络和防火墙;
支持网络层以上的 B/S 和 C/S 应用;
能够为用户分配专用网络上的地址并确保地址的安全性;
对通过互联网络传递的数据经过加密, 确保网络其他未授权的用户无法读取该信息。
6) VLAN 隔离
包括基于端口VLAN以及基于TAG的VLAN都在所有IT架构系统中被广泛使用。
XX 云计算平通过 VLAN 隔离不同服务区内不同业务系统的二层网络。对于用于虚拟机管理使用的网络,包括专用网络区、公共网络区、互联网接入区内不同业务系统都需要划分独立的 VLAN。
本方案使用虚拟化平台,通过在虚拟交换机上对不同虚拟机划分 VLAN,在动态迁移过程中,VLAN ID 会随虚拟机一同迁移,从基础网络上保证虚拟机迁移过程的透明化。
4.4.4.4. 虚拟化安全
虚拟化技术在物理硬件与运行 IT 服务的虚拟系统之间引入了一个抽象层,并通过整合服务器以及提高操作效率和灵活性,实现了一种节约成本的有效方式。然而,对于所运行的虚拟服务而言, 新增功能引入的虚拟化层本身却是一个潜在的攻击入侵通道。由于一个主机系统能够容纳多个虚拟机, 因此, 主机的安全性就变得尤为重要。
系统上的任何安全漏洞对环境所造成的影响都会比以往更大。
由于 VMware 基于一个已针对虚拟化进行优化处理的轻量级内核,因此,较一般的操作系统而言,它不易受病毒和其他问题的影响。尽管如此,虚拟化层并非是坚不可摧的,当采取适当措施加强虚拟化层的安全性,以防恶意操作或无意破坏。下面提供了四种增加虚拟化平台安全的措施:
1)像保护物理机那样保护虚拟机
运行在虚拟机中的客户操作系统也存在与物理系统相同的安全风险。虚拟化无法消除这样的风险。不过,对单个虚拟机的攻击只会危及该虚拟机自身的安全,而不会危害到运行该虚拟机的虚拟化服务器。因此,关键在于对虚拟机采取与物理服务器相同的安全保护措施。安装通常安装于物理服务器上的防病毒代理、间谍软件过滤器、入侵防御系统以及其他所有安全工具。确保随耐更新所有的安全工具,包括应用适当的修补程序。
2)利用模板增加虚拟机安全
通过在模板中获取加强了安全性的基本操作系统映像(未安装任何应用程序) ,可以确保创建的所有虚拟机都具有己知基准级别的安全性。随后便可以使用该模板创建其他特定于应用程序的模板,也可以使用应用程序模板部署虚拟机。确保随时更新模板中的修补程序和安全工具。
3)防止虚拟机抢占资源
虚拟化平台能够精确控制主机资源的分配。通过使用云平台的资源管理功能,如份额和限制,您可以控制虚拟机所消耗的服务器资源,因此,受到攻击的虚拟机不会对在同一台物理主机运行上的其他虚拟机造成影响。可以利用这一机制来抵御拒绝服务攻击,此攻击会导致被入侵的虚拟机消耗大量的主机资源,致使同一台主机上的其他虚拟机无法运行其指定功能。
4)限制从虚拟机到物理主机的数据流
虚拟机可以将故障排除信息写入虚拟机日志文件,该文件存储于云平台系统中。对虚拟机用户和进程有意或无意的配置会导致其滥用日志记录功能, 将大量数据注入日志文件。经过一段时间后,日志文件会占用物理主机文件系统的大量空间,将硬盘填满,致使主机系统无法再正常运行,这就构成了拒绝服务攻击。可配置系统使其在日志文件达到一定容量后轮换或删除日志文件。
4.4.4.5. 存储安全
在 XX 云计算平台运营后,平台上既存有政务应用所产生的业务数据、也存有社会公众应用而产生的业务数据,另外还包括普通公众用户上传的各类隐私信息,虽然云计算应用设计时已采用诸如数据标记等技术以防非法访问混合数据, 但通过应用程序的漏洞仍可实现非法访问,为了根本的解决这一问题,必须通过存储区域划分的方式来实现数据隔离,在互联网环境下把 SAN 存储分隔为两个数据区,分别作为政务应用数据区和社会公众数据区,可较好的解决数据存储安全问题。
4.4.5. PaaS 层安全
XXXX 云计算平台在本期 IaaS 平台建设完成后,将逐步引入 PaaS 层云服务。
PaaS 位于 IaaS 之上,又增加了一个层面,用来与应用开发框架、中间件能力,以及数据库、消息和队列等功能集成。PaaS 允许开发者在平台之上开发应用、开发的编程语言和工具由 PaaS 支持提供。
PaaS 层的安全,主要包括接口安全、运行安全,当然也包括了数据安全、加密和密钥管理、身份认证和访问控制、安全事件管理、业务连续性等。
4.4.5.1. 运行安全
在PaaS上, 需保障用户的IT系统的安全部署和安全运行, 使其不对现有的PaaS平台造成影响和威胁,不会在云内部发起对内和对外酌攻击。运行安全主要包括用户应用的安全审核、不同应用的监控、不同用户系统的隔离、安全审计等。XX 云计算平台配备了运维安全审计系统,有效地防止内部发起的攻击;通过防火墙、IPS、漏洞管理、网页防篡改等安全技术手段保障由外部发起的攻击,实现对应用运行安全的全方位防护。
4.4.5.2. 接口安全
对于 PaaS 平台提供的一组云服务接口,采取相应的措施,来确保接口的强用户认证、加密和访问控制的有效性,避免利用接口对内和对外的攻击,避免利用接口进行云服务的滥用等。
在接口安全上,本项目配备了 PKI 应用服务器,结合政务网 CA 中心,实现对接口的强用户认证,接口数据加解密和有效接口的访问控制。
4.4.6. SaaS 层安全
SaaS 位于底层的 IaaS 和 PaaS 之上,SaaS 能提供独立的运行环境,用以交付完整的用户体验,包括内容、展现、应用和管理能力。SaaS 层的安全,主要包括应用安全。当然也包括数据安全、加密和密钥管理、身份识别和访问管理、安全事件管理、业务连续性等。
SaaS 层安全技术实现措施,XX 结合防火墙、IPS 等网络安全防护,通过 PKI应用服务器、动态身份认证服务器实现用户身份的强认证、访问控制以及数据的加解密.通过网页防篡改增强 web 应用服务器安全;通过不同层次的高可用解决方案实现业务连续性。
4.4.6.1. Web 应用加固
云计算服务推动了 Internet 的 Web 化趋势。与传统的操作系统、数据库、C/S系统的安全漏洞相对,多客户、虚拟化、动态、业务逻辑服务复杂、用户参与等,这些 Web2.0 和云服务的特点,对网络安全来说意味着巨大的挑战,甚至面临灾难性威胁。因此,在云计算中,对于应用安全,尤其需要注意的是 Web 应用安全。
Web 系统漏洞层出不穷,主要包括两个方面。一是 Web 应用漏洞,即 Web 应用层的各项漏洞,包括 Web 应用主流的安全漏洞、网页挂马、恶意代码利用的漏洞等;二是 Web 代码漏洞,即 Web 应用系统在开发阶段遗留下来的代码漏洞,包括SQL 注入漏洞、跨站脚本漏洞、CGI 漏洞和无效链接等。
XXXX 云计算平台 SaaS 应用在开发之初,应充分考虑到安全性,制定并遵循适合 SaaS 模式的 SDL(安全开发生命周期)规范和流程,从整个生命周期上去考虑应用安全。
对于 Web 应用系统,其防护是一个复杂问题,包括应对网页篡改、DDoS 攻击、导致系统可用性问题的其他类型黑客攻击等各种措施;改务外网云计算平台采用的技术防护措施有身份认证访问控制、Web 应用配置加固、漏洞管理、Web 应用防护抗攻击系统等。
4.4.6.2. 网页防篡改
XX 云计算平台部分网站因需要被公众访问而暴露于因特网上,因此容易成为黑客的攻击目标。虽然目前已有防火墙、入侵防御等安全防范手段,但现代操作系统的复杂性和多样性导致系统漏洞层出不穷、防不胜防,黑客入侵和篡改页面的事件时有发生。网页防篡改通过 Web 服务器核心内嵌技术,使用密码技术,为每个需保护的对象(静态网页、执行脚本、二进制文件)计算出具有唯一性的数字水印。公众每次访问网页时,都将网页内容与数字水印进行对比计算;一旦发现网页被非法修改,则立即进行自动恢复,从而彻底地保证了非法网页内容不被公众浏览。另外,它也辅助使用了增强型事件触发式技术,从而能够在部分操作系统上防止常规的篡改行为。
网页防篡改系统综合考虑了广泛使用的 IIS /Apache 服务器对于 Web 攻击的特殊防护需求,基于最为稳定和高效的 IIS/Apache 模块技术构建,稳定性好、效率高、透明化, 与 IIS/Apache 内核完美集成。网页防篡改系统对 SQL 注入攻击、 跨站攻击、溢出代码攻击、对系统文件的访问、特殊的 URL 攻击、构造危险的 Cookie、对危险文件类型的访问、对危险文件路径的访问等均能进行不问断的有效的检测、阻止与保护,并钝根据自动化攻击工具和手工攻击方式灵活调整安全保护策略。
4.4.7. 公共安全
4.4.7.1. 数据安全
无论是 IaaS、PaaS 还是 SaaS,都存在数据安全的问题。数据安全,就是要保障数据的保密性、完整性、可用性、真实性、授权、认证和不可抵赖性。主要实现以下目标。
数据存放位置:必须保证所有的数据包括所有副本和备份、存储在安全的地理位置。
数据删除或持久性:数据必须彻底有效地去除才被视为销毁。
不同客户数据的混合:数据尤其是保密/敏感数据不能在使用、存储或传输过程中,在没有任何补充控制的情况下与其他客户数据混合。数据的混合将在数据安全和地缘位置等方面增加了安全的挑战。
数据备份和恢复重建计划:必须保证数据可用,运输机备份和云回复计划必须到位和有效,以防止数据丢失、意外的数据覆盖和破坏。
在数据的创建、存储、使用、共享、归档、销毁等阶段,都要采取相应的保护措施,访问控制、安全审计等技术手段,来保障数据安全。
通常我们可以将数据类型分为结构化数据、半结构化数据和非结构化数据。对于存在 Oracle、MSSQL、MySQL 等关系型数据库中的结构化数据,可通过数据库安全审计系统实现数据存取安全;对于半结构化数据和非结构化数据可通过数据加密实现数据安全。XX 云计算平台配备有 PKI 应用服务器,结合 CA 中心颁友的数字证书可以实现应用数据的加解密,保障接口数据的安全;物理磁盘的安全可通过加密硬盘实现数据的加密, 防止硬盘丢失引起的信息泄露。考虑硬盘加密将带来新的单点故障,此外,硬盘的加密必然带来的一定的存储性能下降,本期暂未考虑使用加密硬盘,在后续扩容工程中,可根据业务系统需要按需扩容。对磁盘的物理安全,当前可通过加强机房管理实现物理设备的安全。
4.4.7.2. 目录服务器
XXXX 云计算平台配备目录服务器 l 套,通过系统化的自定义方式来统一身份、资源、设备和策略,例如电子邮件地址、应用程序、 文件、人员或小组、自动化系统以及其他网络组件。目录服务器构成了云计算平台身份管理部署的基础。通过目录服务器管理云计算平台管理员、 云计算平台使用公司和云计算平台业务系统用户的身份及安全性访问权。借助目录服务器,奠定安全身份管理解决方案、目录服务管理和多平台网络服务的基础。
4.4.7.3. 加密和密钥管理
加密和密钥管理是云计算系统中,用于保护数据的一种核心机制。加密提供了资源保护功能,同时密钥管理则提供了对受保护资源的访问控制。
加密的机密性和完整性,包括加密网络传输中的数据、加密静止数据、加密备份媒介中的数据。出这些常见的加密应用之外,对云计算的特殊性而言,应该要求进一步分析加密动态数据的方式,包括内存中的数据。密钥管理包括密钥存储的保护、密钥存储的访问控制、 密钥的备份和恢复问题。加密和密钥管理可通过 PKI 应用服务器实现,XX 云计算平台配置 PKI 应用服务器实现以下功能:
(1)数字证书有效性验证服务
PKI 应用服务器能够验证用数字证书是否有效,通过 PKI 应用服务器的接口,应用系统能够验证用户证书的有效性,并获取用户证书的详细信息。
(2)数字签名服务
PKI 应用服务器能够将指定的数据进行签名,并返回应用服务器签名数据。
(3)数字签名有效性验证服务
PKI 应用服务器能够根据签名相关信息以及原始信息判断该段签名值是否为签
名用户对原始信息的签名值。
(4)数字信封服务
PKI 应用服务器能够根据应用需求制作数字信封。
(5)数据加密服务
PKI 应用服务器能够根据应用需求将明文数据加密。
(6)数据解密服务
PKI 应用服务器能够根据应用需求将密文数据解密。
(7)日志记录功能
PKI 应用服务器能够根据用户需求定时将工作情况以日志方式保存。
(8)数字时间戳服务
PKI 应用服务器能够根据应用需求给某段数据加盖时间戳信息以备将来对某操作进行时间信息的获取。
4.4.7.4. 动态口令身份认证系统
在网络信息安全的五个功能中(身份认证、授权、保密性、完整性和不可否认) ,身份认证( Authentication)是最基本最重要的环节,即使将授权、保密性、完整性、不可否认等环节做得很完善,但如果盗用了合法的帐号和口令登录系统,系统仍然认为他是合法用户,给予他相应的访问权限,使系统处于危险状态。本解决方案提供了完整的身份认证解决方案,特别是双因素身份认证解决方案,已成为该领域的事实标准,该解决方案以易于实现、成熟、可靠等特点在信息安全领域赢得广泛信赖。
图 30:双因素认证示意图
XX 云计算平台新增身份认证系统,提供基于用户真实身份的多因素身份认证。
身份认证系统主要提供以下功能:
●登录系统(操作系统、网络设备、关键应用系统)时进行身份 认证,并对此过程进行记录;
●应定义认证尝试允许次数,并通过延长认证失败超出允许次数后再次允许认证的时间间隔来限制重复尝试,并对此过程进行记录;
●用于身份认证的用户名和口令应在信道中加密传输;
●应当对登录用户的来源进行控制和监控;
●定期审计身份认证日志,对发现的异常行为进行及时处理,对累积性事件进行必要的趋势分析。
4.4.7.5. 安全代理服务器
XX 云计算平台部署安全代理服务器,提供数据在网络上传输的安全、保密、完整、不可抵赖以及拥有身份验证机制。安全代理服务器采用 SSL 技术,提供以下功能:
●信息保密:对信息使用基于单一密钥的对称性算法进行加密。
●身份认证:对通迅一方或双方使用电子证书和公钥算法进行身份确认。
●信息保全:采用对称性信息完整性检验算法,实现信息保全。
安全代理服务器原理图如下:
图 31:安全代理服务器原理图
应用客户端不能直接访问或登录 Web 服务器,只能利用用户数字证书,通过访问安全代理来访问Web服务器。当用户需要用浏览器的SSL与安全代理进行连接时,首先发出请求,先与安全代理服务器建立高位数加密强度(高于 128 位)的握手,安全代理服务器要求用户递交用户证书,从而验证用户的身份。身份验证通过后,安全代理服务器与客户端建立数据传输安全通道,然后将请求发送给 Web 服务器。数据传输时,客户端用户(一般位 IE 浏览器)先将数据加密,然后将密文发送给安全代理,安全代理收到密文后,将密文解密为明文,发送给 Web 服务器。同理,Web服务器返回数据给安全代理,安全代理先将明文加密为密文,再转发给客户端用户。
安全代理系统主要由远程管理客户端、安全代理服务端、站点证书请求生成功能模块、黑名单功能模块、审计功能模块、系统配置、自我监控等功能模块组成。
(1) SecAgent 远程管理客户端
对SecAgent安全代理服务器远程配置管理查看安全代理服务器日常用户访问日志。
(2) SecAgent 安全代理服务器
对用户证书进行验证(含:证数链验证、签名验证、证书有效期验证、黑名单验证) ;
·响应应用客户端的 SSL 请求,并建立和应用客户端 SSL 安全通道;
·和应用服务端建立连接,实现数据转发;
·实现用户信息的捆绑;
· 实现访问控制;
·实现自诊断、自监控功能;
·提供多种审计形式的接口(TCP/IP、UDP 及日志文件方式接口) ,数据格式为标准的 XML 格式,扩展性好,便于解析。
(3)黑名单功能模块
主要实现黑名单的下载,为安全代理服务器实现身份认证功能提供黑名单。本模块同时支持多种方式下载黑名单(HTTP 请求、LDAP 等) ,支持多点下载。
(4)审计功能模块
该模块以独立的可执行程序实现。主要提供对用户的访问信息进行审计功能。
(5)系统配置功能模块
为用户提供方便的配置工具,用以配置安全代理服务端。
(6)自我监控
为安全代理服务及其它功能模块提供监控功能,监控其他模块运行状况。
4.4.8. 安全管理制度
安全管理制度是保证网络系统安全的基础,需要通过一系列规章制度的实施,来确保各类人员按照规定的职责行事,做到各行其职、各负其责,避免责任事故的发生和防止恶意的侵犯。
安全管理制度包括:安全技术规范、人员安全管理制度、设备安全管理制度、运行安全管理制度、安全操作管理制度、安全等级保护制度、有害数据防治管理制度、敏感数据保护制度、安全技术保障制度、安全计划管理制度等。
安全技术规范包括:
(1)日常操作管理办法(针对网络安全管理员)
安全事件的分析主要集中在网络安全管理员, 因此日常操作规范主要是对不同级别安全管理员的日常工作职责、内容、操作流程所做的规定,从而实现安全防护的程序化和统一化管理。
(2)安全策略配置管理办法
根据安全问题潜在环境的差异和对环境关注程度的不同, 选择相应的网络安全策略是网络安全建设非常重要的一步,突出重点、兼顾一般的策略配置能够降低风险。
(3)数据备份管理办法
鉴于重要的数据文件存在着对文件破坏后难以恢复性的特点,出于对数据安全性、可恢复性的考虑,必须适时的进行数据备份,以实现安全防范的目的,同时能够提高遭破坏后的数据恢复速度。更重要的是对备份数据是否存在安全隐患,确保备份数据的真正安全可靠,这是数据备份管理规范区别于传统数据备份的重大区别所在。
(4)攻击事件预警管理办法
预警是对出现攻击事件的报警, 其主要内容包括:安全事件报警形式 (电子邮件、LAN 即时消息等) 、预警结果传送渠道、预警结果的处理。
(5)日志管理办法(针对网络安全管理员)
日志是软件对安全防护系统工作运行结果进行的记录, 是管理员进行统计分析和发现问题的一种方式。其主要内容包括:日志生成、统计分析、重要情况通报。
(6)定期报告办法
把安全事件等情况向相关领导逐级进行定期或不定期的总结统计汇报, 为领导决策提供依据。其主要内容包括:报告形式、报告对象、报告程序及频率、报告内容。
4.4.9. 云安全服务
安全是一个长期性的工作,对于云平台需要长期进行安全的监控、检查、完善及应急响应等服务。
为了保证长期的安全,对本平台要进行长期的安全服务,包括:
1.完整的上线检测、完整的监控服务以及 2 个月一次的远程巡检和现场巡检服务;
2.应急响应服务
3.协助确立应急响应体系服务;
4.协助安全事件分级管理服务;
5.定期远程巡检;
6.定期现场巡检;
7.远程安全值守服务;
8.安全加固服务。
4.5. 机房方案
4.5.1. 机房设备集中管理
本工程为 XX 云计算平台配置网络 KVM,实现“无人机房”。“无人机房”的先进管理方式不但使网关和集成服务器可以在专门的网管控制中进行设备管理、 软件调试工作,作为人机分离;还提供了统一、集中的访问权限管理,管理员可以按照用户权限分配专门的帐号给网管人员和集成服务商技术人员,做到专门设备,专门管理,问题故障,有据可查。网络 KVM 主要实现以下功能:
1、能实现无人机房管理
通过无人机房管理,实现人机分离,提高物理设备的安全性;通过减少设备的本地管理平台,提高机房的空间和能源利用率;改善 IT 维护人员的工作环境。
2、能实现异地机房的远程管理
实现设备内核一级的设备维护功能,并能做到远程对设备加电断电,提高管理的效率。
3、能管理多种平台、类型设备
与目标设备的内核系统无关(如 UNIX,WINTEL,IOS,LINUX,SOLARIS。) :
4、与设备的接口无关(KVM,RJ-45,DB9,DB25。。。) ;
5、能有多种管理路径选择
带内带外管理选择(IP 网,电话拨号网络和本地口带外管理专网) 。
6、单一的登录界面和简单的安装操作平台
所有目标设备可以集中管理到单一界面上来,系统安装尽量做到即插即用,操作界面友好简单,最好无须安装客户端软件。
7、系统自身的安全性
系统自身要有安全性的设计和功能:包括操作授权管理机制;安全日志记录和审计;系统物理设备的安全;传输维护管理信息的安全。
4.5.2. 布线系统
机房内通信电缆及电力电缆均在走线架上布放,布线距离尽量短而整齐。通信电缆与电力电缆应分别按不同路由敷设,如相互间距离较近,则应保持至少 100 毫米以上。
本工程预留 1 个机架作为配线架专用机架,每个设备机架配置一套不少于 24 口配线架。
电力电缆及通信电缆的敷设应符合邮电部 1995 年 5 月制定的《邮电防火安全基本要求有关规定》 。
4.5.3. 机房系统
4.5.3.1. 机房环境要求
所有设备应放在计算机房环境里,室内清洁无尘。
温度:15~30 摄氏度,每小时变化<10 摄氏度。
湿度:40~70%,不结露、霜。
机房荷载要求:主机房楼面等效均布活荷载标准值要求为 6kN/m2;控制室楼面等效均布活荷载标准值要求为 4.5 kN/m2。
机房照明方式采用一般照明,要求水平面(距地 0. 8m)照度为 200~450LX,直立面(距地 1.4m)照度为 30~50LX。
建筑物的接地宜采用联合接地系统,接地电阻值要求为 l 欧姆。
现有机房地板必须具有足够的强度,应是难燃材料或非燃材料,同时耐油、耐腐蚀、柔光、不起尘;新建机房不采用活动地板。
建筑物的接地宜采用联合接地系统,接地电阻值要求小于 l 欧姆。
4.5.3.2. 消防安全要求
机房的电源线与信号线的孔洞、管道应分开设置,机房内的走线除设备的特殊要求外,一律采用不封闭走线架;交流线应采用绝燃材料加护套,并用金属套管。
机房建筑材料要采用非易燃或阻燃材料。
主机房要同时设计安装消防报警系统。
施工中要把电力线与信号线分架分孔洞敷设;必须同槽同孔敷设的或交叉的要采取可靠的隔离措施。
机房设备的排水管不能与电源线同槽敷设或交叉穿越;确实必须同槽或交叉的要采取可靠的防渗漏防潮措施。
机房空调隔热层不能采用易燃和可燃材料。
施工完毕应将竖井和孔洞用不燃或阻燃材料封堵。
4.5.3.3. 供电要求
设备用电需符合下列规格:
交流:电压:220V 单相,变化小于+15%。
频率:50Hz 变化小于+5%
电源波形:正弦波畸变不大于+3%
直流:电压:- 48V+15%
交流电力系统须配有交流调整装置或不间断的电源来滤除脉冲干扰。
供电尽可能地应用二路市电和油机系统,平时市电输入经转换开关任一路供电;当二路均断时,由油机供电。
4.5.3.4. 环境保护与设备节能分析
本工程采用先进的计算机设备,对周围环境无电磁辐射、无粉尘、无噪声、无污染物产生。本工程对环境无有害影响。本工程所采用的设备是当今世界较先进的计算机设备,工艺流程采取节能新技术、新工艺,功耗低,效率高,符合《中华人民共和国节约能源法》和《中国节能技术政策大纲》的要求。
4.5.4. UPS 配置方案
4.5.4.1. 机房目前供电现状
机房目前供电系统如下图所示:
图 32:目前供电系统图
省信息中心机房一楼目前有 X 台 XXXX UPS(品牌:XX) ,该 UPS 接入 X 组lOOAh/348V 蓄电池组。
4.5.4.2. 本期方案
根据电源管理人员建议,及业主提供的设备功耗,本期需新建设 3 台 lOOkVAUPS,新建 UPS 系统应与机房原有 UPS 系统形成完全独立的双路由供电方式,本期供电系统如下:
图 33:本期供电系统
为了与原有 UPS 系统有良好的匹配性,本期新建 UPS 的品牌应与原有 UPS 品牌相同, 根据 YDT5040-2005 《通信电源设备工程安装设计规范》 标准, lOOkVA UPS单机l小时放电时间所需配置蓄电池容量约600Ah, 考虑机房安装情况及设备故障率,建议每台 UPS 主机配置 4 组 150Ah/348V 蓄电池组,不建议多台 UPS 主机并接同一组蓄电池或是接一组大容量蓄电池。原因如下:
1、 多台 UPS 主机并接同一组蓄电池或接一组大容量蓄电池:当蓄电池组出现故障会导致整个 UPS 系统出现故障;
如下图:
图 34:每台主机接一组大容量蓄电池
当蓄电池组 1 或蓄电池组 2 发生故障,会导致 UPS 主机 1 或 UPS 主机 2 无供电保障。
图 35:多台主机并接一组大容量蓄电池
如上图所示,当蓄电池组出现故障,则整个 UPS 供电系统将无供电保障。
2、每台主机并接多组小容量蓄电池
图 36:每台主机并接多组小容量蓄电池
如上图,当任意一组蓄电池组发生故障,则对 UPS 系统供电的影响不大,只是后备放电时间相对减少。
综上所述,建议本期经信委新建 UPS 蓄电池采用 150A/12V 单体蓄电池,每台UPS 由 4 组 150Ah/348V 蓄电池并联,3 台 lOOkVA UPS 共需 3*4*29=348 只150Ah/12 单体蓄电池,不建议采用 lOOOAh/2V 单体。
经初步测算,XX 云计算平台新增设备功耗如下表:
4.6. 标准化工作
标准化建设是云计算平台实现互联互通、业务协同、信息共享、安全可靠运行的前提和基础。缺乏标准或标准不统一,将最终导致管理混乱、互联互通不畅、信息共享程度低、信息资源开发利用滞后、安全存在隐患等后果,严重影响了信息化建设的进裎。
国内外大型信息网络系统成功应用的实践证明,信息化建设必须有标准化的支持,尤其要发挥标准化的导向作用,以确保技术上的协调一致和整体效能的实现。
XX 公司 XX 云计算平台工程是涉及多级、多个政府部门、多种重点业务、面向诸多大型业务系统,在本项目设计和建设的过程中,必须加强标准化建设,发挥标准化的指导、协调和优化作用,少走弯路,提高效率,确保系统运行安全,发挥预期效能。
4.6.1. 标准规范建设的原则
4.6.1.1. 明确工作目标
XX 公司 XX 云计算平台工程标准化建设的工作目标是:根据本项目的总体目标和建设内容,以本项目对标准规范的需求为基础,以国内外成功的标准化工作经验为参考,以国家 XX 标准体系为框架,规划和编制本系统标准规范,指导和推动本项目建设、运行和应用。
4.6.1.2. 采标为主,制定为辅
在满足本系统建设需求的基础上,首先考虑采用已有的标准规范(如国家 XX 标准化总体组制定和推荐的一系列标准,国家 XX 工程已经制定的标准) ,其次是修订或制定适合本项目特点的、本项目专用的、不与国家或行业标准冲突的标准规范。
4.6.2. 标准规范的总体框架
参考国家 XX 标准的总体系框架, 本项目标准规范建设内容主要涉及网络、 安全、应用支撑和管理四方面, 随项目建设需要将分阶段在该体系框架的基础上进行补充和完善。
4.6.2.1. 网络标准
网络标准规范建设是 XX 标准规范建设的重点内容,主要包含以下内容:
网络总体标准:包括政务网络的体系结构、总体技术框架、总体网络模型、统一平台设计、术语标准等标准;
网络基础设施标准:包括 XX 基础传输平台、业务应用网络、IP 地址规划、网络路由、域名系统、门户网站、用户接入、数据交换中心、目录体系、网络接口设计等方面的标准规范。本部分是国家 XX 标准规范建设的重点内容;
网络管理标准:包括网络流量管理、计费管理、故障管理、配置管理、性能管理等方面的标准规范。
国家 XX 已经正式颁布了《国家 XXIP 地址及域名管理规划(试行) 》 ,国家 XX正在进行《国家 XXIP 网管技术规范》 、 《国家 XX 网络互联与接入规范》 、 《国家 XX跨域数据交换标准》等标准规范,将根据 XX 公司 XX 具体要求制定相关实施细则。
4.6.2.2. 安全标准
安全标准将主要以直接采用为主,我国信息安全标准化技术委员会正在组织研制 XX 信息安全标准体系。国家 XX 工程已经制定了《国家 XXCA 命名空间规范(征求意见稿) 》 、 《国家 XX 数字证书格式(征求意见稿) 》 ,部分标准规范正在编写和酝酿过程中,包括《国家 XX 安全管理平台基础架构技术规范》 、 《国家 XX 安全管理平台多级管理接口技术规范》 、 《国家 XX 安全管理平台关联分析技术规范》 、 《国家 XX安全管理平台风险分析技术规范》 、 《国家 XX 安全管理平台二次开发接口技术规范》 、《国家 XX 电子认证系统 RA 建设规范》 、 《国家 XX 信息系统等级保护定级指南》 、 《国家 XX 信息安全风险评估实施指南》 、 《数据备份及灾难应急计划制定指南》 、 《国家XX 数字证书规范第 2 部分:应用接口》等。本项目将直接采用相应标准。
4.6.2.3. 应用支撑标准
主要是在我国 XX 标准体系框架下,参考相关的 XX 应用标准,首先以直接采用为首选,其次建立、使用、完善适用于 XX 数据交换、目录体系、门户网站等应用的标准。主要包括:信息资源目录、数据格式转抉、数据接口规范、数据交换标准等方面。
4.6.2.4. 管理标准
管理标准涉及外网网络基础设施、应用等各层面的技术和运营管理。主要包括在项目建设阶段直接采用国家在项目管理方面的相关标准、规范;以及建立在项目运行维护阶段的相关标准、规范。
第5章. 设备配置要求
以下是 XX 公司 XX 云计算平台配置清单,最终的配置还需要结合具体业务需求及实际情况进行调整完整。
第6章. 项目实施与运行维护
云计算平台的实施与运维是一项涉及面广、制度性强、管理要求高的系统工程。
如果从管理和技术两个视角分析平台的运行保障,我们认为管理的权重是第一位,而技术权重是第二位。为了有效保障云计算平台的科学实施和高效运行,必须要在省政府的统一领导下,省级各有关部门协同配合,积极落实好组织、制度、技术和资金等支撑条件。
6.1. 建设流程及进度安排
在建立和明确项目组织价构和人员安排后, 如何组织和实施项目建设方案是项目能否成功的关键。
在项目实施过程中,对时间计划、安排进度、人力资源调配、设备采购和安装。
测试、演练等多项工作需要进行仔细、合理的计划和严格管理,才可以保证项目符合监管机构要求,达到省信息中心工程建设目标。
省 XX 云计算是一个复杂、长期的工程。在前期调研和可行性论证工作完成后应当进行具体设计和实施。主要工作包括;
➢ 团队组建
➢ 业务连续性计划规划
➢ 实施方案的详细设计
➢ 实施方案的设计会审
➢ 运维制度的设计
➢ 运维制度的会审
➢ 采购设备、省信息中心基础设施改造
➢ 设备安装调测
➢ 系统联调
➢ 人员技术和制度培训
➢ 项目验收
以上各个阶段基本上顺序进行,但部分工作会同步进行,以配合时间和人力资源的合理安排。
在项目实施过程中, 将采用标准的项目管理规范和工具进行项目管理通过项目管理组进行工作协调和监控,采用启动会议、周期性项目进展协调工作例会、多个自工作分工负责等方式对时间计划、工作安排进行良好的协调和管控。
下表是工程建设各阶段计划和时间进度的初步安排,其中,时间和人员安排将根据需求和实际情况作相应调整。
6.1.1. 团队组建
6.1.2. 业务连续性计划规划
6.1.3. 实施方案详细设计
6.1.4. 实施方案详细会审
6.1.5. 运维制度的设计
6.1.6. 运维制度的会审
6.1.7. 采购设备和基础设施改造
6.1.8. 平台机房端系统改造调测
6.1.9. 设备安装调测
6.1.10. 系统联调
6.1.11. 人员技术和制度培训
6.1.12. 项目验收投产
6.2. 项目建设管理及组织机构
在云计算平台基础设施建设完成之后, 云计算平台需要经过长期检验和试运行,也就需要投入长期持续的运作,需要有专门机构和人员负责其运营和管理。
考虑到过去的云计算方面职能大多分散在各个部门和一些归口管理部门, 在云计算平台投入运行之后,需要将某些核心职能划归信息中心管理机构。因此,建议 XX公司信息中心来专门负责。同时需要对各个部门和归口管理机构与中心管理机构之间的工作关系进行调整,因此也需要调整各个部门和归口管理机构的相关职能范围。
6.2.1. 领导组织机构
加强对省信息中心示范工程建设的指导、管理和协调,省信息化领导小组办公室联合相关部门,专门成立省信息中心建设工程领导小组。
领导小组日常工作由省信息中心领导小组办公室负责。
6.2.2. 项目建设机构
1、项目管理组
主要职责包括:负责项目总体指导和关键点监控,协调解决关键问题,负责项目进度管控,协调项目所需资源,负责项目服务质量管理,负责合同管理,负责与管理层的项目沟通和协调。
2、规划建设组
主要职责包括:规划设计省级省信息中心的实施方案(包括组织、流程、质量管理、工作环境、支撑系统等内容) ,负责构建省信息中心的组织、人员、流程、制度等,负责省信息中心的培训、试运行等。
3、工程建设组
主要职责包括:负责设计省信息中心工作环境的详细实施方案,负责省信息中心的平台机房工程建设,负责省信息中心设备选型和统一部署。
4、专项建设组
主要职责包括:负责设计和安装省信息中心安全设施,负责安装调试省信息中心的主机设备,负责安装调试省信息中心的存储设备,负责安装调试省信息中心的其他设备和应用系统。
5、后勤保障组
主要职责包括:负责协调省信息中心项目中需要的场地、办公设施、车辆等相关资源。
6.2.3. 项目沟通
省信息中心项目组通过面谈、电话、邮件和传真与有关厅局沟通联系。
项目组将通过以下形式进行沟通管理:
6.2.4. 项目文档管理
省信息中心项目将进行严格的文档管理。在项目实施各个时期,严格参照ISO9000 管理规范,组织编写项目文档并加强管理。
在整个项目阶段,编制的主要项目管理文档包括:
1、 《项目进度报告》
2、 《项目实施方案》
3、 《项目实施管理办法》
4、 《项目计划进度安排与说明》
5、 《项目周报》
6、 《变更情况报告》
7、 《项目总结报告》
8、 《项目协调会纪要》
9、 《项目交付报告》
在整个项目阶段,编制的主要技术文档包括:
1、 《电路测试文档》
2、 《网络验收文档》
以上文档的规范性和完备性将由项目管理组进行审查, 审查通过后由文档管理部门归档。
6.2.5. 运维及管理的组织机构
本项目建成后由省信息中心负责运维与管理,详细的组织机构图如下:
按照组织机构建设情况,各工作组工作要求如下:
6.2.6. 运维及管理的规范
对云计算平台而言, 缺乏系统性的运维管理体系将对未来信息资源云计算的大规模、大范围铺开造成严重制约。因此,在云计算平台履行职责、提供专业服务的过程中,需结合我省共享资源交换平台自身特点,建立一套制度化、流程化、标准化的中心运维管理体系,以保障中心平台规范、有序、持久地运行。
按照运维管理体系建设要求,各层面管理制度、操作手册及记录表单的详细内容如下:
6.2.7. 运维模式
本项目建成后由省信息中心承担日常运维。由项目集成方提供技术支持,各部门系统管理人员配合使用管理。
6.2.8. 人员配置和培训
云计算平台建设的人才培养, 需要一大批既熟悉政府运作又熟悉信息资源管理的专门人才,来支撑未来中心管理机构的运营和管理,以及各个部门的信息资源开发和利用。
(1)首先做好人才队伍的保障工作,完善人才引进机制;
(2)积极加强与大学和研究机构合作,培养信息资源管理人才;
(3)充分利用外部人力资源,做好咨询规划、项目建设和课题研究等工作。
人员配置安排:计划安排 8-10 人完成平台的日常运行维护工作。云计算平台 6人、平台机房 2-4 人。
人员培训安排:共享平台的使用培训。具体的培训内容、时间安排和培训量安排如下表:
项目实施过程中,需要组织培训活动,使平台工作人员能对相关公司产品进行了解和掌握。