前言
本期课程将从管理平台的架构出发,结合平台的实例管理、实例升级、容灾管理和监控告警的功能和操作介绍,全面覆盖日常运维操作,带您理解并熟练运用GaussDB运维平台完成运维工作。
一、GaussDB 运维管理平台简介
开放生态层
友好Web界面,多云皮肤个性化定制
丰富的原子API
公有云、合运营、HCSO、边缘云IES、HCS、轻量化、统一版本
基础+智能运维能力
丰富的基础运维能力
打造端到端全链路的智能自制运维平台,覆盖自监控、自诊断、自调优、自恢复和自安全全量功能,一键部署,精准实施;
标准化代理层
全方位多层安全防护,精细隔离设计
精准管理进程资源消耗控制,极少性能损耗
标准化南向接口规范各引警插件化接入原子操作
通过授权,登录到GaussDB运维管理平台,我们可以看到如下界面:
1、实例总览界面
2、实例详情页面
二、GaussDB 运维管理平台功能介绍
1、平台管理功能
作为管控平台,云数据库GaussDB管理平台具备完善的安全防护策略。主要是通过用户角色和用户组划分,细粒度的控制各个角色的访问执行权限,守护运维的安全。
基本功能:
1、管理用户(user): 支持管理员对普通用户进行增加、删除、锁定、重置密码、用户和实例(Instance)、用户组的绑定等操作
2、管理用户组(user_group): 可以将用户加入用户组中,针对整个用户组可以设置统一的角色,用户可以同时加到多个用户组中
3、角色管理(Role): 可以自定义角色,增加对应的权限(permission),支持细粒度权限
4、管理活跃用户会话: 可以查看当前登录中的用户,管理员可以结束会话
5、后台功能: 提供鉴权、校验弱密码等接口,密码会校验规则和弱密码,加密后存入元库中。
2、实例管理功能
1、实例纳管
2、实例解除纳管
3、实例启停
4、实例扩容
5、实例升级管理
6、实例容灾管理
7、实例告警管理
8、实例巡检管理
三、GaussDB管理平台实例管理基本功能
1、纳管实例
数据库实例安装完成后,状态为Normal>则可以使用GaussDB管理平台将实例进行纳管。
纳管前需将实例主机录入主机管理中进行管理。
输入实例节点任意一个管理IP地址,点击检查实例节点,检查主机是否已经录入主机管理,主机状态在线则已经录入允许导入,主机状态离线则未录入,无法执行导入。
所有主机都在线后。输入实例名称,管理员用户名,管理员密码点击提交按钮下发纳管流程。
1.1 添加主机
1.2 纳管实例
2、取消纳管实例
GaussDB 运维管理平台可以取消纳管已经导入并纳管的数据库实例。
首先在主页上找到要取消纳管的实例
点击“更多”->“取消纳管”
页面弹出对话框进行管理员密码的输入
3、实例启停
GaussDB 运维管理平台支持对所纳管的数据库实例进行基本的启停操作,主要包括停止实例启动实例、重启实例等。
在主页找到需要管理的实例,点击“更多”–>“停止实例”来停止实例运行
对于已经停止运行的实例,点击“更多”–>“启动实例”来启动实例运行
也可以直接点击“更多”–>“重启实例”来快速对实例进行重启
4、实例卸载
GaussDB 运维管理平台支持对所纳管的数据库实例进行一键式卸载。
注:删除实例属于高危操作,需要输入“delete”进行二次确认。
GaussDB 运维管理平台可以一键式删除已经导入并纳管的数据库实例。
首先在主页上找到要删除的实例,然后点击“更多”->“删除实例”。
页面弹出对话框进行二次确认。
5、节点扩容
随着业务的增长,数据库在运行性能及存储上逐渐会达到瓶颈。此时,需要通过增加节点来提升实例的性能及存储能力。GaussDB支持节点扩容操作。扩容方案如下:
在线扩容主要分为加节点和数据重分布两个阶段,除切换元数据外均支持在线业务。
加节点阶段:主要完成新的CN/DN节点的安装、元信息同步、启动等操作。
数据重分布阶段:主要完成基线数据搬迁、增量数据搬迁(在线业务)、切换元数据等操作。
注:同步元信息的目的在于为后续数据重分布做准备
向新增的DN、CN节点同步元数据:
1、同步基础元信息:数据库、模式、表空间
2、同步普通元信息:用户表、函数
3、建立新的nodegroup(为扩容后的新集群)
4、元信息同步完成后切换installation group为新建nodegroup
GaussDB 运维管理平台支持对所纳管的分布式数据库实例进行节点扩容。
“实例管理”界面,单击具体实例名称,进入“基本信息”界面。
在“数据库信息”模块的“节点数量”后,单击“添加”进入“节点扩容”页面。
选择节点数量和管理地址,管理地址数量需要与新增节点数量一致,管理地址可用区分布需要符合部署方案。
确认“实例扩容过程中会有锁表操作,可能会阻塞业务,属于高危操作。请选择在业务低峰期进行该操作。” 风险提示信息,并勾选“我已确认阅读上述风险提示”。
单击“下一步”进入“规格确认”界面。
确认无误后,单击“提交”,进行扩容。
数据库实例状态将显示为“添加节点中”,则说明扩容指令下发成功。
注意事项
扩容是指分片扩容,扩容的节点仅包含CN、DN,不含有其他组件。
扩容以节点组为单位,扩容节点的组件分布形态与扩容前实例分布规律相同。
主备版部署模式暂时不支持扩容。
存在故障节点的实例不允许扩容。
实例扩容过程中会有锁表操作,可能会阻塞业务,属于高危操作。请选择在业务低峰期进行该操作。
扩容前,需要满足所有DN节点剩余可用空间大于DN节点的最大单表空间。
四、GaussDB管理平台实例升级功能
1、GaussDB升级方式
升级过程涉及系统表和数据表变更,重启进程,有版本兼容风险和业务中断问题,根据升级方式,业务中断时间,风险评估对比如下:
大小版本升级方式比较
2、就地升级
找到需要升级的实例点击更多进行版本升级
版本升级选择就地升级方式
选择对应的目标版本
3、灰度升级
灰度升级分为两种方式:
1、升级自动提交方式: 所有节点一起升级,在升级过程中有大概10秒的业务中断
2、升级待观察后提交方式: 将数据库升级过程细分为升级待观察和升级提交两个阶段
升级待观察阶段
升级待观察阶段可以按照AZ升级,也可以对升级的AZ进行回滚,所有AZ升级完成后可以对实例进行业务测试
升级提交阶段
提交当前的升级,提交后不可回滚
3.1 灰度升级-升级自动提交
在实例管理主页找到需要升级的实例点击“版本升级”。
在弹窗中选择升级自动提交的操作方式和目标版本进行升级。
3.2 灰度升级-升级待观察阶段
灰度升级选择升级待观察
选择升级可用区中AZ进行升级
选择目标版本进行升级
3.3 灰度升级-升级待提交阶段
升级完所有可用区的AZ之后,选择提交升级,对实例进行真正的升级
观察阶段发现升级的版本有问题,可以选择升级回退
五、GaussDB 运维管理平台实例容灾管理
GaussDB 运维管理平台流式容灾管理的主要功能:
容灾搭建
容灾状态查看
容灾倒换
灾备升主
容灾解除
容灾演练(规划中)
容灾快速加回(规划中)
流式容灾:基于流复制的容灾解决方案
1、容灾搭建
主数据库实例配置灾备数据库实例信息,等待灾备数据库实例连接过来进行全量复制
灾备数据库实例完成全量build之后,将与主数据库实例建立流式复制进行日志的增量复制
2、容灾状态查看
在容灾管理界面,可以查看到已经创建好的容灾关系组,并支持对容灾实例进行容灾倒换、灾备升主、容灾解除等操作。
如上图,在容灾详情页面,可以查看容灾基本信息,容灾RTO、RPO数值,以及灾备状态指标;灾备实例分片日志差距、灾备实例分片日志落盘速率、灾备实例分片待回放日志量、灾备实例分片日志回放速率。
3、容灾倒换
可以通过容灾倒换,将容灾关系中主备实例角色互换,原来的主变为备实例,原来的备变为主实例
容灾倒换命令不会解除容灾关系
4、灾备升主
可以通过灾备升主,将容灾备实例提升为一个包含主DN的实例,使其可以对外提供服务,升主成功后,之前的容灾关系将失效。
5、容灾解除
容灾解除,是使得主实例清除维护的对端容灾信息。
清除后,主实例可以重新建立新的容灾关系。
6、容灾演练
1.准备两个正常的实例
2.创建两个实例的容灾关系
3.主实例发生严重故障
4.对备实例进行升主,对外提供服务
5.对主实例进行维修,然后执行容灾解除
6.重新搭建容灾关系
7.进行容灾倒换,恢复初始的容灾关系
六、GaussDB管理平台实例监控告警
1、告警统计
实时告警与历史告警:
告警基本信息:告警id,告警名称,告警类型,告警状态类型、告警实例
告警表现:告警时间、告警级别、告警描述、告警持续时间、告警节点IP、通知状态
告警数据分析:告警可能原因、影响、优化建议
2、告警管理
告警模板管理:默认模板包括默认文本模板以及默认JSON模板
3、监控大盘
列表看板:
通过将实例进行平铺展示的方式,横向对比各个实例的基本指标信息,包括CPU使用率、内存使用率等。
趋势看板:
展示单个实例的全方位详细监控指标。
指标范围包括:CPU/内存、磁盘/存储、网络、连接、业务负载锁、同步状态、进程资源等。
希望本节课程对大家对GaussDB运维管理平台的工具有所了解,欢迎大家共同学习交流。