买球平台





EVO-DR灾备自动化管理系统

行业背景

 

 

银监会在《商业银行数据中心监管指引》中明确要求“商业银行每年至少进行一次重要信息系统专项灾备切换演练,每三年至少进行一次重要信息系统全面灾备切换演练,以真实业务接管为目标,验证灾备系统有效接管生产系统与安全回切的能力,并且积极建设自动化运维工具平台,逐步达到 75% 的自动化覆盖率”。

为满足监管规定和业务连续性要求,各商业银行计划在实现手工灾备切换的基础上,逐步建设灾备自 动化运维平台,实现灾备切换的标准化、可控化、自动化和可视化,降低人工操作风险,提高切换效率和 切换成功率,实现灾备切换的自动、可控、安全、高效,全面提升商业银行面对突发事件时的应急处理能力。

如何保障业务系统服务的连续性,减少服务中断带来的经济损失和信誉影响,是银行管理层和监管部 门共同关心的话题。因此各商业银行陆续建设两地三中心的灾备体系,以便在生产中心出现故障时及时接管生产业务,减少业务中断时间。买球平台 EVO-DR 灾备自动化管理平台基于多年灾备建设运维的经验基础上,结合灾备体系的监管要求,实现灾备演练切换过程的标准化、流程化、可控化、自动化和可视化, 形成的统一的灾备管理工作支撑平台。该平台可以结合业务视角定期评估,持续改进灾备管理工作,进一 步提升数据中心灾备管理的整体水平,充分提升 IT 价值和业务连续性。

 

 

用户痛点

 

 

• 灾备切换跨多部门协作才能完成,过程复杂周期长 ;

• 切换过程操作复杂流程繁多,对人员能力素质依赖度较高,误操作风险较高 ;

• 人工切换时间不可控,难以保证RTO 目标 ;

• 缺乏实时动态全局指挥决策工具,无法把控整体切换过程;

• 无法实时展现灾备切换过程中业务的变化情况。

 

 

核心功能

 

 

 

★ 灾备切换可视化

 

向各层级人员提供切换过程及系统运行情况的分类展示,保障灾备系统满足管理、协作、切换、运维等不同场景下进行跨团队协作、信息同步、进度实时查看、切换过程动态实时展现等要求。

行级领导示图:

 

 

科技部领导示图:

 

 

工程师操作示图:

 

 

★ 灾备切换可控化

 

•   流程管理:基于买球平台自主研发的调度引擎 EVO-Flow,通过可视化拖拉拽方便实现各种灾备演练及灾备切换流程的定义和配置,支持串行、并行、分支、人工干预以及节点跳转,整个执行过程支持可 视化动态展示;对执行过程中产生的日志信息进行动态显示和记录,以便进行实时跟踪以及事后回溯分析。

•   场景管理:灾备切换场景的全生命周期管理,实现灾备切换中各种场景的定义、修改和维护管理, 一般分为灾备演练和灾备切换两种场景类型,进一步按照业务系统梳理定义各自的演练场景。

•   预案管理:提供对灾备切换预案分类管理和协同维护等功能,紧急情况发生可快速激活预案并通知预案相关人员,提升决策效率。

•   演练管理:提供全流程的演练管理,包括演练预案管理、演练计划管理、演练流程管理、演练实施过程管理、演练结果评估管理等。

 

★ 灾备切换自动化

 

•   切换前检查:切换启动前系统自动比对生产与灾备环境一致性,保障切换任务顺利实施。

•   一致性检查:支持定期自动比对生产与灾备环境同步情况,保障灾备中心系统配置一致性。

•   切换自动化:提供灾备切换过程管理,在切换前可发送短信、邮件等消息通知相关人员,可视化展 示切换流程进度,切换过程中可按需进行人工干预(暂停、终止、继续、跳转、人工干预、断点续做等), 保障切换的顺利完成。

•   切换报告自动生成:演练切换或灾难切换完成,自动生成灾备切换报告,记录事件发生及切换全过程,可将报告在线编辑并下载。

 

 

产品优势

 

 

★大屏展现:切换过程动态大屏展现,为决策层、指挥层、操作层提供全方位动态视图展现,主要包括切换过程以及相关业务指标的动态展现。

★内置大量最佳实践:基于买球平台多年大型数据中心运维经验,平台内置大量运维最佳实践,脚本3000+、组件1000+,涉及主流的操作系统、数据库、中间件、网络、负载均衡等。

★预案管理:应急预案和切换预案定制,实现切换决策有据可依、指挥快捷高效、操作自动安全可

靠。

★自动生成报告:容灾切换演练、真实切换报告自动生成,可根据报告及演练评估结果进行有针对性的改进。

 

 

客户收益

 

 

★提高灵活性:加快业务对异常情况的响应速度,快速调整,快速应对,提升应变能力;

★降低风险:符合监管规定,降低人为操作风险 ;

★提升效率:提升切换效率,降低人员协调沟通成本 ;

★控制成本:降低人工依赖,控制运营成本,优化人力资源和系统结构 ;

★切换专业化:实现灾备切换过程的标准化、自动化、可控化和可视化。

 

 

案例分享

 

 

★ 项目背景

 

某商业银行已完成两地三中心灾备体系建设,核心业务系统 100 多套,涉及主机、网络、存储 2000 多台,每年进行两次切换演练,但是由于基础架构复杂涉及技术产品繁多,传统的切换方式以人工方式为主, 导致每次切换参与人数众多、各种状况频发、难以实现预期的 RTO 目标,效率低下过程复杂结果不可控。

 

★ 项目目标

 

•    实现灾备切换预案中技术切换、回切部分的标准化、流程化和自动化,包括系统、网络设备及应用切换,切换系统包括 AIX、Linux、windows 平台、DB2、Oracle、各种中间件、各类网络设备、安全设备和负载均衡;同时满足切换步骤转人工处理(包括步骤报错转人工、直接转人工等场景);

•   完成 ECC 大屏展示内容的设计、实施工作,实现灾备系统切换过程中的 ECC 大屏全屏展现,直观显示切换进度、各系统状态及其他相关信息,包括但不限于切换过程的状态变化、关键业务指标、性能指标、针对不同角色展现不同的示图内容等;

•   实现核心业务系统的灾备自动化切换,切换过程动态展现;

•   实现灾难切换预案管理和灾难切换报告的自动生成及导出;

•   实现切换流程的可视化拖拉拽定义,支持串行、并行、分支、跳转、断点续做和人工干预等;

•   实现多切换场景的流程配置;

•   实现生产与灾备配置的一致性检查并能够自动同步。

 

★ 项目难点

 

•   灾备切换预案不完整,切换流程、步骤、命令没有及时更新,无法直接使用;

•   客户技术人员配合不到位,严重影响项目进度;

•   缺乏必要的测试环境,无法提前进行有效的技术验证;

•   生产和灾备环境不一致,影响实际切换无法顺利进行。

 

★ 实施过程

 

↓ 安排运维经验丰富的实施工程师,详细梳理每套业务系统的切换流程、步骤、命令和脚本,形成完善的切换操作手册,提交客户审批确认;

↓ 跟客户技术人员梳理完善灾备切换场景预案;

↓ 搭建必要的测试环境,对于核心步骤和脚本进行充分测试,对于核心系统进行主备切换测试;

↓  部署灾备自动化平台,按照梳理好的切换步骤和灾备预案,定义每套业务系统的切换流程和切换场景;

↓ 实现每年两次的自动化切换。

 

★ 客户收益

 

★切换流程依赖关系固化在平台中, 一键式自动化执行;

★自动化和管理流程结合;

★统一的灾备切换管理指挥平台;

★灾备切换过程动态可视化展现;

★简化操作过程,降低人员依赖度和人工操作失误的概率;

★提升工作效率,整体切换时间可以缩短50%-70%。

 


锻造凝炼IT服务 助推用户事业发展
地址:北京市西城区百万庄大街11号粮科大厦3层
电话:(010)58523737
传真:(010)58523739