当前位置 > 信息披露 > 技术制度 > 文章详情

爱财在线灾备体系方案

2017-08-21 16:16:09         

   前言


   随着公司金融业务对信息系统的依赖性日益增强,爱财在线越来越重视生产中心信息系统的高可用性,投入了大量资源和人员。但是,在灾备体系建设方面,由于起步比较晚,经验不是很丰富,主要是基于阿里云的灾备方案实现主备模式,自动热备和异地备灾。
    


   一、灾备体系规划


    灾备技术体系包括恢复信息系统所需的数据、人员、系统、网络、环境和预案等,其中数据和人员是灾难恢复的前提条件,系统、网络和环境是灾难恢复的技术资源保障,预案是灾难恢复的行动方案。


   1、灾备模式


   a.主备模式,自动热备
   采用阿里云数据库RDS高可用版,采用建立主库同时生成备份库,主库和备库同步的模式,当主节点出现故障会自动切换到备份节点库,从而保证系统的正常运行 。


   b.采用阿里云的异地备灾机制
   RDS 通过数据传输服务(DTS)实现主实例和异地灾备实例之间的实时同步。主实例和灾备实例均搭建主备高可用架构,当主实例所在区域发生突发性自然灾害等状况,主节点(Master)和备节点(Slave)均无法连接时,可将异地灾备实例切换为主实例,在应用端修改数据库链接地址后,即可快速恢复应用的业务访问。灾备实例可通过 DTS 管理控制台实现同步对象变更、同步速度设置、延迟报警等同步链路原生功能。
   RDS 灾备实例与主实例配置完全相同,且 RDS 通过数据传输实现主实例和异地灾备实例之间的实时同步,提供独立的数据库连接地址,由用户应用端自助控制连接。

 

   2、数据备份
   数据备份是灾难恢复的最基本前提,但银行普遍存在数据总量非常大的情况,所以必需按照成本与风险平衡的原则,对不同数据采取不同的备份策略,包括数据备份范围、备份周期、备份技术、备份介质、备份线路带宽、保存时间等。比如,对核心账务数据要采用实时的远程备份,尽量保证数据的完整性;对经营管理数据采用定期批量备份,容忍少量的数据丢失;对可以通过备份数据生成的其它数据不做备份。


   3、运行和技术保障


    运行和技术保障是灾难恢复的另一前提,因为人是实施灾难恢复工作的主体。灾难恢复后,灾备生产运行需要运行人员来操作,灾备系统的维护管理需要技术保障人员来支持。合理设置灾备组织机构和岗位,对运行和技术保障人员进行生产技能培训,都是灾备体系建设的重点工作内容。


   4、备用网络系统


   备用网络系统的关键是要使灾备中心的网络架构能够支持应急生产,比如当生产中心的网络中断时,各分行可以通过参数配置的调整,改连灾备中心。备用网络系统与生产网络系统应该作为一个整体同时规划,否则灾难发生后再向运营商紧急申请线路,或者紧急调整灾备网络架构,将是非常耗时的工作。


    5、灾难恢复预案


    灾难恢复预案是定义信息系统灾难恢复所需组织、流程、资源等预先制定的行动方案,用于指导相关人员在预定的灾难恢复目标内恢复信息系统支持的关键业务功能。预案应准确描述灾难恢复组织机构及职责,准确描述灾备基础资源的技术配置和恢复流程。


   二、灾备体系管理


    灾备体系管理主要是指组织机构的各个层面,在日常状态和灾难状态下的各种管理工作,至少包括以下方面:


    1、岗位与培训管理


    灾备中心的应急生产岗位应与生产中心对等,只不过可以按照人员复用的原则,由灾备管理人员、开发测试人员或系统运维人员专职或兼职担任。对不同层次、不同部门的岗位,在灾难恢复策略规划、系统建设与运维、预案制定、演练和更新维护等不同阶段,应按照不同的培训目标,安排不同的培训计划。


   2、灾备日常运维、灾难响应与重续运行管理


    灾备中心应随时做好接替生产中心的准备,因此,必须象生产中心一样,对灾备中心的系统、网络和环境等基础资源进行运行维护,按照备份策略按时完成数据备份,完成灾备系统与生产系统的同步。当灾难发生后,灾难恢复组织机构的各层人员立即响应,在指挥报告、协调、联络、保障等工作机制的保障下,按照灾难恢复流程步骤,一步步地恢复信息系统及其支撑的关键业务功能。在生产系统成功切换到灾备中心运行后,要按照生产中心的规章制度、操作流程、技术规范来管理,保障生产系统安全稳定运行,直至生产中心重建并恢复了生产运行能力。


   3、外部资源管理


    外部资源主要指商业银行的合作伙伴、服务商、设备商和外协人员等。当发生灾难时,可能需要这些外部资源的支持才能完成灾难恢复,比如,从设备供应商紧急采购灾备生产设备,从电信运营服务商紧急租用通信线路,从银联借调交易流水等。因此,需要与这些外部资源建立日常联系或签订协议,并不定期地测试其支持能力,以保证在灾难恢复期间,外部资源可以提供有效的支持。

    三、灾备体系建设


    灾备体系建设是一项复杂的系统工程,必须按照一定的策略,在灾备体系框架的指导下,由简单到复杂,从小范围到全局,优先为关键信息系统建设灾备系统,有计划地不断建设和完善灾备体系。具体步骤如下:


    1:制定灾难恢复策略。


    极端的灾难情况属于极小概率事件,但也要尽量做好数据的安全和备份。灾难恢复策略是灾备体系建设的指导方针,应由公司的风险管理部门、技术管理部门、资源管理部门等共同参与制定。


    2:按照灾备体系框架,从技术、管理和业务三个方面建设灾备体系,实现灾难恢复策略。


    在技术层面,需要做好额外的手工备份,培养运行和技术保障团队,做好终极的处理方案,制定灾难恢复预案等。在管理层面,要做好相关人员的灾备意识,制定并执行灾备管理制度。在业务层面,要制定业务恢复预案,并且要特别注重在没有信息系统支撑的情况下如何开展业务,以及如何从业务操作上配合信息系统恢复,比如手工补录数据。


    3:组织灾难恢复演练。


    通过坚持不懈地组织不同形式、不同深度、不同范围的灾难恢复演练,检验灾难恢复组织机构、灾备系统和灾难恢复预案的有效性,并不断完善和改进。演练可以是桌面演练、模拟演练、实战演练等多种形式,可以是系统级演练、应用级演练和业务级演练等不同深度,基于阿里云的灾备体系根据公司的业务情况和具体需要做相应的灾备演练,并做好分析记录和小结。


   四、小结


    灾备体系作为生产运行体系的重要组成部分,是爱财在线全面风险管理体系的重要一员。在互联网金融市场竞争日趋激烈的今天,构建完善的灾备体系成为了提高公司核心竞争能力的重要手段之一。正所谓“居安思危,思则有备,有备无患”, 爱财在线灾备体系建设工作任重而道远。