面向金融行业的灾备云平台建设项目实践架

北京湿疹治疗医院 http://m.39.net/pf/a_8890895.html

国家一直在积极推进银行业信息系统灾难备份相关标准的建设,国内监管机构对业务连续性和灾难恢复都提出了很多具体要求。当目前国内中小商业银行在灾备建设中面临着建设及运营成本大、资源有效利用率低和灾备管理困难等挑战。本文主要介绍了兴业数字金融服务(上海)股份有限公司通过其容灾云平台的提供灾备云服务的方式来协助中小银行建设信息系统灾备的解决方案,有效地解决了这些中小银行目前在灾备建设中面临的痛点。

孙佳,兴业数金资深架构师,毕业于同济大学,现任兴业数字金融服务(上海)股份有限公司系统服务部总监。曾就职于兴业银行总行银行合作中心。八年银行科技运维、管理经验,牵头完成兴业银行银行合作中心金融云基础架构设计和总体规划,获得年度兴业银行IT能力建设贡献奖。在金融行业信息系统架构设计、云平台建设及运营、容灾建设方面具有丰富的经验。

第一章  项目背景

1.1背景介绍

银监会发布的《中国银行业信息科技“十三五”发展规划监管指导意见(征求意见稿)》里提出,在“十三五”期间,银行业金融机构要积极开展云计算架构规划,制订云计算应用策略,探索构建私有云平台;到“十三五”末期,面向互联网场景的主要信息系统尽可能迁移至云计算架构平台。人行在年6月份发布的《中国金融业信息技术“十三五”发展规划》中也提出金融机构要稳步推进系统架构和云计算技术的应用研究。

随着兴业集团业务的不断增长,互联网业务的不断发展壮大,现有的IT架构及维护体系已难以支撑业务的快速发展。在数据中心运维保障过程中,面临着设备、系统、应用数量爆炸性增长,环境搭建多、环境复用多、系统架构复杂、应用负载不均、资源变更频繁等诸多问题。因此,需要探索适合数据中心云管理平台的创新之路,有效实现资源的快速部署、系统环境共享以及统一管理等,提升IT服务效率和整体交付能力。最终将整个数据中心的IT资源统一管理起来,将IT资源以服务的形式交付给中小银行客户使用。

向中小规模银行、非银金融组织、中小规模企业提供金融信息云服务是兴业数金的定位所在。同时,兴业数金也是兴业银行集团开展探索互联网金融业务的最主要载体,是一家典型的金融科技企业。兴业数金公司成立的愿景和使命非常清晰,即抢抓金融科技腾飞机遇,利用云计算技术、大数据分析技术、人工智能技术、移动互联网技术等新兴技术,深化兴业银行集团内部融合发展,依托集团化所给予的巨大优势,从而向全社会提供高品质的普惠数字金融服务。在此大背景下,兴业数金推出了六大基础云服务:

(1)专属云服务

通过兴业数金自主研发的云管理平台,实现对KVM/Vmware/PowerVM三种计算虚拟化、软件定义存储、软件定义网络的统一管理,从而实现对Power服务器、X86服务器、存储设备、网络设备、安全设备的融合管理,在此基础之上,给用户提供安全隔离的专属虚拟私有云环境,可提供云主机、云硬盘、云网络、云安全等云服务资源。专属云服务可以满足用户对于生产系统的必要IT资源需求。

(2)容灾云服务

容灾云服务是兴业数金针对千亿左右资产规模或者跨省设立分支机构的银行推出的云服务产品,按照监管要求这些银行必须建立异地灾备中心。兴业数金将采用原有IBME高端Power服务器以及后续浪潮商用机器K1PowerE等服务器所提供的EnterprisePool、GDR及HA等技术,为用户提供高可靠的异地容灾环境,以远低于用户自建异地灾备中心的费用满足银行核心系统异地容灾要求及监管要求。

(3)备份云服务

备份云服务专门针对金融行业用户的重要数据异地备份及恢复需求。用户将存储于本地磁盘设备的重要数据,通过基于重删的窄带传输技术将数据传送至数金云,可以设置灵活的备份策略,全面支持各类操作系统、数据库、虚拟机等备份对象,在必要的时候进行自动化恢复。通过数据的多地保存,可以避免区域性灾难导致数据丢失,确保关键业务数据得到充分的保护。

(4)区块链云服务

区块链是近两年来炙手可热的新兴技术,可用于积分联盟、供应链金融、资产管理、电子票据等多种金融应用场景,具有巨大的发展空间。然而,由于区块链技术投产门槛相对较高,当前基于X86平台的区块链技术平台性能有限,很多中小金融机构将区块链应用停留在技术规划层面,实际落地项目不多。兴业数金将联合IBM推出的区块链云服务,正是为了解决这一问题,基于最新的Hyperledger版本构建于X86与IBMZ大型机双硬件平台的区块链云服务平台,彻底改变区块链应用开展难度大、成本高的现状,用户在兴业数金区块链云服务平台上,只需花费两三万元的年使用成本,即可获得高安全高性能的商业级区块链实例环境,从而真正为中小金融机构业务创新提供强大支撑。

(5)人工智能云服务

人工智能云服务是兴业数金为金融行业率先推出的认知服务平台,基于OpenPOWER全面支持NVLink的GPU服务器硬件平台和先进的PowerAI深度学习软件平台,并提供成熟的AI开发和运行框架,可定制识别模型,可以应用于重要客户识别、ATM视频行为智能分析、影像自动化分析等金融应用场景,为金融用户的业务创新、客户体验改善提供极大便利。

(6)金融组件云服务

金融组件云服务是数金云平台区别于大多数公有云或行业云平台PaaS层的地方,可以理解为PaaS+服务。通过用户账户组件、支付组件、机构网关服务组件、加解密组件、风控预警分析组件等金融应用组件,用户可以以搭积木的方式开发金融应用,显著提高应用开发效率,从而可以快速响应和满足终端用户的多样化金融需求。

1.2现状与面临问题

国家一直在积极推进信息系统灾难备份相关标准的建设,国内监管机构对业务连续性和灾难恢复都提出了很多具体要求。

银监《商业银行数据中心监管指引》要求商业银行应于生产中心设立后两年内,设立灾备中心;总资产规模一千亿元人民币以上且跨省设立分支机构的法人商业银行应设立异地模式灾备中心,重要信息系统灾难恢复能力应达到《信息安全技术信息系统灾难恢复规范》中定义的灾难恢复等级第5级(含)以上。要求中明确了银行在业务连续性管理方面的基本要求,同时银行内部为保证前端业务的持续稳定的运行,也对业务连续性管理提出了各种要求。在业务连续性管理工作中,灾备体系又是管理工作中的重要一环,不可或缺,为此,对灾备管理同样提出了各类连续性方面的要求。

但当前国内中小商业银行灾备基础设施建设,灾备恢复能力及灾备管理能力无法达到监管要求。归其原因,主要是因为传统灾备建设模式面临以下挑战:

1.  灾备资源一次性投入大

先期投入大,固定资源一次性投放要求高

涉及内容广,复杂度高,相当于再建数据中心

随生产环境变化,每年要求有持续投入

2.  保证业务与应用的有效恢复

明确业务与应用,应用与基础架构映射要求

确保支持业务的所有资源都纳入恢复范围

为支持应用的不同组建设计不同级别的解决方案

控制应用的完整性,数据一致性与恢复逻辑

3.  日常资源闲置,利用率低

为了达到快速恢复目的,灾备站点的软硬件资源必须专用,但日常没有得到充分利用

不能灵活对灾备系统的资源进行调整和补充

先期投入的设备随时间折旧,技术先进性也逐渐丧失

4.  灾备环境对管理的挑战

需要对灾备有深刻理解、具备丰富经验的管理团队才能完成对灾备全生命周期的管理,完成日常、演练、切换、紧急运作、回切等一系列场景的管理要求。

为保证灾备服务的持续有效,灾备日常维护工作量大。

1.3  项目建设目标

通过建设灾备云平台,为中小银行客户提供端到端完整的灾备服务,实施关键业务应用的灾备方案和交付全生命周期的灾备能力,并利用云环境实现灾备端按需付费的IT资源交付场景。帮助客户解决一下问题:

如何实现降低资源供给的压力,减少灾备设备资源的投放

如何降低灾备建设的周期

如何方便的实施演练过程

如何降低切换、演练过程中的执行难度,提升效率与成功率

如何降低日常管理与运维的难度,降低人力消耗

如何将灾备服务标准化,灾备切换流程化

第二章  灾备云总体解决方案设计

2.1架构设计

兴业数金灾备云通过PowerVC和OpenStackAPI实现了异构资源的统一纳管。Power虚拟机和物理机通过PowerVC管理,通过Openstack的API可以管理KVM虚拟化和分布式存储,对接SDN。

上层的管理入口分为三个,云管理门户、云服务门户以及云监控门户。

云管理门户对IAAS层的资源统一管理。

云服务门户提供统一的能力平台接口API,提供产品服务发布、下线、销毁的全流程管理,以及服务资源申请、使用、变更、回收的资源全生命周期管理。

云监控平台提供云服务用户监控视图,业务系统、物理资源、虚拟资源等多维度视图分析,容量管理和趋势分析。采用分布式架构实现分布式采集、集中监控。

2.2功能设计

兴业数金灾备云管理平台总体功能如下图所示:

用户可以通过云平台统一认证平台来登录到相关的组件的管理界面,包括云服务门户,云监控门户。

通过云服务门户,管理员可以通过管理门户界面来对整个云平台进行管理,包括流程的设置、服务目录的创建和服务产品的发布。目前,云服务门户上支持多种的服务产品,包括银行用户中最常用的云主机、云存储、镜像等产品;云服务中心还支持一些高级产品功能,包括租户网络、虚拟防火墙,虚拟路由器、虚拟负载均衡、安全组、公网IP、密钥等。云服务中心还提供了VDC(虚拟数据中心)、VPC(虚拟私有云)服务产品,帮助银行里的某些特定部门或者各分行IT部门来单独的在云平台上划分一块资源,云平台将资源以租户的形式提供给用户。通过VDC、VPC功能,实现了租户资源的物理或者逻辑上的隔离,对于在VPC内的核心关键应用系统,实现了网络上的隔离,保证核心应用的安全可靠性。

通过云监控门户,管理员可以对整个云平台所管理的资源进行集中统一的监控,可以查看整个数据中心的网络拓扑情况。管理员可以对某个具体的监控对象设置监控指标,云运维中心为每一类监控对象提供了丰富的监控指标供用户勾选,用户经过简单的配置后就可以对整个数据中心的资源进行实时的监控和告警。

通过构建Power企业云资源池实现优势灵活的资源分配和收费方式,可以根据需要以物理分区或微分区方式满足不同客户的不用业务资源需要,可以灵活快速的资源部署调配,统一的平台化管理,通过高端Power8设备为客户提供最高级别的RAS特性;通过PowerEnterprisePool及CoD按需激活资源,进一步节约成本投入。

PowerEnterprisePool为云计算平台带来企业级纵向扩展资源池,使用Power资源池拥有了以下特性:

扩展性:独有纵向扩展资源池能力,对企业级应用特别重要

灵活性:创新可移动许可(MobileLicense),处理器和内存容量于资源池中在线调配

资源池:移动许可可以在同一个池中的各系统中使用,每个池最多48台Power高端服务器,最高达个分区

少投入、大产出:只需采用移动许可,便可为用户带来更多价值,如:应付高峰性能要求,灾备中心资源调配,升级时资源投资保护等

结合PowerVM的LivePartitionMobility(在线分区迁移)和RemoteRestart(远程重启)来防止二次故障带来的影响。

第三章  灾备云平台详细功能设计

3.1PowerVM虚拟化资源的管理

IBMPower以及后续的浪潮商用机器K1Power服务器在金融行业,特别是银行的生产及开发测试环境中应用非常广泛;银行里的Power服务器主要有机架式和刀片式两种。这些Power服务器通过IBMPowerVM虚拟化软件实现CPU、内存、IO设备的虚拟化,提高服务器资源的利用率及高可用性。对于PowerVM虚拟化平台,云管理平台可通过调用HMC、IVM、FSM以及PowerVC等IBM原生虚拟化管理平台API,实现对PowerVM基本功能的集成,以及高级功能的优化。

其管理特性主要包括以下几方面:

物理机资源池化管理;

虚拟机生命周期管理;

模板库管理;

ISO库管理;

高可用性迁移;

虚拟机资源在线调整;

虚拟磁盘管理;

虚拟网络管理;

vSCSI、NPIV管理;

3.1.1资源池管理

兴业数金金融云管理平台中的资源管理模块将多台PowerVM虚拟化的物理服务器组建成资源池,以资源池为对象,统一管理物理机、虚拟机、ISO文件、镜像等资源。

3.1.2虚拟机生命周期管理

兴业数金金融云管理平台中的资源管理模块支持PowerVM虚拟分区的全生命周期管理,包括:

1)虚拟分区的创建:支持通过模板快速部署虚拟机,部署过程中,可自定义虚拟机的计算资源、网络资源、存储资源的属性规格。

2)虚拟机运行状态控制:在虚拟机运行过程中,云管理平台支持对其进行开关机、重启、打开控制台、删除以及调整其CPU、内存、磁盘空间、虚拟网卡等资源配置等操作。

3.1.3模板库管理

云管理平台支持将虚拟机制作成模板镜像文件,并将其存放于统一的NFS或者CIFS格式的共享文件空间中。

3.1.4ISO库管理

ISO库主要用于存放日常运维过程中所需使用的操作系统、软件等ISO文件,支持ISO文件的导入、导出、删除、挂载给虚拟机等操作。

3.1.5虚拟机迁移

云管理平台支持将PowerVM虚拟机在资源池范围内的物理机之间动态分区迁移,允许将正在运行的AIX或Linux分区,从一台物理服务器迁移到另一台物理服务器,而不会对虚拟机所运行的应用产生影响。

云管理平台的动态分区迁移功能适用于以下环境:

资源池所用的共享存储为SVC、VPLEX等存储虚拟化设备;

资源池所用共享存储为EMCVNX、NetApp等存储阵列;

虚拟机的存储连接模式采用vSCSI、NPIV或者vSCSI和NPIV混合模式。

3.1.6虚拟机资源在线调整

兴业数金金融云平台支持对PowerVM环境里的AIX虚拟机资源的在线调整,可调整的资源包括虚拟机的CPU、内存、存储等资源。

填写需要调整后的资源的数量,点击确定,将会触发资源调整流程,流程审批完成后,资源将自动调整到用户需要的数量。

3.1.7虚拟磁盘管理

云平台可以将一个或多个虚拟磁盘分配给PowerVM的微分区使用;可以对分配的虚拟磁盘进行相关的查看和扩容。

3.1.8虚拟网络管理

云平台具有虚拟网络功能,可以对虚拟网络进行管理。虚拟网络有如下功能:

支持IP地址分组、分段管理;

支持自动从IP地址组中为虚拟机随机分配可用的IP地址,也支持部署虚拟机时添加单个IP的地址;

支持IP资源池管理,用于管理运维中心下所有的IP段,用户可以添加、删除所有IP段。添加IP段时。IP段包括:IP段名称、起始IP、结束IP、子网掩码等基本信息;

支持IP卡片方式显示IP段下的IP地址,支持用不同颜色直观标注IP使用情况,并提供添加IP、删除、查看IP使用情况报表;

支持IP地址的回收功能,包括虚拟机和物理设备的IP资源回收;

支持IP地址列表快速链接查询功能,包括网段名称等。

3.1.9vSCSI和NPIV的管理

云平台对PowerVM的存储连接管理上,支持vSCSI和NPIV两种方式;vSCSI方式为将外置存储的卷先分配给VIOS,再通过vSCSI协议将VIOS的存储资源分配给客户端分区使用;NPIV方式为将Power服务器上的HBA卡虚拟成多块,具有多个WWPN号,直接将WWPN号分配给客户端分区;这样在存储端可以将逻辑卷信息直接映射到虚拟的WWPN号,实现存储上的逻辑卷分配给客户端分区使用的目的。

3.3物理服务器的管理

灾备云平台可纳管X86物理服务器及IBMPower服务器的物理分区(LPAR),可查看硬件设备的相关信息包括小型机的型号、序列号、CPU的核数主频、内存的大小、存储信息(本地存储、共享存储)等。

3.4存储资源的管理

3.4.1支持存储的类型

云平台支持市场上主流的传统存储设备,包括:

IBMSVC虚拟化网关、IBMDS/系列存储、IBMV系列存储;

EMCVNX系列存储;

NetappFAS系列存储;

云平台除了对传统的SAN、NAS存储的支持外,还支持开源的存储解决方案,如Ceph、Cinder。

Ceph存储可通过OpenStack的Cinder组件对接,实现云平台对Ceph存储资源的利用。云平台使用Cinder组件,实现对外部存储的虚拟化及存储空间的统一管理;在Cinder服务器上使用LVM技术创建VG,利用Cinder自动化的创建LV分配给云主机使用。

3.4.2支持传统存储的功能

云管理平台中的资源管理支持存储资源的自动发现,发现资源之后手动或自动纳管存储资源,通过SVC、V广泛支持异构存储设备组成存储池。云管理平台支持对SAN网络、磁盘阵列、逻辑磁盘的配置,具体可以支持以下配置:

支持针对中、高端存储的接入存储的主机的管理、存储系统的卷管理、存储系统的卷分配等功能,支持利用统一界面实现对存储磁盘阵列的配制等功能的划分;

支持存储类资源记录的创建,修改,查询和删除;

支持对存储交换机的配置,包括划分Zone等功能;

支持对存储磁盘阵列的配置,提供创建LUN功能,以及对存储资源划分提供磁盘阵列LUN映射到主机的整个路径分配功能;

通过配置向导,可实现磁盘阵列、卷、主机端口、交换机到主机的配置;

可通过管理界面配置存储设备的IP地址。

3.4.3利用Cinder对存储的支持功能

Cinder组件对存储的功能支持主要取决于各存储厂商对Cinder驱动的编写。目前通过Cinder可以实现以下存储功能:

创建、删除Volume;

将Volume挂载到云主机;

将Volume从云主机上卸载;

扩容Volume;

创建、删除、列出快照;

从快照创建Volume;

从镜像创建Volume;

通过克隆创建Volume(VolumetoVolume);

从Volume创建镜像;

Volume迁移;

QoS;

Volume复制;

一致性组。

3.4.4存储生命周期管理

兴业金融云平台中的资源管理模块可对存储资源(池)和存储理平台进行生命周期管理,包括了如下功能:

1.通过服务管理模块申请添加虚拟磁盘的请求后,通过审批后自动创建虚拟磁盘;

2.通过服务管理模块申请删除虚拟磁盘的请求后,通过审批自动删除虚拟磁盘,并自动回收资源删除;

3.通过服务管理模块申请挂载虚拟磁盘请求后,通过审批后自动把虚拟磁盘挂载给虚拟机,通过统一存储管理接口下发挂载命令到存储设备创建虚拟磁盘并挂载给虚拟机;

4.通过服务管理模块申请卸载虚拟磁盘请求后,通过审批后自动从虚拟机卸载虚拟磁盘,通过统一存储管理接口下发卸载命令到存储设备卸载虚拟磁盘;

5.通过统一存储管理接口可查询存储信息,包括:存储ID、存储名称、存储大小、已使用存储大小、未使用存储大小、存储设备信息、存储关联的虚拟机、存储关联的物理机;

6.可以在线、离线对虚拟磁盘扩容;

7.可以对虚拟磁盘进行迁移,往物理主机可用其它存储池迁移。

第四章  成功原因及优势

4.1灾备建设服务云化

兴业数金灾备云平台对底层资源的管理通过两种技术路线实现;一种是基于自主研发的异构资源管理软件来实现对传统IT设备及资源的管理、一种是通过OpenStack的标准接口实现对开源软件技术如Docker、OpenStack、Ceph、KVM等的管理;通过这两种管理方式的融合,在一套云平台上实现了传统IT设备及资源与当前流行的开源技术的统一管理。将灾备服务云化,从而为客户提供一站式的灾备解决方案。

支持多租户环境

面向应用,实现整体环境端到端的灾备服务,包含应用,数据,计算,存储,网络,公共服务等各种组件控制

平衡用户的多样性与标准化,提供多种数据复制接入,提供多种平台支持

根据灾备的特征,优化资源投放方式,基于云计算特性,动态申请灾备端所需IT资源。

--日常仅需配备少量(数据复制所需)资源

--在演练、切换、紧急运营时按需动态扩展资源,实现按使需使用

服务方式可计量:

--标准化资源供给方式,能够以量化方式提供计算,存储,复制,链路等资源

--标准化灾备服务内容,能够以量化方式提供例如切换,演练,回切,快照等标准灾备服务,确保服务可计量

优化灾备自动化功能,简化用户的灾备操作,提升切换演练能力

满足监管机构要求,提供演练报告

4.2广泛的异构资源兼容

兴业数金金融云管理平台在计算节点的支持方面不仅支持常见的X86平台虚拟化软件,同时支持小型机虚拟化软件、X86物理服务器、小型机物理分区。还广泛兼容主流的存储设备,包括IBM存储、EMC存储、Netapp存储等;可以将光纤交换机也一并管理起来。为用户在新采购硬件时提供极大地选择余地,并极大地方便利旧原有设备,为云平台平滑扩展奠定坚实的基础,保护用户的IT投资。

金融云管理平台支持X86虚拟化技术,同时支持小型机虚拟化技术,为用户建设云平台不同资源池提供多项选择,可根据业务需求,建立不同的资源池。云管理平台对于异构设备异构厂商的支持能力位居全国前列,同时支持X86服务器和小型机,并全面兼容各种主流虚拟化技术,如PowerVM、VMware、KVM,对接各厂家虚拟化管理平台,屏蔽底层虚拟化及管理的差异,给用户提供统一的管理和展示界面。支持按客户需求进行流程和功能定制,大部分服务管理流程都可以与底层的自动化引擎相结合,从而使任何变更管理、配置管理的动作都可以与实际IT系统的变更同步实施,大大提高了服务管理的效率和一致性,节约了系统和软件部署的实施时间。

4.3双模多态的解决方案

Gartner在年提出双模式IT(BimodalIT)概念。按照Gartner的定义,BimodalIT指拥有两种IT模式,每种模式都是为开发并交付信息和技术密集型服务而设计的。模式一是传统的,强调扩展性、效率、安全和精确度;模式二是非顺序的,强调敏捷性和速度。多态是指在银行数据中心里的IT资源是呈多种状态的,有物理服务器、物理存储、物理交换机、虚拟服务器、分布式存储、软件定义网络、容器等;如何将这种多态的数据中心资源统一管理并对外提供服务也是银行科技部门需要解决的问题。

近几年,传统的银行业务受到互联网金融的冲击较大,银行的“金融脱媒”情况越来越明显。互联网企业、第三方支付机构、电信运营商、电商企业和银行卡组织等机构借助互联网渠道和客户群体优势,从各自擅长的支付网关、手机支付、供应链服务、资金清算等领域向传统的银行业务全面切入,金融竞争主体呈多元化态势;同时,客户的金融行为逐渐网络化,金融消费习惯也在发生变化,银行的传统中介作用逐步减弱,“金融脱媒”加剧,对银行机构的传统优势形成严峻挑战,也带来业务创新发展的新机遇。

以互联网、云计算、大数据等为代表的新兴信息技术与金融业务深度融合,市场需求的复杂多变对银行数据治理、系统架构、风险管控、基础设施建设、系统开发、运行维护等领域均提出新的要求。

传统银行的科技部门感受到了互联网金融创新对信息技术带来的深刻变化。一方面,为了保障传统企业的持续增长,安全生产运行依然是科技部门的首要工作。另一方面,伴随着云计算带来的应用繁荣,依托于互联网架构的新应用不断出现,应用开发迭代周期从数月缩短为数以天计,类似于秒杀、红包等突发性高并发应用需要更加弹性的技术架构。如何同时运维管理这样两种不同的架构,成为科技部门的一个难题。

目前国内银行建设IaaS云平台主要还是集中在模式一阶段,即主要还是


转载请注明:http://www.iockb.com/wazz/16122.html

  • 上一篇文章:
  • 下一篇文章: 没有了