科技网

当前位置: 首页 >VR

IT基础架构的变与不变0

VR
来源: 作者: 2019-03-21 11:48:30

随着运营商用户数的持续增长,业务的飞速发展,3G业务的推广,企业数据中心的规模越来越大,络支撑部门面对分散的数据中心,持续扩大的系统平台规模,业务数据“零”丢失的严谨要求现状,迫切需要提高现有备份系统的备份效能,提高运维管理效率高、降低运维成本。

移动公司的管业已形成一定规模的数据中心,业务支撑系统遇到的问题在管都会遇到,并且有着自身的特点。江苏移动管中心基于历史现状和对发展的思考,引入基础架构标准化管理技术,以“不变的”、有前瞻性的思路,有效解决了管数据中心“演变”过程中遇到的一些核心问题。

一、数据中心演变中遇到的问题

管最初是作为大的附属配套零零星星的分布于各专业络中,例如:交换管、传输管等等。但是江苏移动的用户规模已经突破5000万了!管中心的规模也经历了一个从量变到质变的过程,从管理着几个分散的管系统到运营着一个大型的数据中心。在演变的过程中,不仅遇到了其他数据中心从小到大时所必经的一般性问题,还存在自身沿革过程中产生的特殊性问题。就IT基础架构来说,遇到如下一些比较棘手的难题:

1建设起点低,设备老化比较严重

一方面新的系统不断在新建,另一方面一些重要的系统由于建设时间早,设计起点低,6到7年前的老技术和老设备还在服役。

2 设备类型杂乱,系统复杂度高

就像早期交换络的“七国八制”一样,我们管中心的设备也是“五花八门”。Windows、Linux、Unix各种操作系统平台自不待言,即使Unix平台也存在早些年较大规模使用的SUN平台和最近2年大规模使用的IBM平台。存储更是种类繁多——老旧的SUN存储、被收购来收购去的STK存储、IBM存储、HDS存储等等。

3 建设维护缺乏连续性

由于建设缺乏标准,平台跳来跳去,造成了维护人员的知识不连贯,也缺乏有效的监控和评估手段,使得运维的效率大打折扣。

4 建设维护缺乏专业性

就像许多数据中心一样,维护管理最初是按照业务区分的,一个管理员要把一个业务系统从应用软件、数据库、操作系统、硬件一直管到备份。

5 分散建设,资源不能统一利用

按照应用系统建设IT技术设施的旧套路制造了多个彼此分离的信息孤岛存在于一个数据中心。硬件和一些公共的基础资源不能共享,有的地方浪费,有的地方不够用。

6 缺乏有效的成本控制手段

由于厂家之间的技术壁垒,客观上造成了不同技术平台之间的转换门槛过高,企业的成本被高悬于空中,缺乏对设备供应商的制约手段。

7 基础设施冗余度不够

随着管系统中个子系统重要性的提升,如省部接口和统一投诉平台等面向总部和客户的系统对高可用的要求也提升了,传统高可用架构中仅能防止主机和络的单点故障,而如阵列存储的单点风险却没有得到有效保护。

二、对策和实现方法

1 建立集中的虚拟化存储平台

为了提高资源的利用率和管理效率,最有效的方法是将原来分散的相互隔离的资源聚合在一起建立一个资源池,而虚拟化是建立这样的资源池的最简单方法。这种方法可以称为云计算,也可以称为标准化,也可以就称为虚拟化,目的是让所有存储资源能够按需分配给需要的应用和系统,而这个资源池本身必须是动态的,可扩展的,与硬件无关的。通过在所有服务器上部署标准化存储管理软件,我们就建立了这样的虚拟化存储平台,该平台支持我们所有现有的操作系统和已有的存储硬件,在这个平台上,我们可以专注于提高存储的利用率,消除存储热点和瓶颈,方便的实现存储的扩容和迁移,同时利用软件的分级存储功能真正建立起数据的生命周期管理流程。

2 实现跨机房阵列高可用保护

当前IT系统实现了多个层次的高可用保护,如主机和络,但是存储始终是一个单点故障,尤其当采用集中存储的时候一个阵列的故障将影响到多个关键业务系统,基于主机的卷管理软件实现了基于SAN的跨阵列镜像,两个阵列是双活的,实现了阵列故障零停机。卷镜像对数据库系统是透明的,数据库系统只看到其使用的文件系统和卷,每个卷包括两份完全一致的数据拷贝,这两份拷贝分别在两个阵列上,所有对卷的写操作同时在两份拷贝上完成,读操作可以在任意一份拷贝上读取,对于卷来说只要有一份拷贝是可用的那么卷就是可用的。同时支持异构阵列间的镜像,支持镜像快速重新同步和镜像指定读策略。在规划中对于重要程度为一级的系统将跨机房的阵列镜像定义为必须的高可用条件,彻底消除存储单独故障,提供系统整体可用性,提高面向最终用户的业务连续性。

3 实现存储资源的监控

通过一个集中控制台,对跨机房范围内的存储系统(包括SAN、NAS和DAS)提供全面的情况概览和可视性。快速查看总结报告和相应的细节,管理员能够获得足够的信息识别过度分配的存储系统,恢复浪费的存储空间,全面增加存储利用率。也可提供历史存储利用率和趋势分析报告。

4 统一软件平台并整合备份域以实现集中管理

原先备份系统随各个系统分散建设,不但相互隔离,甚至有不同备份软件品牌,所以首先需要将软件统一,然后再将现有多个不同地点的机房整合为一个统一的备份域,即只有一个备份主服务器,这样跨机房备份资源的共享得到了实现,具体实施步骤包括将原来的两种备份软件统一为一种,将原来的五个独立备份域整合为一个,各机房的首次备份作业都在本机房内完成,但备份控制信息需要在机房间的IP上传输。

5 实现备份设备的高可用

目前各机房都有磁带库设备,但任何一个磁带库设备的故障,尤其是可能的严重故障都将导致其所在机房的备份作业停顿,进而可能影响生产系统正常运行(如数据库日志无法正常归档),解决方法是实现带库设备跨机房的共享,即各机房服务器平时主用本机房的磁带库,当本地带库发生故障时,可以使用其他机房的磁带库承担本地的备份任务,这样实现了带库设备的冗余。

6 实现备份数据异地保存

数据备份到本地磁带库后仍然存在一定的数据丢失风险,包括火灾等机房级别的灾难可能造成存储和带库同时损坏,另外如磁带本身的损坏也可能造成数据无法恢复,其他如本地磁带库故障可能造成紧急的数据恢复要求无法得到满足,解决这些问题的方法是在机房之间进行磁带库的复制,将本地机房当晚的备份数据在固定的时间点集中通过Vault功能复制到另一个机房的磁带库,相应的另一个机房当晚的备份数据在固定的时间点集中通过Vault功能复制到本地机房的磁带库,磁带复制作业安排在白天进行将避免与晚上的密集备份作业的冲突。

7 建立统一的恢复演练平台

恢复演练必须要有独立的服务器环境来进行异机恢复,用生产系统服务器进行恢复演练,即使恢复到不同的数据库实例,也有太多的不安全因素,可能影响生产系统。缺省使用裸设备的数据库在恢复时必须恢复到相同数量和大小的裸设备,在多个数据库共享一个恢复演练环境时会造成空间的浪费和工作量的增加,所以采用了在恢复服务器上使用大容量的文件系统,通过定制RMAN恢复脚本等,将裸设备的数据库恢复到文件系统,这样就可以方便多对一的恢复。

8 实现备份的集中监控和分析

为了有效管理备份和恢复基础架构,系统必须提供完备而灵活的报告功能。包括以下重要内容:证明重要数据的可恢复性、将遵从 RTO 和 RPO 要求的情况进行归结、分析风险并量化所有威胁,以及评估系统和应用程序的可恢复性。对这些内容进行归档之后,可以轻松生成自动报告,并将这些报告通过电子邮件发送给管理员或业务主管。

三、 实施效果及评估

统一备份管理平台上线以来备份成功率达到了99.9%,数据恢复成功率达到100%, 高端备份资源得到了全面的共享,备份系统真正实现了以服务的形式来提供,覆盖了所有的业务系统,同时维护人员的工作量却下降了。

标准化存储管理平台建立了一个统一的存储基础架构,将异构存储硬件及不同档次的存储硬件纳入到存储池进行管理,通过一个接口实现存储资源的统一分配,存储利用率比以前提高了20%,同时实现了阵列级的冗余高可用,使得当前系统可以抵御曾经多次发生的阵列级硬件故障,将整体系统可靠性提升了一个层次。统一存储分配和异构硬件的竞争也带来了硬件成本的极大下降,对于集采可能引入的异构硬件可以来之即用,纳入到现有的统一平台中,统一的运维管理提高了运维人员的专业性,也意味着提高了运维的效率。

四、 结束语

中国移动江苏公司络支撑系统通过集中存储备份中心改造实践,为支撑络的集中化运维,支撑全业务发展提供了可靠的数据存储备份架构保障,为备份系统平台实现异构基础设施资源整合, 建立开放、标准、统一、高效、易于管理的IT备份基础设施,优化备份资源配置,获得存储备份整体的最优性能和使用效率,增加IT基础设施的灵活性,改善IT系统服务水平提供了有效保障。后续我们还将结合主机虚拟化技术的落地,实现整个络支撑IT基础架构的自动化、标准化部署和应用,实现更深层面的资源充分利用和高效维护。

冠心病不宜吃什么
心力衰竭最主要的诱因
樟冰油哪里可以买到
奥利司他

相关推荐