一、面临挑战
随着社会的发展和科技的进步,真实有效的信息已经成为企业赖以生存的源泉,企业信息化的水平已经成为企业的核心竞争力,但是随着企业信息化建设的普及与规模发展, 企业所面临的风险和威胁也越来越大。 外在的因素、内在的因素与更多不可欲知的灾难,时刻威胁着企业生存。 绝大多数企业都无法承担由于计划外系统中断造成的停机而带来的经济与信誉等诸多方面的损失。而如何做到企业的业务永续运行,已经成为困扰企业经营决策者们的头等大事。 根据我们对1000多家企业的数据中心事故的分析,我们总结出了数据中心安全运营的五大威胁:
第一:停电
机房意外停电是我们数据中心最常见的威胁,轻则导致设备关机,业务不可用;重则导致存储设备数据不一致,设备无法开机导致数据永久丢失。
第二、病毒
病毒是最常见的安全威胁,因为病毒实时在发生变化,没有一款杀毒软件可以实时防范所有病毒。
第三、数据库误删除
经统计数据中心发生的事故中人为误操作事故的比例要远远高于设备故障造成的事故比例,因为人工运维管理的需求是多变的,加上人的状态很大程度上会影响工作的质量和效率。
第四、程序 bug
因为程序设计的时候没有办法测试所有实例,所有一些问题经常是慢慢发现,慢慢修复的。我们看微软每年发布多少补丁就知道了我们的程序有多少漏洞, 这些漏洞随时可能导致程序崩溃,导致业务不可用或者数据不可用。
第五、存储宕机
存储宕机虽然不经常遇到,但是只要是程序就有bug,所以每年也是有几例存储宕机事故被报道出来的。另外一个raid5中同时坏掉2块硬盘也会导致数据不可用。
二、解决方案
针对以上的数据中心安全运行需求,我们采用合适的技术手段一一解决潜在的威胁:
第一:电源风险
我们通过UPS不间断电源+本地双数据中心来解决,具体设计是在本地园区的两个相隔不远的大楼各建一个机房, 中间通过裸纤互联,设备分别放到两个机房,做成双活架构,每个机房配置足够的UPS。
第二、病毒、数据库误删除
针对病毒和数据库误删除这种数据逻辑故障问题,我们采用CDP数据录像功能来解决,具体方案是通过CDP设备每隔几十秒对生产存储做一次快照, 数据出现误删除或者发现病毒,我们可以在几分钟内将生产数据回退到之前正常状态的任意时间点。
第三、程序bug
针对程序的故障,我们分别在应用层使用负载均衡器实现应用的水平扩展和高可用,任意节点程序故障或者服务器故障,应用不受影响。 数据库层面我们使用数据库自带的高可用方案比如oracle rac实现数据的水平扩展和高可用,防止程序bug导致的业务中断。
第四、存储宕机
针对存储故障我们在用vplex metro实现存储的虚拟化和高可用镜像,不管任意存储宕机,数据库可以无感知的继续运行。 通过以上改造最终达到无论是出现电源中断、设备宕机、程序bug、人为误操作、甚至机房出现意外都可以让业务零中断的效果!
另外我们的方案还可以根据业务的发展实现本地双活数据中心到异地双活数据中心的平滑过渡,有效的保护了前期的投资。
三、 客户收益
1、防止机房电源故障、网络带宽出口故障等设备故障导致的业务不可用问题。
2、预防服务器、网络、存储设备故障导致的业务中断或数据丢失问题。
3、防止运维人员误操作导致的数据误删除、或者中病毒等原因导致的长时间业务中断,实现分钟级别的系统回退。