资料中心
乐成LEDC微模块数据中心资料及知识分享,尝试总结归纳了数据中心规划与设计的理论、方法和实践经验,注重理论与实践相结合
数据中心的单点故障如何避免?

“凡事只要有可能出錯,那就一定會出錯。”—— 墨菲定律


数据中心的安全环境是由一个真实的环境和虚拟的环境构成。 


真实的环境主要是指硬件设施和相关物理配置的资源等;虚拟的环境主要是指软件设施的安全性。


数据中心环境构成示意图


在数据中心机房里,有很多我们不可避免会遇到的单点故障,它可能属于真实环境下,如电源、制冷等;也可能是虚拟环境下,如网络通信、软件系统等,为了保障数据中心的安全,这些单点故障都是值得被关注的焦点。


一、什么是单点故障? 


单点故障,是指引发系统失效的单项故障,会给整个系统带来灾难性的破坏。 


和单个故障是看似相似实为不同的两个词语。单个故障则是不会引发整个系统失效的单项故障。


 打个比方,一部正在放映的电影,如果出现放映机短路而导致观影结束,放映机短路就是单点故障。同样是放映的电影,如果出现中央空调短路,但并不会影响整个电影的继续放映,只是会影响观影感受而已,这个故障就是单个故障。


二、如何避免单点故障? 


在数据中心机房中,因各种原因可能会出现一些故障,但要尽力控制在单个故障范围,避免由单个故障升级为单点故障。避免单点故障可以用以下五个招式:


第一招:抓关键


在防范单点故障时不可能做到面面俱到和平均用力。


任何一个数据中心都有一些关键点。


我们要做的就是对这些关键点进行全面监控并做重点保障。如UPS电源、制冷系统、服务器等都是非常重要的关键点。之前华为云的宕机事件,就是由于服务器这个关键点遭遇风险。


第二招:留备份


对可能出现单点故障的部分做好备份。


一旦出现故障就能立马启动备用,一般是对那些比较关键的系统或设备进行备份。如对制冷系统、UPS电源等进行“N+1”的冗余。


第三招:存余量


这和留备份有些相似但不一样。存余量是指预留出一些例如人员、时间、空间等资源以应对可能出现的突发情况。


主要是针对不同场合,进行适当的考虑余量。


如在数据中心建设初期一般都会预留足够的柜位空间,满足日后扩容需求。


第四招:抓推演


通过某些工具或手段提前预制可行方案,也就是预先排除单点故障的过程。


推演越充分,方案越完善,就越可能避免单点故障的发生。


如机柜在交付前,对其进行预安装和预调试,将有可能发生的单点故障发生率降到最低。


第五招:备预案


这里说的预案有两种:一种预案是指出现可能单点故障的事故后采取的补救措施,这种预案的目的是避免单点故障的发生。还有一种预案是发生故障后的预案,这种预案的目的是最大限度减少损失。这两种预案都需要。


前者是为了避免单点故障,后者是为了把单点故障带来的损失降到最小。 


例如,拿发生市电停电来说,第一种预案是指当发现停电后迅速通过切换到UPS电源等方式进行有效供电。第二种预案则是发生严重停电事故后,除了使用UPS电源供电,还要启动后备柴油发电机,以防UPS电源无法承担长时间的供电。


双电源加发电机供电方案示意图


如开头“墨菲定律”所说的那样,就好比生活中如果有99%的好事和1%的坏事,那么这1%的坏事一定会发生。单点问题永远会存在,且一定会发生,不必太过忧虑。


只要参照上面提供的五种方式,在故障发生前学会如何降低风险,在故障发生后积极的寻求减小损失的措施。就算遇到问题了,总能解决。

相关新闻
在线咨询
微信咨询
电话咨询
0755-2759 9557
返回顶部