《又又又断电?从某Cloud数据中心电力故障看UPS可靠性》要点:
本文介绍了又又又断电?从某Cloud数据中心电力故障看UPS可靠性,希望对您有用。如果有疑问,可以联系我们。
在数据中心大谈云化,众多厂家“无云不宣”的时候,人们却发现:理论上更加安全、更加可靠、更加便捷的Cloud DC们,却似乎变得更加脆弱了.除了服务器宕机,断网、断电等事故也时有发生,连挖土机都有可能挖断光缆.当一朵朵“云”在天上飘的时候,背后的那根“安全线”也比任何时候更加不容忽视.
2017年3月22日,青云(QingCloud)因北京2区(PEK 2)数据中心电力故障引发部分网关设备及计算节点重启,目前故障虽然已经排除,但也造成了不小的影响.
近年来,大家频繁听到云数据中心因异常导致业务中断的事情发生,在数字化的现代社会,数据中心的可靠性如果稍稍动摇,其造成的影响如同蝴蝶效应,不可避免会波及终端客户的正常运营和影响自身声誉.因而每一次故障的发生不仅仅需要事故方自检排查,更需要整个行业一起反思,从中获益.虽然官方没有给出确切的故障原因,本文将参照青云事后发布的故障报告,大致分析故障原因,并以此为契机,给出一些思考与建议.
据青云官方称:具体故障发生过程为,该数据中心需要对A组UPS进行定期离线维护作业所以将负载从A路UPS整体切换到B路UPS,但是3个小时之后B路电源UPS出现单台机组报故障,随后整组UPS过载.1分钟后B路UPS在进行内部旁路切换时报警显示不能进行切换,紧接着UPS就陷入异常状态.大约36分钟后UPS系统恢复正常状态后将报警还原时,电源产生了瞬断现象.将近2个小时之后为了原因调查,UPS被完全隔离.
虽然目前还没有正式的分析报告出来,但是从报告中我们还是可以管中窥豹,从中看出一些问题.
一、传统塔式UPS离线维护风险大.在发生故障的第一环节是离线维护引起的,研究表明有50%~60%的数据中心的停机都是由人为错误引起的,这与塔式UPS结构息息相关.
传统塔式UPS是一个整体,其内部系统复杂,UPS出了故障后,问题的定位和维修是很大的工程量,并且需要专家到现场才能定位、维修,且这个过程是离线的,此时UPS系统工作在维修旁路,这就意味着,当市电中断时,如果单机供电,负载将直接中断.
二、传统塔式UPS维护时间长.上文已经提到,塔式UPS的维护往往是个专业过程,维护工作量大,一般维护时间常常是数小时甚至数十小时,这就加大了业务中断的风险.
三、青云所用的UPS本身可靠性设计令人担忧.从报告中看 “B路电源UPS出现单台机组报故障,随后整组UPS过载.1分钟后B路UPS在进行内部旁路切换时报警显示不能进行切换,紧接着UPS就陷入异常状态.大约36分钟后UPS系统恢复正常状态后将报警还原时,电源产生了瞬断现象.”这段描述性文字可以看出,青云所用UPS在过载状态下,主旁切换逻辑出现重大问题,本身可靠性设计堪忧.
UPS发展至今,传统塔式UPS低可用性已经无法跟上数据中心IT设施的发展速度,要提升可用性,缩短故障维护时间,模块化UPS是唯一方向.模块可热插拔是所有UPS厂家对模块化UPS的基本要求,故障时通过热插拔更换模块,5分钟即可完成在线维护,这与传统塔式UPS动辄8小时以上的离线维护时间相比,是个巨大的提升,当然在线与离线相比,对负载的重要性也不言而喻;部分厂家甚至将静态旁路、控制模块等等都做了热插拔设计,进一步提升系统可用性.
此外,传统塔机单点故障多,单点故障,常常引起整个系统中断,相比而言模块化UPS关键节点可以通过冗余设计提升可靠性,在整个系统运行时,负载率一般会低于50%,此时多个模块故障,仍然可以保证UPS正常带载,直接规避了上文所说的过载问题.
最后,用户在使用UPS,进行招标时,对于UPS可靠性的要求应该更加严格,严格的标准才能大浪淘沙,让真正可靠的UPS脱颖而出,为更多的用户谋福利.
从近年来的集采可以看出,模块化UPS所占比例节节攀升,逐步成为集采主流机型,这也从侧面印证了市场趋势,从业务出发,客户也不愿意使用维修困难的UPS,正在追求更高可用性的UPS.
UPS作为电力守护者,为各个行业的关键负责设备提供稳定、不间断的电力供应.从近几年的市场表现来看,模块化UPS的可靠性正在逐步被行业认可.相对于传统的高频塔式UPS,模块化UPS可以不断电维护,单模块故障不影响系统运行,高效节能等特性更符合数据中心应用.
文章来自微信公众号:数据中心运维管理
转载请注明本页网址:
http://www.vephp.com/jiaocheng/4192.html