注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

ups石家庄(石家庄ups)

河北茂恒电子科技有限公司石家庄地区ups不间断电源及稳压电源营销中心

 
 
 

日志

 
 
关于我

石家庄真谛商贸有限公司 姚先生 15132105500 在河北省各重要城市均有分支机构或代理分销商,您如有相关需求可以电话联系,我们尽可能安排距您最近的工作人员为您服务。

网易考拉推荐

一次UPS故障的原因分析  

2010-06-03 11:38:22|  分类: ups故障处理 |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |

1  概述

    UPS是通信电源系统的重要组成部分,承担着给重要交流负荷提供不间断供电的职能。近几年来,由于通信事业的飞速发展,各种交流负荷如计算机、服务器、路由器和IP网关等都直接采用交流220 V供电,并由此形成了规模逐渐扩大的交流用电负荷中心,从而构成一种新的专业机房需求,如IDC机房、IP机房、智能网机房和网管计费中心等。这些专业机房大多由UPS直接供电。

    通信需求不断上升、网络规模不断增加、通信容量不断扩大,对UPS的容量和可靠性要求也日益提高。目前一个中等规模交换局(所)配置的UPS已不是几年前的三、四十千伏安了,而是上百千伏安,而且为了保证多个交流用电设备的安全,分散因可能停电带来的危害,在UPS配置上也已经采用多个UPS冗余系统分别对不同的负荷供电。但即使这样,一次UPS的故障所造成的影响也仍是非常巨大的。本文以某省一交换局因UPS输出瞬间中断,造成通信网络瘫痪数小时的事实为具体案例,从事故的调查开始,介绍该障碍的整个处理过程及原因分析,并在此基础上总结相应的经验教训。

    2  事故经过及造成的影响

    2002年12月2日凌晨,某局电力班正在实施一个小的交流割接工程,更换低压配电屏上一段接触不良的铜母线。在割接工程将要结束,即计划修复的设备已经修理完毕,应该恢复的现场都已经整治结束,检查UPS等主要设备运行和指示正常,参与和配合割接工程的技术人员准备陆续离开时(估计在6:30,手机打不通了。

    故障发生在早晨上班前,智能网及网管人员都还没有上班就位,从发现障碍并开始进行处理已经是8:00多钟,由于智能网、基本操作系统软件(BOSS)等设备重新启动需要一定时间,所以直到10:00,手机用户才陆续可以使用了。

    网络这么长时间处于无法服务状态,而且又逢早上的上班通信高峰和10:00的话务量高峰,造成的影响和损失是可想而知的。此次通信阻断造成省内200万神州行用户和VPMN集团用户无法正常使用手机。一天内该运营商就接到2 000多起投诉;回答政府和企业相关部门的多次询问,并向其解释和说明;当地的晚报也以显著标题报道早晨手机打不通的事件,并作各种分析和猜测。

    3  事故原因分析

    事故发生后,省公司主抓维护的副总马上责成有关部门成立事故调查小组,各个单位积极配合,尽快找出故障原因,彻底排除安全隐患。

    当天上午,事故调查小组第一次会议由前晚割接工程的负责人和主要参与人员,网管中心、智能网机房和省、市电源主管及维护中心技术人员共同参加。从各个机房汇总上来的材料看,BOSS系统全部宕机,2台小型机重新启动,其中1台的电源模块告警指示损坏,网管中心的部分主机掉电重新启动。出现宕机、掉电的设备都是交流供电,均来自三层电力室(见图1)那套3台120 kVA并机的UPS。

  事故的初步原因可以认定是电源问题造成的,而且可以肯定3台并机的UPS输出端曾经出现过意外情况。那么是昨晚的割接过程中有没发现的失误,还是通信设备或电力线路中出现短路呢?局内专业人员、外请专家与涉及到的厂家技术人员共同组成的事故调查小组决定从三个方面着手调查:

    (1) 割接过程中是否有不当的操作;

    (2) 检查通信设备、电力电缆等有无出现瞬间短路;

    (3) UPS本身故障。

    3.1  割接过程调查

    从割接过程中涉及到的配电系统和UPS供电系统图(见图2)来看,为了修理有故障的低压开关柜,维护人员在地下室的油机室中架设了一面临时交流配电屏,该临时屏共有两路可人工倒换的输入端子,一路接户外变压箱的一个1 000 A备用开关,一路接柴油发电机组的输出,从而确保在割接过程中,即使市电突然断电,也有油机发电供生产之用。三层电力室有120 kVA×3,80 kVA×2和120 kVA×2 UPS系统各一套,涉及障碍停电的是第一套UPS。给UPS供电的交流屏也可完成市电和油机电的切换功能。

    正式开始割接时,地下室油机启动发电,送三层1#、2#交流屏的油机输入端子,与此同时动力班副班长亲自在三层的电力室操作1#、2#和3#交流屏输出的塑壳开关,依次断开每台UPS的主输入电源,间隔时间2~3 s,目的是将需割接的低压柜的负荷输出减小到零,便于后续电缆的割接、母排的更换和减小对柴油机组的冲击。随即再将1#、2#交流屏的输入切换至油机供电,然后再逐一闭合每台UPS的输入开关,此时UPS由油机发电供电,保证接下来的低压母排更换有充裕的时间。

    在地下室,维护人员迅速拆卸低压柜、卸掉烧毁的母排,搬动和拉扯粗重的低压电力电缆,因而所需时间较长。在完成上述步骤后,闭合临时交流配电屏的市电输入开关及相应输出开关,随后通知三层电力室副班长,逐一断开每台UPS的输入开关,在三层1#、2#交流屏上,恢复至市电供电。恢复UPS的交流输入,UPS工作正常后,油机停机。在修复损坏的低压配电柜之后,按照上述步骤逆序操作,再次切换至市电输入。撤掉临时交流配电屏,割接工作完成。

    从以上叙述看割接的过程,步骤安排简明、合理,而且充分考虑各种意外情况,采取了必要的应急措施;参与割接的维护人员和操作人员都是局里经验丰富、技术过硬的同志;现场作业中一直有人作全局指挥,防止操作人员的一时疏忽。因此,割接工作中应该不会有导致意外的操作;UPS电池也不会放不出电而造成UPS输出关机。

    3.2  负载短路调查

    鉴于发现通信设备中一台小型机的电源模块烧毁,调查小组要求检查从电力室到交换机房的所有电缆、配电屏、配电箱以及通信设备头柜、集装架电源进线端子等处,查看是否曾有短路的情况发生。如果有短路,则说明UPS负载侧确有大电流通过,造成UPS输出电压瞬间跌落或干脆逆变器过载关机。

    但是专家组认为该UPS系统是3台120 kVA的单机组成的冗余并联系统,如果负载侧(UPS输出端)出现过载电流,而且此过载电流足以造成UPS输出指标劣化的话,则这个短路电流应该大大超过3台UPS输出的总的额定电流。按照UPS通常的指标,其抗过载能力应该是输出150%额定电流,能够维持10 s,据此计算,短路电流至少应该有800 A。如此大的电流,一般的后级空气开关肯定都已跳闸;这个短路电流如果出现在设备中,设备内部的保险丝应烧断,在印刷电路板上应有明显的烧灼现象和异味;如果出现在走线架、井道或地板下的电缆之间,巨大的电流会扩大原有的击穿点,形成电缆的焊接现象;如果出现在配电箱(屏)上,则更容易发现大电流通过的痕迹。

    依据这种分析,局方维护人员和设备厂家都参与了对UPS输出配电屏后电缆和开关的仔细检查,没有发现终端配电箱和列头柜的任何一个空气开关跳闸或熔丝告警。专家组否定了因负载原因造成UPS过载的可能。

    3台120 kVA并机UPS系统的实际负载统计如表1所示。

    3.3  UPS本机记录分析

    在前两种原因基本被排除的情况下,调查小组重新把目光和精力集中到了UPS本身。在事故调查之初,维护人员已经将涉嫌障碍的3台UPS本机从12月1日22:00~12月2日7:00的所有告警和状态记录人工抄录了下来。为对此次调查涉及到的维护人员、设备提供商负责以及杜绝今后类似问题再次发生,调查小组专门组织人力分析从UPS中抄录下来的原始记录。

    调查小组发现3台120 kVA UPS系统中的3#机和2#机在凌晨6:29先后出现了逆变器关闭(INVERTER OFF)的状态记录。这一发现引起大家的普遍关注,为此厂家技术人员马上作出了解释:肯定是负载侧出现了过载情况,才会导致某台UPS瞬间的保护,即UPS的逆变器关闭,否则该UPS绝对不会出问题,而且举证3#机和2#机虽然出现INVERTER OFF,但是没有发生在同一时刻,在3#机逆变器重新开启后,2#机才出现逆变器关闭,延续1 s(仅是状态记录的时间精度是1 s,实际延续时间应该在毫秒级)后,2#机也马上正常工作了。

    这个解释初听有些道理,但又让大家感到与前面的调查结论不符。在后续的分析中,还发现1#机曾经出现代号为A33的逆变器输出电压异常的告警,虽然在厂家提供的UPS操作和维护手册中对A33的解释只有一句话——“INVERTER VOLTAGE OUT OF TOLERANCE”(即“逆变器输出电压超出允许范围值”),但是该告警已经明确指示1#机输出曾经在正常值范围以外,那么UPS输出正常电压是多少呢?查阅厂家的技术资料和相关的行业标准,UPS输出电压稳压精度应该在±5%以内,如果逆变器输出仅是没有满足±5%的指标,还不能说明UPS的输出超范围是导致此次故障的原因,而且无法判断输出是在+5%以上还是-5%以下。厂家的设备资料中也没有进一步提供有关对逆变器TOLERANCE的严格定义,但从逆变器本身指标来分析,TOLERANCE应该是一个保护逆变器本身不出现损坏的指标,这一点从后续分析中也可以看出来。

    同时还发现一个A21的告警——“STAT BYPASS OVERLOAD”(即“静态开关过载”),两个告警中A33的告警首先出现,随后紧跟A21告警。UPS首先监测到逆变器输出指标劣化,马上又发现输出的静态开关过载,看来负载侧好像出现了瞬间的大电流,依此判断逆变器的输出电压应该是跌落下降。从这个角度来看,主要原因应该是负载侧出现了瞬间的大电流,造成逆变器输出调整不过来,不仅电压跌落严重,而且输出的静态开关出现短暂的过载。

    这个大电流从何而来呢?现有通信负荷(见表1)均摊到3台UPS上,每台负载率不超过50%,而且前面的调查中也没发现有系统外的突发电流,但该告警的出现已能够证明:UPS输出端上的电压跌落严重应是造成智能网等设备大面积重新启动的直接原因。

    3.4  关键证据

    调查过程中发现,不论2#机和3#机的逆变器关断,还是1#机的输出超限的状态或告警都没有出现在同一时刻,即在任何时刻都至少有1台UPS的输出是正常的。如果真是这样,绝不致于出现此次事故,首先现有的全部正常负载只有3台UPS系统总输出的2/5,既使在1台UPS故障情况下,另外2台正常UPS输出的负载率也只有65%,因此导致障碍的可能性很小;其次,假如出现2台UPS故障的意外情况,剩余1台正常UPS的负载也不过达到130%的额定输出,按照UPS性能要求,在不超过150%的额定负载输出时,UPS应能在保证输出指标情况下坚持输出10 s,这个过程中,故障UPS如果没有出现硬件损坏,仍会恢复工作,重新进入多机的并机供电状态。如果其他UPS出现了不可恢复的故障,那剩余的1台UPS在10 s之后,为了保护自己也会作出一些动作,如输出电压降低、逆变器工作转旁路工作,甚至出现逆变器保护停机等。

    从3台机器的告警记录中,始终没办法找到在一个统一的时间点上,3台机器同时有两台出现逆变器关闭或其他告警提示,整个运行过程中应该至少有两台机器同时工作。但这又与事实不符,如果是两台UPS同时工作,就不应出现1#机的静态开关过载的告警,正常情况下应该是1#机迅速保护停机,而由其他两台机器保证负载供电。难道在分析过程中还有不严密之处,或还有其他调查小组没有注意到的疑点?为此,调查小组扩大检查范围,调出机房内三套UPS从年初装机以来所有的告警和状态记录逐一对比,终于发现UPS系统中的1#机不时地出现一个编号为A26的告警,一般持续1 s即刻消失恢复正常。但在出现本次事故的凌晨,割接过程中的几次外市电停电,1#机都报出历时在1 min以上的A26告警。A26解释为“MASTER NOT SYNCHRONIZED WITH SLAVE”(即“主从控制系统之间不同步”)。

    在UPS冗余系统中,2台或多台UPS的输出并联在一起共同向负载供电,通常可以极大地提高系统的可靠性和输出能力,但是必须保证每台UPS的输出都做到同频率、同相位和同幅值的同步输出,而且每台机器的内阻也要求基本一致,才能使并机系统中的每台UPS出力相当,均流输出;如果其中有一台机器的参数配置或调试不当,就会成为其他机器的负载,UPS系统之间(而不是电源和负载之间)的电流就会随着交流电压的波峰和浪谷来回流动,严重者会烧毁UPS,因此各厂家对此的保护也特别严格,一旦监测到足够大的系统间“环流”,就会依据某种策略迅速关闭系统中的一台或多台UPS,直至减小环流到允许范围以内。A26告警就是对系统内各UPS同步控制失败的一个告警提示。

    设备厂家对该种型号UPS并机控制方案说明为:1#机是在装机调试时就设定好的主机,其他两台机器作为从机都跟踪1#机的逆变器输出,并与之同步,系统间的“环流”保证在6 A以内。一旦主机故障,系统按照预置的顺序指定2#机作为系统的主机,其他从机自动跟踪2#机的逆变器输出,故障机器自动脱离系统;如果是从机故障,从机则自动关闭输出,脱离系统;假如是并机控制系统出现调整不过来或失效的情况,比如A26的出现,系统也会优先关闭从机,以降低“环流”给系统带来的风险。

    经此分析,大家逐渐清楚了3#机和2#机的逆变器关闭不应该是负载的过流或短路造成的(与前面分析结论一致),而是系统并机协调过程中的一种保护方式,在三台并机有困难时,先关闭3#从机,前两台并机稳定后再打开3#从机参与系统并机至稳定,如果期间“环流”太大控制不住,并机失败又会再次关闭3#从机,这个过程会一直重复下去,只要并机不成功,即是主从机之间同步控制有问题,就会出现A26的告警;当然如果两台机之间并机失败同样会关闭2#从机,以避免机器损坏。

    但这个告警是否为导致此次障碍的真正原因呢?

    一个棘手的问题是作为分析基础的告警记录虽然经过北京时间的核对,但是仍然发现每台UPS的状态之间好像风马牛不相及,比如6:10:52 1#机发现主输入断电,6:12:24 2#机主输入断电,6:12:31 3#机主输入断电,如此之大的时间误差,无法让人建立起各台UPS在停电、来电等状态下的配合关系,更无从判断某一时刻下,UPS是否正常同步!

    为此,再次与割接操作人员核实6:21和6:29两次断电的操作过程。在低压配电室电缆割接恢复后,6:10左右人工逐一将3台UPS在1#和2#交流配电屏上的开关闭合,恢复UPS的市电供电;6:21在地下室低压柜上模拟市电停电,启动油机,33 s后ATS转为油机供电,UPS由油机供电;割接人员检查一切正常,于6:29通知油机停机(UPS主输入此时一同掉电),25 s后恢复市电供电。

    根据6:21和6:29两次断电,UPS主输入端都是在同一时刻掉电的事实,将告警记录中的时间再次作出调整。当调查小组提供出新的时间表时,大家豁然开朗。6:21:48 UPS交流输入停电,1#机立刻报出A26告警,同时3#机出现S08逆变器关闭状态提示,1 s后,3#机逆变器又工作正常;6:22:15来电,1#机在主输入交流恢复后于6:23:23经过控制C01复位后A26告警取消,持续了1 min 35 s。期间2#机一切正常。

    6:29:28最后一次交流停电,1#机又立刻报出A26告警,同时3#和2#机都出现S08逆变器关闭状态提示,1 s后,3#机和2#逆变器又工作正常,但是1#机此时告警A33“逆变器输出电压异常”和A21“静态开关过载”;6:29:53来电,1#机在主输入交流恢复后于6:30:33,经过控制C01复位后A26告警取消,持续了1 min 5 s。

    结果已经很明显了,由于三台UPS之间的同步控制出现紊乱,在每次停电时,1#机UPS跟踪旁路市电建立的稳态输出被中止,逆变器改由内同步方式工作,2#机和3#机虽然仍跟踪1#机逆变器的输出,但是原有的相位、频率和幅值同步关系还是发生了微小的变动。这个微小的变动对于三台UPS之间的并机控制器而言却是一个无法调整的门槛,在三台UPS输出无法达到均衡的情况下,系统之间的“环流”会超过设定的上限值。一般,这种情况下系统会自动转旁路,但是实际工程中的系统输入配线是采取的主输入、静态旁路和维修旁路共用一个交流输入的单输入法,因而在输入停电时,静态开关旁路的输入端口上也是没有交流电的,系统虽然判断应转至静态旁路工作,可是又发现旁路无电,只好再次调整,调整不过来,只得关闭部分从机。

    系统在停电瞬间检测到系统内“环流”有可能损坏机器,为了实现首先保护自身的目的,迅速关闭从机的逆变器输出。在6:21停电瞬间,系统首先关闭了3#机,并由1#机报出主从不同步的A26告警,随后并机控制器成功地实现了系统稳定,并重新打开3#机,使系统正常工作;在6:29停电瞬间,系统稳态再次被打破,关闭3#机后系统发现仍然无法遏制潜在的危害,干脆关闭2#机输出,此时只剩下1#机在工作了。

    系统负荷是单台机输出能力的130%,此时全部加载到1#机上,并且2#机和3#机突然卸载,将其承担的负荷突加在1#机上形成较大的冲击电流。因而1#机随后报出A33和A21的告警,此刻1#机输出指标已严重劣化,电压跌落至少超过半个周波,达10 ms,遂导致此次通信中断,而后2#机和3#机又开机再次尝试并机且成功,但是已经造成了不可挽回的故障。

    4  事故的调查结论

    在后续的会议上,据局方工程建设人员反应:该套UPS最初为双机系统,于2002年年初新增扩容一台同型号的UPS,变成现在的三机并联系统。因为原双机系统一直带载工作,不能停机用于三台机的并机调试,新增的3#机起初无法正常并入原系统,在多次尝试、数次变更控制电路参数后,才并机为现有的系统。另一方面,在与其他双机120 kVA和双机80 kVA系统对比中,调查小组发现,其他两套系统的告警记录中除了停电、来电记录外,没有A26等重要告警,而这套故障系统从3月份扩容后不时出现A26告警。如果按照该品牌UPS使用经验来看,若参数整定正常,不应出现类似问题,看来该系统确实在调试阶段就先天不足,埋下了本次障碍的祸根。

    经过近三天的事故调查与分析,调查小组一致认为三台120 kVA UPS系统由于内部并机控制系统存在调试上的缺陷,在状态切换过程中,主从机同步控制暂时失效是导致此次障碍的根本原因。

    5  经验及教训

     通过此次通信障碍的原因分析,有以下经验可以总结:

    (1) 在工程建设之初,要非常重视并机UPS系统的调试,针对关键指标逐一测试,以验证是否满足订货要求。

    (2) 在方案设计阶段应力求将故障发生的可能性减至最小。在前面的故障分析过程中可看出每台UPS的输入虽然有整流器交流输入(主)回路、静态开关和维修旁路输入回路,但是从UPS的输入交流配电屏至每台UPS主机的配线却只有一条电缆,主输入回路和静态开关回路共用一条输入电缆。当交流输入停电时,整流器输入和旁路输入也就同时停电。

    假如在此次割接工程中,UPS的旁路输入改由油机供电,即使市电停电瞬间UPS主从机之间同步紊乱,也会自动切换至静态开关的故障旁路,保证通信设备的正常工作,从而防止此次障碍的发生。

    (3) 该套120 kVA UPS系统实际上早在3月份扩容后即出现了A26告警,但却忽略了这个告警,或者认为不是什么重要告警。鉴于此次障碍,今后应加强类似这些深层次的、对UPS较为全面的维护知识的学习和培训;在设备和系统的试运行阶段应及时观察系统是否稳定,这样才能从根本上作好维护工作,防患于未然。

河北ups不间断电源、免维护蓄电池、稳压电源、EPS应急电源供应商15132105500

石家庄ups 唐山ups 秦皇岛UPS 张家口UPS 沧州UPS 保定UPS 邯郸UPS 承德UPS  衡水UPS  邢台UPS 廊坊UPS 德州UPS 我要家喻户晓 姚然续博客

  评论这张
 
阅读(108)| 评论(0)
推荐 转载

历史上的今天

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2018