UPS電源的實時(shí)監控系統簡析

2018.06.01

衡量UPS系統安全性能(néng)的指标中,有兩(liǎng)個指标尤其重要:一個是系統的可靠性,另一個則是可用性。作爲提高電源系統質量的主要設備,UPS系統本身的可靠性、可用性,是衡量UPS系統性能(néng)最重要、最根本的指标。這(zhè)裡(lǐ)對(duì)影響UPS可用性的因素進(jìn)行詳盡的剖析,從而得出通過(guò)采用先迸UPS智能(néng)管理技術來提高系統可用性的有效方法。新的UPS管理技術及産品,對(duì)提高UPS系統的可用性具有重要的意義。

從系統可用性的定義可以看出,提高UPS系統可用性有兩(liǎng)個途徑:一是提高系統可靠性,即延長(cháng)平均無故障時(shí)間MTBF,另一途徑則是降低平均故障修複時(shí)間 MTTR.從UPS系統平均故障修複時(shí)間MTTR與UPS系統可用性的關系可以看出,縮短平均故障修複時(shí)間MTTR對(duì)提高系統可用性具有更明顯的作用。

這(zhè)裡(lǐ)通過(guò)一個具體的案例詳細分析平均故障修複時(shí)間MTTR的構成(chéng)。所分析的案例是一台80kVA的UPS系統。如果這(zhè)樣(yàng)的UPS系統發(fā)生故障,通常是需要廠商專業技術人員才能(néng)進(jìn)行維修的。對(duì)于這(zhè)樣(yàng)一個系統,衆多廠商紛紛提出了“4小時(shí)響應”、“24小時(shí)修複”等服務承諾。但值得注意的是,這(zhè)些時(shí)間并非真正的故障恢複時(shí)間。首先,所謂的“4小時(shí)響應”,通常僅僅是指廠商方面(miàn)的工程師在得到用戶的通知到做出上門維修計劃的時(shí)間,離真正故障修複還(hái)有相當的距離,而“24小時(shí)修複”則會(huì)有很多的附加條件,如發(fā)生故障的設備所在地有無工程師、備件等條件。其實,真正的故障修複時(shí)間與整個故障修複過(guò)程的每個環節都(dōu)有緊密的聯系。

下面(miàn)就(jiù)上述UPS系統故障案例的修複時(shí)間進(jìn)一步地按實際分段加以詳細分析時(shí)發(fā)現,一次故障修複時(shí)間由以下時(shí)間段構成(chéng):

故障報警通知時(shí)間。從故障發(fā)生到用戶發(fā)現故障的時(shí)間,用T1表示。

廠商反應時(shí)間。用戶將(jiāng)故障信息反饋給廠商的售後(hòu)服務部門,到廠商售後(hòu)服務工程師與用戶溝通,做出上門維修計劃的時(shí)間,用T2表示。

故障初步判斷時(shí)間。廠商售後(hòu)服務工程師通過(guò)電話等方式與用戶溝通,了解故障現象和故障過(guò)程,對(duì)故障做出基本判斷的時(shí)間,用T3表示。

上門服務時(shí)間。從廠商售後(hòu)服務工程師通過(guò)電話等方式與用戶溝通對(duì)故障做出基本判斷後(hòu)到上門服務的時(shí)間,用T4表示。

故障排除時(shí)間。從廠商售後(hòu)服務工程師上門服務,到故障排除的時(shí)間,用T5表示。

1.首先來分析第一段時(shí)間——故障報警通知時(shí)間T1

看起(qǐ)來這(zhè)段時(shí)間應該是很短,但是實際上它存在極大的不确定性。首先,由于中、大容量的UPS一般安裝放置在專用的電源機房,由于噪音、安全等原因,電源機房平時(shí)一般無人值守。因此,如果UPS發(fā)生故障往往要等到故障産生嚴重後(hòu)果後(hòu)才會(huì)被(bèi)用戶發(fā)現,同時(shí),由于UPS系統作爲強電設備,需要具有專業知識、經(jīng)過(guò)專門培訓的人員才能(néng)進(jìn)行日常的維護操作,所以在出現故障後(hòu)也需要專業人員到現場進(jìn)行評估、判斷,然後(hòu)才能(néng)進(jìn)行相應的操作,這(zhè)一因素也制約了故障通知的速度。正是由于上述原因,加上空間距離及專業知識方面(miàn)的不确定因素,UPS的故障通知時(shí)間T1也就(jiù)變得具有很大的不确定性,使它可能(néng)成(chéng)爲降低系統可用性的一個重要因素。

有這(zhè)樣(yàng)一個具體的實際案例。天津某銀行數據中心,使用了1台125kVA的UPS爲數據中心供電,UPS系統安裝在數據中心地下2層,平時(shí)無人值守。一天上午10點,UPS系統突然出現10s的短暫停電,導緻整個數據中心癱瘓。經(jīng)工程師現場檢查發(fā)現,UPS其實并無任何硬件故障,隻是在故障發(fā)生時(shí)運行在旁路狀态,經(jīng)查閱UPS運行曆史記錄發(fā)現,當時(shí)市電正好(hǎo)發(fā)生10s的短暫故障停電,由于UPS運行在旁路狀态,相當于市電向(xiàng)負載直接供電,所以市電停電直接影響到負載。但進(jìn)一步檢查發(fā)現,UPS實際上在兩(liǎng)天以前就(jiù)已經(jīng)處于旁路狀态,其原因是大容量負載啓動導緻的過(guò)載并鎖定在旁路狀态(UPS設置運行模式),盡管當時(shí)UPS已經(jīng)發(fā)出了聲音報警信号,由于空間距離的原因,工作人員并末聽到報警聲訊,所以直到發(fā)生嚴重的後(hòu)果以後(hòu)才發(fā)覺。從這(zhè)個案例可以看到,通常認爲并不重要的故障通知時(shí)間T1竟然長(cháng)達兩(liǎng)天。由于乃存在較大的不确定性,實際上對(duì)MTTR具有很大的影響,它可能(néng)是導緻UPS系統可用性降低的重要原因。

2、再來看看第二段時(shí)間——廠商的反應時(shí)間T2

由于中、大容量UPS的維修需要專業的知識及技能(néng),通常需要由廠商技術人員完成(chéng),這(zhè)段時(shí)間的長(cháng)短反映了廠商對(duì)售後(hòu)服務的重視程度及能(néng)力。不同的廠商分别爲不同的産品提供5×8(每周5天,每天8h的法定工作時(shí)間内)、7×24(每周7天,每天24h全天候)的售後(hòu)服務響應。

3、再看看第三段時(shí)間——故障初步判斷時(shí)間T3

爲了加快故障修複速度,廠商售後(hòu)服務工程師在提供上門維修服務之前,通常需要通過(guò)電話等通信手段與用戶進(jìn)行溝通,了解故障現象,通過(guò)用戶得到UPS系統的故障狀态和相關信息。這(zhè)一工作非常重要,故障初步判斷對(duì)準備接下來的故障現場修複起(qǐ)著(zhe)指導作用。這(zhè)段時(shí)間的長(cháng)短與很多因素有關,這(zhè)些因素包括:用戶維護水平和故障前系統的運行狀況、售後(hòu)服務工程師的技術能(néng)力和溝通能(néng)力、産品智能(néng)管理和使用的方便程度、是否人性化等。譬如,用戶對(duì)UPS系統越了解,用戶運行維護人員的技術水平越高,故障初步判斷時(shí)間就(jiù)越短。除了用戶、售後(hòu)服務工程師的技術能(néng)力對(duì)T3具有很大的影響外,溝通能(néng)力等非技術因素往往成(chéng)爲決定T3長(cháng)短的重要因素,用戶與售後(hòu)服務工程師的方言、語言表達習慣甚至性格等非客觀因素的差異和售後(hòu)服務工程師的溝通技巧等,都(dōu)會(huì)對(duì)溝通的有效性産生直接的影響,從而影響T3的長(cháng)短。

4、再看看第四段時(shí)間——上門服務時(shí)間T4

廠商工程師上門服務時(shí)間受到空間距離、天氣情況、交通狀況等條件的影響,但是相對(duì)容易控制,在進(jìn)行MTTR分析時(shí),可以作爲相對(duì)穩定的參數處理。

5、最後(hòu),再看看第五段時(shí)間——故障排除時(shí)間T5

這(zhè)段時(shí)間除了與售後(hòu)服務工程師的技術水平有關外,還(hái)直接受到第三步故障初步判斷結果的影響。由于故障初步判斷的失誤,可能(néng)導緻帶到現場的備件不能(néng)滿足維修的需要,從而使故障不能(néng)很快得到修複。另外,UPS系統的結構設計也會(huì)對(duì)故障排除時(shí)間幾有很大程度的影響。例如,有些廠商的UPS采用模塊化設計,其故障部件的更換時(shí)間大爲縮短,也有些廠商是采用所謂“N+1”的模塊化加冗餘配置技術,這(zhè)就(jiù)更加大大縮短故障的修複時(shí)間T5.

綜上所述,在影響故障修複時(shí)間的各個階段中,除了廠商的服務标準和工程師的技術水平對(duì)故障修複時(shí)間具有重要的影響外,故障報警通知、故障初步判斷等環節,由于其容易受到衆多非确定因素的影響,具有很大的不确定性,同時(shí)又不爲大家所重視,所以往往成(chéng)爲延長(cháng)故障修複時(shí)間MTTR的主要原因。

爲了有效縮短T1(故障報警通知時(shí)間)、T3,(故障初步判斷時(shí)間)和T5(故障排除時(shí)間),首先,UPS系統必須有故障遠程報警的功能(néng),UPS系統能(néng)在故障發(fā)生時(shí),通過(guò)各種(zhǒng)有效的遠程報警手段,向(xiàng)不在現場的系統運行維護人員及時(shí)報告故障信息,其次,售後(hòu)服務工程師能(néng)通過(guò)直接、客觀的手段了解故障情況,從而得到有關故障的正确、完整的信息,避免由于人爲因素造成(chéng)的信息失真、缺漏。

要想使UPS系統具備遠程報警、遠程測試、故障遠程診斷和遠程修複等新的功能(néng),這(zhè)就(jiù)要借助電源管理的新技術(包括一系列的附件、軟件産品)才能(néng)實現。以下進(jìn)一步介紹采用這(zhè)些電源管理技術後(hòu)的故障修複過(guò)程,從中不難看出,電源管理技術對(duì)UPS系統的可用性正在産生深遠的影響。

給UPS系統裝備上新的遠程報警管理卡,系統管理員可以對(duì)這(zhè)種(zhǒng)遠程報警卡進(jìn)行設置。系統管理員設置好(hǎo)了以後(hòu),遠程報警管理卡便能(néng)夠根據系統管理員的設置定期對(duì)UPS自動進(jìn)行檢測。當遠程報警管理卡檢測到系統的潛在問題或者故障發(fā)生時(shí),會(huì)立即自動通過(guò)電話、尋呼、網絡郵件、手機短信等方式向(xiàng)運行維護人員發(fā)出報警通知,避免故障的發(fā)生或者及時(shí)將(jiāng)故障警報通知廠商售後(hòu)服務部門,從而將(jiāng)報警時(shí)間T1縮短到“分鍾級”。UPS系統維護人員在得到報警通知後(hòu),立即通知廠商售後(hòu)服務人員,廠商售後(hòu)服務工程師能(néng)通過(guò)電話網絡、Internet,直接對(duì)故障UPS進(jìn)行訪問、遠程檢測和遠程故障診斷,以及下載UPS運行參數、運行曆史記錄等,這(zhè)一切都(dōu)由售後(hòu)服務工程師直接進(jìn)行,無需用戶的參與,避免了人爲因素的幹擾,使得對(duì)故障的初步判斷更爲準确,這(zhè)可大大縮短故障初步判斷時(shí)間T3,也爲縮短故障排除時(shí)間T5奠定基礎。在判斷清楚故障情況後(hòu),售後(hòu)服務工程師就(jiù)可以根據情況進(jìn)行處理,如果故障僅僅是由于系統的某些參數設置不當,則隻需要對(duì)UPS系統相應的參數進(jìn)行遠程調整就(jiù)可以完成(chéng)故障排除,如果需要上門排除故障時(shí),工程師就(jiù)可以直接攜帶備件進(jìn)行上門維修。由于故障初步判斷相對(duì)準确,故障排除時(shí)間T5也相應縮短。