自下而上的數據中心電源管理

2018.05.21

插座交換開(kāi)關和插座級的功率測量對(duì)于現代數據中心的設備、增長(cháng)和效率的完整管理目标是至關重要的。多年來,在數據中心業界一直流傳著(zhe)這(zhè)樣(yàng)一條準則:您數據中心無法對(duì)不能(néng)測量的設施實施任何改善。盡管數據中心的操作運營人員們能(néng)夠基于他們過(guò)去的經(jīng)驗總結,而進(jìn)行一些标準化的設備升級;或可能(néng)實施偶然性的改進(jìn),但如若沒(méi)有對(duì)IT設備的詳細測量,以及對(duì)于分配系統的每個級别的功率控制,則不可能(néng)實施持續性的改進(jìn)。管理對(duì)數據中心設備的部署和使用,并随著(zhe)時(shí)間的推移,在設備達到其使用壽命期間時(shí)進(jìn)行報廢處置屬于數據中心的日常運營活動。而通過(guò)機架密度意識、容量規劃和正常運營維護來了解數據中心業務的增長(cháng),將(jiāng)繼續成(chéng)爲數據中心管理人員們所面(miàn)臨的主要挑戰。而随著(zhe)經(jīng)濟大環境的緊縮、市場競争在未來十年還(hái)將(jiāng)進(jìn)一步加劇,故而效率分析隻會(huì)變得更加關鍵。在本文中,我們將(jiāng)特别向(xiàng)廣大讀者諸君提出:具備插座交換開(kāi)關和插座級功率測量功能(néng)的機架PDU是現代數據中心所必備的。

管理IT設備

業務所依賴的、托管在數據中心中的IT設備是安裝在機櫃或機架中的網絡、計算和存儲設備。這(zhè)些設備具有由它們各自的使用目的而分别定義的有限的使用壽命周期,并且必須被(bèi)妥善管理。不僅僅是在其操作運營期間注重對(duì)它們的管理,而是要從其部署到最終報廢的整個使用壽命期間對(duì)于它們的所有使用壽命周期進(jìn)行跟蹤。此外,管理一款設備包括随著(zhe)時(shí)間的推移對(duì)于相關設備的功耗成(chéng)本會(huì)超過(guò)其所給企業業務帶來的功能(néng)價值的理解。換句話說(shuō),數據中心管理人員們重要的是應該基于設備所消費的每瓦特的能(néng)耗所帶來的性能(néng),而準确的知道(dào)什麼(me)時(shí)候應該更新到更高效的設備,來替換舊的設備。由于能(néng)夠從相關财務負責部門看到數據中心的電力成(chéng)本費用,因此,及時(shí)報廢淘汰這(zhè)些舊的設備也有助于數據中心提高效率。

鎖定和部署

關于在中型和大型數據中心環境中部署新的IT設備的一個難題是回答三個關于“在何處?”的問題。這(zhè)三個“在何處?”的大問題與支持這(zhè)些新設備所需的功率、空間和冷卻有關。相當一部分的設備將(jiāng)被(bèi)簡單地安裝在其所适合的位置,然後(hòu)記錄下來以便進(jìn)行追蹤。當設備的正常運行和效率被(bèi)認爲是非常重要的時(shí)候,這(zhè)是一種(zhǒng)有風險的部署方法。事(shì)實上,數據中心管理人員不僅需要識别新的IT設備适合安置在何處,而且還(hái)應當确定哪台機架能(néng)夠在正常運營和效率方面(miàn)以正确的相位爲之提供恰當的可用功率,這(zhè)是至關重要的。能(néng)夠顯示機櫃電源使用情況和溫度的趨勢工具(例如,去年的趨勢情況)可以幫助數據中心管理人員們确定基于最壞的情況條件在機櫃内安裝更多的設備是否安全。管理這(zhè)方面(miàn)的方法之一是“鎖定”未使用的插座。換句話說(shuō),在沒(méi)有安裝設備時(shí),請關閉交換機架PDU的插座。然後(hòu)在所安裝的新設備進(jìn)行生産作業單時(shí),按照計劃將(jiāng)電力供應給适當的插座。下圖1顯示了插座控制操作的一般通用GUI界面(miàn)。許多PDU還(hái)具有用于執行相同操作的命令行界面(miàn)和SNMP訪問。諸如Server Technology公司所提供的Sentry電源管理器(SPM)等電源管理軟件可以調度插座控制的任務以便提供與票證部署(ticketed deployment)一緻的手段。

QQ圖片20161212094453

圖1:通過(guò)Server Technology公司所提供的PRO2機架PDU,從一個網絡訪問進(jìn)行插座控制

跟蹤

不管簡單與否,識别所安裝的設備的任務通常歸結爲在資産管理系統中對(duì)每款設備進(jìn)行命名,并提供關于機架名稱、機架中的RU插槽和用于電源的機架PDU插座等相關信息。所以,以這(zhè)種(zhǒng)方式識别設備并提供“鎖定”交換開(kāi)關控制的一款軟件包應該是一款數據中心管理器的打包。下圖2顯示了Server Technology公司的SPM中的機櫃設備頁面(miàn)。通過(guò)配置每款部署設備的基本特性,如名稱、RU位置、規模大小和使用的插座,數據中心管理人員可以輕松管理部署。

Bill-back

對(duì)于企業組織中的各個部門而言,特定IT設備的電力使用情況的“bill-back” ,或至少“show-back”一直是一種(zhǒng)緩慢增長(cháng)的趨勢(許多人會(huì)認爲“太慢了”)。但這(zhè)不僅帶來了更好(hǎo)的預算分配,而且還(hái)通過(guò)強制業務部門考慮每台設備的價值,而不是通過(guò)囤積服務器或存儲,來提高效率。國(guó)際正常運行時(shí)間協會(huì)(Uptime Institute)一直是積極推廣“bill-back”模式的領導者,并在其《IT Chargeback推動效率提升》一文中提供了一個很好(hǎo)的證據。爲了在實踐中執行“bill-back”或“show-back”,一家數據中心必須首先具有從能(néng)量消耗設備收集數據的能(néng)量管理系統。下圖3顯示了Server Technology公司的SPM通過(guò)位置所提取的标準能(néng)源成(chéng)本報告。類似的報告還(hái)允許業務部門監控一組散布在世界各地的多個位置的機櫃。如有必要,同樣(yàng)的軟件還(hái)可以監測每款設備的插座級别能(néng)量消耗情況。

QQ圖片20161212094420

圖2:Server Technology公司的SPM中的機櫃設備選項卡

QQ圖片20161212094348

圖3:Server Technology公司的SPM中的能(néng)源成(chéng)本報告

管理增長(cháng)

如果隻需考慮數據中心的總體規模或數據中心的能(néng)耗總數,就(jiù)很容易考慮到增長(cháng)。這(zhè)并不是說(shuō),對(duì)于某家特定數據中心的總能(néng)耗爲1.5兆瓦的理解是沒(méi)有意義的。事(shì)實上,在其能(néng)源利用率方面(miàn)了解數據中心是至關重要的。關鍵在于,當談到數據中心的增長(cháng)時(shí),人們不能(néng)放棄對(duì)于在IT設備級别所發(fā)生的任務的理解。考慮數據中心的所有增長(cháng)因素,包括密度、容量、以及正常運行時(shí)間,對(duì)于數據中心的管理而言是至關重要的。而這(zhè)一切都(dōu)要從機架中的設備和其電源使用情況開(kāi)始。随著(zhe)時(shí)間的推移,充分了解機架内的電源使用情況,將(jiāng)有助于發(fā)現滞留容量能(néng)力,以便在已有資源内優化增長(cháng)。

密度

在Server Technology公司所推出的《管理不同數據中心機架密度(Managing Variable Data Center Rack Densities)》一文中,這(zhè)種(zhǒng)情況是爲了在數據中心的整個生命周期内規劃機架内IT設備的密度。我們可以通過(guò)每台機架中的特定設備在數據中心中的功率使用的總體密度中所占據主導地位的程度來進(jìn)一步加深這(zhè)一認識。數據中心的增長(cháng)不一定需要部署新的設備。下圖4提供了在既定的特定電源電路下,關于服務器利用率計劃如何影響可以部署到特定機架中的服務器的數量的示例。在這(zhè)種(zhǒng)情況下,可以部署28台利用率爲30%的服務器,或者部署19台可以達到80%的利用率的服務器。在該示例中,數據中心的增長(cháng)涉及將(jiāng)應用程序添加到現有設備,以便增加利用率。即使部署的服務器數量下降了約30%,每瓦能(néng)耗的性能(néng)也增加了80%.

QQ圖片20161212094216

圖4:每台服務器的能(néng)耗和每台機架的vs.CPU使用情況 - 30A 三相208V電路,來源:Server Technology公司《管理不同數據中心機架密度》

通過(guò)在機架PDU處測量的每個插座的功率,可以看出該效果的細節。我們可以說(shuō),這(zhè)種(zhǒng)機架具有更高的功率密度,但卻是較低的物理設備密度。另一方面(miàn),新設備部署所增加的物理密度,可能(néng)會(huì)也可能(néng)不會(huì)增加機架中的總功率。這(zhè)些設備趨勢導緻了具備更多插座的更高功率的機架PDU被(bèi)安裝到更高的機架。

容量規劃

與爲數據中心電力使用的增長(cháng)進(jìn)行規劃相比,容量規劃在電力供應鏈的各個層面(miàn)都(dōu)至關重要;然而,如果數據中心的設計充分實現了,則可以基于每個IT設備的測量來預測機架級的容量。下圖5顯示了對(duì)于機櫃總功率的預測趨勢。在這(zhè)種(zhǒng)情況下,簡單地增加安裝設備的利用率會(huì)導緻功率使用增加的趨勢。在包括安裝附加設備的增長(cháng)趨勢中可以看到更明顯的階梯式變化。無論采用哪種(zhǒng)方式,都(dōu)可以設置容量的限制阈值,以允許基于未來可能(néng)的條件發(fā)出警報。這(zhè)會(huì)帶來關于機櫃何時(shí)將(jiāng)耗盡功率或超過(guò)溫度阈值的實際預測。

爲了基于機櫃内的實際利用情況來補充這(zhè)種(zhǒng)預測趨勢,數據中心管理人員們可以使用現有機櫃設備的插座功率測量來幫助涉及補充類似設備的“假設”情況。Server Technology公司的POPS PDU便是能(néng)夠提供這(zhè)種(zhǒng)有價值的信息的一種(zhǒng)方式。

QQ圖片20161212094148

圖5:Server Technology公司的SPM預測功率趨勢

正常運行

無論企業數據中心正常運行的标準到底如何,很少有企業會(huì)僅僅隻是因爲增長(cháng)太過(guò)突然就(jiù)允許簡單的降低正常運行水平的。網絡可訪問的插座控制減少了重新啓動鎖定設備的響應時(shí)間,特别是對(duì)于遠程站點而言。在恢複了失去的功率之後(hòu),插座功率的分段排序將(jiāng)有助于防止浪湧引起(qǐ)額外的停機中斷。當然,了解單個配電設備随著(zhe)時(shí)間的推移的功耗情況有助于衡量冗餘,以保持較高的正常運行水平。下圖6顯示了SPM的機櫃内的功率使用的細節。在這(zhè)種(zhǒng)情況下,功率使用連續地在機架PDU電路的安全等級阈值的上下反彈。沒(méi)有斷路器會(huì)損害一個電源,但安全合規性可能(néng)會(huì)受到損害。如圖6的左下角的條形圖所示:雖然“A”(最左邊的黃色條)和“B”(中間黃色條)電源上的單個PDU符合均安全規範,但是在一個電源損失的“假設”情況下(最右邊的黃色條)表明其必須在電力允許範圍内恢複正常功能(néng)。

QQ圖片20161212094122

圖6:執行冗餘檢查的機櫃頁面(miàn)

管理效率

數據中心的效率是關乎到“綠色環保”,并甚至關乎到您的錢包的事(shì)項。提高效率的最重要的出發(fā)點是爲了省錢。IT設備電力供應級别降低有助于數據中心從整體上降低功率和冷卻要求。這(zhè)不僅是從基本的kW-h成(chéng)本的角度,而且還(hái)包括設備部署時(shí)的資本支出和持續增長(cháng)的角度。衆多介紹了管理數據中心效率的重要性的文章之一是:DatacenterDynamics網站所發(fā)表了《現實:數據中心電源使用已然失控(The truth is: data center power is out of control )》。在該文章中,作者指出,效率的提高將(jiāng)增加需求,使總體消費實際上增加。在數據中心,這(zhè)意味著(zhe)無論效率如何提高,功率使用都(dōu)將(jiāng)增加。有人可能(néng)認爲這(zhè)是無視效率提升倡議的論據,但事(shì)實上這(zhè)將(jiāng)是一個嚴重的錯誤。随著(zhe)時(shí)間的推移,數據中心的效率將(jiāng)變得越來越重要,因爲其他競争性的企業組織將(jiāng)變得更有效率。考慮到這(zhè)一點,根據數據中心中的特殊重點,管理效率將(jiāng)采取幾種(zhǒng)形式。在機架式IT設備領域,包括選擇電力供應和正确利用IT資源。同時(shí),一些簡單易行的措施包括在下班時(shí)間或設備不被(bèi)使用時(shí)將(jiāng)其斷電關閉。

電源供應

在IT設備電源供應水平上管理效率有兩(liǎng)種(zhǒng)形式。首先,用電源輸出除以電源輸入,這(zhè)是效率的技術定義。但由于電源效率接近95%,這(zhè)可以說(shuō)是一個微不足道(dào)的讨論。第二個方面(miàn)是我們可以稱之爲有效性。這(zhè)與設備所消耗的功率比上執行實際的工作任務所消耗的功率有關。綠色網格組織的DCeP(數據中心能(néng)源生産率)對(duì)于了解數據中心内的有效性非常有用。在2014年3月13日關于協調數據中心能(néng)源效率全球衡量标準的備忘錄中,他們重申了他們的建議,即在IT負載中直接使用IT能(néng)源消耗來計算PUE.雖然許多服務器都(dōu)有其收集電源性能(néng)數據的手段,但大多數其他類型的設備并沒(méi)有。這(zhè)使得數據中心的管理人員們隻有一個選擇——使用從機架PDU的插座級的監控來獲取電力消耗和能(néng)耗情況。下圖7顯示了采用Server Technology公司的POPS PDU的插座能(néng)耗指标情況。

QQ圖片20161212093948

圖7:Server Technology公司的SPM的能(néng)耗報告

減載/調度

在許多企業組織機構中,完全供電的數據中心機架式IT設備并不需要24/7全天候的供電。在無人值守時(shí)間内關閉部分或全部的設備容量能(néng)力是降低功耗和成(chéng)本的最重要的方式。下圖8展示出了一個政府機構參照此方法的結果,其將(jiāng)設備在不需要運行的非工作時(shí)間關閉。結果顯示在任何一周内,其POC數據中心的電力使用量平均下降超過(guò)50%.

插座級的控制允許通過(guò)自動化實現這(zhè)樣(yàng)的中斷過(guò)程的調度。很多機架PDU允許通過(guò)腳本或SNMP命令自動訪問控制插座狀态。諸如SPM這(zhè)樣(yàng)的軟件包可以提供簡單的工具組以通過(guò)一個單一的調度任務實現一組插座控制命令,可以基于需求時(shí)間需要進(jìn)行複制。

QQ圖片20161212093838

圖8:插座控制調度所帶來的實際節省

僵屍服務器

盡管長(cháng)期以來業界一直有關于“僵屍”服務器所造成(chéng)浪費的讨論——“僵屍”服務器是那些仍然在使用但又尚未被(bèi)充分使用的設備——但是它們對(duì)數據中心效率的影響幾乎沒(méi)有任何減少。自然資源保護委員會(huì)(NRDC)在其2014年8月發(fā)布的《數據中心效率評估(Data Center Efficiency Assessment )》中對(duì)“僵屍”或“昏迷”服務器提供了令人信服的評估。該報告指出了一個簡單的問題: “據我們所知,目前沒(méi)有IT經(jīng)理因爲沒(méi)有處置其數據中心的僵屍服務器兒被(bèi)企業開(kāi)除炒掉,”作者還(hái)指出,“删除僵屍設備被(bèi)證明是一個更具管理性的挑戰,而不僅僅是一個純技術的問題。”我們同意:随著(zhe)時(shí)間的推移,對(duì)插座級别的測量可以讓數據中心管理人員分析這(zhè)些設備是否是僅保持在空閑狀态,并且決定其是否可以被(bèi)關閉或重新啓動。下圖9顯示了基于SPM的機櫃設備的簡單趨勢。連續的低功耗使用顯然告訴了我們這(zhè)款設備是一款“僵屍”的迹象。

QQ圖片20161212093758

圖9:SPM的機櫃設備趨勢

總結

一款具備插座交換開(kāi)關和插座級功率測量功能(néng)的智能(néng)機架PDU與功率和能(néng)耗管理軟件耦合的系統在現代數據中心中是必不可少的。而諸如Server Technology公司的SPM交換POPS PRO2系列PDU就(jiù)滿足了這(zhè)一需求。這(zhè)些功能(néng)能(néng)夠幫助數據中心人員管理三個關鍵方面(miàn):在其整個生命周期的IT設備、數據中心機架内的增長(cháng)以及通過(guò)成(chéng)本節約實現企業效率要求的競争優勢。