消除數據中心熱點的各種(zhǒng)技術措施
Uptime Institute的一項調查研究顯示,高達十分之一的機櫃運行在溫度高于設備可靠性指導原則所推薦的允許範圍。目前數據中心的機櫃功率密度不斷攀升,平均每台機櫃的功率密度達到5kW甚至更高,因此,預計受熱點困擾的機櫃數量將(jiāng)與日俱增,很快超過(guò)上述比例。
如果熱點遲遲無法消除,時(shí)間一久便可能(néng)帶來嚴重的威脅,不僅危及IT設備的可靠性與性能(néng),還(hái)會(huì)影響硬件制造商的保修或維護協議。因此,數據中心運維人員需盡早采取有效措施,避免出現此類風險。
1 什麼(me)是熱點
許多IT專業人員經(jīng)常查看熱通道(dào)的溫度,或在冷通道(dào)的錯誤位置查看溫度,一旦發(fā)現溫度過(guò)高,便自認爲發(fā)現了熱點。然後(hòu),他們會(huì)采取各種(zhǒng)應對(duì)措施,但結果可能(néng)令人失望,非但未能(néng)消除熱點,反而引發(fā)更多的熱點。搞清究竟什麼(me)是熱點、熱點的根本起(qǐ)因以及如何識别熱點對(duì)于根除熱點至關重要。
(1) 熱點的定義
不能(néng)將(jiāng)數據中心内随機測得的任何高溫點都(dōu)視作熱點。我們將(jiāng)熱點定義爲:當IT設備進(jìn)風口的溫度高于ASHRAETC9.9所推薦的期望值,即視作熱點。一般機櫃頂部的位置最容易産生熱點。美國(guó)供熱、制冷與空調工程師學(xué)會(huì)(ASHRAE)的熱指南給出了服務器進(jìn)風口處溫度的推薦值及允許值範圍。
(2) 熱點産生的根源
數據中心所安裝制冷裝置的制冷量經(jīng)常供大于求,特别是當制冷量完全由IT設備“銘牌”上的額定值所決定。倘若如此,那麼(me)爲何還(hái)會(huì)出現熱點?究其原因,熱點的産生并非是制冷量不足或熱負荷過(guò)大,而是制冷量未能(néng)得到充分的使用,換句話說(shuō),制冷量是充足的,但未能(néng)在需要制冷的區域提供充分的制冷量,這(zhè)是由于缺乏氣流管理所造成(chéng)的。
圖1是一個制冷量未被(bèi)充分利用的例子,這(zhè)是來自施耐德電氣對(duì)一個真實案例的研究。圖中顯示了一個采用房間級制冷的傳統典型數據中心,它的高架地闆和吊頂用作送風和回風通道(dào)。機房空調先是以一定的壓力和速度將(jiāng)冷風送入地闆通道(dào)。然後(hòu),冷風通過(guò)高架地闆中的穿孔地闆(占機房空調氣流的54%)和地闆上線纜切口(占機房空調氣流的46%)從地闆通道(dào)進(jìn)入IT空間(即洩漏氣流)。
地闆上線纜切口的洩漏氣流會(huì)導緻制冷量的損失,因爲氣流無法到達IT設備的前方,而是繞過(guò)了設備。事(shì)實上,這(zhè)些氣流并未帶走任何熱量,而是又繞回到制冷單元。
通過(guò)穿孔地闆的大部分氣流(占穿孔地闆風量的96.29%)都(dōu)流經(jīng)IT機櫃中的設備,但由于缺乏氣流管理,并非全部氣流都(dōu)通過(guò)設備。一小部分冷風(占穿孔地闆風量的3.71%)繞過(guò)IT設備又返回到制冷單元。與洩漏氣流相同,這(zhè)些旁通氣流也會(huì)造成(chéng)制冷量損失。同時(shí),某些“亟需冷卻”的IT設備無法獲得足夠的冷量,而不得不從機櫃後(hòu)部吸入設備排出的熱風(占IT氣流量的7.15%),這(zhè)經(jīng)常在“亟需冷卻”的IT設備的前方造成(chéng)熱點。簡而言之,用于減少氣流洩漏、旁通與再循環的措施將(jiāng)有助于熱點的消除。
(3) 如何識别熱點
盡早發(fā)現熱點對(duì)于防止IT設備過(guò)熱和故障至關重要。我們可以通過(guò)以下三種(zhǒng)方法發(fā)現熱點:
①最簡單、最經(jīng)濟的熱點檢測方法就(jiù)是在數據中心内來回巡視,將(jiāng)手放于機櫃前部,感覺溫度。如果溫度較高,則說(shuō)明存在熱點。這(zhè)種(zhǒng)方法的準确性最差,但對(duì)于極爲明顯的熱點頗爲有效。
②手動測量法較爲準确,因爲儀表可以更準确地測出溫度值。此類儀表包括塑料溫度貼條、槍式測溫計和FLIR紅外熱像儀。手動測量被(bèi)認爲是一種(zhǒng)經(jīng)濟且頗爲有效的熱點檢測方法。盡管如今的紅外熱像儀售價高達300美元。數據中心運維人員可以利用這(zhè)些儀表在服務器進(jìn)風口和機櫃的前門位置測量溫度值以及測量服務器進(jìn)風口和排風口間的溫差(即服務器的ΔT),以便發(fā)現熱點。
③自動監測被(bèi)譽爲熱點識别的最佳方法,可以顯示實時(shí)數據,說(shuō)明服務器或數據中心的制冷狀态。數據中心物理基礎設施管理(DCIM)解決方案的自動監測裝置可在系統達到某個阈值時(shí),通過(guò)電子郵件或短消息向(xiàng)相關人員發(fā)出實時(shí)警報。借助DCIM軟件,您可以按照自己的具體要求查看每台設備進(jìn)風口和排風口的實際溫度。施耐德電氣的StruxureWareTM就(jiù)是一款典型的數據中心基礎設施管理軟件,它可以利用從已安裝的傳感器網絡收集到的實時(shí)數據來提供詳實的三維熱分布圖。這(zhè)種(zhǒng)方法的精确度最高,但成(chéng)本也最高。此外,IT設備一般配有内置熱傳感器,可以監控其熱狀态并利用IPMI協議報告熱點。
其他有助于識别或預防潛在熱點的建議包括利用計量型機櫃式PDU識别并檢查高密度(功率密度在5kW以上的)機櫃——因爲這(zhè)些機櫃出現熱點的可能(néng)性更高。在決定進(jìn)行移動、添加和更改機櫃操作後(hòu)或在數據中心設計階段,利用CFD軟件預測熱點。CFD模拟技術可以提供機櫃前部溫度與壓力雲圖以及機櫃周圍氣流分布的詳細三維分析,從而發(fā)現潛在熱點。該工具的強大之處在于可以發(fā)現哪些區域的制冷量被(bèi)浪費,哪些區域存在冷熱氣流混合,導緻制冷量未被(bèi)充分利用。
2 評估所采取的傳統措施
當發(fā)現熱點,數據中心運維人員會(huì)采取各種(zhǒng)應對(duì)措施。不過(guò),并非所有的措施都(dōu)會(huì)奏效。下文將(jiāng)介紹一些傳統的應對(duì)措施,并闡述這(zhè)些措施奏效/無效的原由。請注意大部分措施對(duì)于減少氣流旁通或再循環根本無濟于事(shì)。
(1)調低制冷單元的溫度設定值
調低送風溫度有助于減少熱點的說(shuō)法貌似合乎邏輯,但在處理熱點時(shí)實爲不得已而爲之的下下之策,因爲這(zhè)會(huì)降低整個制冷系統的效率和制冷量。這(zhè)種(zhǒng)方法的效果取決于機房空調的工作狀态。如果制冷系統尚有多餘容量(即工作負載不足100%,未達到制冷極限),那麼(me)調低溫度設定值的做法具有積極的效果。對(duì)于靠近機房空調位置的熱點,調低溫度設定值可以降低熱點處的溫度。但倘若機房空調正以最大容量(100%滿負載)運行,由于系統已達到制冷極限,調低溫度設定值是沒(méi)有效果的,所以無法消除熱點。每個制冷系統在給定環境條件下都(dōu)有固定的最大制冷容量。溫度設定值調低後(hòu),“最大”制冷容量也随之降低。
(2)在熱通道(dào)中放置穿孔地闆
有人認爲這(zhè)方法很好(hǎo),這(zhè)是因爲他們不了解冷通道(dào)/熱通道(dào)布局設計的優勢,而將(jiāng)所有高溫現象都(dōu)視作熱點。事(shì)實上,這(zhè)種(zhǒng)方法非但不能(néng)消除冷通道(dào)中的熱點,還(hái)有可能(néng)引發(fā)更多熱點。此外,在熱通道(dào)中放置穿孔地闆(即造成(chéng)氣流旁通)還(hái)會(huì)減少可用的制冷量。冷通道(dào)/熱通道(dào)布局設計是最爲行之有效的方法,因此熱通道(dào)中根本不存在熱點。由于冷通道(dào)是IT設備獲取制冷量的“冷量容器”,對(duì)于IT設備而言,在冷通道(dào)内保持低溫至關重要。在風冷型大型設備盛行初期,往往通過(guò)高架地闆提供冷量,制冷單元根據回風溫度進(jìn)行控制。這(zhè)種(zhǒng)方法之所以奏效是因爲室内空氣溫度均一,冷熱氣流充分混合。而如今,冷通道(dào)/熱通道(dào)的布局設計中特意分别建立冷熱兩(liǎng)個溫度區,形成(chéng)回風溫度的不均一。習慣于均一室内溫度設計的人員可能(néng)會(huì)在熱通道(dào)中放置穿孔地闆,認爲這(zhè)樣(yàng)做就(jiù)可以解決熱點問題。
(3)將(jiāng)機櫃和穿孔地闆緊靠制冷單元
有人會(huì)覺得將(jiāng)機櫃和穿孔地闆盡量緊靠制冷單元的做法不錯,這(zhè)是因爲他們假定放置在距離制冷單元幾英尺範圍的機櫃和穿孔地闆能(néng)獲得較多的制冷量。但事(shì)實上,效果恰恰相反。它可能(néng)導緻IT設備出現供冷不足的現象,且無法持續消除熱點。雖然這(zhè)一做法可以幫助收集大部分排熱,但不具有可預測性,并不是解決熱點的高效做法。而這(zhè)種(zhǒng)做法導緻IT設備出現供冷不足現象的原因在于,從制冷單元送出的氣流具有很高的速度,導緻該片區域内的靜壓很低。這(zhè)也就(jiù)是說(shuō),該片區域内安裝的穿孔地闆的供冷量很小,甚至可能(néng)會(huì)將(jiāng)房間内的氣流吸入地闆通道(dào)内。
确定高架地闆下的氣流是否存在問題有一個很簡單的做法,那就(jiù)是在穿孔地闆上方放置一小紙片。如果紙片被(bèi)吸向(xiàng)穿孔地闆内,則應將(jiāng)穿孔地闆更換爲實心地闆,以平衡高架地闆下的通道(dào)壓力。
(4)將(jiāng)落地扇置于熱點機櫃前
有人認爲此舉可將(jiāng)氣流直接集中在某個熱點的前方,因此是一種(zhǒng)消除熱點的好(hǎo)方法。但是,這(zhè)種(zhǒng)方法隻能(néng)在緊急狀況下臨時(shí)使用,如IT設備即將(jiāng)發(fā)生制冷中斷時(shí)。這(zhè)種(zhǒng)做法可以降低設備的運行溫度從而消除熱點,但成(chéng)本極高。落地扇的作用基本相當于一個氣流混合器,將(jiāng)設備排出的熱風與冷風混合,使氣流的溫度介于低送風溫度和高排風溫度之間。這(zhè)還(hái)會(huì)增加通過(guò)設備的氣流量。冷熱風的混合還(hái)會(huì)降低制冷系統效率,造成(chéng)增加除濕/加濕負擔,制冷系統容量利用不充分,并可能(néng)因制冷冗餘造成(chéng)損失。此外,落地扇還(hái)會(huì)成(chéng)爲數據中心内的附加熱源。
(5)將(jiāng)氣流吹過(guò)冰并送入冷通道(dào)
有人認爲用冰降溫是一種(zhǒng)簡單易行的好(hǎo)方法。雖然此方法有助于緩解熱點問題,但冰融化後(hòu)會(huì)變成(chéng)水,可能(néng)溢出容器,造成(chéng)嚴重後(hòu)果。即便使用包裝好(hǎo)的冰袋,這(zhè)種(zhǒng)方法也并非上策,因爲還(hái)有很多更簡單有效的方法。我們將(jiāng)在下文中詳細讨論這(zhè)些方法。
(6)推入便攜式制冷單元
有人認爲這(zhè)是一種(zhǒng)解決問題的好(hǎo)方法,因爲此舉可將(jiāng)冷風直接集中在某個熱點的前方。但這(zhè)種(zhǒng)方法隻能(néng)在緊急狀況下臨時(shí)使用,如IT設備即將(jiāng)發(fā)生制冷中斷時(shí)。遺憾的是,人們經(jīng)常將(jiāng)這(zhè)種(zhǒng)方法用作永久性解決方案。便攜式制冷單元一般是在失去制冷的情況下應急使用,因爲數據中心工作人員可以很方便地將(jiāng)其推入到位。然而,對(duì)于如何妥善解決遍布數據中心的熱點問題,下面(miàn)所讨論的最佳方法才是首選的永久性解決方案,不但成(chéng)本低廉而且非常奏效。
(7)增加更多制冷單元
有人很自然地將(jiāng)熱點問題與制冷量不足關聯起(qǐ)來,因此認爲增加制冷單元不失爲一種(zhǒng)理想方法。然而,在多數情況下,制冷量非常充足,隻是由于缺乏氣流管理,導緻到達制冷需求點的制冷量未達到要求的水平。此外,這(zhè)種(zhǒng)方法并非萬能(néng),而且在解決熱點問題的同時(shí)還(hái)會(huì)産生大量費用支出。Uptime Institute的一項調查研究顯示,雖然某些IT機房的制冷量已高達需求量的15倍,但機房中仍有7%到20%的機櫃存在熱點。究其原因,竟是送入的冷風繞過(guò)了IT設備的進(jìn)風口。正确的解決方案是采用下面(miàn)所讨論的最佳方法,然後(hòu)再核定是否需要增加制冷單元。
3 消除熱點的新方法
以上方法司空見慣,但我們大都(dōu)不推薦使用,因爲這(zhè)些方法對(duì)于造成(chéng)熱點的兩(liǎng)個主要起(qǐ)因(即氣流旁通與再循環)無能(néng)爲力。如要杜絕氣流旁通與再循環現象,必須將(jiāng)冷熱氣流完全分離,這(zhè)樣(yàng)熱點就(jiù)根本不會(huì)存在。下面(miàn)的前四種(zhǒng)最佳實踐之所以有效,正是因爲這(zhè)些實踐解決了氣流旁通或再循環問題,或同時(shí)解決了這(zhè)兩(liǎng)個問題。最後(hòu)一個新方法隻有在氣流管理完全落實到位之後(hòu)方可采用。
(1)管理機櫃氣流
許多熱點的出現是因爲設備排出的熱風在機櫃内部或機櫃周圍發(fā)生再循環。因此,改善機櫃氣流管理對(duì)于解決熱點至關重要。開(kāi)放的機櫃U空間和進(jìn)出線口是造成(chéng)熱風再循環的主要原因,直接導緻熱點産生。改善機櫃氣流狀況最簡單、最經(jīng)濟有效的方法之一是利用盲闆封堵未使用的機櫃U空間,并在機櫃的進(jìn)出線口位置安裝毛刷。企業應更新數據中心運行流程,規定凡有移動、添加和更改操作,便要安裝盲闆和毛刷。
某些類型的交換機和路由器采用側向(xiàng)氣流。如果在安裝這(zhè)些設備的數據中心内,機櫃氣流采用從前向(xiàng)後(hòu)的傳統模式,則交換機/路由器的排出的熱風可能(néng)返回進(jìn)風口并造成(chéng)熱點。
我們可以利用機櫃側向(xiàng)氣流分配單元以可預測方式直接向(xiàng)側向(xiàng)氣流設備送入冷風,而不會(huì)造成(chéng)熱點。如果平均制冷總量充足,但在功率密度高于均值的機櫃中産生熱點,此時(shí)可以增加風機輔助型設備,通過(guò)改進(jìn)氣流狀況和增加制冷量來改善制冷效果。風機輔助型設備設備可有效地從功率密度爲3kW以下負載的相鄰機櫃“借用”氣流以支持機櫃負載。此方法可最大限度地降低機櫃頂部和底部間的溫差,并防止設備排出的熱風再循環至機櫃的進(jìn)風口。所有排風設備在部署時(shí)必須十分小心,以确保來自相鄰空間的氣流不會(huì)造成(chéng)相鄰機櫃溫度過(guò)高。這(zhè)些設備應使用UPS供電,避免設備在斷電期間發(fā)生制冷中斷。在高密度環境中,啓動備用發(fā)動機期間也可能(néng)發(fā)生過(guò)熱現象。
(2)管理機房氣流
在改善機櫃氣流管理後(hòu),下一個重要步驟是改善機房内的氣流管理。首先,是密封高架地闆中所有的開(kāi)口。使用毛刷密封機櫃後(hòu)部和PDU下面(miàn)的進(jìn)線口。導緻意外氣流洩漏大都(dōu)由這(zhè)些開(kāi)口造成(chéng)。還(hái)可利用空氣阻尼泡沫或軟墊密封制冷單元周圍的縫隙和其他地闆空隙,在地闆缺損的部位鋪上實心地闆,找出造成(chéng)氣流旁通的穿孔地闆并改用實心地闆。例如,如果一個空機櫃前鋪了穿孔地闆,則應將(jiāng)其換爲實心地闆。此外,還(hái)可遵照側欄中的操作程序對(duì)地闆下的氣流進(jìn)行重新平衡。正确鋪設地闆并密封高架地闆中的縫隙有助于回收利用損失的制冷量。
另一個導緻熱點問題的因素是機櫃頂部上方和機櫃行末端周圍發(fā)生的冷熱氣流混合。解決這(zhè)一問題的一個最佳實踐是通過(guò)遏制通道(dào)和/或機櫃氣流將(jiāng)冷熱氣流分開(kāi)。通道(dào)氣流遏制不僅有助于消除熱點,與傳統的非氣流遏制數據中心設計相比還(hái)更加節能(néng)。
可以用一個送風設備替換機櫃的後(hòu)門,從而將(jiāng)其變爲一個主動式風管機櫃。需注意這(zhè)些設備將(jiāng)使機櫃的總深度增加大約250mm,這(zhè)可能(néng)會(huì)增大每兩(liǎng)行相鄰機櫃之間的間距。通常情況下排入熱通道(dào)的熱風會(huì)被(bèi)收集起(qǐ)來并向(xiàng)上推送,然後(hòu)沿管道(dào)進(jìn)入回風通道(dào)。此舉可防止氣流在機櫃進(jìn)行再循環并提升制冷系統的效率和制冷量。主動式獨立垂直風管系統中的風扇可支持高達12kW的機櫃功率密度,并能(néng)克服不佳通道(dào)壓力或因服務器排風口線纜過(guò)度密集而導緻的壓降。但主動式垂直風管系統很容易爲數據中心的其他區域帶來意想不到的問題,因此在部署安裝時(shí)應格外小心。在這(zhè)些設備中必須使用盲闆和機櫃側面(miàn)闆。主動式風管系統是耗電設備,因此需要監控和維護。
(3)轉移問題負載
如上所述,轉移問題負載的方法是在發(fā)現“問題”負載之後(hòu)將(jiāng)其轉移到低密度機櫃,從而消除熱點。爲機房配備制冷設備,讓機房冷卻到低于機櫃潛在峰值的一個平均值,并將(jiāng)負載分攤到幾個機櫃,從而將(jiāng)任何負載超過(guò)設計平均值的機櫃負載分流。請注意,將(jiāng)設備負載分攤到多個機櫃會(huì)使機櫃内出現大量未使用的垂直空間。必須用盲闆將(jiāng)這(zhè)些空間密封,防止制冷性能(néng)降低。如果可以拆除一台服務器或其它關鍵性設備,此舉幾乎毫無成(chéng)本卻可解決熱點問題。
(4)改變溫濕度傳感器的位置
在多數陳舊的數據中心,都(dōu)是在機房空調回風氣流中安裝溫度探測器,使得氣流具有不可預測性。此舉還(hái)會(huì)導緻機房空調負載不均衡,從而使服務器進(jìn)風口的溫度發(fā)生波動。將(jiāng)溫度探測器轉移到送風氣流中(這(zhè)裡(lǐ)的送風可控制而且可預測)可使IT設備進(jìn)風口的溫度更加平穩。如果與氣流遏制方法結合使用,改變溫度探測器的位置還(hái)能(néng)提高送風溫度,從而減少制冷系統的能(néng)耗,同時(shí)無需擔心送風溫度是否會(huì)有大幅波動。
(5)利用數據中心基礎設施管理軟件控制制冷單元的氣流
有些系統可以根據IT機櫃前方的溫度控制單個機房的制冷單元。這(zhè)些系統可使用模糊算法動态預測和調整制冷單元的風扇轉速,并測算哪些制冷單元可關閉。通過(guò)控制進(jìn)入數據中心的風量可以限制旁通氣流量。Vigilent制冷系統就(jiù)是這(zhè)種(zhǒng)系統的一個典型。
4 結束語
熱點會(huì)嚴重影響服務器的可靠性和性能(néng),甚至會(huì)造成(chéng)服務器的損壞。熱點通常出現在IT設備的進(jìn)風口位置,原因包括低效的氣流管理,如冷氣流洩漏(即氣流旁通)和設備排出的熱風再循環等問題。巡視感知溫度、手動測量溫度或自動監測是三種(zhǒng)識别熱點的主要方法。
數據中心運維人員爲消除熱點,采用了許多應對(duì)措施,但大都(dōu)不盡人意,有的僅能(néng)作爲應急情況使用,而有的卻無濟于事(shì),有的甚至會(huì)使問題雪上加霜。消除熱點的最佳實踐包括機櫃和機房的氣流管理、氣流遏制、問題設備轉移、改變溫度傳感器位置以及通過(guò)數據中心物理基礎設施管理軟件控制制冷單元的氣流。用這(zhè)些方法解決熱點問題不僅簡單易行,而且成(chéng)本低廉,行之有效。