論數據中心業務連續性的重要性

2018.04.23

随著(zhe)社會(huì)發(fā)展和科技進(jìn)步, 據中心面(miàn)臨的風險和威脅越來越大,一旦數據中心因爲突發(fā)災難造成(chéng)關鍵業務數據丢失或信息系統故障,將(jiāng)嚴重影響企業業務的正常運營,甚至威脅到國(guó)家安全 。而包含有大量電子設備的數據中心各系統在運行過(guò)程中不可避免地都(dōu)會(huì)發(fā)生因故障而失效的時(shí)候。硬件故障、軟件錯誤、人工操作失誤甚至對(duì)系統的惡意破壞,這(zhè)些都(dōu)可能(néng)導緻系統運行的非正常中斷,影響系統中數據的正确性或破壞系統的數據庫,使部分甚至全部數據丢失。所以如何保證數據中心的業務連續運營是數據中心管理者們首先要考慮的重要問題。

數據中心保持業務連續最大的威脅不是來自于火災、地震等小概率、大影響的災難, 更多地受到諸如人爲錯誤、流程缺陷等事(shì)件的威脅。這(zhè)些威脅時(shí)刻潛伏在企業的周圍, 随時(shí)一觸即發(fā),會(huì)影響數據中心的業務連續性, 使企業造成(chéng)重大損失。

今年以來,數據中心故障引發(fā)的業務故障觸目驚心:

2013年1月31日,亞馬遜Amazon.com主頁出故障,一小時(shí)的中斷時(shí)間讓該公司錯失了近500萬美元的收入;2013年1月28日,Facebook網站業務中斷;

2013年2月1-2,微軟的Office 365編輯套件和Outlook.com郵件服務陸續出現了業務中斷;

2013年6月3日,Twitter服務業務中斷,Twitter用戶無法訪問該服務來發(fā)送或讀取内容;

2013年8月19日,因數據中心網絡硬件出現故障,部分微信用戶發(fā)現無法收發(fā)信息,還(hái)有人的微信自動退回至軟件登錄界面(miàn)後(hòu)發(fā)現無法再登錄。

這(zhè)些大型的互聯網數據中心都(dōu)會(huì)頻繁出現業務中斷的故障,其它的數據中心就(jiù)更是故障不斷了。當然這(zhè)些企業也知道(dào)業務持續中斷意味著(zhe)什麼(me),可有時(shí)卻又在數據中心故障面(miàn)前顯得無能(néng)爲力。

表1列出了各個行業數據中心中斷一個小時(shí)造成(chéng)的損失預估,可見損失是要按分鍾來計算的,數據中心無法提供服務就(jiù)意味著(zhe)業務的減少,時(shí)間和金錢都(dōu)將(jiāng)受損,業務連續性對(duì)數據中心來說(shuō)重要性不言而喻。在當今信息高速發(fā)展的社會(huì),人們的工作、生活高度依賴于各類信息的傳遞與管理。而這(zhè)些信息處理的背後(hòu)都(dōu)有數據中心在高效運轉,很難想象如果沒(méi)有數據中心這(zhè)個世界怎能(néng)運轉。人們越是依賴于數據中心,數據中心對(duì)人們就(jiù)越重要。而提供穩定、持續的服務,這(zhè)是人們對(duì)數據中心的基本要求。現實中這(zhè)種(zhǒng)要求卻很難做到,這(zhè)是因爲數據中心是一個信息技術高度集中的場所,技術實現複雜,備份技術很多但要做到全部備份成(chéng)本就(jiù)太高,并且過(guò)度的備份也增加了系統運行的複雜性,反而帶來了整體運行的不穩定。

數據IDC

表1:數據中心業務中斷造成(chéng)的損失預估表

那麼(me)如何才能(néng)有效保證數據中心的業務連續性?

要保持數據中心業務的長(cháng)期連續性困難重重,因爲保持數據中心業務連續是一個長(cháng)期、全面(miàn)、持續完善的過(guò)程。在完成(chéng)數據中心建設之後(hòu),還(hái)應考慮如何确定業務需求和進(jìn)行應急響應等問題,爲保證數據中心業務連續性,需要從組織和團隊、IT技術、基礎設施、業務恢複到公共關系管理等各個方面(miàn)做工作。這(zhè)些工作涉還(hái)可能(néng)涉及機構高管層、科技、财務、審計等各個部門,因此爲保障數據中心業務的連續性需要全員參與,是一個複雜的即涉及技術又涵蓋管理的綜合問題。

關于如何保持業務的連續性問題已經(jīng)引起(qǐ)了各類專家的熱議,對(duì)于數據中心更是需要保持業務的連續性。業務連續性管理已經(jīng)演變成(chéng)了一門管理學(xué)科,在數據中心中得到了越來越多的應用。所謂業務連續性管理,即Business Continuity Management,簡稱BCM.這(zhè)個概念最早脫胎于傳統的IT備份與容災恢複計劃,業務連續性管理是一個一體化的管理過(guò)程,通過(guò)這(zhè)一過(guò)程,可以識别威脅組織機構的潛在風險,并提供一個指導性框架來建立組織機構的恢複能(néng)力和有效應急響應能(néng)力,從而保護利益相關者的資産,組織機構的信譽、品牌及其創造價值的活動。BCM的前身是災難恢複(DR)和業務連續計劃(BCP),真正受到重視是在20世紀90年代,尤其是2001年美國(guó)911恐怖事(shì)件之後(hòu),開(kāi)始了快速發(fā)展。作爲一個相對(duì)較新的概念,業務連續性管理相關工作在中國(guó)剛剛起(qǐ)步,在2003年SARS期間得到重視,并在2008年汶川地震時(shí)災後(hòu)出列方面(miàn)取得了成(chéng)就(jiù)。目前,BCM已經(jīng)在越來越多的企業中得到普及,尤其是數據中心領域。大約有85%的全球性企業實施了災難恢複(DR)計劃,但是僅有15%具備了完善的業務連續性計劃(BCM),即僅有少數企業的災難恢複計劃是以保障業務連續性爲目标。如果沒(méi)有一個完善并具可操作的連續性計劃,是無法确保達到災備恢複預期目标的。

BCM主要用于解決數據中心業務連續性兩(liǎng)個方面(miàn)的問題:

(1)   高可用性。

是指提供在數據中心部分故障的情況下,仍能(néng)提供繼續訪問應用的能(néng)力。不論這(zhè)個故障是業務流程、物理設施、IT軟/硬件的故障。

(2)   災難恢複。

是指當災難破壞數據中心時(shí)在不同地點、不同硬件設備上恢複數據的能(néng)力。上述兩(liǎng)個方面(miàn)不是相互孤立的,而是相互關聯、有交叉的。爲保證數據中心的業務連續性,高可用性和災難恢複要映射到數據中心的各個層面(miàn),從用戶終端到服務器、 存儲器、甚至包括機房環境。國(guó)際标準ISO20000和ISO27001建立了規範的IT服務和信息安全的管理體系,在ISO20000的框架内,就(jiù)包含了可持續性管理流程的内容。

持續性管理具有以下活動和過(guò)程:風險和災難規避評估、确定整體恢複策略、确定與建設業務持續性計劃、設計開(kāi)發(fā)持續性和災備預案、預案演練、預案維護。通過(guò)這(zhè)些活動可以將(jiāng)數據中心業務中斷的風險有效降低。

數據中心的管理者已經(jīng)意識到了數據中心業務連續性的重要性,關鍵是要采取有效的BCM管理,确保數據中心不再發(fā)生業務中斷。