從單核CPU到多核、四核、八核、十六核、三十二核,網絡單端口帶寬從 10M、100M、1G、10G、100G,這(zhè)些技術的進(jìn)步給數據中心帶來了高速的信息處理能(néng)力,但是也讓這(zhè)個數據中心的系統變得異常複雜,傳統的數據中心運維技能(néng)已經(jīng)難以适應信息高速發(fā)展的需要了,需要我們去不斷學(xué)習,提升自己,才能(néng)在未來的數據中心裡(lǐ),將(jiāng)運維的工作開(kāi)展好(hǎo)。下面(miàn)將(jiāng)結合一些實際工作經(jīng)驗 講述提升運維技能(néng)的一些方法。
數據中心是一個複雜的信息處理系統,包括系統、網絡、存儲、協議、需求、開(kāi)發(fā)、測試、安全、空調、供電、監控等多個環節,運維的工作就(jiù)是要包含到所有這(zhè)些方面(miàn),可見 運維的工作是一個集多IT工種(zhǒng)技能(néng)于一身的崗位。然而這(zhè)裡(lǐ)說(shuō)的每一個部分都(dōu)需要多種(zhǒng)技術學(xué)科的支撐,比如系統可能(néng)有Linux、Windows的,應用有 LVS、HA、WebServer、DB、中間件,網絡就(jiù)更複雜了,各種(zhǒng)二三層協議,虛拟化,環路協議,路由協議等等。
這(zhè)麼(me)多的技術不可能(néng)每個人都(dōu)精通,不可否認可能(néng)有這(zhè)種(zhǒng)全面(miàn)精通的人存在,但人的精力畢竟是有限的,要有所得也要有所失。
首先、是溝通能(néng)力、團隊協作
運維的工作涉及跨部門、跨工種(zhǒng)特别多,這(zhè)樣(yàng)運維的人員需要善于溝通,團隊協議能(néng)力要強,這(zhè)樣(yàng)在處理問題時(shí),可以充分調用各種(zhǒng)資源和技術力量,迅速解決問題。
對(duì)于數據中心時(shí)間就(jiù)是利潤,流量就(jiù)是金錢,一年365天要保持數據中心的穩定運行,不出故障或者少出故障才行。當業務部門反饋有故障時(shí),根據反饋的故障現象迅速鎖定故障點,然後(hòu)集中資源解決,這(zhè)其中需要大量的溝通,有效的溝通將(jiāng)爲排除故障節省下來大量時(shí)間。其次是運維工作要膽大心細。
然後(hòu)、膽大才能(néng)創新,不走尋常路
即使數據中心再小,它也有自己的特點,充分利用它的優勢,才能(néng)發(fā)揮出數據中心最大的效能(néng)。數據中心本來就(jiù)是一個技術更新很快的領域,願意接受新事(shì)物,大膽引入先進(jìn)運維的 技術將(jiāng)可以大大提升數據中心的工作效率。
其次、做好(hǎo)日常監控工作
一個健壯的身體離不開(kāi)每天的觀察,我們需要時(shí)時(shí)刻刻觀察我們的數據中心,看看數據中心發(fā)生的細小問題。每天都(dōu)要對(duì)數據中心的所有方面(miàn)運行參數進(jìn)行全面(miàn)檢查和記錄,慢慢地就(jiù)會(huì)對(duì)數據中心運行狀态有了掌握,當某些參數變化時(shí)及時(shí)做應對(duì)之策。比如設備運行的CPU占用率,平時(shí)監控所有設備CPU占用率都(dōu)在30%左右,突然有一天幾台設備的CPU占用率無緣無故升到了60%,這(zhè)就(jiù)需要進(jìn)一步檢查升高的原因,直到消除掉爲止。如果沒(méi)有這(zhè)些平日裡(lǐ)的統計記錄,這(zhè)樣(yàng)的參數變化就(jiù)不會(huì)引起(qǐ)人們的注意,故障遲早會(huì)到來。
再次、做好(hǎo)統計工作
一般的數據中心都(dōu)擁有上千台的服務器設備,還(hái)有其它不少的電子設備,要做好(hǎo)統計工作。比如服務器多少台,都(dōu)處于什麼(me)位置,都(dōu)和網絡設備如何互連的,每台設備的配置,應用的特性等等,這(zhè)些統計工作馬虎不得,都(dōu)關系著(zhe)數十萬設備的物理安全。在平日接觸到的運維人員讓我們感受到不同的人員對(duì)自己數據中心的了解差異是非常大的,有的人可以對(duì)詢問的某個網段IP給什麼(me)應用使用脫口而出,而有的人卻對(duì)詢問的服務器放在哪個機架上都(dōu)一無所知,當遇到問題或者進(jìn)行數據中心變更時(shí),後(hòu)者的表現是顯而易見會(huì)出問題的。
最後(hòu)、是要至少精通一門技術
數據中心需要運維人員是通材,就(jiù)是方方面(miàn)面(miàn)都(dōu)要懂一些,但是都(dōu)懂一些相當于都(dōu)不懂,這(zhè)樣(yàng)在數據中心裡(lǐ)是無法立足的。還(hái)需要有自己精通的領域,至少有一門是自己精通,而别人無法替代的。比如精通Linux操作系統、精通網絡技術、精通安全技術等等,這(zhè)樣(yàng)才能(néng)在數據中心裡(lǐ)立足,然後(hòu)再向(xiàng)其它領域拓展,最終成(chéng)爲一個技術較爲全面(miàn)的運維人才。數據中心的運維工作不像其它工作,比如測試工程師、研發(fā)工程師等,有非常明确的職責定位及職業規劃,有職業認同感與成(chéng)就(jiù)感。
運維工作可能(néng)給人的感覺就(jiù)是哪個方面(miàn)都(dōu)知道(dào)一些,但又哪個方面(miàn)都(dōu)比不上專業工程師更精通,慢慢工作起(qǐ)來就(jiù)會(huì)迷失方向(xiàng)。其實運維工作也有自身的特點,就(jiù)是什麼(me)領域的技術都(dōu)有機會(huì)學(xué)習與接觸,掌握的深淺程度主要取決于運維人員的自身努力,可以在多個技術領域做到精通。新一代數據中心給運維工作帶來了更多挑戰,也使得運維成(chéng)爲一個融合多學(xué)科的綜合性技術,提供了很好(hǎo)的個人能(néng)力與技術廣度的發(fā)展空間,運維工作的相關經(jīng)驗變得越來越重要。
正因爲運維的工作面(miàn)廣,運維人員轉到其它崗位也很容易,沒(méi)有太大的局限性,而且隻有運維工程師才有機會(huì)成(chéng)爲數據中心的系統架構師或者運維主管,這(zhè)樣(yàng)的職業發(fā)展前景也比較好(hǎo)。如今的數據中心已經(jīng)開(kāi)始重視運維技能(néng)的提升,大批量引起(qǐ)了不少高精尖的技術人才,從事(shì)數據中心運維人員的技能(néng)水平在不斷提高,將(jiāng)有越來越多的高技術人才加入到數據中心運維隊伍中來。