數據中心運維工程師必備技能(néng)

2018.05.22

運維的工作是數據中心裡(lǐ)最爲重要的一部分工作,在整個數據中心的生命周期裡(lǐ),持續時(shí)間最長(cháng),擁有一批高水平的運維工程師是數據中心長(cháng)期穩定運行的法寶。雖然數據中心的運行故障不可避免,但通過(guò)有效運維,可以大幅降低故障發(fā)生的頻率,并在出現故障的時(shí)能(néng)夠有效及時(shí)地恢複業務。在這(zhè)些過(guò)程中,運維工程師的水平起(qǐ)到了至關重要的作用。作爲數據中心裡(lǐ)的一名運維工程師,應該掌握哪些技能(néng),才能(néng)在工作中遊刃有餘。要知道(dào)數據中心裡(lǐ)有很多設備,而作爲一名運維工程師不可能(néng),也沒(méi)有必要全部掌握,要懂得應該掌握哪些技能(néng),一些基本命令和重要設備的操作一定要掌握,這(zhè)些技能(néng)往往在關鍵時(shí)刻可以發(fā)揮重要作用。本文將(jiāng)說(shuō)一說(shuō)運維工程師需必備的技能(néng)。

首先是服務器設備,數據中心裡(lǐ)可以說(shuō)有海量的服務器設備,幾乎清一色采用的是Linux系統,掌握一些Linux操作系統的命令是必不可少的,還(hái)要至少熟悉一個内置編輯器:VI或Nano,至少熟悉一個發(fā)行版,比如Centos、Debian、Ubuntu,要熟悉很多Linux運維的命令,以便出了問題知道(dào)如何分析服務器的運行狀态,對(duì)LAMP或LNMP、FTP、DNS、SAMBA、EMAIL、NTP、DHCP等Linux可以支持的基礎協議要了解,熟悉這(zhè)些協議的故障處理。

其次,是服務器一些虛拟化軟件技術,比如KVM,虛拟化技術在數據中心裡(lǐ)應用已非常普遍,對(duì)KVM不熟悉將(jiāng)很難開(kāi)展運維工作,所以要掌握常用的虛拟化技術,以及KVM的工作原理,包括在CPU、内存、存儲、網絡等各個部分的虛拟化,最爲重要的是要掌握KVM的各種(zhǒng)管理工具:OpenStack、CloudStack、OpenNebula、Zstack等。現在虛拟化技術早已不再局限于服務器上,在數據中心的各種(zhǒng)設備上都(dōu)可以支持虛拟化,适當掌握這(zhè)些虛拟化的技能(néng),非常有利于做好(hǎo)運維工作。

第三,要會(huì)編寫一些程序腳本,比如使用Shell、Python、Perl等腳本語言做一些自動化運行腳本、診斷故障的腳本,使用這(zhè)些腳本可以提升工作效率,將(jiāng)重複性的簡單工作交給腳本程序處理,也可以通過(guò)這(zhè)些腳本判斷故障發(fā)生的位置和原因,高效的運維將(jiāng)不再需要人工去逐個字符地去輸入各種(zhǒng)命令,而且靠大量的腳本語言快速搞定工作。在平時(shí)的工作中,可以編寫一些特定腳本,然後(hòu)慢慢累積形成(chéng)腳本集,做什麼(me)樣(yàng)的工作就(jiù)用什麼(me)樣(yàng)的腳本來完成(chéng),這(zhè)將(jiāng)大大提升運維的工作效率。

第四,數據中心裡(lǐ)那麼(me)設備,僅掌握服務器是不夠的,網絡、安全都(dōu)是需要重點學(xué)習的地方。數據中心數據網采用的是以太網協議,存儲網采用光纖通道(dào)協議,随著(zhe)以太網技術的成(chéng)熟,大有兩(liǎng)網合一的趨勢,由以太網協議技術接管存儲網,掌握以太網協議是運維工程師的必修課程。當然,以太網協議包含有太多的内容,各種(zhǒng)協議讓人看得眼花缭亂,根本沒(méi)有精力全部掌握,但至少應該對(duì)自己數據中心所用到的協議知曉,再不濟也應該掌握抓包的本領。在出現問題時(shí),懂得在各個網絡位置抓包,來确認故障設備或線路,會(huì)使用Linux的tcpdump抓包或者ethreal、sniffer、Wireshark等抓包軟件,會(huì)在網絡設備上配置鏡像,將(jiāng)關心的流量抓出來進(jìn)行分析。當出現網絡故障時(shí),通過(guò)抓包來分析雖然比較土,但這(zhè)種(zhǒng)方式最直接,直接找到故障位置。還(hái)有各種(zhǒng)安全設備,安全過(guò)濾的規則查看、調整與修改都(dōu)要熟悉。要懂得查看各種(zhǒng)接口類型,硬件信息以及各種(zhǒng)服務器類型比如:塔式、機架式、刀片式的工作原理。

第五,要掌握一下運維平台工具,利用這(zhè)些工具做運維,很多事(shì)情往往可以事(shì)半功倍,例如:SSH證書、Nagios、Puppet、Zabbix、Cacti、SaltStack、Pssh、Fabric等,這(zhè)些都(dōu)是開(kāi)源的免費網絡監控工具,雖然用起(qǐ)來會(huì)有一些問題,但都(dōu)是開(kāi)源的,都(dōu)可以根據自己數據中心的實際情況,進(jìn)行修改,最重要的是這(zhè)些軟件都(dōu)是免費使用的,通過(guò)使用這(zhè)些工具對(duì)數據中心進(jìn)行網絡監控,可以及時(shí)掌握數據中心網絡的運行狀況,發(fā)現問題及時(shí)解決。當然,也有一些專業性比較強的網絡監控軟件,一般都(dōu)是網絡廠商推出的,要收費的軟件,這(zhè)些軟件具有一些獨特的網絡監控功能(néng),與自己硬件設備的兼容性也更好(hǎo),往往和自己的硬件設備綁定銷售,這(zhè)類軟件運行穩定,遇到問題也可以尋求廠商幫助,比開(kāi)源的網絡軟件要好(hǎo)。

第六,最後(hòu)一點,也是最爲重要的一點,就(jiù)是工作态度。運維的技術聰明人可能(néng)掌握快些,不夠聰明的人多花一點時(shí)間也可以掌握,所以很多時(shí)候并不是技術問題,而是工作責任心的問題。比如遇到問題時(shí),具有主人翁的意識,第一時(shí)間處理各種(zhǒng)告警,消除隐患。平時(shí)將(jiāng)每個工作都(dōu)有條理地處理好(hǎo),注意與各個不同層級的人交流,注意對(duì)不同的人采用不同的溝通技巧。在工作上要有進(jìn)取心,避免消極怠工。有強烈的安全意識,尤其現在人們都(dōu)對(duì)數據中心的安全問題極爲關注,要避免數據中心出現數據洩露事(shì)件,在數據中心内部各個環節增加安全防護設備,對(duì)出入數據中心人員和訪問進(jìn)行管控,把好(hǎo)數據中心的安全門,萬一數據中心出現嚴重的安全事(shì)故,那之前做的工作再好(hǎo),都(dōu)變得毫無意義。工作上要保持如履薄冰的心态,小心駛得萬年船,謹慎對(duì)待工作中的每個細節。

數據中心涉及的技術知識包羅萬象,一個人的精力是有限的,不可能(néng)全部掌握,這(zhè)時(shí)就(jiù)要注意選擇,建議將(jiāng)以上列舉的幾個部分技能(néng)都(dōu)掌握到,這(zhè)些是運維工程師必須具備的技能(néng)。隻有這(zhè)樣(yàng),您才有機會(huì)成(chéng)爲數據中心運維方面(miàn)的專家。