機房是企業數據中心的駐地,是整個企業信息化建設的“最強大腦”;而機房內的網絡設備則是大腦內的“中樞神經單元”,其重要性不言而喻;如何維護這些重要的網絡設備成為運維管理人員首要關注的問題,也是衡量一個運維管理人員水平的重要標桿。本文結合筆者自身多年的網絡運維經驗,從三個方面詳細介紹了機房網絡設備的維護方法,并提出一些建議,希望能夠給各位同行帶來一些啟發。
常規的企業網絡架構一般分為三個層面,核心層、匯聚層和接入層,而這三個層面也分別對應著相應層次的網絡設備,各自承擔不同的數據傳輸功能。接入層和匯聚層網絡設備主要與用戶接入、訪問控制打交道,一般分布于各個樓層的電纜井內,承擔著該樓層用戶的控制和接入工作,如果設備故障,也僅僅是影響對應樓層的用戶,不會對其他用戶造成任何影響;由于配置簡單,通過更換設備、配置導入就能快速恢復,所以維護起來相對容易;而核心層網絡設備作為整個企業信息數據處理的中樞節點,具有線路復雜、配置繁冗、風險容忍度低等特點,一般都置于專業的機房內進行保障,如果出現故障,影響范圍將會極大;如果沒有實時同步的設備,恢復起來將會非常麻煩。下面本文將針對這類機房網絡設備從“硬”維護、“軟”維護及故障應急處理三個方面進行介紹。
數據中心機房,特別是大型IDC機房內的網絡設備耗電量、發電量都非常大,這就導致數據中心機房對電源穩定性、溫度及濕度的控制比傳統通信機房要嚴格許多;電源不穩定、溫濕度偏高或者偏低,都會對網絡設備的性能造成重大影響;下面將從電源維護、溫度和濕度控制三個方面進行闡述:
機房內網絡設備一般都需要24小時連續運轉,保證電源的穩定供應是最基本也是最重要的需求;盡管當前電力系統出現故障的幾率已經越來越小,但是對于專業機房來說,UPS不間斷電源仍然是不可或缺的,UPS設備的功率應綜合整個機房設備的耗電量來定,而且機房內應至少引入兩路獨立電源,避免出現電源的單點故障;從支持的電源路數來對網絡設備進行劃分,可分為單路電源設備和多路電源設備,對于多路電源設備,可接上引入機房的多路獨立電源,即可達到高可靠性的目的,而對于單路電源設備,可配合STS靜態轉換開關使用來達到故障時多路電源實時切換的目的。
機房內各類設備功率大,散熱量也高,機房溫度偏高,易使設備散熱不暢,使晶體管的工作參數產生漂移,影響電路的穩定性和可靠性,嚴重時甚至會造成元器件的擊穿損壞;但是溫度過低也會使設備內絕緣材料變脆,導致數據的丟失和存取故障。 所以機房內必須安裝專業制冷空調,溫度常年需保持在18度到25度之間。
不少運維管理人員只關注機房的溫度,殊不知濕度對網絡設備性能的影響也非常大。空氣潮濕,易引起設備的金屬部件和插接件管部件產生銹蝕,并引起
電路板、插接件和布線的絕緣性降低,嚴重時還可造成電路短路;空氣太干燥又容易引起靜電效應,威脅網絡設備的安全。為了保持機房的相對濕度符合標準,可視機房具體情況配置加濕器或抽濕機,濕度需保持在40%到60%之間。
除了加強上述三類條件的控制外,細致、嚴格的巡檢工作也是不可或缺的,每周應至少安排一次全范圍的設備巡檢,發現異常情況及時進行處理。還可以通過安裝專業的機房監控軟件,對各類物理環境參數進行實時監控,特別是安裝有大功率網絡設備的機柜,更應重點監控,這種方式也可以大大提高運維管理人員的工作效率。
“硬”維護是機房網絡設備維護的基礎,而“軟”維護則是設備維護工作里最為靈活,也是難度最大的一項工作,這也牽扯了運維管理人員的絕大多數精力。本文將從配置變更管理、配置備份和同步兩個方面提出建議。
用戶對網絡的需求是動態變化的,這就需要運維管理人員能夠及時、準確地對網絡設備的配置進行變更,以滿足用戶的需求,但是機房內網絡設備大都屬于骨干核心設備,存在“牽一發而動全身”的風險,特別是一些路由交換設備,需要在晦澀難懂的命令行下進行操作,風險更大;管理人員操作稍有不慎,都可能會帶來全網癱瘓的后果,所以對網絡設備的配置變更過程進行管理是一項極其重要的工作。配置變更管理屬于ITIL體系的一部分,如果企業內已經全面推廣ITIL,那么通過細化二層或者三層審核機制,配置變更管理的問題就能迎刃而解;如果沒有實施ITIL,那么也可以通過完善管理制度,結合堡壘機等產品來實現對配置變更的管理。合理的配置變更管理體系不僅會大大減少誤操作帶來的風險,而且能夠減輕運維管理人員的負擔,切實保障企業網絡的正常運轉。
在網絡風平浪靜的時候,不少運維管理人員會滋生一種懶惰情緒,不太愿意堅持做設備備份和同步等常規工作,寄希望于網絡設備不出問題,這是一種嚴重錯誤的做法。備份和同步工作確實很枯燥無聊,但是為了未雨綢繆,運維管理人員必須嚴格按照要求落實備份和同步工作。隨著運維自動化技術的發展,很多備份和同步工作可以通過自動化管理軟件進行,甚至有些工作可以通過自己編寫腳本程序來完成,這樣不僅保證了備份和同步工作的準確性和時效性,更將運維管理人員從繁瑣的工作中解脫出來。只要堅持重視備份和同步工作,那么即使網絡設備出現故障,那么也能在較短時間內通過備份文件導入或者上線備用同步設備來完成故障恢復工作,對于運維管理工作是大有裨益的。
故障應急處理工作正是運維管理人員在企業內的核心價值所在。出現問題并不可怕,可怕的是沒有對應的應急預案。高水平的運維管理人員不僅能夠快速定位故障點,還會針對網絡可能出現的各類故障,制定出相應的應急處理方案,以保證高效率地處理各類問題,而且在問題處理完成后,更會針對該次故障做出詳細的分析和總結,防止此類故障的重復發生。
出現故障后,要能夠依據故障現象迅速判斷出故障的類別。由于機房內網絡設備大多屬于某條線路上的骨干設備,通過常用的ping、traceroute等命令,再結合網絡的物理架構就能基本能夠判斷出故障點所在。
找出故障點后,就需要進行恢復工作。當故障無法在短時間內解決時,那么必須立即啟用備用設備;當然,如果備用設備與主設備型號一致,而且備份和同步工作已經做到位,那么恢復起來就比較簡單;但是由于不少骨干網絡設備價格昂貴,不少企業在采購備用設備時,為節省開支,通常會采購一些低型號的設備作為備用,這些低型號的設備支持的模塊和端口數量通常比主設備少,這就需要我們通過設備級聯的方式來進行端口擴展,也就是說需要多臺低型號的設備進行復用來完成備用設備的搭建。無論設備型號一致還是不一致,一定要保證主備設備上端口的一一對應,這樣在出現故障時,就能夠迅速、準確地將主設備上的各條線路遷移到備用設備上。
故障恢復之后,應急處理流程并沒有結束,對于故障的總結也是相當重要,這也是領導最為重視的環節。如果是設備老化造成的原因,應立即請示領導采購新設備;如果是誤操作或者病毒造成,應舉一反三,防止此類故障的再次發生。故障總結最好形成書面內容,一方面可歸納為知識庫,另一方面可在必要時提交給領導。該階段也是運維管理人員從菜鳥到高手的必經之路。
機房始終是運維管理人員工作的中心,提升機房內網絡設備維護水平是各位同行共同奮斗的目標,“防患于未然”是運維工作的永恒主題,也能夠在很大程度上減少故障發生的概率;但是沒有人能夠保證網絡永遠不出問題,“亡羊補牢”也是促進運維管理水平提高的有效手段之一。本文從三個方面系統介紹了機房網絡設備的維護方法,既包括事前防范工作,也包括事后處理方法,希望起到拋磚引玉的作用,給各位同行帶來一些幫助。