IT已經成為高科技的代名詞,但是歸根結底,它的背后只是“0”和“1”,因此說它容易也容易,說它復雜也復雜。
如何盡可能延長服務器正常運行時間,對于很多IT經理們來說就是一個令人頭疼的事情。
幾乎所有數據中心的管理者都有一個共同的訴求,就是如何確保服務器處于良好的工作狀態,所有的設備時刻準備著、一旦有需要,就能立即運行起來,但是顯然這個問題“說起來容易做到難”。
絕大多數數據中心的IT經理們不敢拍著胸脯說,自己已經能夠力保系統正常運行,并且能夠保證正常運轉時間最大化。而事實上,他們中的很多人把時間和金錢往往浪費在了對幫助系統正常運行基本上沒有什么積極影響的技術和措施上。不過如果能從全面規劃、合理應用管理軟件、加強安全防護等五方面入手,盡可能延長服務器正常運轉時間絕對不是一個“白日夢”。
全面規劃放首位
美國康涅狄格州斯坦福市金融數據提供商Six Telekurs USA負責IT和后勤的副總裁Walter Beddoe表示,實現服務器正常運行時間最大化的目標,既是一門科學,也是一門管理藝術。“這要結合多方面的要素,不但需要你擁有稱職的員工,選對能夠實現容錯目標的硬件,采用動態的安全做法,而且還要能夠積極接受良好的維護和變更管理做法。”除此之外,Beddoe還認為,作為管理者,還需要有盡力做好一切的決心。
大多數管理著服務器的IT經理都會認為,精心規劃從采購、管理到更換的與服務器相關的所有工作,是保障系統可靠性的關鍵步驟。
喬治#8226;華盛頓大學的IT運營和工程經理Raoul Gabiam就認為,生命周期管理是維持服務器正常運行的一個必要工作。“知道何時及如何更換、升級硬件和軟件很重要,因為這影響著服務器性能、可持續性和總體的正常運行時間。”
Gabiam舉例說,在升級軟件的時候,就需要了解硬件需求和當前現有硬件的狀態。因為,為了保證軟件能夠得以順利升級,很有可能需要額外購買新的硬件,所以需要確保相應的需求得到滿足,從而避免進一步停運,或者是盡量減少變更數量。
除了強調軟硬件的生命周期管理外,Gabiam還主張標準化和協調,他認為后者也是確保服務器可靠運行的一個重要手段。“在有人安裝硬件或對硬件進行改動之前,一定要有能夠作為參考的變更管理流程。”
“變更管理意味著服務器管理員能夠了解各個系統是如何搭建和配置的,并且在進行變更之前,評估一下會帶來怎樣的影響。”Gabiam說,“這樣一來,管理員就能知道系統應該怎么樣、它們彼此會如何聯系。借助變更管理方法,就可以預測當服務器以某些方式配置或放置到新環境后,會出現怎樣的情況。“
Online Resources公司的總部設在弗吉尼亞州尚迪利市,它專門為金融機構提供交易服務。公司首席技術官Paul Franko表示,除了技術之外,管理者的態度也起到了重要作用。
“我們部署了一套制衡體系,確保我們的政策得到了遵守。” Franko說,他會讓手下的經理們定期檢查員工的管理工作,并反復核對。
他認為這樣有助于將人為失誤的影響減小到最低限度,“誰都會犯錯,特別是一旦你沒有多重核對機制,某些方面就更加容易疏忽或遺漏。”
進行預防性維護
常規的預防性維護也許是提高服務器可靠性最容易、最不費力的方法,就像有些舊車維修廣告中提醒的那樣,“不是現在掏錢,就是以后掏錢”。
“根據木桶原理,服務器正常運行時間有多長,完全取決于相關維護服務交付鏈中最薄弱的那個部分。”Beddoe說。
Beddoe堅信,只要定期執行一系列必要維護工作,例如更新系統軟件、提供有保障的電源以及確保足夠的冷卻能力,就能夠打造一個順暢運行的數據中心,而且既不會超出預算,又不會增加員工的負擔。
Franko表示,為了確保所有必要工作能夠在需要時得到執行,應該確認服務器維護任務的時間表。“可以根據任務的輕重緩急,確定相關工作的優先級。例如像安全更新這樣的工作,就可以立馬著手開展,而例如改進非關鍵功能的軟件更新,就可以分批處理,按固定的間隔時間來開展。”
Franko還補充說,進行維護工作時不應該占用服務器的正常運行時間。“我們不會因為維護工作而讓系統停運。”
在實際工作中,當Franko的團隊非要拆下某臺服務器進行維護時,他們會安排在用戶需求較低的晚間或周末時間段來進行。“只有那些涉及到關鍵更新的工作時,我們才會在正常工作時間拆下運行中的服務器,進行相關維護。”
合理使用管理工具
不可否認,服務器管理在過去的幾年間變得越來越復雜,涌現出了大量旨在提高服務器效率和利用率的虛擬化及相關技術和做法。虛擬化技術本身有助于保護數據中心免受服務器停機的影響,虛擬化技術通過合并服務器,并將它們連接到共享環境,允許多個虛擬機可以在不同的主機上運行。一旦某個主機出現故障,它上面的工作負載就會重新分配到其余的主機上。Gabiam說:“你可能會遇到服務器故障,但不是說故障就肯定會影響服務。”
為了管理這種日益虛擬化的環境,Xenos Software、Uptime Software、Nimsoft和Nagios Enterprises等廠商提供了各自的工具,旨在幫助數據中心的工作人員監控服務器性能、查找出現的問題,并且充分利用提升性能的機會。
新澤西州普林斯頓市診斷醫學成像公司Princeton Radiology的IT主管Alan Howard的實際工作經驗告訴他,在服務器虛擬化時代,別把時間和資源浪費在不能直接有助于延長正常運行時間的活動和工具上。
“比如說,投入到集群上的努力可以說就是無用功,而使用提供完全自動化的工具能更有效地獲得冗余性。”Howard表示,“不是自動化的集群(即手動完成同步工作)帶來的問題遠多于它能夠帶來的好處,例如主節點失效可能會帶來嚴重后果。因此,與其主節點失效還不如備用節點失效,因為前者恢復起來更容易。”
目前,Howard的部門就管理著Windows Server集群。現在他們面臨的情況是,一旦進行故障切換,這個集群上的應用程序就會崩潰,因為對應用配置文件所作的改變沒有移植到備用服務器上。 “排查應用程序崩潰的根源往往比排查集群節點故障的根源要費力得多。” Howard說。
針對這樣的情況,Howard讓手下不再配置傳統意義上的集群服務器,而是有一個由多臺獨立服務器組成的“集群”——所有服務器映射到一個雙控制器Compellent存儲中心存儲區域網(SAN)上,“這樣我們就能根據需要,相當順暢地在服務器之間遷移虛擬機。”
因此,如果沒有適當的監管,服務器管理者根本也許無法查明影響正常運行時間的根源,也無法衡量停機對關鍵業務服務帶來的影響。
Beddoe覺得必要的服務器監管工具必不可少,他說:“你要做到讓人放心,你的所有服務器在任何時候都在正常運行。”
Beddoe還在使用Uptime Software公司的正常運行時間管理軟件,他認為這類工具屬必備的工具,因為只要服務器的運行條件超過特定的閥值(比如出現內存過載或處理器使用率過高時),這些工具就會觸發警報。
雖然大多數此類工具都附帶內置的報警功能,但Beddoe更看重那些可以對報警條件進行設置的產品,“因為你需要掌握有意義的信息,以便能采取必要的措施進行糾正,包括在大屏幕顯示器上向操作人員發出警報。”
Carfax公司位于美國弗吉尼亞州森特維爾市,專門制作車輛歷史報告。運營經理Jerry Gregg表示,許多性能測量工具計算出來的服務器正常運行時間只是個近似值, “這個值充其量只能用來參考一下。”
Gregg說,一些基本的正常運行時間測量工具測得的數值實際上可能有欺騙性,因為這些工具不能完全區別所有故障的不同。這個時候,數據中心的管理者就需要有一套能夠提供基于時間和事件的分析功能的測量工具。
為了讓對正常運行時間的分析顯得更有意義,Gregg目前使用的是可以顯示服務器故障對關鍵業務服務所產生影響的測量工具。Gregg使用的是BMC Software公司的ProactiveNet性能管理軟件,這個軟件能夠直接把服務器停機時間與銷售交易及其他類型的面向服務的業務數據關聯起來。“這樣我不僅可以通過時間來量化停機帶來的影響,還可以通過金錢來量化影響。”
Gregg表示,在使用了這款軟件后,他發現,系統生成的信息可以幫助他確定故障模式是否有可能嚴重影響到公司的利潤,從而能證明有無必要花錢購買新服務器、更好的網絡設備或能夠增強可靠性的其他技術和服務。Gregg說:“要是沒有這些信息,我可能就要在不知道具體成本的情況下進行成本效益決策。”
別讓安全問題
成為絆腳石
確保系統的安全性,在保證服務器正常運行方面也起到重要作用,因為惡意軟件或不安全的網絡會危及服務器的正常運轉。
Beddoe認為,數據中心的管理者首先需要從物理安全著手來保證服務器能夠正常工作,也就是說要從數據中心的基礎建設入手,確保“物理安全性”。接下來,再制定服務器訪問規則并確保執行的力度。至于其他的安全手段,諸如反病毒程序、防火墻和訓練有素的管理員,都屬于常規安全手段。”
Superior Technology Solutions是紐約的一家IT咨詢公司和定制軟件開發商,公司負責監管服務器運行的John Luludis表示,他認為要真正確保服務器的正常運行時間最大化,重要的是不能僅僅滿足于基本的安全措施,更需要進行定期的獨立安全審計。平日,他就常對自己的網絡定期進行滲透測試。
雖然Princeton Radiology的Howard也極力主張進行常規的服務器維護,但他指出,盡管經理和員工都盡了最大的努力,有些故障還是在所難免。Howard建議,要建立相應的規范,以避免因為服務器故障而引起的任何數據丟失,“所以要制定與企業的綜合業務連續性戰略相互配合的數據保護方案。”Princeton就使用了Compellent Technologies公司的異地存儲解決方案來復制所有已存儲的數據。
與Princeton Radiology的Howard不一樣,Gabiam喜愛集群技術,他使用Novell集群服務來提供另一層冗余性。他解釋,如果集群中的某個節點失效,或者需要停機以便維護,那么在該節點上運行的集群應用程序或服務組件就可以在集群中的另一個節點上無縫運行。
Gabiam很相信內置在數據中心網絡基礎設施中的負載均衡技術,以此來防范突如其來的服務器故障。“如果某臺服務器崩潰,或某個應用程序沒有響應,那么其流量就會重新定向到能處理負載的其他類似服務器上。”
Gabiam說:“萬一發生軟、硬件故障,我通常希望應用程序會自動切換到下一個優先節點上,當然管理員也可以手動配置這個遷移過程。“
關注硬件質量
“一分錢,一分貨”,性能優良的軟硬件設備,往往價格不菲。但是采用高質量的服務器而不是質量低劣的設備,顯然能夠保證服務器更長時間地可靠運轉。
IT服務提供商E-N Computers的運營主管Jeffrey Driscoll說:“改用中檔或高端服務器后,硬件壽命肯定會不一樣。”
不過在實際情況下,預算緊張的IT經理們常常面臨痛苦的選擇:是用低成本的產品滿足業務需求?還是購買質量更好、更可靠的系統來滿足既定的性能標準?
Driscoll建議:“購買要明智,應物色物美價廉的產品,盡量爭取到滿足實際運營需求的預算,一定要向管理層表明不可靠的服務器可能造成經濟損失的不爭事實,用簡單的數字和預測就很容易證明這一點。”
除此之外,慘痛的經驗表明,不要試圖從老化的服務器上榨出最后一點價值,那樣只會浪費時間、精力和金錢。
“硬件畢竟是硬件,總會壞掉。”Gabiam說,“重要的是汲取之前的經驗教訓,并且準備好方案,萬一問題再次發生,可以從容應對。”
關注硬件來確保正常運轉時間,這就意味著IT經理們還要精確掌握整個系統的更新周期,知道該在什么時候棄用舊設備,改用新設備。“如果你的IT人員有25%的工作時間用于到處救火和維護過時系統,這是最嚴重的浪費時間的行為。“Beddoe說。