淺談大數據時代下分布式集群運維和故障處理策略

2019-09-10 07:22:44周佳琪

科學導報·科學工程與電力 2019年36期

周佳琪

【摘 ?要】隨著社會的不斷發展以及科學技術水平的不斷發展，信息化技術不斷提升，大數據、云計算技術越來越普及，分布式集群在當今信息系統中的利用越來越多。在分布式集群的運維過程中，由于相關人員的專業素質以及技術水平參差不齊，導致分布式集群在運維的過程中會產生一定的問題，影響運維效率。本文在此基礎上就分布式集群運維和故障處理策略進行了簡要的分析。

【關鍵詞】大數據，分布式集群;計算機硬件;運維;故障處理

1引言

隨著社會進步和信息技術的發展，數據量越來越大，普通的信息系統已經不能滿足需要，分布式集群越來越普遍。因此，必須掌握分布式集群故障診斷和排除能力，做好分布式集群日常維護，為信息系統創造高效安全的運行環境。分布式集群故障主要有硬件故障和軟件故障等，遇到這些故障時要按照從外到內、由簡單到復雜的原則進行診斷，不同故障采取不同的處理方法，本文主要討論硬件設備故障。

2計算機硬件常見故障

2.1自動重啟

計算機自動重啟是非常常見的一種故障，但是這種故障卻會帶來很多困擾，大數據時代對于分布式集群故障的產生與維護都是利弊均有的，一方面，硬件設備越多，硬件發生故障的概率越大，另一方面，由于分布式集群一般采用高可用的不是方式，硬件設備的故障一般不會影響信息系統的正常運行。下面對硬件服務器故障進行具體分析：（1）內存問題：服務器的內存一般為ROM和RAM，當內存條上某些細小芯片不完全損壞的時候，服務器運維監控軟件可能檢測不到。大數據時代數據量劇增，在虛擬化服務器物理內存本就不足的情況下，很容易導致在主板過熱現象，而導致內存損壞，以及大量虛擬機卡頓或設備重啟。在集群長期運行的情況下，若接觸不良，內存條插槽有灰塵進入，都會導致虛擬化服務器的功能不完整。（2）CPU問題：CPU作為服務器的核心部件，在大數據時代CPU的作用更加重要，數據的計算離不開它，當CPU電路部分功能被損壞時，雖然集群的高可用功能可以保障整個信息系統不會出問題，但是當服務器訪問頻繁，業務量較多的時候，一臺服務器的CPU發生故障會導致集群其他設備的業務壓力更大。又或者因為業務高峰期，服務器過熱，機房內溫控系統發生故障時，出于自我保護的原因，CPU因溫度過高而使服務器關機保護。（3）主板問題以及其他問題：在日常運維中，分布式集群在工作時因主板的問題導致關機的情況也并不少見，當服務器主板使用時間過長，或集群運行環境不符合要求，會使主板加速老化，從而致使主板不能夠正常運行，發生意外重啟。另有系統盤故障、網絡故障、惡意入侵、運行環境意外事件導致服務器故障，發生重啟。

2.2藍屏故障或顯示故障

與個人計算機藍屏問題類似，集群運行中藍屏也是經常困擾運維人員的故障，這是顯示器一般會顯示一些代碼，例如：0X0000007B，0X00000050，0X0000007E和0X0000008E，這些代碼都是對用戶的提示，比如出現0X0000007B就可能是硬盤導致的計算機藍屏，硬盤可能由于設置問題或者遭受病毒侵入而導致硬盤引導分區錯誤，出現這種問題后如果能判斷出是病毒原因導致的藍屏，就可以在開啟時按F8鍵（不同品牌的操作請參照用戶手冊），引入配置恢復的界面，如果配置無法正常恢復就可以選擇重裝系統的方式來解決。出現0X0000007E和0X0000008E可能是由于CPU的損壞導致的藍屏。出現0X00000050可能是內存芯片的問題。

2.3宕機

第一，服務器散熱性能不佳。集群運行會產生熱量，運行時間越長散發熱量越多，一旦各個部分安裝的風扇出現問題，某部分有大量灰塵，運行環境通風效果差，硬件就會出現問題，頻繁死機無法避免。第二，CPU超分提高了設備的利用率，具有優勢，運行效率顯著提升，但會造成一些新問題。比如，運行速度快，硬盤讀取速度慢，內存亦是如此，三者步調不一致，導致CPU性能不穩定性極高，易發生死機。用戶只需重新分配CPU，調回設置之前，就能解決死機問題。第三，硬盤使用時間太長逐漸老化，操作不當引起硬盤壞道，在運行過程中極易死機。通常做法是軟件修復或者是直接更換老舊硬件。第四，軟硬件互不兼容。軟件和硬件相互匹配才能保證計算機正常運行。

3大數據時代下計算機硬件故障處理手段

3.1拔插檢測

拔插檢測對于IO設備和主板故障十分有效，并且操作簡便。首先對可能故障的板卡進行估計，然后將計算機關機并打開機箱，拔出故障板卡，重新打開計算機，如果在拔出板卡之后，服務器可以正常運行，那么就可以確定拔出的板卡或IO總線上出現了問題。

3.2直接探測法

直接探測有手摸、耳聽、眼看和鼻嗅四種方法，注意要在安全的前提下進行。手摸主要是對活動芯片進行按壓探測，來觀察芯片是否存在接觸不良或松動的情況，同時，通過觸摸設備，根據設備外殼的溫度來判斷設備是否在正常運行。耳聽主要是在服務器啟動和運轉時，服務器內部是否存在異常的聲音，一般服務器在啟動時都會對主板進行檢測，如果檢測中出現問題，就會發出警報，同樣，在運行期間，風扇和硬盤都會一直在運行，如果出現異常聲音，要及時進行檢查。眼看主要是巡檢時，察看設備故障指示燈，通過這些異常的提示內容及時發現服務器故障;在服務器關機時可以觀察元器件是否存在燒毀等較為明顯的故障。鼻嗅是指在集群運行期間有無類似燒焦的氣味，這可能使地方發生短路故障，應迅速采取措施。

4分布式集群設備故障維護

4.1電源維護

服務器通過電源獲得電能，這些電能可以維持服務器的正常運行，每一臺服務器都擁有一個獨立的電源插頭，服務器常年24小時開機不斷電會導致發熱進而出現故障，或者造成線路過熱等一系列的問題。所以在選擇機房運行環境時，一定要按照國家相關標準參看關鍵技術參數，這樣可以減少一些安全隱患，除此之外，還需要定期對電源進行巡檢，如果清潔不到位的話，那么灰塵就會堆積在電源盒里面，這樣不僅會減少電源的使用壽命，甚至還會造成電源老化，從而產生安全隱患。

4.2CPU和內存維護

CPU是服務器的控制與運算核心，是服務器的大腦，對它的維護至關重要，因此要做到：合理分配CPU資源、避免業務較多的虛擬機部署在用一臺物理機上。主板是構成復雜電子系統的主電路板，是服務器的神經，其上布置有大量的電路、電阻、電容及擴展槽等，還提供了一系列連接處理器、顯卡、聲卡、硬盤、對外設備等的結合點，對其各部分的維護都非常重要。因此要做到：避免頻繁開關機，一次開、關機間隔應在30秒之上;開關機應當依循先關閉軟件、后關閉操作系統的順序;非專業人員不應隨意打開機箱，要避免未關機時搬動主機、插拔主板元件，并使其接觸良好;避免靜電導致電路短路或主板損壞;做好主板、風扇的定期除塵;避免雜物遺留在主機內，主板線路遠離熱風扇，主板信號線遠離電源線等。

4.3硬盤維護

服務器如果出現了比較明顯的振動，那么計算機的硬盤就會被損壞，因為硬盤非常的脆弱，在服務器硬件中，硬盤更容易被損壞。所以應盡量避免服務器的移動，移動時應做好防護措施，并做好數據備份。而且硬盤中存儲著很多文件，如果硬盤存儲太多文件的話，服務器的I/O速度就會受到影響。

5結束語

總而言之，在集群的運維過程中，要做到及時巡檢，及時發現故障并診斷故障發生的原因，只有了解了原因，才能對其中的硬件進行良好的維護，不僅可以提高集群的運行穩定性，還能在很大程度上保障快速故障恢復。用戶掌握故障發生的原因，也能減少用戶的無用功，避免浪費過多的資源。

參考文獻：

[1]王艷.關于計算機硬件維護原則及方法的具體分析[J].信息技術與信息化，2018，12：94-96.

（作者單位：內蒙古自治區大數據發展管理局）