高性能集群系統運維淺析

2018-08-18 08:23:26趙亮

數字技術與應用 2018年4期

趙亮

摘要：網絡的飛速發展，氣象數值預報高分辨率循環同化系統對服務器提出了更高的要求，使用Linux操作系統構建高性能集群系統，用較低的價格實現高伸縮、高可用的計算服務，以彌補單臺服務器無法達到的性能。本文以實際生產運行中的一則故障為例，剖析了系統運維中的一些方法。

關鍵詞：數值預報；集群；運維

中圖分類號：TP38 文獻標識碼：A 文章編號：1007-9416（2018）04-0190-01

1 集群的概念

集群是指一組協同工作的服務集合，可以提供比單臺服務更穩定、高效、具有擴展性的服務平臺。整體來看，集群是一個獨立的服務實體，而實際上，在集群內部，有多個服務實體在協同完成一系列復雜工作。集群一般由兩個或兩個以上的服務器搭建而成，每臺服務器稱為一個集群節點。當一個節點出現故障時，集群的另一節點可以自動接管故障節點的資源，從而保證服務持續、不間斷運行[1]。

綜上，搭建一套集群系統需要N（N>=2）臺服務器，同時還需要IB線纜、集群軟件、共享存儲設備（磁盤陣列）等，如下圖1所示。

2 故障實例

某日，GRIDVIEW集群綜合管理系統顯示Node52節點異常，按照處理流程，使用Blade Full View Management System對告警節點進行“硬重啟”操作。在等待數分鐘后，節點依然顯示告警，重復上述操作故障依舊。我們使用SKMV OVER IP系統登錄告警節點查看，發現該節點無法進入Linux系統，服務器硬盤有報錯，使用fsck命令校正文件系統依然無效，因此決定更換Node52服務器硬盤。但更換新硬盤后需要重新安裝該節點的Linux操作系統以及各種集群服務，操作較為繁瑣且冗余，我們可以使用拷貝安裝的方式來進行修復工作。……

登錄APP查看全文

數字技術與應用 2018年4期

數字技術與應用的其它文章: 淺談AWA DVOR/DME設備故障及排除; HTML5技術在新媒體上的應用; 量子計算機的進展與方向; 基于人工智能在計算機網絡技術中的應用探析; 分層技術在計算機軟件開發中的應用探討; 三正則二部網絡的結構