趙亮
摘要:網絡的飛速發展,氣象數值預報高分辨率循環同化系統對服務器提出了更高的要求,使用Linux操作系統構建高性能集群系統,用較低的價格實現高伸縮、高可用的計算服務,以彌補單臺服務器無法達到的性能。本文以實際生產運行中的一則故障為例,剖析了系統運維中的一些方法。
關鍵詞:數值預報;集群;運維
中圖分類號:TP38 文獻標識碼:A 文章編號:1007-9416(2018)04-0190-01
1 集群的概念
集群是指一組協同工作的服務集合,可以提供比單臺服務更穩定、高效、具有擴展性的服務平臺。整體來看,集群是一個獨立的服務實體,而實際上,在集群內部,有多個服務實體在協同完成一系列復雜工作。集群一般由兩個或兩個以上的服務器搭建而成,每臺服務器稱為一個集群節點。當一個節點出現故障時,集群的另一節點可以自動接管故障節點的資源,從而保證服務持續、不間斷運行[1]。
綜上,搭建一套集群系統需要N(N>=2)臺服務器,同時還需要IB線纜、集群軟件、共享存儲設備(磁盤陣列)等,如下圖1所示。
2 故障實例
某日,GRIDVIEW集群綜合管理系統顯示Node52節點異常,按照處理流程,使用Blade Full View Management System對告警節點進行“硬重啟”操作。在等待數分鐘后,節點依然顯示告警,重復上述操作故障依舊。我們使用SKMV OVER IP系統登錄告警節點查看,發現該節點無法進入Linux系統,服務器硬盤有報錯,使用fsck命令校正文件系統依然無效,因此決定更換Node52服務器硬盤。但更換新硬盤后需要重新安裝該節點的Linux操作系統以及各種集群服務,操作較為繁瑣且冗余,我們可以使用拷貝安裝的方式來進行修復工作。……