孫亞



【摘要】既有南京地鐵機場線ZLC系統不具備核心服務器集群功能,發生單臺服務器故障時,無法進行熱備切換,造成系統宕機。綜合對比傳統雙機熱備與新的設計思路,從ZLC系統目前既有框架、改造成本等方面考慮,本次設計思路結合老線雙機熱備和新線負載平衡系統的設計理念,加上ZLC實現雙機集群的必要性。考慮到既有ZLC機房環境的局限性,從實際出發,充分利用當前設備,在成本最小化的前提下,從設備物理連接方式、集群技術、業務邏輯等方面考慮,設計出一套完整的并具實施可行性的雙機集群模式。
【關鍵詞】ZLC系統;MSCS集群;集群管理;
隨著南京地鐵線網規模的不斷擴大,南京機場線線路中心已由接入1條機場線發展為接入機場線、寧高、寧溧3條線的區域線路中心ZLC,需同時處理三條線路的設備監控、文件處理、參數下發等主要功能。一旦ZLC通訊處理業務服務器或文件處理業務服務器發生宕機,故障期間會嚴重影響三條線路的設備正常監控、線路數據文件的處理及上傳等核心功能。
1.設計思路驅動
通過充分對比傳統和雙機集群的優缺點,最終確定實施雙機集群方案。
①傳統方案:就是將服務器安裝成互為備份的兩臺服務器,并且在同一時間內只有一臺服務器運行。當正在運行的主服務器出現故障無法工作時,另一臺備用服務器會立即啟動并運行,從而保證AFC中央系統的業務正常運行。針對現場生產環境,文件處理服務器和通訊服務器需各自增加一臺。
優點:技術改造難度小,對現場設備運行影響不大。
缺點:需額外增加2臺服務器,改造成本大,浪費現場可用資源。
②雙機集群方案:充分利用現有機房環境和設備,通過資源整合,將兩臺服務器的業務部署到其中一臺上,另一臺作為備用服務器,利用現場磁盤陣列部分空間作為共享存儲,實現雙機集群的功能。
優點:最大化節省成本,充分調用既有設備資源,系統運行更穩定可靠。
缺點:設計思路復雜,現場部署施工難度大。
2.物理連接設計
①傳統方案:通訊服務器和數據處理服務器分別采用2臺服務器作為主備。
②雙機集群方案:為實現MSCS集群,需要將兩臺通訊服務器和數據處理服務器分別連接到2臺SAN交換機和2臺核心交換機,除此之外,每臺服務器還需增加1根網線至核心交換機用于管理口連接,合計每臺通信服務器需增加3根網線,2對(1收1發為1對)光纖。
考慮MessageServer、FileServer都需要與ACC通信,建議保持對外服務172.180.20.115和172.180.20.116對外服務地址不變,增加172.180.20.111和172.180.20.112作為新設通信服務器1/2的本機地址,增加172.180.20.110作為MSCS集群管理地址。
3.業務邏輯處理設計
當一個節點發生故障,MSCS集群將會把相應的對外服務地址及共享磁盤切換至另一節點,另一臺服務器通過腳本自動啟動對應業務,確保服務不間斷運行。
對于共享方式,核心業務放在共享的存儲設備上。當其中一臺服務器兩個核心業務正常運行時,直接在磁盤陣列劃分的專用存儲空間上進行數據讀寫。而當服務器故障后,系統自動切換,另一臺服務器也同樣讀取該存儲設備上的數據,這種方式由于數據的一致性由共享存儲設備來保障,不占用系統資源,而且沒有數據傳輸的延遲。具體業務邏輯如下圖:
4.系統軟件設計
目前ZLC的通訊處理MessageServer和文件處理FileServer都部署于本地D盤,在新的設計方案中,須將相關軟件部署于各自的共享磁盤(E盤為通訊處理MessageServer共享磁盤,F盤為文件處理FileServer共享磁盤)。目前SC連接ZLC的ftp目錄均指向本地D盤,需要修改所有車站ftp配置,將新的路徑指向各自共享磁盤(E盤為MessageServer共享磁盤,F盤為FileServer共享磁盤)。
另外實現自動切換,需要將MessageServer、FileServer的自啟停腳本加入到集群腳本中。
結束語
核心服務器雙機集群模式通過最小成本實現了機場線ZLC區域中心所轄3條線路的穩定運營。
在單臺服務器故障后實現核心業務正常無縫無差別繼續運行,保證了中央系統對各車站設備狀態的正常監控,數據正常接收解析,收益客流數據正常上報等,實現了ZLC核心服務器發生故障對業務和現場零影響的效果,顯著提高了AFC專業現場服務質量。
在以后新線建設中,各專業的服務均可借鑒本次改造的方案,實現應用的集中部署,集群管理,即提高了應用的可靠性,也復用了服務器資源,為公司節約新線建設開支,減少故障量。
參考文獻:
[1]姜堅華. 雙機熱備系統的技術研究和具體實現[J]. 微型電腦應用,2004(03):7-9.
[2]劉韞暉,宋茂強.基于消息同步的雙機熱備份系統[J].北京郵電大學學報,1998,21(2)