韓 潔 徐鐘全
(1.南京地鐵運營有限責任公司,南京 210000;2.北京全路通信信號研究設計院有限公司,北京 100073)
2003年,南京地鐵一號線AFC系統投入使用,據統計一號線的服務器共計21臺,主要分為中央計算機系統服務器和車站計算機系統服務器。中央服務器和車站服務器(簡稱服務器)是A FC系統的主要組成部分,主要承擔的系統功能有各層級的數據收集、各類數據處理解析上傳、控制所有車站中段設備的參數版本及分發、管理監控所有車站設備狀況等。
從上述介紹可以看出,A FC服務器是A FC系統后臺業務的核心,也是A FC系統的關鍵,運維部門每天例行服務器必要的檢查和維護,以保證各服務器運行的穩定。
1.2.1 設備使用已超過設計年限
目前,A FC系統硬件設備為H P公司DL380 G3設備,自2003年至2010年已經運行8年,遠遠超過服務器的設計使用年限(5~6年)。據對現場的故障統計,服務器硬件故障在前5年內處于穩定態勢,但近一、二年來服務器硬件故障明顯上升,服務器的可靠度大幅下降,嚴重影響現場設備的運營安全。
如圖1所示, 2009年服務器的故障較2008年故障大幅上升。
1.2.2 備件供應困難

鑒于服務器系統發生故障基本上是由于硬件模塊老化所致,所以現場對主要模塊的硬件需求量較大,且及時性要求較強??紤]到A FC業務的特點,對于服務器故障一般要求必須當天夜間解決。從走訪市場備件供應商來看,DL380 G3機器在2007年已經停產,備件早已退出生產線,市面上能購買到的備件也是返修循環件且維修成本很高,即使能夠暫時替代壞件,也不能從根源上保證服務器的可靠度;且返修件在時間和質量上難以得到可靠保證,現場服務器一旦發生故障,維修工作是舉步維艱。1.2.3 服務器改造必要性
A FC服務器的功能非常關鍵,運行狀態不穩定,極易導致運營期間的系統故障,影響到數據處理及收益結算;設備老舊,備件缺失,導致維修人員工作難度進一步加大。考慮以上諸多因素,2009年底,確定對一號線在線服務器進行系統改造,保證新服務器為市面上的主流配置服務器。
所謂傳統方式,就是在目標服務器上安裝必要的硬件驅動,再安裝操作系統,最后依據各服務器在運行業務模塊的作業指導書進行應用程序安裝。
所謂虛擬技術,即利用虛擬軟件將舊車站服務器的操作、應用系統。數據庫系統轉換成虛擬化文件并存儲在中間服務器中,再將中間服務器的虛擬文件還原到新升級的物理機。
由于本項目提到的改造服務器均是正線運營的服務器,為了保證運營的安全性,必須在運營結束距次日運營前完成單臺升級,所以本次對升級的兩種方式著重從安全性、耗時情況做比較,如表1所示。

表1 兩種方式比較
經過對兩種改造方式的對比,結合運維部門現場的特殊運營條件限制,決定采用虛擬技術來進行服務器改造工作,確定服務器硬件選型為HPDL380 G7,為此詳細制定實驗室測試方案,保證遷移工作萬無一失。
虛擬化就是把物理資源轉變為邏輯上可以管理的資源,以打破物理結構之間的壁壘。未來,所有的資源都可以運行在各種各樣的物理平臺上,資源的管理將按邏輯方式進行,完全實現資源的自動化分配,而虛擬化是實現的理想工具。虛擬化環境需要多種技術的協調配合:服務器和操作系統的虛擬化、存儲虛擬、以及系統、資源的管理和軟件提交、與非虛擬化環境一致的應用環境。
虛擬技術早在20世紀70年代開始應用。如今,虛擬技術已被推廣到不同領域中,得到廣泛應用。虛擬現實是用戶可以和一個由計算機產生的三維立體空間中的對象交互,除觀看外,還可以在空間中隨用戶的意志自由操縱其中的對象,進而產生相當的融入感及參與感。
由于服務器遷移不僅涉及硬件,而且也涉及軟件,尤其要保證業務的連續性、數據的高可靠性及遷移過程的穩定性,采用虛擬化技術風險較小,通過虛擬化技術將服務器操作系統、數據庫系統、應用軟件轉換成中間主機的虛擬機文件,再將中間服務器的虛擬文件還原到新升級的物理機。該項目研究服務器軟、硬件遷移技術,在較短時間內完成服務器的無縫遷移,不需要重新安裝軟件,為夜間施工節約了人力、時間,項目原理如圖2所示。

南京地鐵一號線A FC系統服務器升級項目實施升級項目的驗收測試,既要求A FC升級服務器滿足合同規范,也要驗證A FC系統從原有系統平穩過渡到改擴建系統的每個階段。由于本次的升級工作屬于南京地鐵A FC系統首次實現遷移,且其他地鐵也沒有成功先例,為保證整個遷移過程順利,且保證老舊系統的無縫對接,重點做了以下幾點把控。
驗證A FC系統在新服務器的運行情況,在測試過程中解決了藍屏、AFC應用程序不能啟動、加密狗不能應用等問題。
驗證A FC系統的各項功能,在測試過程中解決了參數下載、終端設備管理、數據上傳及處理、模式應用、應用配置等問題。
驗證A FC系統數據庫運行情況,解決終端設備數據與車站服務器 、車站服務器與中央服務器數據差異等問題。
驗證A FC系統遷移失敗后快速恢復、孤島模式下系統運行情況。
2011年12月1日至31日,在馬群一號線實驗室進行遷移測試,驗證操作系統、業務軟件與新服務器硬件兼容性。逐步驗證A FC監控軟件運行、數據上傳、參數下載、數據庫運行等功能項目,形成升級詳細步驟,指導各個服務器的升級工作。
前期通過向承包商詢價,如采購硬件后重新安裝操作系統及應用軟件需產生費用約85萬元。而通過本項目虛擬技術遷移產生的費用為40.7萬元,為公司節約成本44.3萬元。
本次升級工作均采用夜間施工,每次施工約3 h左右,服務器升級期間,終端設備在孤島模式下正常運行,沒有對乘客出行造成影響,并保證在開站前有足夠的時間觀察新服務器運行情況。
服務器遷移后,運維對服務器的故障率、服務器的主要性能做了比較,發現新服務器運行穩定,故障率有大幅下降,性能得到極大提升。
對遷移后的新服務器和舊服務器的故障數據做同期對比,分析發現故障率大幅度下降,如圖3所示。

如表2所示,除了對硬件故障數做比較外,還從業務角度重點對新舊服務器的服務響應指標如客流查詢響應時間、監控命令響應時間等進行比較,這些指標也有不同程度提升。

表2 性能比較