姚益靜 中國鐵路上海局集團有限公司金華車務段
鐵路信息化建設過程中,幾乎都是采用傳統的物理服務器、PC的辦公模式.局內各車務段的業務都大同小異,包括OA辦公系統、18點、smis、信息共享系統、超偏載軌道系統、確報收發調傳系統等,這些系統的物理服務器一般都部署在站段中心機房或者地區中心機房,業務終端則分散在車站各生產崗位,使得這些信息系統在其生命周期內出現了諸如運維工作量大,數據安全無法保障等一系列問題,鐵路站段超融合云管平臺就是針對以上問題而設計的一款既能有效減少人力財力資源的浪費,符合節支降耗的要求,又可以大大提升數據安全性和管理高效性的一款系統平臺。
本文結合上海局集團有限公司金華車務段信息系統的實際情況,研究探討鐵路信息系統采用基于超融合基礎架構,利用虛擬化技術實現服務器虛擬化和業務終端桌面虛擬化的解決方案。
車務段目前共有5種應用系統(見表1):

表1 車務段目前使用的應用系統
另外還有OA服務器,以及部分備用服務器,這些系統采用的都是傳統的物理服務器的架構,基本上是一個應用對應一臺物理服務器,另有兩個自建的文件共享服務器。服務器都已使用超過3年,沒有備份容災措施,靠冷機備份的方式進行。
內網桌面用戶有1 000多個(不包括客票系統用戶),分布在管內49個車站的生產崗位,主要用于OA辦公、18點、TMIS及其他一些生產應用系統,涉及操作系統有winxp(應用需求)、win7、win8及win10,部分為32位版本。常用軟件有Office、PDF、各類瀏覽器(Chrome、IE、Firefox等)、360天擎軟件和北信源。有多種型號的打印機,大部分為USB接口,也有部分并口打印機,還有高拍儀、STP勾傳設備、讀卡器、掃描儀和指紋識別設備。
由于現有應用系統都是采用獨立的物理服務器方式進行部署的,1 000多個辦公網終端分散在管內49個車站的生產崗位,所以存在以下問題:
(1)服務器的利用率低。車務段機房內運行的服務器利用率都非常低,由于一臺服務器只能有一個操作系統,受系統和軟件開發平臺的限制,CPU、內存、硬盤空間的資源利用率都很低,大量的系統資源被閑置。
(2)可管理性差。首先是可用性低,幾乎每個應用服務器都是單機,如果某臺服務器出現故障,相對應的業務也將中斷。其次是當硬件需要維護、升級或出現硬件故障時,相關的業務系統會出現較長時間的中斷,影響運輸生產。
(3)兼容性差,部署速度慢。鐵路內部很多用于運輸生產的信息系統對高版本的軟硬件的適應性沒那么強,系統和應用遷移到新服務器,不能保證兼容,當有新的應用需要部署時,需要重新部署服務器、存儲系統,快則3 h-4 h慢則半天甚至24 h。
(4)缺乏備份和冗災。應用基本沒有備份容災措施,靠冷機備份的方式進行。
(5)運維工作量巨大,效率低。車務段管轄滬昆線、衢寧線、金千線、衢九線、金溫線五條線,車站多范圍廣,重要生產崗位,比如TMIS業務終端,通常采用一主一備的模式來應對突發故障,可即便這樣,一旦發生故障還是有一種鞭長莫及的感覺。
平臺由超融合基礎設施和云管平臺兩部分組成,利用6臺物理服務器搭建超融合基礎架構,其中3臺建成企業級云平臺,采用服務器虛擬化技術,借助遷移工具將原先運行在獨立物理服務器上的數據庫和應用無縫遷移至云平臺,可以通過CDP技術、數據多副本技術、虛擬機備份技術、網絡行為管理等多技術來保障數據的可靠性與完整性及數據的安全,滿足車務段主要業務系統的需求;另3臺物理機建成桌面云平臺,通過虛擬化技術將TMIS終端業務統一運行到后端的數據服務器上,實現運維的統一管理。
整體環境由6臺物理服務器、2臺千兆上聯交換機、2臺萬兆光交換機,兩臺DELL ME4012存儲設備,一臺千兆管理交換機組成(表2)。

表2 超融合云管平臺硬件組成功用表

圖1 超融合云管平臺拓撲圖
根據表一中的硬件配置采用三臺DELL R740服務器,一臺ME4012存儲,10 GB網絡交換機與aDesk平臺共用,來組成整個服務器虛擬化平臺,包括備份空間。此配置中,SSD與數據磁盤的配置大概在1:10左右,高于廠商的推薦配置。根據配置,整個平臺可以提供60C、384GB MEM和大概30TB左右的存儲空間,其中超融合部分存儲空間14TB用于虛擬機,ME4012的16TB空間用于備份。根據虛擬機資源類型的不同來測算,目前的配置完全能夠支持目前車務段對虛擬服務器的需求,表3是根據虛擬機配置,估算的支持虛擬服務器數量的統計表:

表3 支持虛擬服務器數量的統計表
云管平臺軟件采用aCMP:V6.0.10和aCloud:5.8.8_R1,如果遇內存資源緊張,可按需增加物理服務器內存,如遇CPU、磁盤資源緊張,可以通過增加物理服務器的方式,來提升平臺的整體運算能力。
虛擬桌面平臺利用計算虛擬化aSV、存儲虛擬化aSAN,將計算、存儲、網絡整合在一套桌面云環境中,使用瘦客戶機、PC等多種接入方式,只要綜合計算機網絡可達的情況下,用戶就可以通過各種類型的終端去訪問位于服務器上的個人桌面,讓數據保護更安全,桌面管理更高效。整個車務段有1 000多個終端PC,用于TMIS業務的終端50多個,此次只規劃了TMIS業務終端部分,以后如果需求增加,aDesk平臺可以很方便的進行橫向擴展,為今后整個車務段實現完全桌面虛擬化做好基礎。
桌面云平臺采用和企業級云平臺一樣的硬件配置,根據配置整個平臺可以提供60C、384GB MEM和大概30TB左右的存儲空間,其中超融合部分存儲空間14TB用于虛擬桌面,ME4012的16TB空間用于虛擬桌面個人數據的備份。根據虛擬桌面資源類型的不同,估算的支持虛擬桌面數量的統計如表4:

表4 估算的支持虛擬桌面數量的統計情況
同樣可以通過增加物理服務器內存和增加物理服務器的方式來解決內存、CPU、磁盤資源緊張的問題,提升平臺的整體運算能力。當前配置了60個VDI的許可,60C物理內核的許可,可以滿足車務段TMIS業務終端虛擬化的需要。
(1)平臺建成初期,出現CDP自動備份不能進行下發,所有授權全部掉線的問題,重啟acmp授權服務,發現不能識別到key或者key識別非常慢,因此懷疑為key識別問題,于是工程師現場進行key插拔,之后key映射正常,授權也全部正常,業務恢復,判斷主要為key識別故障導致。
(2)在進行虛擬存儲擴容時,出現服務器I/O繁忙度100%,在進行5.3.8升級至5.4.2版本時也出現I/O繁忙問題。最終導致虛擬存儲添加失敗、升級失敗等問題處理方法:針對讀寫IO較低磁盤,進行磁盤模式更換,從鏡像模式改為普通模式,此時再測試主機磁盤IO速率,結果正常,虛擬存儲添加失敗問題在集群內主機全部分批重啟一遍后問題解決,升級失敗問題通過后臺升級解決。
。
(3)車站使用虛擬桌面操作TMIS終端業務的時候,STP勾傳功能串口服務器無法正常使用,但是在桌面云管理系統里的策略組→USB設備訪問控制里已經添加了該設備的VID:PID,而且在Nport administrator里也可以搜索到該串口服務器,后來考慮到STP串口服務器設備在車站本地,而虛擬桌面服務器在車務段,嘗試將虛擬桌面IP地址加入到Nport administrator管理程序的Accessible IPS列表中,問題解決。
目前,該平臺已經在金華車務段投入使用,通過該平臺提供的簡單的單一管理方法,大大提升了站段生產數據的安全性,提升站段IT運維的效率,提高管理水平,取得了良好的安全效益、管理效益和經濟效益。該平臺適合應用于鐵路基層站段OA辦公系統、18點、TMIS等,能滿足大部分基層站段對信息系統建設的需求,具有在全路各站段推廣的前景。