楊軍
“新基建”是指以5G、人工智能、工業互聯網等為代表的新型基礎設施建設,是與以鐵路、公路、機場、水利等為代表的傳統基建相對而言的,其核心是新型數字化基礎設施。新基建的重點是傳統基礎設施的數字化改造。對于鐵路方面,表現為在已建成的鐵路網絡上借助新型基礎設施建設進行數字化改造,從而向智能鐵路發展。鐵路專用通信領域是鐵路新基建的重要實踐領域之一,借助于5G、大數據、云計算、人工智能等新型技術,構建鐵路通信云平臺、大數據平臺和人工智能平臺,為智能鐵路提供智能數據承載、多媒體通信、安全管控和智能分析等功能,滿足鐵路安全運營、智能養護維修等各類場景的應用需求[1]。中國鐵路武漢局集團公司在電務系統專用通信網管試點,利用私有云解決當前專用通信網管面臨的眾多問題。
隨著各種新建高鐵、客專等線路工程及升級項目工程的完成,武漢鐵路局集團公司網管中心共計有網管65臺,技術支持中心共計有網管49臺,合計網管114臺,后期還需要接入動環網管11臺和無線網管35臺,隨著漢十、鄭萬等線路完工,新增網管因坐席數量有限而無法滿足接入要求。
在網管服務器區需要通過KVM發射設備將不同廠家的網管服務器連接起來,在網管中心和技術支持中心再通過KVM接收設備轉換到網管顯示客戶端上,組網邏輯示意見圖1。

圖1 武漢鐵路局網管中心網管設備組網邏輯
該組網模式是傳統的網管機房組網模式,存在以下問題。
1)未完全實現網管集中監控,無法全面發揮大數據綜合分析能力[2]。目前,網管中心集中了管內傳輸、接入、同步、數據、動環、視頻、防災、鐵塔監控等各專業網管65臺,GSM-R核心網、無線接入網等網管尚未接入,沒有真正實現管內全部專業網管的集中監控管理。因此,無法通過傳輸層和應用層專業網管的告警信息進行綜合分析,從而更加迅速、精準地定位故障位置和故障原因。
2)受機房、設備等資源的制約,網管接入坐席容量嚴重不足,不具備擴展條件。
3)網管監控主要通過KVM設備進行遠程投射,設備已使用多年,故障頻發,且備件少。
4)網管設備因軟硬件和廠家差異,導致維護行為規范難以執行:①網管設備內存、硬盤等硬件配置無冗余保護,損壞后網管平臺無法實現監控功能,導致重要運維數據丟失,影響設備監控;②運維廠家多,網管設備USB接口不可控,“一機雙網”事件屢禁不止,容易泄密;便攜式存儲設備易引入病毒,極易在內部網絡中傳播,網絡安全受到嚴重威脅;③網管終端品牌多種多樣,性能參差不齊,操作系統種類繁多,存在硬件容量不足、操作系統易崩潰、系統補丁更新維護困難、設備易宕機等問題,網管監控時刻面臨挑戰。
5)傳輸網管的服務器與客戶端為單體架構,一旦設備發生故障,會導致整個傳輸網管癱瘓;且由于接入資源匱乏,各車間網調工區復示網管將無法接入。
6)所有機房設備都配備專用網管,但由于系統多樣化,機房維護人員不足。
綜上所述,急需對武漢局集團公司專用通信網管做出整改,引入新的技術方案,使網管設備具有更好的穩定性、安全性和擴展性。采用大數據技術,在大數據中心承載網管數據,以便開展后續的大數據綜合分析。
私有云是指通過Internet或專用內部網絡僅面向特定用戶提供的計算服務,也稱作內部云或公司云。私有云計算為企業提供了許多公有云的優勢,包括自助服務、可彈性伸縮,通過專用資源提供額外控制和定制能力,遠勝于本地托管的基礎計算結構。
私有云與公有云類似,對特定用戶可以提供基礎設施即服務(IaaS)、平臺即服務(PaaS)、軟件即服務(SaaS)3個層次的服務[3]。
基礎設施即服務(IaaS)是指把IT基礎設施,包括服務器、網絡設備、存儲設備等在內的所有硬件設施作為一種服務通過網絡對外提供。對武漢鐵路局網管中心來說,云基礎設施具有無限的可擴展性,可以根據實際業務需求不斷地擴充硬件資源,且可以實現硬件資源品牌和型號的統一。
平臺即服務(PaaS)是一種在基于云計算的系統中使用一套工具來開發和部署應用程序的高效方法。對武漢鐵路局網管中心來說,PaaS可以輔助部署各設備網管虛機、操作系統與通用應用軟件,再在此基礎上部署專用網管軟件。
軟件即服務(SaaS)是一種高效部署應用層軟件的服務。對武漢鐵路局網管中心來說,可以定制好各專業網管軟件程序,把各網管軟件與所需的通用軟件和對應的操作系統制作成不同的鏡像,在需要開辟新網管終端時,通過私有云平臺快速部署鏡像。
由于私有云的用戶數據存放在私有的云服務器上,用戶擁有對數據的絕對掌控權,云的備份與恢復功能保障了云服務在硬件故障的情況下能夠快速切換,以恢復運轉,但私有云需具有與傳統數據中心相同的人員配備、管理和維護費用。
針對現有武漢局專用通信網管面臨的問題,隨著網管終端數量的快速增長,各個部門對網管的使用需求增強,需要優先解決網管終端分散化問題。大量的物理終端導致電源、網絡、UPS、位置等資源緊張,而簡單的物理擴容又面臨機房面積的約束,因此,武漢局專用通信網管改造需先針對網管終端進行改造,實現現有網管終端云化[4]。武漢鐵路局網管中心網管設備云化拓撲圖見圖2。

圖2 武漢鐵路局網管中心網管設備云化拓撲圖
本次網管云化改造中,私有云平臺硬件設備主要包括2套萬兆交換機設備,8臺服務器,2套存儲設備和2套防火墻。其中,8臺服務器用于搭建計算資源池,為不同的網管創建虛機;2套存儲設備用于搭建雙活存儲,為每臺虛機提供至少200 GB的存儲資源,所有服務器和存儲系統通過自身2個萬兆網卡分別接入2套萬兆交換機,構建雙通網絡,減少網絡的單點故障。
根據本項目的需求,網管私有云的資源池主要分為計算和存儲兩部分[5]。資源池應具有高可靠性、高穩定性和易擴展特性,所有網管虛擬機運行在資源池上,還需要具備定制策略遷移、故障熱遷移和手動熱遷移等功能。計算資源與存儲資源通過16 G的FC接口連接,保證足夠的傳輸帶寬。
計算資源池主要為用戶提供CPU、GPU和內存等計算資源。1臺服務器的計算資源可以被一個或幾個虛擬機獨占或分享,計算資源的劃分由云管理系統統一分配。本次規劃配置了8臺服務器作為計算資源池,每臺服務器有2個CPU,每個CPU有16個核,256 GB內存,總共可用vCPU數為512個,內存2 048 GB。
存儲資源池主要為3類數據提供存儲空間:管理數據、Windows系統數據和用戶數據。其中,前2類數據由管理類虛擬機產生,后2類由網管應用類虛擬機產生,系統空間和數據空間都映射在共享主存儲上。在本次規劃中,由2套存儲設備擔任共享主存儲,容量約為26 TB,2套存儲設備做到存儲層雙活,防止1臺存儲設備物理故障后,影響整個平臺的使用,保證了整個業務系統的高可靠性。
接入設備主要包括140套TC(瘦終端)和2套光纖交換機。TC體積小,集成一些通用接口,可以直連顯示器。TC通過千兆電口接入交換機,與云平臺實現網絡上的互通,進而訪問虛擬桌面,維護網管系統。
虛擬桌面指用戶通過遠程動態訪問技術接入私有云中虛機的桌面系統[6],虛擬機的桌面管理軟件需要提供高性能且可靠的桌面投送功能。通過這種方式,用戶可以在多個虛擬機之間輕松切換。從顯示方面來看,用戶訪問的是不同的操作系統。但由于服務器采用了虛擬化技術,底層硬件可以共享CPU、內存和存儲等資源,每個虛擬機彼此隔離,因此在單個虛擬系統故障的情況下不會影響到其他虛擬系統的運用。
TC接入交換機,與私有云核心萬兆交換機以太網口進行連接,可以進行鏈路聚合綁定,實現鏈路冗余,增加網絡帶寬;同時預留未來接入全局網管復式終端的存儲接入擴展能力。在滿足網絡互通的前提下,不同站點的人員可以通過TC來訪問云桌面,進而跳轉到各自的網管終端平臺上。
武漢鐵路局網管中心網管設備云化組網見圖3。

圖3 武漢鐵路局網管中心網管設備云化組網
武漢局專用通信網管核心設備都放置于核心網機房,需要在多個地點部署網管終端,為不同專業提供數據支撐,主要使用網管終端的地點如下。
1)通信網管機房。由于目前主要的網管系統對應的地址段不同,需要確保每個網管系統能夠與云平臺進行三層通信。在三層互通的情況下,為每個網管業務平臺發放對應需求數量的虛擬機,并為其創建賬號,以供其訪問網管平臺。可以針對不同的虛擬機桌面創建不同的賬號,并同時維護各自的桌面組,每個賬號分別維護各自的虛擬機,通過使用不同的TC分別訪問不同桌面,進而管理不同的網管平臺。如果考慮到各自平臺相互訪問的情況,可以在交換機上配置訪問控制列表(ACL),來過濾不同地址段的訪問流量。
2)各電務段安全指揮中心和各車間網調工區。各電務段安全指揮中心和各車間網調工區網管室設置通信網管終端,通過傳輸通道或者數據網通道,連接至相關專業網管服務器進行互聯互通。設置1臺防火墻,實現通信網管終端與網管服務器間的安全邊界控制及網管系統的網絡安全防護。
1)先進性。本方案采用成熟、先進的私有云技術,確保了網管運維系統技術的先進性,同時符合鐵路信息技術的最新發展趨勢,可以保證投資的有效性和延續性。
2)安全性。采用防火墻對外部訪問私有云的請求進行隔離,有效隔離非法用戶;內部訪問私有云的用戶在不同網管系統間通過VLAN隔離;對同一網管系統用戶采用ACL訪問控制列表。每一層用戶采用精細化的身份認證和權限管理,控制訪問授權范圍內的系統資源;存儲層面采用多用戶的管理方式,從邏輯上隔離不同用戶存儲,有效阻止用戶之間的非法侵入和非授權訪問[7]。
3)可靠性。本方案針對系統進行了高可靠性設計,其中網絡設備采用堆疊技術,計算資源池采用設備和部件冗余配置,存儲資源池采用存儲雙活技術,可以有效避免單點故障,保證系統和業務的高可靠性。
4)易維護性。當需要新增終端時,通過虛擬機模板快速配置,10 min可以完成網管終端的快速部署。系統可以使管理員通過集中控制中心方便地配置、監視、控制、診斷整個云桌面系統,能夠監視和控制用戶情況,從而提高效率,消除隱患。
5)擴展性。主要體現在云平臺和終端的擴展性上[8]。通過管理軟件將云平臺資源池在邏輯上統一為一個整體。當資源不足時,隨時添加新的硬件資源來擴充資源池;現有資源池中的硬件故障時,也可以隨時替換,不影響云平臺的使用。終端擴展主要取決于云平臺資源池,終端理論上可以隨著資源池的擴展任意增加或減少。
1)權限集中管理。包括用戶在內的所有網絡資源實現了集中管理。所有用戶均需進行身份驗證;管理人員可以集中管理虛擬機資源,管理成本大大降低;防止維護人員在客戶端隨意安裝軟件,增強了客戶端的安全性,減少了客戶端故障,降低了維護成本[9]。
2)簡化系統管理。統一鏡像模板,預裝標準運維軟件,有效簡化管理程序;可有效分發和指派軟件、補丁等,實現網絡內的統一安裝,保證軟件的統一性。
3)安全性能加強。有利于對企業保密資料的安全管理,如可以封閉客戶端的USB端口,防止運維機密資料外泄;提供安全策略的存儲和應用范圍。安全策略可包含帳戶信息,如密碼限制或對特定域資源的訪問權,通過策略設置下發并執行安全策略。
4)用戶數據可靠。采用高可靠存儲雙活數據容災保護機制,云端存儲數據,各專業網管維護臺賬的工作文件及數據等可存儲在服務器上,統一進行備份和管理,用戶數據更加安全。
5)方便資源共享。便捷使用網絡資源,用戶只需記住用戶名/密碼,無需每次輸入密碼;各種資源的訪問、讀取、修改權限均可設置,不同的終端用戶可擁有不同的權限。即使資源位置改變,用戶也無需做任何設置或修改的操作。
6)方便擴容和運維。大屏矩陣和運維桌面(坐席)連線更靈活方便,云平臺平滑擴容業務不間斷,具有豐富的專業化運維工具,極大地提升了運維管理效率。
鐵路作為新基建的重要領域之一,需要堅定地支持國家戰略,強化使命擔當。私有云在鐵路電務領域的應用,是對傳統基礎設施的新型數字化改造,也是構建智能鐵路新型基礎設施的重要手段之一。通過對基于私有云的通信網管改造,除了解決當前通信網管面臨的問題,對私有云的推廣應用,在制度、流程、方案、技術方面也做了很好的鋪墊。
當前,對私有云到底應該采用怎樣的形式尚有分歧,到底是一個私有云越做越大,還是不同專業、不同領域建設各自的私有云,私有云如何維護等問題也是當前運維人員面臨的重大挑戰。
通過本次私有云應用的有益嘗試,隨著未來下一代鐵路移動通信網絡的發展[10],私有云的規模會越來越大,云的數量也會不斷地增長。通過業務劃分云的種類,不需要強制一朵云,但也不能過度分散化。應該根據專業詳細分析業務形態,最大限度地把相似業務劃分到一朵云上,難以合并的業務劃分到不同云上。各專業云化的過程也要采取循序漸進的過程,先滿足最迫切的需求,通過一部分業務上云,鍛煉專業技術人員,培養私有云維護的內部力量,為更多的業務上云做好鋪墊。此外,云維護可以采用統一運維方式,建立一支統一的云維護團隊,對不同專業的云進行維護,這樣可以從業務和成本等方面實現最大化效益。