胡小莉



摘 要 云計算在軌道交通行業(yè)逐步得到了應(yīng)用,作為一種為用戶提供信息服務(wù)的新模式,云計算與傳統(tǒng)的部署模式有很大的差別。云計算架構(gòu)在傳統(tǒng)架構(gòu)的計算、存儲、網(wǎng)絡(luò)硬件層的基礎(chǔ)上,增加了虛擬化。通過兩種模式的對比,結(jié)合云計算所涉及的虛擬化技術(shù)特點,對于基于云計算的業(yè)務(wù)系統(tǒng)的可靠性、可用性、可維護性、安全性(RAMS)指標(biāo),進行了系統(tǒng)性的分析。
關(guān)鍵詞 軌道交通;云計算;RAMS
隨著云計算、人工智能、物聯(lián)網(wǎng)、大數(shù)據(jù)等信息技術(shù)在城市軌道交通逐步得到應(yīng)用,軌道交通產(chǎn)業(yè)正朝著智能化、輕型化、電氣化方向發(fā)展。2020年政府工作報告提出的新基建主要包括的七大領(lǐng)域就包含了城際高速鐵路和城市軌道交通,新基建將加速軌道交通產(chǎn)業(yè)升級,助力軌道交通朝著信息化、智能化方向發(fā)展。
為了規(guī)范城市軌道交通信息技術(shù)系統(tǒng)的建設(shè),中國城市軌道交通協(xié)會牽頭編制了《智慧城市軌道交通? 信息技術(shù)架構(gòu)及網(wǎng)絡(luò)安全規(guī)范》,彌補了信息化規(guī)范的缺失。該規(guī)范中指出“智慧城市軌道交通建設(shè)和運營中應(yīng)對業(yè)務(wù)系統(tǒng)實施系統(tǒng)化的RAMS管理”,并且“對于安全、可靠性要求高的系統(tǒng),要進行第三方RAMS評估”。“智慧城市軌道交通信息系統(tǒng)的RAMS保障處應(yīng)符合本規(guī)范的規(guī)定外,尚應(yīng)符合GB/T21562,GB/T28808,GB/T28809的相關(guān)規(guī)定。”[1]
1業(yè)務(wù)系統(tǒng)運行架構(gòu)分析
眾所周知,運行環(huán)境對業(yè)務(wù)系統(tǒng)的重要性是不言而寓的。采用基于云計算的平臺作為各業(yè)務(wù)系統(tǒng)的基礎(chǔ)平臺,對當(dāng)前已經(jīng)成熟的、基于傳統(tǒng)運行模式的應(yīng)用系統(tǒng),尤其是涉及到運營安全的系統(tǒng),需要對其安全性、可靠性、可用性、可維護性(RAMS)重新進行分析。在分析之前,先了解一下業(yè)務(wù)系統(tǒng)基于傳統(tǒng)架構(gòu)與基于云計算的架構(gòu)的差別。
1.1 傳統(tǒng)業(yè)務(wù)架構(gòu)
傳統(tǒng)的業(yè)務(wù)系統(tǒng)其應(yīng)用軟件運行于操作系統(tǒng)之上,操作系統(tǒng)和底層的硬件一起作為支撐軟件運行的運行環(huán)境。操作系統(tǒng)既有獨立性,又與硬件和應(yīng)用緊密關(guān)聯(lián)在一起。操作系統(tǒng)起的作用是:對上承載各種應(yīng)用的功能需求,對下管理資源、驅(qū)動底層硬件。
1.2 基于云計算的業(yè)務(wù)架構(gòu)
基于云計算的平臺離不開底層的虛擬化技術(shù)支持。虛擬化代表著一系列先進的技術(shù)和,包括:CPU虛擬化、服務(wù)器虛擬化、存儲虛擬化、網(wǎng)絡(luò)虛擬化和應(yīng)用虛擬化。由于業(yè)務(wù)系統(tǒng)的應(yīng)用軟件運行于虛擬機管理程序(VMM)或者Hypervisor之上,軟件的運行對其運行環(huán)境有一定的依賴性,因此,首先需了解一下虛擬機運行架構(gòu)[2]。
虛擬機運行架構(gòu)包括寄居架構(gòu)和原生架構(gòu)兩種方式:
(1)寄居架構(gòu)
寄居架構(gòu)中虛擬機管理程序是一個運行在宿主操作系統(tǒng)之上的中間層,可以作為應(yīng)用軟件安裝在宿主操作系統(tǒng)之上,虛擬機管理程序上可以安裝多個操作系統(tǒng)。業(yè)務(wù)系統(tǒng)的應(yīng)用軟件使用虛擬機管理程序來隔離它們對硬件資源的使用。
(2)原生架構(gòu)
原生架構(gòu)中不需要宿主操作系統(tǒng),虛擬機管理程序直接安裝在計算機硬件資源上,虛擬機管理程序本身就是一個操作系統(tǒng),它為每個虛擬機分配硬件資源。虛擬機中包括了應(yīng)用軟件和它的操作系統(tǒng),也叫做客戶操作系統(tǒng),客戶操作系統(tǒng)可以根據(jù)應(yīng)用軟件的需求進行選擇,不需要做出任何修改。
2業(yè)務(wù)系統(tǒng)的RAMS分析
對于業(yè)務(wù)系統(tǒng)的RAMS分析,我們可以分為安全和RAM兩個方面來考慮。
2.1 業(yè)務(wù)系統(tǒng)的安全性分析
對于城市軌道交通系統(tǒng),業(yè)務(wù)系統(tǒng)在開發(fā)前應(yīng)經(jīng)過安全分析以確定相應(yīng)的安全完整性等級(SIL),進而在系統(tǒng)開發(fā)的生命周期過程中采用與該SIL相匹配的安全管理和安全技術(shù)進行開發(fā)實現(xiàn)。為了保障業(yè)務(wù)軟件的安全性,最為緊要的便是解決云計算環(huán)境下的安全問題。從業(yè)務(wù)系統(tǒng)傳統(tǒng)的運行模式可以看出,操作系統(tǒng)是直接驅(qū)動硬件的,而基于云計算平臺的業(yè)務(wù)系統(tǒng),其應(yīng)用軟件與操作系統(tǒng)共同組成了一個虛擬機,雖然每個虛擬機與運行在服務(wù)器上的其他虛擬機都是相互隔離的,但是由于虛擬機管理程序或者Hypervisor管理著所有或者大部分硬件資源的使用,因此所有的虛擬機都需要虛擬機管理程序或者Hypervisor充當(dāng)與硬件的接口,于是虛擬機管理程序或者Hypervisor以及底層硬件都變成了單點故障。
對于虛擬機管理程序,其虛擬化技術(shù)使用軟件的方法重新定義劃分硬件資源,可以實現(xiàn)對硬件資源的動態(tài)分配、靈活調(diào)度,提高底層硬件資源利用率等。云計算平臺實現(xiàn)了通過動態(tài)擴展虛擬化的層次達到對應(yīng)用進行擴展的目的。對于動態(tài)再配置這種技術(shù)方法,GB/T28808 附錄B.18的定義是系統(tǒng)的邏輯結(jié)構(gòu)應(yīng)能被映射到系統(tǒng)可用資源的子集上,體系結(jié)構(gòu)應(yīng)能檢測到物理資源的失效,然后重新將邏輯結(jié)構(gòu)映射回還在起作用的受限資源上。但是GB/T28808表A.3中對于軟件結(jié)構(gòu)認(rèn)可的技術(shù)中,明確指出不論對于哪種軟件安全完整性等級SIL,軟件動態(tài)再配置是NR的,也就是表示該技術(shù)或措施在當(dāng)前安全完整性等級下是肯定不推薦的。如果該技術(shù)或方法被使用,那么需要給出的理由。
考慮到虛擬機管理程序和底層硬件資源的復(fù)雜性,并且在業(yè)務(wù)系統(tǒng)開發(fā)過程中并沒有采用與業(yè)務(wù)系統(tǒng)SIL等級相匹配的安全技術(shù)與安全管理,因此:(1)從某種意義上說,不可能獲得或不能完全獲得虛擬機管理程序的完整確定的功能模型,并且(2)尚未按照GB/T 28809或其先前版本進行開發(fā),按照EN50129進行分析[3], 虛擬機管理程序可能存在以下多個問題:
1)缺少過程證據(jù):
在結(jié)構(gòu)化安全論據(jù)中,質(zhì)量管理和安全管理的證據(jù)缺失或至少沒有提供;
由于開發(fā)過程不以功能安全為導(dǎo)向,因此無法充分確保不受系統(tǒng)性失效的影響;
2)缺少技術(shù)證據(jù):
在結(jié)構(gòu)化安全論據(jù)中, 功能和技術(shù)安全的證據(jù)缺失或至少沒有提供;
某些屬性和功能是完全或部分未知的, 或從安全角度來看不能保證;
由于設(shè)計不以安全為導(dǎo)向, 沒有提供嵌入式的容錯措施和故障管理措施, 因此不能保證對系統(tǒng)性失效和隨機性失效的控制。
由于這些問題的存在, 在所考慮的業(yè)務(wù)系統(tǒng)內(nèi)使用既有部件實現(xiàn)安全相關(guān)功能通常是不可行的,因為安全證明可能特別繁重。但是,我們可以將虛擬機管理程序作為僅執(zhí)行與安全相關(guān)功能的一部分并有效地重用。因此云計算環(huán)境(虛擬機管理程序、硬件資源)與業(yè)務(wù)系統(tǒng)深入融合過程中需從各自的角度來考慮不同的方案:
(1) 對于虛擬機管理程序和硬件資源,可以通過對內(nèi)部結(jié)構(gòu)、數(shù)據(jù)結(jié)構(gòu)或固有的物理性質(zhì)進行分析, 應(yīng)證明虛擬機管理程序的危險功能失效模式不能可信地發(fā)生;或
(2) 對于虛擬機管理程序、硬件、操作系統(tǒng)和業(yè)務(wù)軟件組成的業(yè)務(wù)系統(tǒng),按照所需的 SIL 等級提供完整的安全證明;
(3) 對于業(yè)務(wù)軟件,應(yīng)通過外加措施來消除云計算環(huán)境可能帶來的故障模式影響,并在要求的時間內(nèi)進入安全狀態(tài),以實現(xiàn)要求的安全目標(biāo)。
由此可見,因此云計算環(huán)境(虛擬機管理程序、硬件資源)如果要承載安全相關(guān)的業(yè)務(wù)系統(tǒng),不能只是簡單的把運行于傳統(tǒng)架構(gòu)的業(yè)務(wù)系統(tǒng)應(yīng)用軟件移植到虛擬機之上,而是需要業(yè)務(wù)系統(tǒng)和云計算平臺互相配合,施加相應(yīng)的措施,共同保障業(yè)務(wù)系統(tǒng)的安全性。
2.2 業(yè)務(wù)系統(tǒng)的RAM分析
用戶對于業(yè)務(wù)系統(tǒng)的可靠性、可用性、可維修性(RAM)方面的期望很大程度上來自于已經(jīng)獲得的業(yè)務(wù)系統(tǒng)的行為經(jīng)驗,因此對于部署在云計算平臺上的業(yè)務(wù)系統(tǒng)的最基本的期望是要求其RAM指標(biāo)不低于部署在傳統(tǒng)架構(gòu)上的業(yè)務(wù)系統(tǒng)[4]。
在可靠性方面,傳統(tǒng)架構(gòu)的優(yōu)勢是,客戶對于操作系統(tǒng)及其上運行的業(yè)務(wù)系統(tǒng)有完全的控制權(quán)。基于云計算平臺的優(yōu)勢是有專業(yè)的團隊來對系統(tǒng)進行維護,但是缺點是業(yè)務(wù)系統(tǒng)經(jīng)過的中間的鏈路相對較長,且經(jīng)過的鏈路有實體機也有虛擬機,因此有物理上的不可控因素,而且受鏈路長的影響,性能和延遲也是客戶在選擇云計算平臺來承載業(yè)務(wù)系統(tǒng)時的一個重要考慮因素。此外,云計算平臺自身的邏輯復(fù)雜性也會對客戶業(yè)務(wù)的可靠性造成潛在的影響。
在可用性方面,可以從關(guān)鍵故障率、故障覆蓋率、切換成功率等方面對基于云計算平臺的業(yè)務(wù)系統(tǒng)進行評估。與傳統(tǒng)業(yè)務(wù)架構(gòu)相比,基于云計算平臺的架構(gòu)的業(yè)務(wù)系統(tǒng)引入了虛擬機管理程序(以原生架構(gòu)為例),這個復(fù)雜的軟件不可避免的會出現(xiàn)一些故障,那么虛擬機管理程序發(fā)生影響服務(wù)的故障事件的概率是值得關(guān)注的一個焦點。
另外快速和可靠的故障檢測功能對故障覆蓋率有很大的影響。業(yè)務(wù)架構(gòu)系統(tǒng)的故障檢測、抑制、隔離以及恢復(fù)都必須是自動且高度可靠的。如果故障沒有被自動檢測出來,那么將會導(dǎo)致服務(wù)未完成,恢復(fù)故障的操作也沒有被觸發(fā),進而可能直接影響到最終用戶。基于云計算平臺的業(yè)務(wù)系統(tǒng)切換成功率受系統(tǒng)架構(gòu)、冗余策略和恢復(fù)模式所影響,激活掛起或暫停的虛擬機實例增加了操作復(fù)雜度,因此也可能增加了切換失敗的風(fēng)險,另外對于對實時性要求比較高的系統(tǒng),在冗余單元上恢復(fù)服務(wù)所需的時間是否能夠滿足要求,也會對業(yè)務(wù)系統(tǒng)的可用性造成影響[5]。
3總結(jié)
城市軌道交通面臨的挑戰(zhàn)主要為運營安全、服務(wù)質(zhì)量和成本壓力。云計算的發(fā)展將云計算環(huán)境(虛擬機管理程序、硬件資源)與業(yè)務(wù)系統(tǒng)進行深入融合,給兩者帶來了全新的變革,因此對于云計算環(huán)境和業(yè)務(wù)系統(tǒng)都提出了更高的要求。在該技術(shù)沒有完全成熟或被廣泛實踐驗證之前,對于業(yè)務(wù)系統(tǒng)的技術(shù)架構(gòu)的選擇應(yīng)以安全、可靠為前提進行部署規(guī)劃和建設(shè)。在這個前提之下,根據(jù)用戶自己的需求,選擇合適的、適用業(yè)務(wù)系統(tǒng)的架構(gòu),使之達到相應(yīng)的RAMS目標(biāo),確保業(yè)務(wù)系統(tǒng)的正常運行。
參考文獻
[1] 中國城市軌道交通協(xié)會. 智慧城市軌道交通 信息技術(shù)架構(gòu)及網(wǎng)絡(luò)安全規(guī)范 第1部分:總體需求:T/CAMET 11001.1-2019[S].北京:中國鐵道出版社有限公司,2019.
[2] Artwalker. 虛擬化架構(gòu)與系統(tǒng)部署[ED/OL].https://www.cnblogs.com/artwalker/p/12945087.html,2020-5-23.
[4] 潘愛民.云平臺與操作系統(tǒng)兩種架構(gòu)的分析[ED/OL].https://zhuanlan.zhihu.com/p/75632993,2019-7-29.
[5] ERIC Bauer,Randee Adams. Reliability and Availability of Cloud Computing[M]. Wiley-IEEE Press,2012:101.