陳 琨, 黃 寧,2,*, 吳祥蔚, 趙靜萌
(1. 北京航空航天大學可靠性與系統工程學院, 北京 100191;2. 北京航空航天大學可靠性與環境工程技術重點實驗室, 北京 100191)
相較于傳統系統,第五代移動通信(5th-generation, 5G)網絡系統的特點在于能夠在同一套基礎網絡設施上動態部署和運行多業務,而網絡切片(network slicing, NS)、網絡功能虛擬化(network functions virtualization, NFV)等新技術的應用,也使得5G業務相較于傳統業務具有以下新機制:① 網絡頻譜資源的靈活重用機制;② 虛擬網元的按需調度和重分配機制;③ 配備“自治化”的邊緣計算與本地管理控制平臺。
這些網絡設施、資源上的共用和自控機制也使得5G業務在發生故障時并不像傳統業務一般,能滿足獨立失效假設,而是存在業務故障間的特定關聯關系,本文稱之為“耦合關系”。其中,抑制耦合作為5G網絡系統中廣泛存在的一類耦合關系,對業務的可靠與否具有重大影響。“抑制耦合”概念最早出自生理學,用以描述“當支配肌肉的運動神經元受到傳入沖動的興奮,而支配其拮抗肌的神經元則受到這種沖動的抑制”的生理活動現象。對于5G業務故障而言,這種耦合關系描述了業務故障間此消彼長的負相關關系。當若干個業務故障間存在抑制耦合關系時,其中一個業務的功能或性能下降會帶來其他業務的功能和性能的同步增長,這種此消彼長的關系可能由以下原因產生:
(1) 業務本身的邏輯關系所帶來的故障間抑制耦合。如由于早期的長期演進(long term evolution, LTE)網絡取消了電路交換域(circuit switching domain, CSD),因而不支持語音業務,在有電話業務接入時系統會自動斷開4G信號,回落到2G/3G網絡完成語音通話。這個切換時間在2 s左右,因而在信號切換的時間里,用戶的上網業務斷開。在后續的通話業務過程中,用戶的上網業務會降級。在5G的初期商用階段,在部分偏遠地區仍然存在通過回落到2G/3G來完成語音通話的現象,即同樣存在通話業務的調用會抑制上網業務正常運轉的情況。
(2) 由于5G業務間對某類網絡構件或網絡資源的調用關系帶來的故障間抑制耦合。如當兩個處于同一網絡環境下的用戶需要同時通過一個客戶前置設備(customer premise equipment, CPE)向5G基站傳輸信號時,他們之間存在對網絡基礎設施的同時共用,從而其業務故障間存在抑制耦合關系。上述兩個傳輸業務會對網絡基礎設施的共用帶來如下結果:當兩個業務都處于正常狀態時,兩個業務在傳輸時可能會帶來意料之外的延遲,從而使得兩個業務都因為不能按時交付而故障。當其中一個業務由于終端設備故障等原因無法對網絡基礎設施進行調用時,另一個業務則能夠從中獲益,從而在規定的時間內完成業務請求。
(3) 業務調用的構件本身帶來的故障間抑制耦合。在“5G+遠程控制”業務場景中,底層電氣設備工作時會產生電磁干擾(electromagnetic interference, EMI),體現在騷擾源設備由于電磁感應產生共模電流和差模電流,這些干擾電流對其周邊一定范圍內的敏感設備產生影響,使得敏感設備的性能降級甚至功能失效。
傳統意義上的故障分析方法包括可靠性框圖(reliabi-lity block diagrams,RBD)和故障樹分析(fault tree analysis, FTA)方法。其中RBD通過方框和連線來表示構件單元間的物理連接關系,基于此來估算系統的可靠與否;傳統FTA包括故障樹建模、故障樹定性分析、故障樹定量評估3個方面。通過邏輯門來表征構件間的邏輯關系。總之,上述傳統故障分析方法對系統故障的考察多基于底層設施之間的調用關系,其故障邏輯相對簡單且假設底層構件獨立失效,無法描述業務故障間的相互影響關系;后續的動態FTA (dynamic FTA, DFTA)對傳統故障樹進行拓展,并可以支持表示組件之間的動態依賴關系。動態邏輯門允許對序列依賴關系(優先與門,PAND)、功能依賴關系(功能相關門,FDEP)以及備用管理和分配(冷備件門,CSP)進行建模。可以看到DFTA中動態邏輯門已經對構件的功能邏輯以及順序邏輯作了相應的考慮。但由于動態邏輯門中僅對特定故障模式進行描述,其故障模式中忽略了對抑制耦合的描述,因而動態故障樹在應用于存在抑制耦合的業務故障分析時,同樣無法有效描述其故障邏輯。除此之外,自20世紀 60 年代以來,各界學者先后提出描述共因失效的模型與方法,如-因子模型、BP(basic parameter)模型、MGL(multiple greek letter)模型、-因子模型以及平方根模型。共因失效分析拓展了底層故障輸入的相關性,描述了由特定的單一事件引發若干個部件同時失效的情況,并通過共因失效組來對這種相關性進行建模分析。但共因失效分析本質上描述的是構件間“一損俱損”的故障邏輯,而抑制耦合與之相反,是故障間“此消彼長”的邏輯,因而共因失效也無法用于描述業務故障間的相互抑制關系。
綜上,5G網絡系統業務故障之間存在抑制耦合,以致同樣基礎設施網絡上的業務故障受抑制耦合關系影響而更為復雜。但當前的故障分析方法并不能對抑制耦合進行有效的描述。當前缺乏一種能夠有效分析抑制耦合關系影響下業務故障的方法。
針對上述問題,本文提出了考慮抑制耦合關系影響的5G網絡業務故障分析方法。其中的抑制耦合關系是指業務故障間的一類特殊的相互影響關系,體現了業務故障間此消彼長、相互抑制的關聯關系,極大程度上影響著業務的運行情況。我們把傳統故障分析方法無法描述的抑制耦合關系作為建模的重點。為此,我們首先明確了抑制耦合關系的含義、符號以及特征。進一步在傳統故障樹的基礎上擴充對抑制耦合關系的描述,提出了耦合FTA,并基于耦合FTA實現了對考慮抑制耦合關系影響的網絡系統業務故障的分析研究。通過5G 輪胎吊(rubber-tyred container gantry crane, RTG)案例分析,驗證了該方法在工程實際中的適用性。
為了區別于傳統構件故障,首先給出業務故障的定義如下:
業務故障為網絡系統層面上單個或多個業務功能無法滿足用戶需求的狀態。相較于傳統故障,業務故障更加關注系統層面網絡業務提供的服務狀態變化,其不再發生在具體的某一構件上,而是多構件故障復雜動態耦合產生的系統級故障。根據其故障所在業務層級的不同可以進一步劃分為頂層業務故障、子業務故障、業務中間件故障以及葉子級業務故障,這里描述的業務故障層次是逐層降低的。
進一步給出業務故障間獨特的抑制耦合關系的定義。
抑制耦合關系是業務故障間的一種特定相互影響關系,由于業務對網絡功能的動態調用而產生。表現為其中一個業務的故障狀態變化一定概率上會引起與其存在抑制耦合的業務的同步且異向的故障狀態變化。
業務故障由于其抑制耦合特征導致前一個子業務的完成好壞會一定程度地影響后一個子業務的完成,其原理類似于傳統工業生產中的“緊前”、“緊后”工序。本文中的抑制耦合關系表示方法如圖1所示。

圖1 抑制耦合關系符號
一個耦合關系包括如下元素:
(1) 一個觸發業務故障(可能是一個基礎事件或其他邏輯關系的輸出事件);
(2) 一個或多個從屬業務故障;
(3) 一個從觸發業務故障指向從屬業務故障的連接。當該連接為有向連接時,其箭頭代表著抑制耦合的方向;當該連接為無向連接時,代表著抑制耦合關系沒有方向(即對耦合關系連接的兩個業務產生同步影響)。
從屬業務的故障在邏輯上依賴于觸發業務的故障,當觸發業務發生故障時,其故障將對從屬業務產生影響,這種影響體現在從屬業務故障概率的變化上。
當一個業務故障同時受多個耦合關系影響時,它同時擔任了耦合關系中的觸發業務故障以及從屬業務故障,這時候我們稱之為中間業務故障,如圖2所示。

圖2 涉及中間業務故障的抑制耦合關系符號
FTA是從故障角度出發研究系統與構件之間故障關系的邏輯圖,是系統各層業務及其可靠性意義下連接關系的圖形表達,表示各層業務的正常或失效狀態對頂層業務狀態的影響。FTA依靠邏輯門和連線的布置,繪制出系統的特定部分發生故障時對系統輸出事件(通常為頂層業務故障)發生與否的影響,來顯示系統的失效邏輯,進而分析系統中每一個成分的失效率對頂層業務的影響,以幫助評估頂層業務的可靠性。傳統FTA只考慮了以構件故障及其映射為代表的構件-單元-系統層面的分析,缺乏對同層事件間相互影響因素的考慮。然而,針對復雜的網絡系統,同層事件間的相互影響同樣也會導致頂事件故障概率的變化,也使得在分析系統可靠性時同樣需要對同層事件間的故障邏輯進行分析。因此,我們在傳統的FTA的基礎上,將故障分析的對象由構件(包括軟硬件)故障擴展到調用系統功能的業務故障,而將傳統的構件故障間的串并聯關系擴展到業務故障間的映射關系,并提出基于耦合關系來分析同層業務間的故障邏輯。
耦合故障樹定義了系統中各故障(包括上下層以及同層故障)的邏輯交互,不僅能夠兼容傳統的FTA,同時可以彌補FTA只反映各個構件故障之間的串并聯關系的不足,支持更為復雜的業務間的故障關系,從而更完整和真實地幫助評估頂層業務對象的可靠與否。
為了從可靠性的角度,更加直觀地表達網絡中各業務故障之間的相互關系及業務故障間的相互關系對業務可靠性的影響。我們在傳統的故障樹分析的基礎上,提出耦合故障樹的概念,將業務故障間的抑制耦合以規定的符號形式加載到故障樹上,用以描述同層故障間的關聯關系,從而使得原本的故障邏輯由于抑制耦合關系的補充而得到進一步拓展。
所涉及元素的基本定義如下:
事件:對網絡系統業務及其子業務、中間件業務狀態的描述。包括業務正常(業務或子業務等能夠完成規定功能,從而滿足用戶需求)和業務故障(業務或子業務等不能完成規定功能,從而不能滿足用戶需求)。在耦合故障樹中,事件發生(故障),用邏輯值1表示;事件不發生(正常),用邏輯值0表示。
底事件:位于耦合故障樹最底層的事件,是某個邏輯門的輸入事件。
頂事件:位于耦合故障樹頂端的事件,即系統不希望發生的頂層業務故障。
邏輯門:描述上下層事件之間故障關系的邏輯符號,包含例如“與門”、“或門”、“非門”等經典FTA方法中的邏輯門。
耦合關系:描述同層事件間邏輯關系的邏輯符號。包含“單向抑制耦合”和“交互抑制耦合”兩種耦合關系,如表1所示。

表1 耦合故障樹中的新增符號
分析步驟如下:
分析業務系統的結構和工作原理。廣泛收集系統業務的設計、業務運行資料、業務流程圖、設備技術規范和描述系統有關狀態的技術數據。
選擇和確定頂事件。通常為頂層業務故障。
尋找引起頂事件發生的直接原因。通常為子業務故障,將頂事件作為輸出事件,將所有直接原因作為輸入事件,根據事件間的邏輯關系,用適當的邏輯門來連接輸入事件。
分析每一個與頂事件直接相聯系的輸入事件,即子業務故障,如果該事件還能進一步分解為更下一層的子業務故障,則將其作為下一級的輸出事件(子模塊的頂事件)。
重復步驟4,逐級向下分解,直到所有的輸入事件不必再分解為止。此時可建立起針對頂事件的樹形結構故障邏輯圖。
基于本文對抑制耦合關系的定義和分類,逐步分析步驟5中同層故障間的耦合關系。
當所有層的抑制耦合關系都分析完成,將耦合關系符號加入FTA中,從而將樹狀的故障邏輯進一步擴充。
2.2.1 同層的業務故障解析評估
本文采用結構因果模型(structural causal model, SCM)來表達一個業務通過耦合關系對另外一個業務的影響,這種影響本身就是帶有因果性的。
(|=,do(=))
(1)
式中:是一組觀察到的已知變量;是觀測到的的值。綜上,一個SCM估計(|=,do(=))的方式為:完成對原有模型的介入do(=)之后,得到一個新的模型。隨后,在新的模型上估計由業務故障帶來的業務的故障概率。
基于業務故障間抑制耦合關系,將業務故障耦合關系的分析結果應用于同層業務故障的分析過程中,具體在于:對于處在同一業務層次的某一業務故障概率,其數值上等于該業務先驗故障概率與耦合關系影響下的故障概率的加總。例如,對業務而言,其受到耦合影響后的故障概率為
′(=1)=(1-)(=1)+∑(=1|=,=1)
(2)
式中:是耦合強度調和因子;=1表明與業務具有耦合關系的業務處于故障狀態。
222 上下層業務故障解析評估
對于特定業務系統而言,當我們通過如上方法得到每一層的受耦合關系影響后的業務故障概率時,我們采用布爾運算來定義其不同層業務故障間的計算方式。
AND:所有子業務都發生故障,上層業務才發生故障。其布爾運算表達式為
=∩∩…∩
(3)
OR:只要有一個子業務發生故障,上層業務就發生故障,其布爾表達式為
=∪∪…∪
(4)
因而,對于AND連接的上下層業務而言,其上層業務故障概率的計算方法如下:

(5)
對于OR連接的上下層業務而言,其上層業務故障概率的計算方法如下:

(6)
可以看到,相較于傳統FTA,基于耦合故障樹的業務故障分析方法存在以下幾點優勢:
(1) 傳統FTA僅由上往下進行演繹式失效分析,而本文所提的耦合故障樹不僅可以支持自上而下的失效分析,也可以支持對同層間的故障相互影響關系的分析和量化。
(2) 傳統FTA僅利用布林邏輯組合低階事件,分析系統中不希望出現的狀態。因而傳統故障樹分析事故原因是強項,但應用于原因導致事故發生的可能性推測是弱項。而本文所提的耦合故障樹則可以支持采用條件概率的組合及結構因果模型來表達故障之間存在因果性的相互影響。這無疑更能夠較好地刻畫真實的故障因果邏輯。
(3) 傳統FTA往往是針對一個特定事故作分析,而不是針對一個過程或設備系統作分析,因此具有局部性。而本文所提耦合故障樹提出以“耦合關系”來描述同層部件之間的故障間相互影響,使得故障樹能夠支持復雜系統各同級部件之間的故障關聯關系的描述,并以“抑制耦合”為重點來完善其定義及計算。這一定程度上能夠支持故障樹方法在更頂層的系統級故障分析時的應用。
為適應自動化碼頭的發展趨勢,上海洋山港口進行了RTG 5G 遠控改造驗證。通過在洋山冠東碼頭部署中國移動 5G 虛擬園區網,保證遠控業務的低時延、高可靠要求。經過改造,目前主要在1 500 m的區域內架設了3個5 G基站,來實現對區域內約50臺RTG的自動控制。平均每個操控人員能控制4~6臺RTG。一臺RTG配備2個并行工作的客戶端設備CPE,以及2個備份CPE,共4個。一臺RTG可能會負責多個堆場。從CPE到基站為一跳傳輸,即CPE直接連接基站。一個基站可以同時支持約3臺RTG的信號傳輸。
完整的基于5G網絡系統的RTG遠程操控業務中包含以下5個子業務: 大車就位、小車空載、吊具抓箱、小車負載、吊具放箱。上述子業務都有著相似的業務調用流程,如圖3所示。其中,,,…,是采集終端,負責現場視頻信號的收集,終端信號收集完成后,經由編碼器編碼后通過CPE(此案例為CPE1/CPE2的備份冗余)連接到基站經由5G骨干網、核心網傳輸至遠端控制中心,經由中心內部交換機及解碼器處理后在控制臺終端進行顯示,由操作人員根據視頻信號通過控制端可編程控制器(programmable logic controller, PLC)發出控制指令,控制指令同樣經由解碼器、交換機后連接到5G網絡,通過基站間的信號傳輸最終到達現場,經由CPE接收、解碼器解碼后傳達到現場設備端PLC進行作業。

圖3 業務調用流程
在洋山港5G RTG應用場景中,管道提供商首先需要論證5G RTG業務的可靠性。通過計算其業務故障概率,并與標準值進行對比來進行分析。若業務故障概率小于標準值則可以認為5G RTG滿足要求。而在故障概率的計算過程中,如何考慮并發多RTG業務間的相互影響關系成為重點,也是其難點所在。
我們以RTG業務故障為業務層頂事件,通過基于先驗經驗的迭代,逐層向下分析得到5個子業務故障、并以Sa1-1,Sa1-2,Sa1-3,Sa1-4,Sa1-5分別代表大車就位故障、小車空載故障、吊具抓箱故障、小車負載故障、吊具放箱故障。其中,由于5個子業務在業務邏輯上的相似性,分析大車就位子業務的業務故障邏輯,而對其他4個子業務故障不再做額外的分析。對于大車就位子業務,我們繼續向下分解得到業務中間件故障。以Sa1-1大車就位子業務故障為例,對大車就位子業務中的視頻信號上傳和控制指令下傳兩個關鍵步驟進行分析,得到Am2-1:Cloud Vision業務中間件故障(為5個子業務重復調用的一個具體的視頻信號上傳業務所對應的故障);Am2-2:移動控制業務中間件故障(為5個子業務重復調用的一個具體的控制指令下傳業務所對應的故障)作為兩類典型中間件故障類型;同樣地,由于兩類業務中間件故障邏輯上的相似性,為了簡化過程,這里對除了Am2-2之外的業務故障不再做額外的分析。
以Am2-2繼續向下分解得到如下7個葉子級業務故障,包括 M1(控制臺故障)、M2(控制端PLC故障)、M3(編碼器故障)、M4(交換機故障)、M5(5G基站-CPE無線傳輸故障)、M6(解碼故障)、M7(設備端PLC故障)。
在對RTG業務故障分析分解完畢后,從定性的角度分析其業務故障間可能存在的抑制耦合關系。
(1) 對于葉子級業務故障而言,由于M2和M7對應的均為PLC設備,且PLC工作時會對周邊設備產生強電磁干擾,一定程度上會使得同一電箱內的編碼器、解碼器的性能降級甚至功能失效。
(2) 對于業務中間件故障而言,雖然Am2-1、Am2-2對葉子級業務調用順序正好相反,但它們之間同樣存在對葉子級業務共同調用,這種對某類網絡構件或網絡資源的共同調用關系,會帶來故障間的抑制耦合。
(3) 對于子業務故障而言,本案例中的Sa1-1、Sa1-2、Sa1-3、Sa1-4、Sa1-5之間具有明確的時間先后順序,即只有當第一步大車就位正常之后,才會繼續進行小車空載等子業務。因此,對于單RTG業務場景而言,其對應的子業務故障由于時序關系并不直接存在抑制耦合關系;而對于多RTG業務場景而言,由于不同的RTG在作業時并不完全同步,因而其對子業務的調用順序并不具有明確的時序關系。特定時刻下,這些子業務故障間可能會存在抑制耦合關系。
假設在分析業務層的故障邏輯之前,已經獲取到了包括M1~M7在內的7個葉子級業務的獨立故障概率, 如表2所示。

表2 葉子級業務故障概率
基于前期RTG業務運行故障數據的積累,可以給出部分業務故障發生的CPT條件概率分布表,表3僅列舉了條件概率與初始概率不同的情形,對于未在此列出的條件概率,其條件概率與初始概率均相同。

表3 條件概率表
應用本文中的同層業務故障分析,結合初始統計數據來分析業務故障間是否存在抑制耦合關系,得到其耦合故障樹,如圖4所示。其中層次1為業務層頂事件故障,層次2為子業務故障,層次3為業務中間件故障,層次4為葉子級業務故障。

圖4 5G RTG 耦合故障樹
按照本文提出的方法逐一計算由抑制耦合關系帶來的故障概率的變化。以存在抑制耦合的M2~M4為例。由后門準則的定義可知,圖4中路徑集合均滿足SCM中的后門準則,因而
(=1|do(=1))=(=1|=1)=0006
(7)
此時,M3受抑制耦合關系影響后的故障概率為
′(=1)=(1-)(=1)+(=1|do(=1))=09×001+01×0006=0009 6
(8)
式中:取值在[0,1],這里取=01。同理,可根據故障樹邏輯逐層向上計算,最終得到頂層RTG業務故障發生概率。

(9)
(1) 與不考慮抑制耦合影響所得到的故障概率相比,考慮抑制耦合的頂事件發生概率的相對誤差為

(10)
由計算結果可以看出,對于5G RTG 遠程控制這種可靠性和安全性至關重要的業務場景來說,若不考慮抑制耦合的影響,則得到的故障分析結果誤差顯著。這說明抑制耦合對RTG業務故障的發生具有顯著的影響,如果在5G RTG遠程控制業務的設計、分析和運行中不考慮這種影響,將會誤判事故發生的概率,從而造成經濟上和安全上的損失。
(2) 通過選取不同的耦合強度調和因子的值,來比較其故障概率變化情況。
在不同的耦合強度因子下,5G RTG業務故障概率的取值會隨之發生變化,該概率對于衡量5G RTG業務可靠與否具有重要價值。這一部分進一步通過仿真研究了不同耦合強度調和因子與5G RTG業務故障發生概率的取值間的關系。
基于當前案例中的耦合RTA結果,底層葉子級業務故障的發生概率不變,其耦合強度調和因子由0變化到1時,對頂事件發生概率的影響如圖5所示。

圖5 耦合強度調和因子影響
可以看到,隨著耦合強度調和因子的增大,從屬業務故障的概率越發受到抑制耦合的影響,從而導致RTG業務故障的概率不斷減小。即對于特定業務而言,隨著耦合強度調和因子的增加,故障間的抑制耦合關系在一定程度上反而會使得業務的不可靠度降低。
5G技術對頻譜資源、底層物理資源等的靈活重用使得其業務故障邏輯中不可避免地出現大量的抑制耦合(源于業務對公共資源的排他式調用)。耦合關系的出現使得業務故障機理更為復雜,從而極大程度上影響業務的交付質量。當前尚無能夠直接針對這種5G業務及其故障間耦合關系進行分析和評估的方法。
為了量化這種抑制耦合關系對業務故障的影響,本文給出了對抑制耦合關系的符號化描述和定性分析,并在傳統FTA的基礎上,增加了對同層業務故障間抑制耦合關系的考慮,進一步提出了耦合故障樹,從而實現了對抑制耦合關系影響下的業務故障的定量計算。通過對5G RTG案例的影響規律分析,證明了抑制耦合關系對業務故障的發生與否具有顯著影響:與不考慮抑制耦合關系相比,考慮抑制耦合關系的頂事件發生概率要減少6.31%。同時進一步分析了在不同耦合強度調和因子影響下的業務故障概率。證明了本方法在完成網絡系統業務故障分析的同時,能夠實現對同層業務故障耦合關系的描述,進而將傳統的樹狀故障結構進一步擴充。通過量化分析業務故障間的抑制耦合關系,能夠促進對故障發生的成因和故障之間的相互影響關系的深入研究。進一步為后續通信網絡乃至其他基礎網絡的業務可靠性設計與優化提供了理論基礎。