葛名立
(中國電子科技集團 第十研究所,成都 610000)
目前機載電子信息系統集成度、復雜度不斷增大,導致系統在外場使用過程中故障檢測能力不足,耗費大量人力物力對故障進行檢查定位,拉升了測試與維修成本。因此需要在這樣功能復雜的系統中獲得故障檢測率、隔離率、模糊度、虛警率等測試性指標,并在前期設計階段分析評估出系統的故障診斷缺陷以提升測試性設計,為系統后續的使用和維護提供保障。
音頻設備是某大型運輸機CNS分系統中的重要組成部分,該音頻設備通過組建內部通信網實現機上各成員之間的話音通信;提供機載短波、超短波、JIDS和衛通等無線電通信設備音頻接口進行機外話音通信;同時,還具有導航音監聽、合成話音及音調告警、應急通信以及廣播等功能。音頻設備具有多用戶管理以及控制全機音頻節點的特點,為實現該復雜系統達到規定的測試性要求,以提高設備的戰備完好性和任務成功性,減少對維修和其他資源的要求[1],降低壽命周期費用,需開展相關的測試性建模仿真工作。文中采用多信號流建模技術,對音頻設備進行逐層分解,使用由頂向下或由底向上混合方式實現對復雜系統的層次化建模[2],通過迭代完善模型,有效提升設備故障的診斷隔離效率。
故障模式是指一個設備的損壞或失效的方式,在GB-7826解釋為一個系統的部件中能被觀察到的一種失效現象;而故障模式的故障影響是指明確的可觀察的故障現象、影響、信號參數名稱進行描述[3]。(是指產品的每一種故障模式對產品自身的使用,功能,狀態的影響)。故障模式影響分析FMEA是分析產品中每一個可能的故障模式并確定其對該產品及上層產品可能所產生的影響[4],以及把每一個故障模式按影響的嚴重程度(severity)予以分類的一種技術。作為測試性建模的試驗數據來源,FMEA統計到系統內所有LRU設備的各種大小故障、各種完全或部分故障的發生情況,按照圖1中不同約定層次映射關系自底向上開展故障模式收集分類;同時為保證統計工作效率以及不同層次FMEA快速收斂,通過定義頂層功能故障模式,自頂向下逐層分解故障影響。統計填寫每種故障模式的故障率,為后續指標核算提供依據。

圖1 故障模式層次映射關系
系統硬件FMEA的故障模式應與上一層產品FMEA報告中的故障原因保持一致;同時在約定層次時,最低層次不能高于故障隔離要求中指定的層次[5],故障要求隔離到哪一層,層次結構定義就到哪一層,建模時在該層次枚舉故障模式。
測試性模型是使用規定的方法和格式對系統或設備的組成單元、故障、測試等測試性要素及其相互之間關系進行描述的信息與數據的總和[6]。即使用簡化和抽象的數據結構和形式表達產品中與測試性相關的特性的主要內容。其要素包括:約定層次、組成單元(模塊)、故障模式、故障模式交聯關系(故障的傳播路徑)、故障率(故障模式MTBF)、故障模式頻數比、測試、測試與故障模式的關系、其它測試性信息。
測試性建模就是以簡化及抽象的數據結構和形式來表達建模對象的測試性相關信息,利用工具軟件仿真的手段完成對設備已有的FMEA表中的故障模式傳遞關系的邏輯描述。通過有向圖[7]來描述裝備功能、故障和測試三者之間的信息流,以功能信號為紐帶聯系起來,構成功能-行為-結構模型[8]。
多信號流圖模型(MS-FGM,Multi-signal flow graph models)是由Somanath Deb和K.R.Pattipati等人于上世紀90年代提出的,該模型采用了分層建模的思想將故障修改為多維空間,建立的模型并非系統的準確定量關系。而是系統重要的功能屬性,更接近于系統的物理功能結構,有利于描述系統各個模塊之間故障的傳播特性。多信號流圖模型無需精確定量關系建模,建模容易,使一些復雜大型系統的測試性建模變得可行,并且模型失真度較小。
多信號流圖模型通過定義信號(功能)與組成元件、故障模式、測試之間的關聯性來描述系統的結構特性。該模型一般包含以下組成要素[9]:
1)有限的系統構成元件集C={C1,C2,…,CL};
2)與元件相關的獨立信號集S={S1,S2,…,Sk};
3)可用的測試點集TP={TP1,TP2,…,TPr}
4)有限的可測試集T={t1,t2,…,tn};
5)有向圖DG={C,TP,E},E表示系統的物理連接。
對應的每個測試點TPr對應一組測試集SP(TPr),每個元件Ci影響一組信號集SC(Ci),每個測試Tj測試一組信號ST(Tj)。跟蹤系統每一元件影響的信號流向以及每一測試可以檢測的信號[10-11],由此在模型中建立故障與測試的依賴關系。其中信號(功能)是指表征系統或其組成元件特性的特征、狀態、屬性及參量[11],既可以為定量的參數值,也可以為定性的特征描述,能夠充分覆蓋系統的結構信息。另外,模型中的信號是相互獨立的,信號之間不會互相影響,便于分析故障的傳播和影響,有效降低了模型的失真。
如圖2所示,在測試性模型中,M用于表示建模對象的組成單元;故障模式(FM,fail mode)用于表示每個組成單元的故障模式;測試點(TP,test point)用于表示每個組成單元內部實現的測試方法;i和o分別表示組成單元的輸入和輸出。這些簡稱在實際的建模過程中均可更改為實際的名稱。

圖2 多信號測試性模型
從圖2可以看出,多信號模型的圖形表示方法基于系統功能原理圖和結構框圖,能將不同多信號流框圖集成到一個整體的環境模型中,采取有向圖的方式表示系統各模塊之間的相互連接關系和信號流傳播方向,并標注各模塊相關聯的檢測信號、測試點的位置以及測試和相應檢測信號的關聯等信息,以此描述各組成模塊、測試點與信號之間的相關性關系[12-13]。通過建立完整的多信號流故障依賴關系模型,確定哪些測試方法可以測到模塊中哪些故障模式,從而進行系統或子系統級的可測試性設計和故障診斷分析,并利用已建立的多信號流故障依賴關系測試性模型,形成系統的故障相關性矩陣,進行測試性的分析。
在系統測試性指標分配時,就要考慮各組成部分可能達到的指標,以及類似產品的經驗等,對系統可能達到的指標做初略的估計,形成最初的測試性分析。然后在詳細設計階段可以獲得更多,更真實的數據,將相關的可靠性指標帶入模型分析,得到的結果可以作為評價是否達到設計要求的依據。
測試性建模分析主要根據測試性設計資料,通過仿真來估算測試性和診斷參數可能達到的量值,并與規定的指標要求進行比較的過程。分析測試性定量要求[14],包括故障檢測率、隔離率、概率加權模糊組。
用規定的方法正確檢測到的故障數與同一時間內被測單元發生的故障總數之比。其數學表達式為:
其中:對于電子產品來說,檢測率用故障率λ表達:
λ為被測產品的總故障率;λi為被檢測出的故障模式的故障率;k為被檢測出的故障模式數。
指用規定的方法將檢測到的故障正確隔離到不大于規定的可更換單元的故障數與同一時間內檢測到的故障數之比。其數學表達式為:
對于電子及某些機械產品的隔離率的數學表達式可改寫為:
式中,λi為可隔離到不大于規定模糊度的故障模式的故障率之和;λD為被檢測出的所有故障模式的故障率之和;λLi為可隔離到不大于規定模糊度的故障模式中第i個故障模式的故障率;p為可隔離到不大于規定模糊度的故障模式數。
一般情況下,被測對象各組成單元的可靠性是不會完全相同的,可靠性低的組成單元發生故障的可能性較大,應優先檢測,賦予較大的檢測與隔離權值,其間被測對象及其組成單元的可靠性數據(故障率)可從FMEA中獲得。 優選測試點和制定診斷策略時,計算檢測、隔離權值[16]還應考慮相對故障率大小。
各測試點的檢測權值:
式中,WFDj為第j個測試點檢測權值;ai為第i個組成單元的故障發生頻數比;dij為被測對象相關性矩陣中第i行第j列元素;λi為第i個組成單元的故障率;m表示待分析的相關性矩陣行數。
各測試點的隔離權值,即:
式中,WFIj表示第j個測試點的隔離權值;Z表示分析的矩陣數。
建立完善、準確的測試性模型在很大程度上可幫助設計師發現并消除測試性設計缺陷(包括故障檢測設計缺陷和故障隔離設計缺陷),進而確保產品測試性設計達到指標要求。參見圖3開展系統的測試性建模流程。

圖3 測試性建模流程
1)由頂層成品協議的具體要求分配設備級的測試性指標(定量要求值);
2)由產品設計組成及產品設計圖紙輸入,建立測試性模型;
3)根據硬件FMEA工作確定設備的故障模式以及故障模式的故障率;
4)將上一步獲得的故障模式數據收集值輸入測試性模型,并由專業軟件進行測試性模型分析,獲得其相關性矩陣、診斷策略、檢測率,隔離率預計值[15];
5)將獲得的故障檢測率,隔離率預計值與要求值進行能力比較,以促成改進設計;
6)通過BIT軟件設計,外部測試點選擇完成設備測試性設計,并指導測試性分析;
7)繪制測試點選擇流程圖,明晰各模塊輸入、輸出信息,反映故障傳遞路徑,明確故障模式,測試點與信號的關系,用于定量計算檢測率,故障率[15]。在模型建立好后,設計人員使用語法檢查工具檢查語法的正確性以保證完成的模型被計算機系統順利處理和使用。
以某機載音頻交換控制設備為例,按產品組成約定建模層次,完成LRU級,SRU級層次的FMEA數據收集,開展建立測試性模型。
音頻交換控制設備(ASCU)在系統中主要實現各面板控制數據的接收、采集;并根據控制要素完成多路音頻信號的交換路由處理,以及最終驅動輸出至用戶耳機。其中音頻接口AI模塊負責音頻信號的接口匹配,如圖4所示,使輸入的音頻信號阻抗匹配,滿足負載及傳輸要求;音頻處理AP模塊是ASCU的音頻加權、控制、混音、告警產生以及設備狀態的控制中心,它由多路A/D、DSP、大規模FPGA和外圍電路組成;數字接口IO模塊實現ASCU設備的HB6096-1986接口,接收RIU無線電接口單元、音頻控制面板ACP等指令信息,并上報音頻處理設備的健康狀況,向下將各種指令下發到音頻控制面板(ACP)等外圍設備,同時將音頻面板的狀態信息經過外圍設備編碼后上報到該模塊。

圖4 音頻控制交換設備內部框圖
根據ACSU設備的產品信息:包括組成信息、產品輸入輸出功能表、各模塊 FMEA表及相關的測試信息輸入表,將所有的故障模式與相關輸入輸出建立關聯,并定義這些故障模式影響的輸出信號,建立信號列表,描述出相應的故障傳遞路徑[17]。
其中ASCU 的測試性模型如圖5所示。

圖5 音頻交換控制設備ASCU
該模型表明了設備的對外輸入,輸出接口關系;該LRU設備的下層SRU級組成信號關系如圖6所示。

圖6 ASCU的SRU級互連關系組成
圖6描述了設備測試性設計中功能傳遞部分的設計工作,即設備中的各模塊信號的互連設計,使用建模工具在內場可更換單元SRU模塊之間增加、定義互連關系[19]。如圖6所示,按照設計方案中的所需實現的功能、模塊間的信號連接關系在LRU級測試性模型中分配各SRU級功能模塊的端口屬性,信號屬性以及編輯連接線,并在功能模塊內部根據故障模式影響分配相關信號,以表示故障傳遞路徑,建立測試性模型。首先機上各成員話音信號經過麥克風送入AI-A模型的mic等端口,經模塊的預處理放大后送AP-A模型的i1,i2,i3端口;在AP-A模型中完成AD數字化采樣,后同步送DSP信號處理器中準備進行混音、加權處理,其中的混音要素由IO-A模型提供。在此過程中PS模型為ASCU內各模塊提供工作所需電壓,其故障模式為無輸出或供電性能下降。
IO-A模型通過ACP_in端口收集外部各音頻控制面板(ACP)的控制信息,通過NET端口收集用戶網絡選擇信息。在IO-A模塊內部完成各類混音控制要素的解析、打包、傳輸,并由Tx422端口送至AP-A模塊。同時通過模型中的429_out1, 429_out2端口將處理后的ACP指示燈應答信號返回至各ACP單元,作為其是否正常響應的判據。
在AP-A模型中按混音控制要素完成多路音頻信號的控制交換后,混音后的信號由ear1,fear等端口再輸入至AI-A模型的對應端口中,在其內部完成語音信號阻抗匹配、信號放大等工作。最終將輸出信號由AI-A模型中o1,o2,o3端口分別輸出至ASCU的com_out、fear以及AS模型中的aout1~aout4端口,在AS模型中經網絡信號選擇后輸出至ASCU的ear1~ear4端口,完成全機音頻信號交換。根據上述設備功能實現描述完成ASCU設備測試性模型建立。
模型中使用模擬音頻信號、總線控制信號、離散量選擇信號、電壓信號等信號分配給模塊中不同的故障模式,當模塊或故障模式失效時會影響這個信號,信號在不同的故障模式中完成傳遞,轉換;這些信號是可以被測試到的量,設計中通過上電BIT,周期BIT,人工檢測等手段對上述信號進行測試,進而在模型中完成故障的傳遞、檢測。
下面依次為內場可更換單元SRU建立其內部故障模式的描述,使用連線定義故障模式和輸入輸出端口之間的聯系,并定義故障模式所影響的信號。以AP模塊和IO模塊為例,其內部故障傳遞路徑如圖7和圖8所示。

圖7 AP模塊內部故障模型
AP模型中通過DSP內部定時器完成AD采樣芯片同步幀檢測,并通過處理器對比任意兩時刻的AD采樣值等方式可檢查AD芯片采樣是否故障;通過IO模塊與AP模塊間的周期保活監測串口通信是否故障;結合DSP處理器觸發離散告警信號產生音頻信號可判斷離散信號采集是否正常;通過設備外部接口測試點監測發送到VTR的數據;通過對FLASH內部存儲的數據進行累積,累積值與預計值相符時則判斷FLASH工作正常。 模塊通過自身的處理器上電bit等手段完成上述自檢工作并將自檢信息上報健康管理。
IO模型內部故障模式如圖8所示,通過設計模塊上電bit檢測處理器等功能電路是否故障;通過與外圍單元的通信握手,指示燈檢測判斷其自身429總線收發是否故障;通過與AP模塊間二次握手判斷其自身串口通信是否故障;通過時鐘電路驅動的串行通信口與外設通信的結果判斷時鐘電路是否正常工作[20]。

圖8 IO模塊內部故障模型
AI模塊由于不含處理器,自身不具備故障檢測能力,需配合LRU內其余模塊通過維護bit完成模擬輸入、輸出通路的環路自檢。測試標稱信號經過該模塊后是否失真。通過該手段能有效檢測AI模塊內多路模擬音頻通路。
建模完成后,通過TADS軟件測試性分析,得到ASCU設備的檢測率,隔離率以及可供參考的故障診斷流程。

表1 設備測試性指標 %
在此基礎上為進一步提高測試性指標,對測試模型及測試策略進行優化設計。如優化BIT設計,優化布局測試點,增加對設備音頻環路組合測試,覆蓋設備內SRU模塊模擬音頻通路等,提升故障檢測率、隔離率。
ASCU音頻交換控制設備的啟動BIT測試流程見圖9,加電BIT和周期BIT是各模塊在加電啟動和周期任務時自動啟動的。對于AP、IO模塊可增加處理器指令集,外圍電路,FPGA邏輯電路的讀寫校驗檢測;如選用TI DSP,在BIT測試時,DSP運行內部指令集,以覆蓋處理器內部的硬件單元以及外設接口,若測試結果與預定的值不相符,則上報故障。各模塊完成BIT后,將結果統一上報中央維護系統。當檢測無CPU的模塊時,如AI、AS模塊,利用AP收到的BIT指令,產生1 kHz的正弦波,輸出到AI模塊的輸出音頻接口,信號經AS輸出,利用設備的外部測試點,將外部的輸入,輸出音頻通路短接,將基準音頻信號返回給AP模塊采樣,通過對采樣信號周期、幅度的判定測試AI模塊通道是否正常工作,完成模擬音頻通路的環路自檢。同時對此類模塊增加小規模輔助測試電路,在BIT啟動信號控制下,完成PTT、網絡選擇等離散控制信號的檢測。

圖9 ASCU設備BIT啟動流程
在測試性分析指導下,通過合理的測試點布局選取,配合交互式bit及人工檢測手段完成各類離散信號,總線信號,模擬音頻信號的檢測;有效提高了測試性指標[22]。表2例舉改進后部分故障模式檢測情況。

表2 改進后診斷架構說明
通過上述測試點優化以及新測試手段加入,顯著提高隔離到一個SRU的隔離率至91.7%。
測試性建模的意義在于可在已有設計、模型的基礎上,通過不斷優化,調整系統的BIT設計以及測試點設計,有效的評估系統的測試性指標,找出故障檢測的薄弱環節,通過迭代不斷完善系統的測試性設計。
文中對某機載音頻設備進行了建模分析,經優化調整BIT設計以及增加測試手段,有效提高了設備測試性指標,優化設備的故障診斷流程,為真實使用時的故障診斷提供參考。通過上述的BIT設計及外部ATE測試等方法,能快速定位故障位置,確定是LRU級還是SRU級故障,便于外場維護使用,降低維護成本。為使用方提供良好的性能監控、故障檢測和故障隔離能力。