游達章 張敏 余煉 劉攀



摘 ?要: 為了更好地研究嵌入式系統硬件可靠性,提出一種針對嵌入式系統硬件的馬爾科夫模型分析方法。首先分析了嵌入式系統各模塊的失效形式和故障類別,并根據故障類別將系統定義為不同工作狀態;其次,根據狀態轉移關系建立狀態轉移矩陣,并求解計算馬爾科夫狀態轉移方程,得到系統可靠度隨時間的變化關系;最后,對嵌入式系統硬件局部可靠性作了敏感性分析。仿真結果表明,馬爾科夫鏈模型能較為準確地描述硬件失效過程和預測某型噴漆系統硬件的可靠度,此外,提高電源可靠性有利于提升整個嵌入式硬件系統的可靠性。
關鍵詞: 可靠性預測; 模型分析; 失效形式分析; 工作狀態定義; 狀態轉移矩陣; 敏感性分析
中圖分類號: TN876?34; TP302.7; TP202+.1 ? ? ? ? ? ? ?文獻標識碼: A ? ? ? ? ? 文章編號: 1004?373X(2020)23?0079?06
Abstract: In order to study the hardware reliability of the embedded system better, a Markov model analysis method for dealing with embedded system hardware is proposed. The failure form and fault category of each module in the embedded system are analyzed. The system is defined as different working state according to the fault category. The state?transition matrix is established according to the state transition relationship, and the Markov state transfer equation is calculated to obtain the relationship of variation of system reliability with time. A sensitivity analysis on the local reliability of the embedded system hardware is carried out. The simulation result shows that the Markov chain model can describe the failure process of the hardware and predict the reliability of the hardware of a certain type of paint spraying system, and improving power supply reliability is conducive to improving the reliability of the entire embedded hardware system.
Keywords: reliability prediction; model analysis; failure mode analysis; working status definition; state?transition matrix; sensitivity analysis
0 ?引 ?言
嵌入式系統的可靠性是指系統在規定的條件下和規定的時間內,完成規定功能的能力,而嵌入式系統硬件可靠性主要由印制電路板的可靠性來體現。為了預測和提高嵌入式系統的可靠性,不少學者投入很大的精力研究。文獻[1]針對嵌入式實時控制系統可靠性難以評估的難點,通過使用Copula建立的ERCS軟硬件綜合可靠性模型,使得ERCS軟硬件綜合可靠性比獨立時有所提高。文獻[2]利用離散時間的馬爾科夫鏈和半馬爾科夫鏈分析了復雜多狀態可修復A/n系統元件的多樣性,導出了易行、有效的系統可靠度與可用度的預測模型。文獻[3]針對嵌入式系統設計只注重功能不注重系統整體的問題,提出一種新的嵌入式可靠性評價方法,對于軟件故障問題的預測描述更加全面。傳統的可靠性分析方法有故障樹分析法、貝葉斯網絡推理算法等,而馬爾可夫模型能夠計算出具有維修能力和多重降級狀態的系統可靠度,也常作為預測系統可靠性的主要手段。文獻[4]對光伏電站的可靠性模型,使用馬爾科夫鏈蒙特卡洛(MCMC)方法對其進行評估,相比于傳統的蒙特卡洛方法,這種方法收斂速度和抽樣速度更快;文獻[5]在設備具備故障率指數分布特性前提下,應用馬爾科夫鏈可以快速對電力系統進行可靠性解析,通過歷史運行狀態得到應用狀態轉移矩陣與電力運行狀態,分析未來時間段電力系統平穩狀態與運行狀態下的轉移概率,確保準確評估電力系統的運行可靠性,相比傳統模型更加快速和準確。文獻[6]針對鋰電池的壽命提出了一種馬爾科夫殘差滾動優化預測模型,在只有4個數據點的情況下比普通滾動優化模型的精度高很多。盡管這些研究通過使用馬氏鏈解決了一些問題,但是,對于在工業設備頻繁運用的嵌入式數控系統的硬件設計可靠性評估,依然是當今世界嵌入式系統尋求進一步發展亟需解決的問題之一。
為了更好地研究嵌入式系統硬件可靠性,結合嵌入式系統和馬爾科夫模型,構造一種由系統模塊分類的可靠性模型,并考慮修復率問題,提出一種針對硬件的馬爾科夫模型分析方法,分析了嵌入式系統各模塊的失效形式和故障類別,根據狀態轉移關系建立狀態轉移矩陣,并對馬爾科夫狀態轉移方程進行求解計算;最后對嵌入式系統硬件可靠性作了狀態預測和敏感性分析。
1 ?嵌入式系統的硬件模塊
以某型嵌入式自動噴漆設備為例,如圖1所示,電路硬件包括時鐘電路、復位電路、MCU、通信模塊、電源和光耦隔離等。
為了便于研究,按照功能將以上電路硬件劃分為電源模塊、通信模塊、CPU模塊和控制模塊,如圖2所示。
2 ?硬件嵌入式系統失效模式
2.1 ?故障原因
硬件故障根據故障的持續時間又可分為永久性故障和暫時性故障。永久性故障是硬件物理性能隨著時間的推移而出現不可逆的退化;暫時性故障則是由外部或內部不確定因素引起的短時間硬件故障。暫時性故障有時不通過維修就可以自行恢復,電源電路故障或電路供電不穩定造成芯片燒毀則屬于永久性故障,只能通過更換芯片實現系統正常運行,否則無法實現正常功能。但是當有器件接觸不良,例如電源插座接觸不良,與觸摸屏之間的串口線出現短時間的通信障礙,故障并不會長時間持續,一段時間后能自行恢復正常,此類故障屬于暫時性故障。表1列出了該系統出現的主要故障原因。
2.2 ?故障模式
硬件失效主要由硬件的全局故障、未能及時恢復的暫時性故障與超過系統容錯能力的硬件局部故障引起的。當嵌入式系統出現全局故障時,硬件系統無法工作,也就是硬件失效。為了消除硬件暫時性故障的影響,經常采用重新燒寫控制代碼、關上設備重新啟動等方法,但是在系統運行過程中,可能因為未能及時從故障中恢復而造成系統失效;當硬件局部故障發生時,系統將會依舊執行程序,但故障單元會導致整個系統無法工作,此時當故障單元修復后,系統能立即投入工作,修復后的單元模塊還是屬于指數分布,而當一系列指令、操作命令都無法執行且整個系統硬件受到應力影響,處于不可修復時,則判斷系統處于失效,表2是本系統出現的主要故障模式。
3 ?硬件嵌入式系統的馬爾科夫模型
在嵌入式數控系統硬件中,先從單個的元器件開始分析,當某個元器件處于正常工作狀態時,它從正常狀態轉移到故障狀態的轉移概率與其現在處于的狀態有關,而電子元器件的故障分布是符合指數分布,具有無記憶性,而這也是馬爾科夫鏈的性質。即此時由正常轉為故障的概率只與當前的狀態有關,與之前的無關,狀態之間轉移隨機。此時假設:
1) 每一個組成單元的壽命和維修時間的分布都遵循指數分布,也就是說故障率和修復率都是常數。
2) [X(t)]表示嵌入式數控系統當時處于時刻[t]的狀態。
3) 每個結構單元處于什么狀態是相互獨立的,與其他結構單元的狀態無關。
4) [Δt]足夠小,可以認為在[Δt]時間內一個故障重復一次以上的概率為0,也就是說不考慮在同一時刻,組成部件出現兩次及兩次以上的故障情況。
當一個單元在[t]與[t+Δt]這段很短的時間里面,故障率為[λ],修復率為[μ],對單個單元進行狀態分析,此時該單元會有故障狀態和正常狀態這兩種狀態,由此可以得出該單元的狀態轉移關系如圖3所示。
利用馬爾科夫模型能夠較為準確地表示出該嵌入式硬件系統的工作情況。當運用馬爾科夫模型評估系統可靠性指標時,嵌入式系統硬件各個部分的狀態可以看作是一個離散時間、離散狀態的馬爾科夫過程,為了將馬爾科夫過程應用到嵌入式硬件系統的可靠性模型中,作出以下假設:
1) 該嵌入式控制系統的所有硬件器件失效率均獨立,服從指數分布。
2) 該系統共有 7 個狀態(正常及6個模塊失效,分別用0,1,2,…,6表示),用[λ]表示某個組成模塊的故障率,[μ]表示其修復率,由一個狀態轉移到另一個狀態是隨機的。
因此,在[Δt]時間內,系統各狀態間的狀態轉移如圖4所示。
由圖2可知,整個嵌入式系統的硬件主要由電源模塊、CPU模塊、通信模塊和控制模塊組成。其中,電源模塊主要是由兩塊降壓芯片、電容和電阻組成;CPU模塊主要是由STM32F103芯片和時鐘復位電路組成;通信模塊主要是由MAX232和電容組成;控制部分主要是由GPIO、光耦和串口組成。相關部件的故障數據可參考IEEE收集以及我國軍用手冊專門用于可靠性評估的數據標準與表3,其可靠性數據結果計算如表4所示。
通過表4和式(4)可得到系統工作狀態可靠度隨時間的變化關系,如圖5所示。
由圖5可以看出,該硬件系統的可靠性隨著時間的增大而減小,符合設備壽命實際變化規律。假設系統的可靠度大于0.8時硬件系統可靠,可知該硬件系統能可靠工作的時長約為0.3×106 h。在設備處于正常工作的情況下,時間越長,設備的可靠性大于這一時間的概率就越小。
5 ?敏感性分析
由于各個模塊的失效率對系統的可靠度影響效果不同,因此在實際運用中,要對影響較大的模塊加以考慮,即對各個模塊的失效率做敏感性分析。通過控制變量法逐個調整各個模塊的失效率,調整范圍控制在20%左右,并選定評判標準為可靠度變化幅值。仿真結果如圖6所示。
由圖6和表5可知:模塊失效率[λ1]的變化對可靠度的影響較大,當[λ1]減少20%或者是增加20%時,相比于其他模塊失效率對可靠度的影響,可知電源模塊對整個系統可靠性的影響更大,往后依次是時鐘電路、光隔電路、MCU、串口屏。因而,在硬件設計上電源模塊部分設計對整個系統的可靠性提高有一定的指導意義。
6 ?結 ?語
為了更好地研究嵌入式系統硬件可靠性,以某型嵌入式自動噴漆設備控制系統硬件為例,提出了基于馬爾科夫模型的硬件系統可靠性預測方法。首先對嵌入式自動噴漆設備控制系統硬件進行模塊劃分,分析了各模塊工作狀態轉移過程,得到整個硬件系統可靠性隨時間的變化關系,較好地描述了整個硬件系統的失效過程;其次,通過敏感性分析得知,對系統可靠性影響最大的模塊為電源模塊,為進一步提高硬件系統可靠性提供了良好的解決思路。綜上所述,基于馬氏鏈的硬件可靠性預測模型對實際應用中嵌入式系統的硬件設計和可靠性分析具有很大的價值。
參考文獻
[1] 郭榮佐.基于Copula的ERCS系統軟硬件綜合可靠性建模與分析[J].計算機科學,2014,41(4):145?149.
[2] 方永鋒,陳建軍.多狀態可修復k/n系統的隨時間響應可靠性研究[J].高技術通訊,2016,26(2):195?199.
[3] 李冬輝,蘇海嘯,馮中艷,等.ARM嵌入式系統模糊可靠性評價[J].測控技術,2016,35(1):118?122.
[4] 朱曉榮,王羽凝,金繪民,等.基于馬爾科夫鏈蒙特卡洛方法的光伏電站可靠性評估[J].高電壓技術,2017,43(3):1034?1042.
[5] 雷為民,羅瑋,苗友忠.馬爾科夫鏈的電力系統運行可靠性評估研究[J].自動化與儀器儀表,2016(3):110?111.
[6] 孔令達,杜蜀薇,趙兵,等.基于馬爾科夫鏈蒙特卡洛仿真的智能電能表軟件可靠性仿真研究[J].電測與儀表,2018,55(1):114?120.
[7] 封二強,鄭軍,藍新生.軟硬件可靠性綜合評價方法研究[J].電子技術應用,2015,41(3):20?23.
[8] 秦昳.基于軟硬件故障競爭失效模式的可靠性分析方法研究[J].電子技術與軟件工程,2014(13):197?198.
[9] 王樂胥.嵌入式電子信息系統可靠度優化探究[J].信息與電腦(理論版),2018(8):23?24.
[10] 黃魯江,雷燁.基于Markov過程的二乘二取二計算機聯鎖系統的可靠性和安全性分析[J].鐵路通信信號工程技術,2017,14(5):1?4.
[11] 潘剛,尚朝軒,梁玉英,等.相關競爭失效場合雷達功率放大系統可靠性評估[J].電子學報,2017,45(4):805?812.
[12] 高志,雷建和,張丹,等.應用馬爾科夫模型分析起落架的可靠性[J].自動化與儀器儀表,2014(5):146?149.