宋獎利
(中國電子科技集團公司第二十研究所 陜西省西安市 710068)
FMECA (故障模式、影響及危害性分析)是針對電子產品開展可靠性分析的重要定性方法, 是產品研制生產過程中一項非常重要的預防分析工作。通過研究產品的每個組成部分可能存在的失效模式并確定各個失效模式對產品其它組成部分和產品要求功能的影響,對各種可能的風險進行評價、分析,以便在現有技術的基礎上消除這些風險或將這些風險減小到可接受的水平,提高產品或過程的可靠性,降低后期進行彌補改善的成本。
隨著新時期裝備通用質量特性工作重要程度的提升,產品研制生產中FMECA工作的受重視程度也越來越高。但在FMECA開展過程中也出現了很多問題,如比如有的單位只是按照標準照搬,導致未能發揮FMECA方法的功效,或者是工作流程混亂,導致工作任務較重引起設計人員的反感,更有大部分的FMECA報告更新不及時未能起到預防風險的作用等等。本文擬以問題為導向,按照管理、技術等方向探究改進方向。
從管理的角度按照正確的流程開展FMECA,包括整個工作開始的時間,導入和更新的時機以及各個階段開展的重點等等,都直接影響著FMEC A工作最終的輸出質量。
當前大部分電子產品FMECA工作開展流程管理存在的問題主要有:
FMECA的宗旨是成為“事前”行為,而不是“事后”行為,要識別、評估并最終降低的是潛在風險。既然是潛在的風險,就必須是在電子產品、過程實施之前,潛在的風險存在狀態下開展的,否則就毫無意義。當前部分單位的FMECA是在產品和過程已策劃完成,甚至是已經實現了之后才開始,目的只是為了通過文件審查,只是將現有的、已經形成的措施及方案照搬到報告中,分析的過程缺失。
FMECA是動態的,必須隨著產品設計開發過程實時更新,產品生命周期內從來沒有發生過設計、工藝更改或質量問題的現象一般是不存在的,但很多FMECA報告基本在研制階段完成后就再未更新,與實際技術狀態完全不一致。另外,除了有新設計、新應用或者新質量問題等發生時產生的被動要求,對于持續改進如QCC活動時產生的主動FMECA更新要求往往未能得到重視。
由于FMECA工作采取歸納法的原則,表單量巨大,評審工作往往流于形式或由于缺少FMECA的評審機制缺失,致使對故障模式的描述不統一, FMECA的遺漏項目得不到完善,錯誤的分析得不到糾正等,也會存在因對評審者缺少必要的和主動的時效約束而評審延時的問題。
按照圖1規定的工作流程開展,即在早期論證和方案階段,主要通過開展功能FMEA即功能故障模式影響分析,從產品系統設計和功能設計層面,識別系統可能的功能故障模式或缺陷,進而通過糾正措施優化系統方案。在工程研制階段主要開展硬件FMEA、軟件FMEA、使用FMEA等工作,其影響覆蓋了可靠性優化設計、測試性優化設計、維修保障優化設計、關鍵故障信息生成、類似設備故障模式的改進優化。在設計定型階段,引用FMECA報告中的故障模式,確認維修性和測試性鑒定試驗的方案制定等。在生產與使用階段,通過使用故障信息的反饋與對比,可進一步完成FMECA分析信息,通過進一步的糾正措施現實設計可靠性提升。每一次的FMECA工作的階段性完成或迭代更新都應該結合通用質量特性專題評審或設計評審等活動完成評審,對于嚴酷程度在二類以上的故障則應該開展專題評審,確保設計補償措施的有效性及故障模式消除的完整性、真實性。

圖1:FMECA工作流程

表1
現行FMECA實施指南包括GJB/Z 1391-2006《故障模式、影響及危害性分析指南》等標準中一般使用嚴酷度等級(S)、工藝故障模式的發生概率等級(O)和工藝故障模式的被檢測難度等級(D)的乘積求得風險優先數(RPN)來確定優先級。這種方法下使用RPN的局限性主要有以下幾方面:
RPN涵蓋維度有3方面,對某故障模式的評價結果,取值的范圍是1~1000。根據GB/T 7826第5.3.6.4“風險評估”,RPN的最小值為:1×1×1=1,PRN的最大值:10×10×10=1000,1000個數值只產生120個有效數字,大部分數值范圍都是空的,類似于“11、23、37、57”等數字無法得到;
發生概率等級表格評分等級中的比率不是恒定的,也不是線性的,發生概率等級的評分1~10不是具有可測量特征的比率值,例如,在兩個連續的等級之間,比率值可以為2.5或2。10分:≥0.1;9分:≥0.05;8分:≥0.02;10分與9分是2的比率值,9分與8分是2.5的比率值;
由于RPN等級中的比率不是恒定的,無法進行線性比較。實際有明顯差別的時候,RPN數的差別卻很小。例如:S=6,O=4,D=2,此時RPN為48,當S=6,O=5,D=2,此時RPN為60。第二個RPN值不是第一個RPN值的二倍,但實際上O=5的發生概率是O=4的二倍;RPN值不能進行線性比較。
綜上所述,RPN值的單純數字比較存在一定的不合理性,1~1000的值過于定量化,在實際實施過程中很多企業會在企業標準匯總設定固定的RPN值,例如設定只要RPN>120,就強制性地采取改進措施,單純比較RPN值可能會產生錯誤的結論。目前在國際上FMECA應用比較多的主要有三種做法:以德系企業VDA標準為基礎的FMECA方法;以福特汽車為主的福特汽車FMECA方法;以通用汽車為主的通用汽車FMECA方法。2016年,在新版AIAG-FMECA手冊中不建議用RPN的極限值來確定措施的優先順序,使用行動優先級 (Action Priority,簡稱AP)以改善此問題,讓FMECA的輸出結果更符合實際管控高風險故障模式的行動順序。AP分為三個等級:H(高優先級)、M(中優先級)和L(低優先級),將采用嚴重度、頻度和探測度的組合方法來進行定義。
AP三種等級包括:優先級高(H):行動的最高優先級。團隊必須制定適用改進探測和(或)/預防措施,或者證明/說明目前的措施是適當的。優先級中等(M):行動的中等優先級。團隊應該確定一個適用的改進預防和/或探測措施,或者由公司自行決定,證明/說明目前的措施是適當的。優先級低(L):行動的低優先級,團隊可以確定要改進的預防或探測措施。
相比較RPN的具體定量的數值,AP更加偏向于定性。新版FMECA中DFMEA的行動優先級AP評估表為FMECA團隊提供了S,O,D的1000種所有的組合邏輯,可以根據每個S,O,D值和這些值的組合的單獨評估來確定行動的優先次序,來確定操作的優先級,確定降低風險的可能需求。由于大部分電子設備很少會涉及人員死亡/嚴重危及作業人員安全及重大環境損害,故嚴酷度等級(S)基本不會達到10、9級別,按照GJB/Z 1391-2006標準建議:一般不論工藝故障模式RPN 的大小如何,對嚴酷度等級(S)為9 或10的項目應通過工藝設計上的措施或產品加工、裝配過程控制或預防/改進措施等手段,以滿足降低該風險的要求,故RPN法有可能導致分析后不采取相應行動。以AP法作為判斷故障模式優先級順序的補充方法作為權衡依據似更為合理,更準確的判斷優先級。
現行工作中故障的表現形式可以參考的主要是GJB299C《電子設備可靠性預計手冊》提供的元器件或組件的失效模式及頻次比,但機電產品、機械產品故障模式數據庫尚未廣泛建立和應用, 同時典型的工藝故障模式庫不夠細化,如固定器、軸承等機械產品的故障模式及頻次比查找就比較困難。由于組件以上組裝層次的故障模式則主要依靠各型號單位自身積累,目前很多單位存在靠個人經驗臨時集中的做法,沒有建立完善的故障模式庫。產品的故障模式庫是故障模式影響分析工作的重要輸入,不僅適用于大批量生產的產品,在開發周期短、小子樣、技術風險大的軍工電子產品領域同樣適用。RAC(美國可靠性分析中心)發布的FMD(Failure Modes/mechanism Distributions)故障模式分布中對于機電產品、機械產品、機械零件等常見的故障模式均有提供,同時經過新型微波著陸設備工藝FMEA工作過程中涉及到的工藝過程的分析總結,其中對典型工藝故障模式總結補充部分如表1所示(僅摘錄部分),在型號FMECA工作中可以考慮引入參考。
FMECA實際應用中存在可用性不高、針對性不強等問題,對產品設計開發、工藝設計等起到的幫助作用不夠明顯,但不應質疑FMECA工作本身的有效性,更應該將FMECA工作作為可靠性系統工程的一部分與其他研發工作協同開展,充分發揮團隊的作用按照PDCA原則改進完善。才能避免大部分FMECA報告在完成后基本不會再更新或起不到預防作用的問題,充分發揮與改進研制、使用等工作的聯動作用,以是否達到全面正確識別產品薄弱環節、對薄弱環節采取有效措施為目的來評價FMECA工作的有效性實現FMECA的工作持續改進,提高FMECA工作有效性。