
編者按
國際質量科學院院士、經營卓越方案咨詢公司總裁、美國工業工程研究院副院長格雷戈里·H.沃森博士在近期的《六西格瑪論壇雜志》上撰文“人非圣賢孰能無過”,對失效模式和影響分析(FMEA)方法進行了深入的探討。
因為所有的人都會犯錯誤,所以應著重留意錯誤的類型以及導致這種錯誤的原因。
材料的物理性能遵循熵法則,因此關注材料性能隨時間衰變的方式就很重要。由于設備與系統受應力的作用,并且應力大小會超過設計極限,因而必須要弄清這些極限所發生的位置,且超過極限時會發生什么。工程的本質是提供功能與抑制失效。因此對潛在的失效提出相應控制計劃是成功的關鍵因素,它能確保過程及過程提供的產品或服務的可靠性。但是只有在了解系統設計固有風險的本質后,才能開展這項工作。
在很多組織中,風險管理和失效分析工作被簡化為應用失效模式和影響分析(FMEA)方法,以便在新產品開發過程中,滿足產品設計的階段性關鍵要求。FMEA被用來識別潛在失效模式,分析造成每個失效模式的起源,并描述失效產生的潛在后果。
此外,FMEA對失效產生后果的嚴重程度、失效模式發生的可能性以及失效情況探測能力這三個指標進行評分來對風險進行評估。然后通過對這三個指標進行計算獲得風險順序數(RPN),以確定消除風險的先后次序。
表面看來,這似乎是一個十分合理的過程,它采用科學的方法來消除失效模式。但這種風險分析方法過于簡化,并混淆了為了預防失效而需要考慮的技術和管理決策方面的問題。
為什么這樣說?如今在整個工程過程中存在一些涉及風險分析和管理的重要問題,而標準的FMEA方法并不適用于處理這些問題。通過對FMEA方法演變過程的思考及對其邏輯結構與應用的觀察,或許存在更好的替代方法,能更全面地評估潛在風險,并可以應用于產品或服務設計之中。
自1949年11月9日美國軍方首次使用FMEA以來,它一直沒有什么太大的變化。FMEA使人思考事物如何失效,并進一步激發人們思考如何消除、減小或緩解這類失效模式。FMEA從技術層面對失效機會進行了總結,并明確了對失效原因的管理方法。
回顧我的海軍生涯,FMEA最初是用來評估失效模式的“失效的物理機理”,這可以通過工程原理和材料性能來評估。后來,它還被用于識別軟件設計領域問題。這些早期的FMEA應用往往是建立在測試與工程學的基本原理之上。
但是隨后FMEA便轉移到技術性的頭腦風暴法,失去了其工程實際層面的根基。如今對于失效分析,需要采用更全面的并側重于商業性的系統方法。FMEA如何能滿足這些要求?
應用標準FMEA方法存在如下4個問題,限制了其作為一種工程方法的有效性:
1)對失效的物理機理缺乏理解。必須考慮失效模式本身。在通常情況下,FMEA的應用僅局限于那些過去已經出現過的失效問題:已知失效模式。那未知失效模式呢?隨著新技術的出現,并非所有失效模式都能被認識。當遇到新的失效問題時,必須要深入了解它們的特點。
該失效模式是否獨立(比如部件,象電阻或電容失效,不能發揮其自身的功能)?這類失效中除了該部件的功能退化或失效外不會有其他影響。或者該失效模式是否是從屬的(如某一失效會引發系統中連續或連鎖失效的發生)?FMEA不能提供一個層級式的視角來描述復雜或連續的系統性失效模式。
理解復雜失效模式需要進行故障樹分析(FTA)。為了獲取失效函數需要進行專門的試驗,以便弄清失效模式的運作機理和特性。這意味著必須對新技術中的部件進行超負荷運行測試來發現其失效機理。
頭腦風暴法僅僅是失效分析的開始。FMEA必須結合工程分析和應力測試來確定失效的物理機理。
2)失效分析在產品設計過程中的錯誤應用。通常大部分的失效分析以FMEA開始,以FMEA結束。因此,在整個工程過程中必須通過系統方法應用FMEA。應用FMEA的系統方法需要進行一系列風險分析,并在新產品研發基礎上調整方向。
因此在針對產品實施FMEA時,首先應該在界定市場特征和確定設計概念優先順序時就應著重分析潛在失效。其次識別那些表征產品市場特征的技術功能層面的潛在失效,并關注設計失效是如何產生的。然后再識別材料及結構層面的潛在失效。關于過程或持續生產能力方面的潛在失效是整個潛在失效識別的最后一個環節。
當在新產品設計和開發中單純使用FMEA進行失效分析時往往會忽略或混淆上述重要觀點,最終導致風險評估的不足。因此FMEA應是用來控制風險的初步方法,而對于那些工程控制不了的、在產品或生產過程外的風險,必須通過防錯方法來進行預防,那些不能預防的風險必須在控制計劃里得到特別關注。識別風險僅僅是風險管理的第一步。
3)失效風險計算法的誤區。在標準FMEA中,總體風險由RPN值表示,并根據該值對相關失效模式進行排序以便確定采取糾正措施的優先順序。但這種方式會受到評估方法的影響。通常使用等級量表來量化其中的三個因子的值(如嚴重度、發生頻度和探測度),而這三個因子值的大小僅僅是根據失效模式之間的相互比較而確定的。當將這些因子整合為一個指標時,如RPN,由于將等級型分值通過乘法進行運行后,其值將失去原先所表示的量級含義,因此這些值將不再代表其有效的整體排名。
在許多情況下,將這三個因子合并會產生“顛倒排序”的情況。在這些情況中,由于RPN中其它因子的度量值較小,導致在最終整體的排序中,原本嚴重度較高的或發生頻度較高的失效模式的排名下降。即便“顛倒排序”現象沒有發生,由于評分是基于主觀感知基礎上,所以在理解這些等級量表上也會存在問題。
即使固定發生頻度的評價方法(例如使用失效試驗數據、現場失效數據或過程能力)仍不能解決該問題,主要是因為探測度和嚴重度是等級性分值。例如,某個因子的分值為4,但并不表示它的嚴重度是另一個分值為2的因子的兩倍。但是當把兩個因子繪制在一個2×2的矩陣中就能清楚地看出它們的關系。例如,當把發生頻度和嚴重度的值放在同一格中,我們把得到的結果值稱作關鍵性指數。
4)不適當地將探測度作為風險評價標準來用。探測度是代表檢測失效模式發生的頻率能力的指標。探測是一種工程行為,應跟消除和減少風險的行為一起,作為風險緩解過程中的糾正行動得到管理。使用關鍵性指數代替RPN的作用,是將注意力轉移到失效模式的內在風險上,并將對探測度的關注推遲至設計完成后。這樣就把探測變成了失效的預防行為(成為了防差錯)。

失效分析由三個部分組成:確定潛在失效;識別實際失效模式;分析失效機理以確定失效產生的原因。預防失效則包括以下三個階段:消除失效,降低嚴重度與探測報警。因而FMEA并非提供了一個完整的失效分析方法,它僅僅解決了失效分析三個階段中的第一個階段。它不能用來估計產品使用壽命,因為失效模式與發生失效的頻率之間并無關聯,頻率是以時間來估算失效間隔。因此,FMEA必須借助測試與物理失效分析作為補充來全面了解產品或服務為何不能發揮正常的作用以致無法實現預期效果。
面對失效,我們需要做些什么?我們必須了解失效的物理機理及其潛在失效后果。然后,我們必須消除失效事件或通過采取諸如降低失效后果的嚴重度或過程的防差錯這樣的手段來減少失效事件,從而降低失效帶來的危害。要實現這樣的效果需要借助可靠性工程的幫助,而FMEA至多只能起到促進獲得失效機理及其潛在失效后果的作用。
為克服FMEA過于簡單化的弱點,我們必須在深入了解其優缺點后進行應用。在大部分情況下,如果沒有在理解可靠性函數基礎上進行分析或堅持研究失效模式背后的因果關系,實施FMEA將變為無的放矢。如果失效分析是要用于為降低風險提供結構化決策輔助,我們必須完善FMEA的使用方法,以便更好地實現目標。
我們絕不能盲目地應用質量方法,必須謹記應用這些方法的前提條件、局限性以及驗證結果的方法。我們絕不能在沒有弄清前提條件和明確使用注意事項的情況下,繼續應用錯誤或誤導性的方法,并把它作為質量標準。