編者按
根本原因分析(RCA)是尋找人們觀察或經歷結果的根本原因的過程。在故障分析時,常用于尋找經常發生的或重大機器故障的根本原因。
本文介紹了RCA的含義、起源和應用環境,并介紹了應用RCA的具體步驟。原文載于2021年5月的《質量文摘》(Quality Digest),作者布萊恩·克里斯蒂安森(Bryan Christiansen)是Limble CMMS公司的創始人和首席執行官。
根本原因分析(RCA)是一種調查工具,是一個跟蹤可觀察到的故障的原因并確定導致故障發生的根本問題的過程。修復被辨識出的根本問題,應該能防止由它引發的故障再次發生。
如果所修復的問題不是根本問題,則無法保證相同的故障不會再次發生。RCA試圖通過跟蹤因果鏈來查明是不是根本問題,以精確定位能使所有失效不復存在的原因。
RCA不是一個保證結果的過程。實施RCA可能很復雜,通常涉及大量的數據收集和審查。RCA的結果也不總是黑白分明的,它并不是一種能夠最終表明我們所辨識的原因是否為根本問題的試金石測試。通常情況下,我們得到的只是因果之間的強相關性,而不是因果關系。得到結果后,有經驗的專業人士必須判斷是否需要進一步調查。
RCA是一門需要領域知識和經驗的技藝。否則,對故障的任何修復都可能只是表面解決方案。在最壞的情況下,我們所做的改變還可能導致故障惡化。
盡管存在這些不確定性,RCA仍然是理解和改進系統和程序基本性質的有力工具。
RCA作為一種調查工具已經存在了幾個世紀。被尊稱為“日本工業化之父”的豐田工業公司創始人豐田章男,將它正式引入了工程技術領域。
有人可能爭辯說,日本制造業的創新(如改善和其他精益制造過程),可以歸因于尋找問題的根源并解決問題的實踐,而不是滿足于表面上的解決方案。所有這些工藝改進技術都有助于提高世界各地制造工藝的水平和效率。
RCA有兩種廣泛的使用方式。
1.用于尋找、確定問題的根本原因,這是最為常見的使用方式。
2.用于認識發生積極變化的根本原因。有時,我們實施的程序會帶來比預期更好的結果,當良好結果的原因無法被輕易解釋時,也可以用RCA來識別。
實施RCA需要投入大量的時間、人力和金錢,會導致進行RCA的生產線或系統進一步中斷。因此,不應該對每個故障都執行RCA。另外,何時進行RCA并沒有固定的規則。
以下是一些經驗豐富的專業人士決定是否進行RCA的實例。
·持續的故障。如果相同的故障重復發生,就值得調查。由于相同的故障重復出現,我們可以得出結論:故障不會通過修復可見問題來清除。反復出現故障有一些根本原因,應該通過RCA進行調查。
·關鍵故障。一個故障的嚴重程度可以通過工廠的成本或特定故障造成的總停機時間來衡量。當發生此類故障時,必須進行調查,以確定故障的根本原因。這將有助于避免今后再發生此類事件。石油鉆井平臺爆炸或飛機墜毀等,當然就屬于需要調查的重大故障。
·失敗的影響。任何系統都有關鍵機器和關鍵子流程。這些故障將使整個操作中止,因為該特定機器或過程可能沒有備份或規避計劃。本質上,機器或過程的臨界性決定了是否對故障進行RCA。
識別(Recognize):我們要觀察的某些故障的真正原因并不總是顯而易見的。裝飾性、表相式的修復對糾正潛在的故障沒有太大作用。RCA是為了查明真正的原因,以便采取糾正措施,消除未來的問題。如前所述,RCA也可以用來確定意外積極結果的原因。
糾正(Rectify):一旦確認了根本原因,就必須采取糾正措施。如果根本原因得到解決,同樣的故障將不會再次出現。如果故障再次出現,說明所確定的原因很可能不是根本原因。這說明以前的RCA進行得并不全面徹底,需要做更多的調查。
復制(Replicate):一旦發現并解決了故障的根本原因,必須確保相同的故障不會在同一系統中再次發生。如果進行RCA是為了確定意外良好結果背后的原因,那么必須測試是否可以在其他場景和環境中復制相同的因素。

從本質上講,根本原因分析是針對任何發生的事件,精確地找出發生了什么、它是如何發生的,以及它為什么發生。
RCA本質上是一種知識工具,用于識別任何事件或故障的根本原因。幾乎每個行業都會出現故障和問題,使用RCA技術可以調查它們的根本原因和影響因素。
RCA最明顯和最普遍的用途在醫療診斷領域。同樣的癥狀可以由一系列疾病引起,在患者得到有效治療之前,醫生有責任查明潛在的病因。電視劇《豪斯醫生》幾乎所有劇集都有根本原因分析的練習,盡管練習的方式是非傳統的。
許多其他垂直行業也經常使用根本原因分析,比如:
·制造(機器故障分析);
·工業工程和機器人;
·工業過程控制和質量控制;
·信息技術(軟件測試、事件管理、網絡安全分析);
·復雜的事件處理;
·災害管理和事故分析;
·醫藥研究;
·變革管理;
·風險和安全管理。
RCA是一種結構化的思維方式,可以調查任何類型的事件。因此,RCA并不僅僅局限于上述領域,它可以在任何需要確定問題根源的部門或行業中實施。
RCA可以通過使用許多不同的工具和技術來完成,即利用不同的概念模型從根源上識別問題。盡管所有的工具在形式上有所不同,但每一種技術都必須經過概念性的步驟來完成分析。
步驟1:問題陳述
問題陳述和定義對于任何形式的分析都必不可少,而不僅僅是RCA。它是對遇到的問題和癥狀的清晰描述,可以提供分析的范圍。
如果沒有精確的問題陳述,RCA就像一艘沒有舵的船,沒有前進的方向,也無法改變方向。明確定義的問題陳述還有助于確定要實現的潛在解決方案的規模和范圍。
步驟2:數據收集
應收集與該事件有關的所有可用數據。以制造工廠的機器故障為例,以下是需要收集的一些相關信息:
·機器的年代;
·連續運行時間;
·操作模式;
·維修計劃;
·操作人員操作機器的方式;
·機器規格;
·工廠基礎設施示意圖;
·機器的運行特性;
·運行環境的特點。
親自檢查機器還可以提供對RCA有益的信息。對于收集預測分析數據(換句話說,運行預測維護)的設備,快速整理數據是容易做到的。
步驟3:時間表、差異化和映射
必須建立事件的時間表,這將有助于確定收集的數據中哪些因素值得調查。RCA需要可能指向根本原因的數據點集。按時間順序排列事件和數據,將有助于從非因果事件中解讀因果事件。
從收集到的數據中,可以發現各類事件、發生的時間以及其他收集到的數據之間的相關性。這可以作為區分因果事件和非因果事件的初始步驟。需要記住的重要一點是:相關性并不意味著因果關系。
當相關性被確定后,尚不能得出任何分析結論,則需要進一步調查因果關系。
根據收集到的數據,按時間順序排序和集群,我們應該能夠創建一個因果圖(如圖1)。這種圖可以用來表示發生的各種事件和收集的數據之間的關系。不同的路徑被賦予不同的概率權重,可以作為追蹤根本原因的可視化工具。

圖1 因果圖示例
步驟4:根本原因解決
一旦確定了根本原因,就可以很容易地確定修復它的解決方案。它可以根據問題陳述中定義的范圍進行映射。如果解決方案在范圍之內,則實施該解決方案。
解決根本原因應能消除故障的復發。如果故障再次出現,我們將需要從頭開始,再次進行RCA。
故障解決后,必須采取措施避免再次發生。可以應用多種解決方案來解決單個故障。例如,根本原因可能是軸承的磨損,其發生比預期的時間要早得多。在這種情況下,必須調整程序以盡早更換軸承。為避免故障再次發生而采取的類似措施還包括更改維護計劃、維護模式和更改設計等。
已實施的解決方案必須與可用的資源保持一致。因此,如果根本原因是機器持續運行時間太長,明顯的解決方案是縮短機器運行時間。然而,當生產計劃不允許時,另一種解決方案可能是更頻繁地安排預防性維護。