999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

根因分析研究綜述

2023-01-01 00:00:00程燕王磊趙曉永
計算機應用研究 2023年4期

作者簡介:程燕(1999-),女,山東煙臺人,碩士研究生,主要研究方向為根因分析;王磊(1982-),女(通信作者),河北張家口人,副教授,碩導,博士,主要研究方向為服務科學與人工智能(wanglei@bistu.edu.cn);趙曉永(1981-),男,河南焦作人,副教授,碩導,博士(后),主要研究方向為數(shù)據(jù)科學與人工智能.

摘 要:作為問題發(fā)現(xiàn)和問題解決之間的關鍵問題與樞紐環(huán)節(jié),根因分析目前的研究主要包括基于數(shù)據(jù)驅(qū)動和基于因果驅(qū)動兩大類方法。鑒于數(shù)據(jù)驅(qū)動方法在縮小根因范圍方面具有優(yōu)勢,因而目前根因研究主要聚焦在基于關聯(lián)規(guī)則挖掘、基于啟發(fā)式搜索、基于機器學習和基于深度學習等數(shù)據(jù)驅(qū)動方法,鮮有從因果知識的角度對根因進行分析,也尚未基于方法維度對根因進行歸納分析研究,缺乏相關研究成果。因此,對近幾年根因分析的主要成果進行梳理總結,分析在不同方法維度下根因分析的區(qū)別及優(yōu)勢,并提出融合因果知識的根因分析方法,將非對稱Shapley值與因果鏈圖相結合以提升根因分析的準確度,最后討論了現(xiàn)有的研究難點與發(fā)展趨勢,提出有意義的未來研究方向。

關鍵詞:根因分析;啟發(fā)式算法;機器學習;深度學習

中圖分類號:TP18 文獻標志碼:A 文章編號:1001-3695(2023)04-001-0961-06doi: 10.19734/j.issn.1001-3695.2022.07.0450

Abstract:As a key problem and hub link between problem discovery and problem solving, the current research on root cause analysis mainly includes two types of methods: datadriven and causalitydriven. In view of the advantages of datadriven methods in narrowing the range of root causes, at present, root cause research mainly focusses on datadriven methods such as association rule mining, heuristic search, machine learning and deep learning. There are few root cause analysis from the perspective of causal knowledge, nor has it been based on method dimension. The inductive analysis of the root cause is carried out, and there is a lack of relevant research results. Therefore, this paper sorted out and summarized the main results of root cause analysis in recent years, analysed the differences and advantages of root cause analysis under different method dimensions, and proposed a root cause analysis method that integrated causal knowledge, and combined asymmetric Shapley value with causal chain diagram to improve the accuracy of root cause analysis. Finally, the existing research difficulties and development trends put forward meaningful future research directions.

Key words:root cause analysis; heuristic algorithm; machine learning; deep learning

0 引言

21世紀以來,隨著互聯(lián)網(wǎng)、電子商務、移動通信和物聯(lián)網(wǎng)等技術推動信息化、智能化進程的快速發(fā)展,企業(yè)或平臺系統(tǒng)需要不斷改善其運營與治理水平。如在業(yè)務場景或系統(tǒng)運行中,有時需調(diào)查和分析為什么會發(fā)生錯誤、哪些方面或位置出現(xiàn)錯誤,探尋防止錯誤再次發(fā)生的有效措施,從而提升整體業(yè)務或系統(tǒng)的安全和質(zhì)量,以保持競爭力,解決上述問題的一個關鍵步驟就是進行根本原因分析。

根因分析的常用方法是分析日志文件以識別系統(tǒng)中發(fā)生的問題,然后檢查這些問題以確定潛在的原因。文獻[1,2]介紹了一種經(jīng)典的日志挖掘方法來診斷和定位傳統(tǒng)分布式系統(tǒng)中的異常。但是,并非所有異常行為都記錄在日志中,因此根因分析需要了解事件從理想狀態(tài)變?yōu)椴焕硐霠顟B(tài)背后的因果機制,以防止問題再次發(fā)生[3]。因果關系對于理解任何過程和系統(tǒng)(包括復雜的機器學習模型)都是必不可少的,可通過因果術語[4,5]進行分析。盡管根因分析想要尋找問題的原因,但只有一些論文提到了因果關系[6~13]。因此需要進一步探索根因分析的因果性。

現(xiàn)有根因分析的基本思路: 首先構建一個模型,將領域知識、系統(tǒng)知識和診斷系統(tǒng)的觀察相結合。該過程的輸出是將用于推理的根因分析模型。根據(jù)所使用的算法和模型,使用診斷系統(tǒng)和輸出的觀測值來填充模型,該模型可以是根源和或觀測值的解釋[14]。目前,國內(nèi)外對于根因分析領域的研究綜述有很多,如文獻[14]總結用于物聯(lián)網(wǎng)行業(yè)大型和分布式系統(tǒng)行為進行建模的技術概況,并根據(jù)所產(chǎn)生的模型推斷出問題的根因分析的模型及技術(主要是可以應用于IT系統(tǒng)的技術)。該綜述主要聚焦可用的根因分析模型以及為它們開發(fā)的現(xiàn)有生成和推理算法,但沒有具體介紹如何使用模型進行根因分析,僅有理論分析并且所研究文獻發(fā)表時間較早。文獻[15]總結了深度學習模型在現(xiàn)代復雜工業(yè)系統(tǒng)故障診斷領域(根因分析)的研究現(xiàn)狀與挑戰(zhàn),重點闡述基于深度置信網(wǎng)絡(DBN)、卷積神經(jīng)網(wǎng)絡(CNN)、堆疊自動編碼機(SAE)、遞歸神經(jīng)網(wǎng)絡(RNN) 四種深度學習模型實現(xiàn)故障診斷的主要思想和方法,但其只研究了工業(yè)系統(tǒng)領域的基于深度學習的根因分析算法,仍存在研究數(shù)據(jù)量大、特征提取困難等局限性,并且沒有進行實踐驗證。文獻[16]打破現(xiàn)有基于深度學習的化工過程故障診斷(根因分析)方法通常需要完備的標簽數(shù)據(jù)才能構建故障診斷模型等局限,提出一種基于時間集成—雙重學生模型(temporal ensemblingdual student, TEDS)的半監(jiān)督化工過程故障診斷方法,該方法雖然具有一定根因分析的優(yōu)越性,但專用于化工領域,通用性較差因而參考意義有限。文獻[17]概述了過去 17 年間發(fā)表的有關在制造業(yè)中開發(fā)自動根本原因分析 (automatic root cause analysis) 解決方案的文獻,并分析了前期制造業(yè)自動根因分析解決方案的不同元素以及提出了一種概念化的自動根因分析解決方案,但并沒有付諸實踐論證。

盡管上述研究均取得了一定的成果,但依然未解決以下關鍵問題:a)數(shù)據(jù)多源異構且海量;b)如何有效判斷維度對KPI的影響力;c)如何在不遺漏根因的情況下縮減搜索空間;d)如何判斷根因之間的異常關系、因果關系;e)如何快速定位及分析緩解根因。鑒于上述懸而未決的關鍵問題,本文著力對近期國內(nèi)外根因分析類算法的主要研究現(xiàn)狀進行梳理總結,面向研究方法維度進行對比分析,較為詳細地分析在不同場景或系統(tǒng)下根因分析的研究情況,從而得到重要結論,并根據(jù)其面臨的挑戰(zhàn)提出了基于因果的根因分析方法。

1 根因分析概述

1.1 根因分析

根因分析的目的是為了找到問題的根本原因,是分析問題和解決問題的一種方法。它是一種結構化的問題處理方法,用于逐步找出問題的根本原因并加以解決,而不是僅僅關注問題的表面現(xiàn)象。

1.2 根因分析角度劃分

通過詳細分析文獻中的數(shù)據(jù)類型,可將根因分析數(shù)據(jù)類型劃分為位置—時間數(shù)據(jù)、物理數(shù)據(jù)和日志—行為數(shù)據(jù)[17]三種類型,其關系如圖1所示。面向現(xiàn)有研究方法進行梳理與分析,從數(shù)據(jù)中提取根本原因歸納為兩個角度:a)使用哪些方法來分析數(shù)據(jù);b)如何從方法的結果中提取根本原因[17]。本文從第一個角度切入,基于現(xiàn)有的數(shù)據(jù)挖掘/機器學習文獻對所使用的方法進行分類。

1.2.1 位置—時間數(shù)據(jù)

位置—時間數(shù)據(jù)(位置可以是機器、操作員、工作站)更準確地反映了根本原因和數(shù)據(jù)的特征[17]。對于這種類型的數(shù)據(jù),只能定義根本原因的位置,無法準確定義根本原因。但通過定義根因的位置,已經(jīng)使得尋找根因的過程更加有效。文獻[6,18,19]采用的數(shù)據(jù)為位置—時間數(shù)據(jù)。Sim等人[6]通過對算法的挖掘來確定根因的位置;Chen等人[18]將根因的位置定義為機器與機器的組合,確定是哪些機器之間發(fā)生故障導致問題的發(fā)生;Liu等人[19]提出了一個可被廣泛應用的框架FOCUS,通過分析運維過程中產(chǎn)生的高搜索反映時間(high search response time,HSRT)數(shù)據(jù),進而找到導致HSRT產(chǎn)生的根因。

1.2.2 物理數(shù)據(jù)

物理數(shù)據(jù)包括在每個步驟中可能影響產(chǎn)品質(zhì)量的物理因素(如溫度、電流、操作員)。通過此類數(shù)據(jù)可以探索另一個層次的根本原因,即根本原因是什么(是什么物理原因?qū)е铝藛栴})[17]。文獻[20,21]采用的數(shù)據(jù)為物理數(shù)據(jù)。Barkia等人[20]通過查找按因素聚類的實例和按質(zhì)量結果聚類的實例之間的關聯(lián)來確定根因;Ahmed等人[21]訓練模型以發(fā)現(xiàn)實例性能下降的來源,進而確定根因。

1.2.3 日志—行為數(shù)據(jù)

日志—行為數(shù)據(jù)通常包含在系統(tǒng)的操作日志中。通過日志—行為數(shù)據(jù),可以更進一步探索根因,不僅可以定義物理根因是什么,還可以定義它發(fā)生的原因[17]。文獻[3,22~36]采用的數(shù)據(jù)為日志—行為數(shù)據(jù),文獻[3,22]分析制造過程中產(chǎn)生的不平衡數(shù)據(jù)集,使用關聯(lián)規(guī)則挖掘方法解決數(shù)據(jù)不平衡問題。Bhagwan等人[23]提出了Adtributor算法,該算法分析廣告系統(tǒng)記錄的大量數(shù)據(jù),并將異常的潛在根本原因范圍縮小到廣告系統(tǒng)的子組件,以便進一步定位根因。文獻[24~27]研究內(nèi)容均為多維根因定位,通過分析日志指標數(shù)據(jù)及通過剪枝策略方法或啟發(fā)式方法減小搜索空間進而準確定位根因。文獻[28~32]通過分析系統(tǒng)監(jiān)控指標或系統(tǒng)異常行為探索指標與根本原因之間的關系,使用機器學習算法分析產(chǎn)生異常的根因指標。文獻[33~36]采用數(shù)據(jù)庫中的歷史數(shù)據(jù)建模或者學習方法實現(xiàn)特征預測進而探索得到產(chǎn)生異常的根因。

2 傳統(tǒng)根因分析研究方法劃分

隨著根因分析研究的不斷深入,目前的研究主要包括基于數(shù)據(jù)驅(qū)動和基于因果驅(qū)動兩大類方法。由于完全的因果推斷非常困難,而數(shù)據(jù)驅(qū)動的方法在縮小根因范圍方面較為有效, 所以目前的研究方法大致可以分為關聯(lián)規(guī)則挖掘、啟發(fā)式搜索、機器學習、深度學習四類,如表1所示。

研究方法根因分析算法主要優(yōu)點主要難點

關聯(lián)規(guī)則挖掘文獻[3,6,18,20~22]采用基于類的Apriori算法搜索超過閾值的屬性組合數(shù)據(jù)集的不同可能會導致不同的最佳取值導致效果不穩(wěn)定

啟發(fā)式搜索文獻[23~27]a)縮小搜索空間;b)定義目標函數(shù)a)搜索空間巨大;b)易遺漏根因

機器學習文獻[19,28~32]a)基于聚類或分類的算法確定根因;

b)基于隨機游走算法或基于圖的算法預測根因預測結果可能不準確

深度學習文獻[33~37]通過訓練深度學習模型快速確定根因a)特征提取的完整與否b)知識挖掘的是否徹底

2.1 關聯(lián)規(guī)則挖掘

關聯(lián)規(guī)則挖掘算法是指首先對所有屬性組合進行異常檢測,然后用基于類的Apriori算法去搜索超過設定閾值的根因?qū)傩越M合,再根據(jù)算法進行篩選。

當將關聯(lián)規(guī)則挖掘應用于RCA時,其目的是尋找表明缺陷或故障因素之間的關聯(lián)。文獻[18]使用關聯(lián)規(guī)則挖掘來識別最可能導致問題根源的機器和機器組合。它還提出了一種用于關聯(lián)規(guī)則挖掘的新的小度量,將置信度與機器組合的缺陷產(chǎn)品之間的連續(xù)性度量結合起來。文獻[6]通過對算法的挖掘來確定根本原因的位置,并在評估規(guī)則時考慮上游機器的累積效應。文獻[3]使用加權關聯(lián)規(guī)則挖掘進行根本原因分析,以解決數(shù)據(jù)集不平衡的問題。文獻[22]使用模糊加權關聯(lián)規(guī)則解決了不平衡問題。文獻[20]使用關聯(lián)規(guī)則來查找按因素聚類的實例和按質(zhì)量結果聚類的實例之間的關聯(lián)。文獻[21]使用訓練數(shù)據(jù)來構建能夠捕捉每個 E2E(end to end)實例的正常性能的模型,使用關聯(lián)規(guī)則挖掘算法來定位性能下降的來源。

關聯(lián)規(guī)則挖掘在參數(shù)(support和confidence的閾值,異常檢測的閾值)合適的情況下,可以取得非常好的效果。但是顯然這些參數(shù)隨著數(shù)據(jù)集和故障案例的不同會有不同的最佳取值,因此實際上這一類方法的效果可能不太穩(wěn)定。

2.2 啟發(fā)式算法

啟發(fā)式搜索首先需要定義自己需要搜索的根因,并定義一個目標函數(shù)以評估根因。之后就是在整個搜索范圍中找到使得目標函數(shù)最大化的屬性組合作為根因。由于根因搜索范圍通常過大,所以后續(xù)還需要采用啟發(fā)式方法或者剪枝方法以縮小根因范圍。

文獻[23]研究的主要問題是單維度根因定位,假設根因只可能是一個指標出了問題,將多維根因分析問題轉(zhuǎn)換為多個單維根因分析問題。該算法分析廣告系統(tǒng)記錄的大量數(shù)據(jù),同時依靠眾所周知的基于 ARMA [38]模型的方法進行異常檢測,然后將度量中的異常歸因于維度及其對應指標。文獻[24]研究的主要問題是多維指標突變定位,只專注處理導致問題報告數(shù)量增加的根因,即考慮的指標只有問題報告的數(shù)量。由于指標組合的數(shù)量可能很大,所以該文首先運用三個剪枝策略來降低搜索空間,接著會從數(shù)據(jù)中獲得一組有效的組合,根據(jù)它們的相對重要性對有效組合進行結果排序,排名靠前的有效組合即為根因。文獻[25]同樣研究多維根因定位,提出一種對多維度指標體系中準確、高效地進行異常定位的方法HotSpot。文中在實際案例中總結出一個元素之間相互影響的規(guī)則漣漪效應(ripple effect),并定義了潛在分數(shù)(potential score),能夠更為本質(zhì)地評價一個元素/集合是根因的可能性程度;構建多維時序指標的數(shù)據(jù)立方(data cube)并采用蒙特卡羅樹搜索方法進行啟發(fā)式搜索以定位出根因元素組合。HotSpot 主要采用啟發(fā)式方法蒙特卡羅樹搜索來應對搜索空間爆炸的挑戰(zhàn)。文獻[26]對HotSpot進行了改進,提出了Squeeze方法,依然基于漣漪效應,目標函數(shù)也還是潛在分數(shù),最大的變化是搜索過程采用了一套啟發(fā)式方法來大大加速搜索。文獻[27]進一步改進了Squeeze方法,使用自適應密度聚類來提高準確性,并使用有效的過濾機制來減少搜索時間。啟發(fā)式算法時間順序改進如表2所示。文中采用無參數(shù)密度集群,該算法可以根據(jù)數(shù)據(jù)本身自適應地選擇合適的聚類參數(shù);在搜索步驟中,提出一種新的度量潛在得分;此外,它提出了兩種新穎的高效過濾器以在每個集群中搜索最可能的根本原因,進一步提高根因定位的效率和精度。

啟發(fā)式搜索算法可進行大量數(shù)據(jù)分析,通過目標函數(shù)評估根因分數(shù)進而找出產(chǎn)生異常時可能性較大的根因指標或組合,但這種方法存在暴力剪枝的缺點,易在減小搜索空間的同時遺漏根因。

2.3 機器學習

機器學習(machine learning)使用計算機作為工具并致力于真實、實時地模擬人類學習方式,并將現(xiàn)有內(nèi)容進行知識結構劃分來有效提高學習效率。在根因分析中具體方法為當某個宏觀的監(jiān)控指標發(fā)生異常時,采用機器學習算法快速定位到具體是哪個細粒度的指標發(fā)生了異常。

2.3.1 聚類算法

文獻[19]研究的主要問題為解決在運維過程中,發(fā)現(xiàn)高搜索響應時間(high search response time)之后,使用機器學習算法發(fā)現(xiàn)異常的根因和規(guī)則,并提出了框架FOCUS,其由三個組件組成:a)基于決策樹的分類器,用于識別每天搜索日志中的HSRT條件;b)一個基于聚類的條件類型挖掘器,將相似的HSRT條件組合成一種類型,并在幾天內(nèi)找到普遍的條件類型;c)一個屬性效應估計器,用于分析普遍條件類型內(nèi)每個單獨屬性對搜索反應時間的影響,以找出導致HSRT的根因。文獻[28]的思路為通過求變化分數(shù)來標準化各個KPI(機器或者業(yè)務等)的異常程度;接下來采用聚類算法,構造特征向量和選擇距離函數(shù)、采用DBSCAN密度聚類;最后進行排序,基于逐點方法使用邏輯回歸訓練分類器,將異常的類別排在前面,進而得到可能的根因。

2.3.2 隨機游走算法

文獻[29]設計了一種新的路徑條件時間序列算法來學習充分利用傳播延遲的監(jiān)測指標的依賴圖,并提出了一種新的面向時間原因的隨機游走(TCORW)方法。在TCORW中,成功地集成了監(jiān)測指標的因果關系、包括發(fā)生時間和異常程度的度量的異常信息、基于領域知識獲得的度量優(yōu)先級三種類型的信息。在路徑條件時間序列中生成圖后使用TCORW算法,如果算法走到一個節(jié)點,其鄰居節(jié)點與異常節(jié)點的相關性都較低,則該節(jié)點可能表示根本原因以及訪問頻率最高的節(jié)點最有可能表示根本原因。文獻[30]采用的方法為構建異常行為圖并對圖進行建模以輸出候選根因,并且提出了一種具有三種轉(zhuǎn)移類型的隨機游走算法,即正向、自向和反向轉(zhuǎn)移,以驗證根因結果的有效性,計算其準確度。

2.3.3 分類算法

文獻[31]研究的問題為在面向服務的架構(如微服務)中執(zhí)行根本原因分析。文中構建了一個具有兩個目標的框架,使用戶可以更好地了解系統(tǒng)的當前行為(異常情況、指標、元素之間的通信等),以及將系統(tǒng)中的異常情況與先前診斷的情況進行匹配,以確定其產(chǎn)生異常的根本原因。文獻[32]研究的主要問題是提出了一種大數(shù)據(jù)驅(qū)動的RCA系統(tǒng),以識別質(zhì)量偏差的根本原因,提高產(chǎn)品質(zhì)量性能和降低制造商的質(zhì)量風險,進一步確保行動的正確方向,并防止質(zhì)量問題再次發(fā)生。該文利用大運營數(shù)據(jù)的可用性和數(shù)據(jù)科學的快速發(fā)展及機器學習技術設計了一個大數(shù)據(jù)驅(qū)動的根本原因分析系統(tǒng),以提高根本原因分析的性能。在根因識別模塊中采用基于高級機器學習算法探索特征和根本原因之間的關系,即使用有監(jiān)督的機器學習(分類)方法來自動預測多個質(zhì)量問題的根本原因。

機器學習算法可以定位到某個宏觀異常在微觀粒度的具體表現(xiàn)形式,能夠更好地分析大量異常,降低問題的定位時間。但其模型預測的結果可能并不準確。

2.4 深度學習

深度學習(deep learning)是機器學習領域中一個新的研究方向,是學習樣本數(shù)據(jù)的內(nèi)在規(guī)律和表示層次,這些學習過程中獲得的信息對諸如文字、圖像和聲音等數(shù)據(jù)的解釋有很大的幫助。它的最終目標是讓機器能夠像人一樣具有分析學習能力,能夠識別文字、圖像和聲音等數(shù)據(jù)。通過特征提取[39]及模式識別等原理進行減少數(shù)據(jù)冗余,增加根因分析的準確性與魯棒性。

文獻[33]研究的問題為及時準確地檢測微服務調(diào)用跟蹤異常。該文提出的trace anomaly系統(tǒng)可以自動學習復雜的跡線模式,當異常跡線的模式與正常跡線的模式偏離時,可以檢測到異常跡線。該方法是一種無監(jiān)督的深度學習算法,可以學習服務中的復雜跟蹤模式并準確地檢測跟蹤異常,離線訓練期間學習服務的整體正常跟蹤模式;之后,在線異常檢測中,對于每個新的軌跡根據(jù)學習到的服務模型計算異常分數(shù),分數(shù)小的軌跡被認為是異常的;最后,通過基于服務跟蹤向量的算法來定位產(chǎn)生異常跟蹤的根本原因。文獻[35]提出了一種多尺度卷積遞歸編碼/解碼器(MSCRED),該文中根因分析工作為利用編碼傳感器相關性和事件信息的特征圖,使用卷積解碼器重建簽名矩陣,并進一步用殘差簽名矩陣診斷異常,即把模型對于每一個異常的評分降序排序,排在前幾個的就是產(chǎn)生異常的根本原因。文獻[36]構建并訓練了一個基于深度神經(jīng)網(wǎng)絡 (deep neural network) 架構的模型,以基于低吞吐量對低體驗質(zhì)量執(zhí)行根本原因分析。文獻[37]研究的主要問題是基于深度學習進行網(wǎng)絡故障根本原因分析,提出了一種實用的基于深度學習的方法,不僅可以分析網(wǎng)絡故障的根本原因,還可以利用韓國天氣、地形和網(wǎng)絡設備的警報、狀態(tài)和性能信息來預測微波網(wǎng)絡中可能出現(xiàn)的故障。文獻[38]提出一種快速神經(jīng)網(wǎng)絡訓練程序,該程序可幫助操作員快速確定警報的根本原因。文中利用數(shù)據(jù)庫中的歷史報警數(shù)據(jù)對工業(yè)報警之間的關系進行建模。由于神經(jīng)網(wǎng)絡輸入必須是數(shù)值向量,所以首先將文本格式的報警數(shù)據(jù)轉(zhuǎn)換為數(shù)值向量;然后將一個長度為V的窗口在這些向量上移動,并且每個序列被分割成一些子序列;將生成的子序列隨機分為訓練集、驗證集和測試集,用這些數(shù)據(jù)訓練神經(jīng)網(wǎng)絡,然后進行測試;經(jīng)過訓練后,神經(jīng)網(wǎng)絡用于在線故障檢測,即進行在線警報根因分析。

深度學習算法通過尋求可測量的特征向量來判斷系統(tǒng)處于何種狀態(tài),進而實現(xiàn)預測特征狀態(tài),具有較好的穩(wěn)定性,可以通過研究系統(tǒng)內(nèi)部特征的相互作用和依賴關系,探索出系統(tǒng)產(chǎn)生異常的根因,但由于系統(tǒng)數(shù)據(jù)數(shù)量巨大且其復雜性程度高,所以特征之間的關系挖掘不一定完整,還需引入領域因果知識作進一步的研究。

3 根因分析進階—融合因果知識的根因分析方法

基于數(shù)據(jù)驅(qū)動的根因方法在縮小搜索范圍方面雖然能夠起到一定作用,但由于缺乏因果驅(qū)動的方法,其在大部分應用場景或者系統(tǒng)分析中不能對后續(xù)工作提供足夠的支撐與幫助,且因為根因的因果性與其相關性的差別難以彌合,“黑盒模型”的不可解釋性及算法所發(fā)現(xiàn)的根因相關性與因果性之間較難進行良好的對應。因此需進一步研究融合因果知識的根因分析方法,將已經(jīng)積累的領域因果知識融入數(shù)據(jù)驅(qū)動的根因分析過程中。

3.1 基于Shapley值的方法

由于完全的因果推斷非常困難,而數(shù)據(jù)驅(qū)動的方法在縮小根因范圍方面非常有效,其中基于Shapley值的方法具有完整的理論體系和理想特性,原則上可對任何模型進行特征重要性的挖掘,同時也可捕獲特征之間的相互作用,得到了廣泛關注和研究。

文獻[40]提出了Shapley值的快速近似計算問題。文獻[41]在Shapley值的基礎上提出了特征獨立性假設,但忽略了一個輸入特征的變化可能會導致另一個輸入特征的變化,即忽略了特征之間的因果關系。在此之后開始研究基于因果的Shapley值,其中使用干預的條件反射代替了傳統(tǒng)的觀察條件反射,如 Pearl 的 docalculus[42]。當目標是因果解釋預測算法時,該算法的輸入可以正式與現(xiàn)實世界中的特征區(qū)分開來,并且“干預”Shapley 值簡化為邊際Shapley 值。在實施介入樹型狀時,文獻[43]也采用了這個論點。文獻[44]進一步論證當特征高度相關時,邊際 Shapley 值可能會導致不正確的解釋。因此基于上述論證,文獻[45]提出了不對稱的 Shapley 值作為一種在現(xiàn)實世界中結合因果知識的方法,適當放松對稱Shapley值的約束,使其融入因果知識,進一步搜尋重要特征,和文獻[46]提出因果 Shapley 值,并結合因果鏈圖[47]以考慮特征之間的因果關系。同時,與非對稱 Shapley 值相比,因果 Shapley 值提供了一種更直接、更穩(wěn)健的方式來整合因果知識。

3.2 基于因果鏈的非對稱Shapley值

相對于Shapley值,非對稱Shapley值可進一步縮小根因范圍,接下來加入融合因果知識的因果鏈圖可以進一步提升因果分析的準確度。

文獻[45]提出非對稱因果Shapley值,遵循Shapley值的四條規(guī)則[48]中效率、線性與零度,通過放松 Shapley 值的對稱性規(guī)則,例如xi與xj雙向關聯(lián)的情況下,對稱Shapley值將特征重要性均勻地分布在信息相同(即冗余)的特征上,而非對稱Shapley值通過放松對稱規(guī)則,如果已知xi是xj的確定因果祖先,那么與對稱性相反,可能希望將所有重要性歸于xi而不歸因于xj。同時非對稱因果Shapley值可以在時間序列模型中實現(xiàn)連續(xù)遞增的分析,并避免對數(shù)據(jù)中隱含的因果產(chǎn)生混淆,可在存在冗余特征時提供更簡潔稀疏的根因結果,以縮小根因搜索范圍。文獻[46]提出的因果Shapley值適用于非對稱的Shapley值,并正確地區(qū)分了由混淆和相互作用引起的特征之間的依賴關系。其采用可形式化的、偏序的因果鏈圖來納入人類專家已積累的領域因果知識,即采用適合用于因果關系研究的模型有向無環(huán)圖(directed acyclic graph)加入領域因果知識進行特征之間的因果性分析,降低根因分析模型的敏感性,提升根因分析的準確度,智能定位異常發(fā)生的根本原因。

因此本文提出將非對稱Shapley值與因果鏈相結合的方法,如圖2所示。將根因分析的相關性與因果性結合起來,通過特征之間的部分因果關系進行篩選特征重要性,首先縮小根因搜索范圍;其次因為干預操作切斷了被干預事件受其他事件的影響路徑,當干預使得事件發(fā)生改變時本文稱被干預事件和事件呈因果關系。因此需要加入領域因果知識對因果鏈圖進行干預操作,以提升根因分析的準確度。針對黑盒模型的不可解釋性和無法直接用于輔助決策的缺陷,研究融合因果知識的根因分析方法,將已經(jīng)積累的領域因果知識融入數(shù)據(jù)驅(qū)動的根因分析過程中,高效準確地定位導致異常產(chǎn)生的源頭,以幫助運維人員更好地理解分析結果,提高模型可解釋性。

此外,要建立因果關系,僅憑關聯(lián)與干預是不夠的,每個因果結論都需要有一些因果假設[49]。因果推理領域確實為理解因果關系提供了嚴格的規(guī)則,給定因果圖和一些限制性假設[50~53]。然而,確定因果圖的問題仍然很困難。雖然存在因果發(fā)現(xiàn)方法來自動提取因果圖,但不同方法的性能差異很大[54]。因此如何建立根因分析之間的因果假設是接下來亟需研究的問題。

4 根因分析未來研究方向

本文提出基于因果知識的根因分析方法以應對數(shù)據(jù)多源異構且海量,如何在不遺漏根因的情況下縮減搜索空間,如何判斷根因之間的異常關系、因果關系,如何快速定位及分析緩解根因等挑戰(zhàn),但該方法除了采用特征之間的部分因果關系及先驗領域因果知識之外,還需要作出因果假設以建立特征之間準確的因果關系,因此如何建立因果假設是接下來亟待解決的問題。同時目前根因分析主要應用于運維領域,包括傳統(tǒng)的信息技術運維及業(yè)務運維等,在工業(yè)領域進行根因分析則相對缺乏,因而本文建議未來可著力研究制造業(yè)或物流業(yè)領域中的根因分析。

4.1 因果假設

本文認為建立因果假設對于根因分析也是尤為重要且更加具有挑戰(zhàn)性的。在此基于因果馬爾可夫假設進而提出兩種因果假設思路:

a)混雜因素假設。假設變量之間不存在混雜因素,即不存在兩個監(jiān)測變量之間未觀察到的直接原因。在沒有混雜因素的情況下,采用基于偏序因果圖的方法以找到變量之間的因果結構。

b)數(shù)據(jù)分布假設。假設數(shù)據(jù)中的噪聲項獨立于監(jiān)測變量的直接原因,通過加入領域因果知識的有向無環(huán)圖表示變量與其直接原因及噪聲項之間的關系,進而排除噪聲對監(jiān)測變量之間的影響以識別變量的因果方向。

4.2 工業(yè)領域根因分析

本文認為工業(yè)領域需進行根因分析以優(yōu)化資源分配及提高系統(tǒng)運作效率,因此提出了兩個具有科學意義的工業(yè)根因研究方向。

a)制造領域根因分析。制造業(yè)是國民經(jīng)濟的主體,未來發(fā)展趨勢是與高科技結合,創(chuàng)新發(fā)展智能制造。但隨著制造業(yè)的轉(zhuǎn)型升級,制造企業(yè)需要不斷改進其運營以保持競爭力,持續(xù)改進的一個關鍵步驟就是進行根本原因分析[17]。制造系統(tǒng)可通過根因分析進行故障診斷來不斷優(yōu)化升級,使其提升適應高度變化環(huán)境制造的有效性,也是根因未來探索的重要方向。

b)物流領域根因分析。物流業(yè)是支撐國民經(jīng)濟發(fā)展的基礎性、戰(zhàn)略性、先導性產(chǎn)業(yè)。近幾年雖發(fā)展迅速,但由于各種實際問題,物流運輸和配送的延誤仍然會發(fā)生,嚴重影響了物流服務的質(zhì)量[55]。因此可通過根因分析及時排查物流系統(tǒng)發(fā)生的錯誤,優(yōu)化物流過程中信息的匹配與對接,促進人工智能技術在物流領域的融合應用,推進物流降本增效。目前鮮有對該問題的研究,亟待填補空白。

5 結束語

在大數(shù)據(jù)時代,面對爆炸性增長的數(shù)據(jù)進行分析其導致系統(tǒng)或環(huán)境異常的根因是一個尤為重要的問題。本文的主要內(nèi)容是對近幾年國內(nèi)外根因分析類算法的主要研究現(xiàn)狀及其應對的挑戰(zhàn)與成果進行梳理概括與總結,基于其使用的研究方法進行分析。概括不同算法在四個主要研究方法維度的主要優(yōu)勢與難點,分析多種算法的核心思路、模型算法及如何在不同場景或系統(tǒng)下進行根因分析。但由于現(xiàn)有根因分析方法缺少從因果知識的角度進行探究,缺乏根因相關性與因果性的結合分析,目前主要研究方法集中于數(shù)據(jù)驅(qū)動的相關性分析,但相關關系對于分析決策可能具有誤導性,甚至可能會得到與事實相反的結論,所以亟需融合因果知識進行根因分析。本文提出采用不對稱的因果 Shapley 值方法,在根因分析過程中融入因果知識,在根因相關性分析的基礎上加入因果性分析以縮小根因范圍,提升根因分析準確度,并給出未來進行因果分析可行的幾種因果假設及工業(yè)領域研究方向。總的來說,目前基于因果知識進行根因分析的研究較少,如何將領域因果知識融入到根因分析仍是未來各領域研究的重點。

參考文獻:

[1]Lin Qingwei,Zhang Hongyu,Lou Jianguang,et al. Log clustering based problem identification for online service systems [C]// Proc of the 38th International Conference on Software Engineering Companion. Piscataway,NJ:IEEE Press,2016: 102-111.

[2]Jia Tong,Chen Pengfei,Yang Lin,et al. An approach for anomaly diagnosis based on hybrid graph model with logs for distributed services [C]// Proc of IEEE International Conference on Web Services. Piscataway,NJ:IEEE Press,2017: 25-32.

[3]Ong P L,Choo Y H,Muda A K. A manufacturing failure root cause analysis in imbalance data set using PCA weighted association rule mining [J]. Jurnal Teknologi,2015,77(18): 103-111.

[4]Sloman S. Causal models: how people think about the world and its alternatives [M]. Oxford: Oxford University Press,2005.

[5]Lombrozo T,Vasilyeva N. Causal explanation 22 [M]// Waldmaynn M R.The Oxford Handbook of Causal Reasoning. Oxford: Oxford University Press,2017: 415-432.

[6]Sim H,Choi D,Kim C O. A data mining approach to the causal analysis of product faults in multistage PCB manufacturing [J]. International Journal of Precision Engineering and Manufacturing,2014,15(8): 1563-1573.

[7]Chemweno P,Pintelon L,Muchiri P. IRCAM: intelligent expert system for root cause analysis in maintenance decision making [C]//Proc of IEEE International Conference on Prognostics and Health Management. Piscataway,NJ:IEEE Press,2016: 1-7.

[8]Wang Yazhen,Liu Yi,Khan F,et al. Semiparametric PCA and Bayesian network based process fault diagnosis technique[J].The Canadian Journal of Chemical Engineering,2017,95(9): 1800-1816.

[9]Rato T J,Reis M S. Online process monitoring using local measures of association. Part Ⅱ: design issues and fault diagnosis [J]. Chemometrics and Intelligent Laboratory Systems,2015,142: 265-275.

[10]Chiang L H,Jiang Benben,Zhu Xiaoxiang,et al. Diagnosis of multiple and unknown faults using the causal map and multivariate statistics [J]. Journal of Process Control,2015,28: 27-39.

[11]Sun Yanning,Qin Wei,Zhuang Zilong,et al. An adaptive fault detection and rootcause analysis scheme for complex industrial processes using moving window KPCA and information geometric causal inference [J]. Journal of Intelligent Manufacturing,2021,32(7): 2007-2021.

[12]Cho Y S,Kim S B. Qualitydiscriminative localization of multisensor signals for root cause analysis [J]. IEEE Trans on Systems,Man,and Cybernetics: Systems,2022,52(7): 4374-4387.

[13]Oliveira E E,Miguéis V L,Borges J L. Understanding overlap in automatic root cause analysis in manufacturing using causal inference [J]. IEEE Access,2021,10: 191-201.

[14]Solé M,MuntésMulero V,Rana A I,et al. Survey on models and techniques for rootcause analysis [EB/OL]. (2017). https://arxiv.org/abs/1701. 08546.

[15]任浩,屈劍鋒,柴毅,等. 深度學習在故障診斷領域中的研究現(xiàn)狀與挑戰(zhàn) [J]. 控制與決策,2017,32(8): 1345-1358. (Ren Hao,Qu Jianfeng,Chai Yi,et al. Research status and challenges of deep learning in the field of fault diagnosis [J]. Control and Decision,2017,32(8): 1345-1358.)

[16]劉嘉仁,宋宏,李帥,等. 基于TEDS的半監(jiān)督化工過程故障診斷方法 [J]. 計算機應用研究,2022,39(1): 84-89. (Liu Jiaren,Song Hong,Li Shuai,et al. Fault diagnosis method of semisupervised chemical process based on TEDS [J]. Application Research of Computers,2022,39(1): 84-89.)

[17]Miguéis V L,Borges J L. Automatic root cause analysis in manufacturing: an overview amp; conceptualization [J/OL]. Journal of Intelligent Manufacturing. (2022-02-5).https://doi.org/10.1007/s10845-022-01914-3.

[18]Chen Weichou,Tseng S S,Wang Chingyao. A novel manufacturing defect detection method using association rule mining techniques [J]. Expert Systems with Applications,2005,29(4): 807-815.

[19]Liu Dapeng,Zhao Youjian,Sui Kaixin,et al. FOCUS: shedding light on the high search response time in the wild [C]// Proc of the 35th IEEE INFOCOM Annual IEEE International Conference on Computer Communications. Piscataway,NJ:IEEE Press,2016: 1-9.

[20]Barkia H,Boucher X,Le Riche R,et al. Semiconductor yield loss’causes identification: a data mining approach [C]//Proc of IEEE International Conference on Industrial Engineering and Engineering Management. Piscataway,NJ:IEEE Press,2013: 843-847.

[21]Ahmed F,Erman J,Ge Zihui,et al. Detecting and localizing endtoend performance degradation for cellular data services based on TCP loss ratio and round trip time [J]. IEEE/ACM Trans on Networking,2017,25(6): 3709-3722.

[22]Sabet S A A M,Moniri A,Mohebbi F. Rootcause and defect analysis based on a fuzzy data mining algorithm [J]. International Journal of Advanced Computer Science and Applications,2017,8(9): 21-28.

[23]Bhagwan R,Kumar R,Ramjee R,et al. Adtributor: revenue debugging in advertising systems [C]// Proc of the 11th USENIX Symposium on Networked Systems Design and Implementation. 2014: 43-55.

[24]Lin Qingwei,Lou Jianguang,Zhang Hongyu,et al. iDice: problem identification for emerging issues [C]// Proc of the 38th International Conference on Software Engineering. 2016: 214-224.

[25]Sun Yongqian,Zhao Youjian,Su Ya,et al. HotSpot: anomaly localization for additive KPIs with multidimensional attributes [J]. IEEE Access,2018,6: 10909-10923.

[26]Li Zeyan,Luo Chengyang,Zhao Yiwei,et al. Generic and robust localization of multidimensional root causes [C]//Proc of the 30th IEEE International Symposium on Software Reliability Engineering. Piscataway,NJ:IEEE Press,2019: 47-57.

[27]Jing Pengkun,Han Yanni,Sun Jiyan,et al. AutoRoot: a novel fault localization schema of multidimensional root causes [C]// Proc of IEEE Wireless Communications and Networking Conference. Piscataway,NJ:IEEE Press,2021: 1-7.

[28]Liu Ping,Chen Yu,Nie Xiaohui,et al. FluxRank: a widelydeployable framework to automatically localizing root cause machines for software service failure mitigation [C]//Proc of the 30th IEEE International Symposium on Software Reliability Engineering. Piscataway,NJ:IEEE Press,2019: 35-46.

[29]Meng Yuan,Zhang Shenglin,Sun Yongqian,et al. Localizing failure root causes in a microservice through causality inference [C]// Proc of the 28th IEEE/ACM International Symposium on Quality of Service. Piscataway,NJ:IEEE Press,2020: 1-10.

[30]Ma Meng,Xu Jingmin,Wang Yuan,et al. AutoMAP: diagnose your microservicebased Web applications automatically [C]// Proc of Web Conference. New York: ACM Press,2020: 246-258.

[31]Brandón á,Solé M,Huélamo A,et al. Graphbased root cause analysis for serviceoriented and microservice architectures [J]. Journal of Systems and Software,2020,159: 110432.

[32]Ma Qiuping,Li Hongyan,Thorstenson A. A big datadriven root cause analysis system: application of machine learning in quality problem solving [J]. Computers amp; Industrial Engineering,2021,160: 107580.

[33]Liu Ping,Xu Haowen,Ouyang Qianyu,et al. Unsupervised detection of microservice trace anomalies through servicelevel deep Bayesian networks [C]// Proc of the 31st IEEE International Symposium on Software Reliability Engineering. Piscataway,NJ:IEEE Press,2020: 48-58.

[34]Zhang Chuxu,Song Dongjin,Chen Yuncong,et al. A deep neural network for unsupervised anomaly detection and diagnosis in multivariate time series data [C]// Proc of AAAI Conference on Artificial Intelligence. 2019: 1409-1416.

[35]Mampaka M M,Sumbwanyambe M. Poor data throughput root cause analysis in mobile networks using deep neural network [C]// Proc of the 2nd IEEE Wireless Africa Conference. Piscataway,NJ:IEEE Press,2019: 1-6.

[36]Choi M,Kim T,Lee J,et al. An empirical study on root cause analysis and prediction of network failure using deep learning [C]// Proc of International Conference on Information and Communication Technology Convergence. Piscataway,NJ:IEEE Press,2021: 741-746.

[37]Javanbakht N,Neshastegaran A,Izadi I. Alarmbased root cause analysis in industrial processes using deep learning [EB/OL]. (2022). https://arxiv.org/abs/2203. 11321.

[38]Young P,Shellswell S. Time series analysis,forecasting and control [J]. IEEE Trans on Automatic Control,1972,17(2): 281-283.

[39]胡健,龔克,毛伊敏,等. 基于Im2col的并行深度卷積神經(jīng)網(wǎng)絡優(yōu)化算法 [J]. 計算機應用研究,2022,39(10):2950-2956,2961. (Hu Jian,Gong Ke,Mao Yimin,et al. Parallel deep convolutional neural network optimization algorithm based on Im2col [J]. Application Research of Computers,2022,39(10):2950-2956,2961.)

[40]Lundberg S M,Lee S I. A unified approach to interpreting model predictions [J]. Advances in Neural Information Processing Systems,2017,30: 1-10.

[41]Datta A,Sen S,Zick Y. Algorithmic transparency via quantitative input influence: theory and experiments with learning systems [C]//Proc of IEEE Symposium on Security and Privacy. Piscataway,NJ:IEEE Press,2016: 598-617.

[42]Pearl J. The docalculus revisited [EB/OL]. (2012).https://arxiv.org/abs/1210. 4852.

[43]Lundberg S M,Erion G,Chen H,et al. From local explanations to global understanding with explainable AI for trees [J]. Nature Machine Intelligence,2020,2(1): 56-67.

[44]Aas K,Jullum M,Lland A. Explaining individual predictions when features are dependent: more accurate approximations to Shapley values [J]. Artificial Intelligence,2021,298: 103502.

[45]Frye C,Rowat C,F(xiàn)eige I. Asymmetric Shapley values: incorporating causal knowledge into modelagnostic explainability [J]. Advances in Neural Information Processing Systems,2020,33: 1229-1239.

[46]Heskes T,Sijben E,Bucur I G,et al. Causal Shapley values: exploiting causal knowledge to explain individual predictions of complex models [J]. Advances in Neural Information Processing Systems,2020,33: 4778-4789.

[47]Lauritzen S L,Richardson T S. Chain graph models and their causal interpretations [J]. Journal of the Royal Statistical Society: Series B (Statistical Methodology),2002,64(3): 321-361.

[48]Shapley L S. A value for nperson games [J]. Classics in Game Theory,1997,69: 295

[49]Pearl J. Causal inference in statistics: an overview [J]. Statistics surveys,2009,3: 96-146.

[50]Pearl J. Models,reasoning and inference [EB/OL]. (2000). https:// www.cs.ucla.edu/~kaoru/frontmatterfinal.pdf.

[51]Pearl J. An introduction to causal inference[J]. The International Journal of Biostatistics,2015,6(2): article No.7.

[52]Spirtes P. Introduction to causal inference [J]. Journal of Machine Learning Research,2010,11(5): 1643-1662.

[53]Spirtes P,Glymour C N,Scheines R,et al. Causation,prediction,and search [M]. Cambridge,MA: MIT Press,2000.

[54]Glymour C,Zhang Kun,Spirtes P. Review of causal discovery methods based on graphical models [J]. Frontiers in Genetics,2019,10: 524.

[55]Hao Shiqi,Liu Yang,Wang Yu,et al. Threestage root cause analysis for logistics time efficiency via explainable machine learning [C]// Proc of the 28th ACM SIGKDD Conference on Knowledge Discovery and Data Mining. New York:ACM Press,2022: 2987-2996.

主站蜘蛛池模板: 国产成人在线无码免费视频| 中文字幕乱码二三区免费| 精品国产Av电影无码久久久| 精品夜恋影院亚洲欧洲| 亚洲高清在线播放| 在线免费不卡视频| 久久久久中文字幕精品视频| 熟妇丰满人妻| 国产视频你懂得| 国产在线一区视频| 国产一区成人| 在线免费亚洲无码视频| 54pao国产成人免费视频| yjizz国产在线视频网| 伊人久久精品无码麻豆精品 | 国产噜噜噜视频在线观看| 狠狠综合久久| 国产高清在线精品一区二区三区| 亚洲综合久久成人AV| 国产激情无码一区二区APP | 日韩 欧美 小说 综合网 另类| 久久免费精品琪琪| 97精品伊人久久大香线蕉| 国产第一页免费浮力影院| 黄色网站在线观看无码| 九九热这里只有国产精品| 无码啪啪精品天堂浪潮av| 国产不卡一级毛片视频| 天堂岛国av无码免费无禁网站| 四虎精品黑人视频| 免费日韩在线视频| 国产凹凸视频在线观看| 国产成人乱无码视频| 中文字幕在线观看日本| 性视频一区| 亚洲综合九九| 一本大道香蕉久中文在线播放| 欧美成人亚洲综合精品欧美激情| 久久综合色88| 亚洲欧美另类久久久精品播放的| 国产靠逼视频| 免费观看男人免费桶女人视频| 国产精品开放后亚洲| 精品免费在线视频| a色毛片免费视频| 免费毛片a| 精品亚洲麻豆1区2区3区| 国产福利免费观看| 日韩色图在线观看| 国产精品无码在线看| 91无码网站| 在线欧美国产| 国产成人福利在线| 91免费观看视频| 日韩 欧美 小说 综合网 另类| 亚洲女人在线| 国产jizzjizz视频| 免费一级无码在线网站| 国产极品美女在线播放| 97成人在线观看| 天天躁狠狠躁| 国产免费久久精品99re不卡| 国内熟女少妇一线天| 亚洲日本一本dvd高清| 日韩在线欧美在线| 日本一本在线视频| 亚洲国产成人久久精品软件| 欧美色视频日本| 久久网欧美| 精品亚洲国产成人AV| 国产亚洲精品自在久久不卡| 制服丝袜一区| 99免费在线观看视频| 人妖无码第一页| 免费看久久精品99| 国产激爽大片高清在线观看| 免费人成在线观看成人片| 色噜噜在线观看| 国产亚洲精| 久草国产在线观看| 亚洲无码免费黄色网址| 国产欧美日韩专区发布|