999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于活動恢復集的有效低頻行為分析方法

2024-08-17 00:00:00任紫薇王麗麗左殷愷
計算機應用研究 2024年7期

摘 要:低頻行為識別是揭示業務流程重要信息和優化流程模型的方法之一,現有流程發現方法忽略了數據影響鏈對低頻行為產生的影響,導致了一些低頻行為被視為噪聲直接過濾掉。針對這一問題,提出了一種基于活動恢復集的有效低頻行為分析方法。首先根據事件日志中的行為重要性過濾日志,并構建初始流程模型;其次從事務日志中提取活動的輸入輸出數據項,并根據這些數據項構造活動影響鏈圖,在此基礎上獲取每個活動基于跡的活動恢復集;最后根據活動恢復集來計算每條跡的行為容忍度以區分有效低頻行為和噪聲。實驗結果表明,與其他方法相比,該方法能夠有效區分有效低頻行為與噪聲,并且從擬合度、精度以及簡單性方面提高了流程模型的質量。該方法考慮了由活動恢復集而導致的偏差情況,可以成功識別事件日志中的有效低頻行為,從而優化了流程模型。

關鍵詞:行為重要性; 有效低頻行為; 數據影響鏈; 恢復集; 行為容忍度

中圖分類號:TP391 文獻標志碼:A 文章編號:1001-3695(2024)07-012-2005-07

doi:10.19734/j.issn.1001-3695.2023.11.0567

Effective infrequent behaviors analysis method based on activity recovery sets

Abstract:Infrequent behavior recognition is one of the methods to reveal important information about business processes and optimize process models. Existing process discovery methods have overlooked the impact of data influence chains on infrequent behavior, resulting in some infrequent behavior being considered as noise and filtered out directly. To address this issue, this paper proposed a novel infrequent behavior analysis method based on activity recovery sets. Firstly, it filtered the event logs based on the importance of behavior and constructed an initial process model. Secondly,it extracted input and output data items of activities from transaction logs, and constructed an activity influence chain graph based on these data items. It obtained activity recovery sets based on these graphs. Finally, it calculated the behavior tolerance of each trace using the activity recovery sets to distinguish effective infrequent behavior from noise. The experimental results indicate that, compared to other methods, this study effectively distinguishes valid infrequent behaviors from noise and improves the quality of the process model in terms of fitness, precision, and simplicity. This method considers the biases caused by the activity recovery set and successfully identifies valid infrequent behaviors in event logs, thereby optimizing the process model.

Key words:behavioral importance; effective infrequent behavior; data impact chain; recovery sets; behavioral tolerance

0 引言

隨著工業互聯網時代的到來,業務流程復雜性也隨之增加,現在很多企業都開始通過業務流程管理來改進傳統以人為中心的信息系統,從而提高企業工作效率。流程挖掘是業務流程管理的核心技術之一,主要是從復雜的事件日志中提取有用的信息,進而構建業務流程模型來促進企業發展。流程挖掘主要包含三個部分:流程發現,主要通過事件日志自動構建一個流程模型;一致性檢查,主要分析已構建的流程模型與事件日志之間的差異;模型增強,主要通過事件日志來改進和增強流程模型。目前事件日志數據呈指數級增長,業務流程變得越來越復雜,事件日志隨之也變得越來越復雜,生產制造中的突發情況、多場景業務融合等都會造成更多低頻行為的出現,其中有些低頻行為(如飛機的逃逸行為,保險賠付中的騙保行為)是由于某些難以滿足的條件而導致其出現頻次很低,但它們在現實系統的運行中往往起著至關重要的作用,這類低頻行為是有效低頻行為,正確識別有效低頻行為對提高業務流程的建模質量尤為重要。近年來的研究考慮了低頻行為,文獻[1]提出一種基于全局事件日志構建日志自動機,根據給定閾值刪除不頻繁弧,從而過濾事件日志中不頻繁的行為。文獻[2]提出了一種基于最大概率路徑的算法來分析活動的分布狀態和行為之間的強轉移關系。首先使用條件概率熵對不頻繁的日志進行預處理,以去除軌跡中分布極不規則的單個噪聲活動,然后基于活動的狀態轉移信息從日志中提取有效序列。文獻[3]通過抽象低頻行為來簡化流程模型,即使用存儲在事件日志中的靜態歷史數據無差別過濾低頻行為。文獻[4]進一步提出了一個事件處理器,能夠從實時事件流中過濾掉低頻行為,從而改善在線流程挖掘結果。文獻[1~4]雖然研究了低頻行為,但是他們都將這些低頻行為直接識別為噪聲刪除,忽略了低頻行為中的有效低頻行為對業務流程產生的影響。

基于此,文獻[5]提出了一個從流程模型中檢索非頻繁行為模式的算法—WoMine-I,該算法可以檢測流程模型的不頻繁子結構,進而通過這些不頻繁子結構執行優化流程模型。文獻[6]通過用流程樹切的直接流圖表示日志的行為關系,并與初始模型作匹配,發現所有的低頻序列,計算日志與模型的行為距離向量,基于行為緊密度區分有效低頻日志和噪聲日志,優化事件日志。文獻[7]提出了基于Petri網行為緊密度的有效低頻模式分析方法,先根據事件日志建立流程模型,然后通過迭代擴展初始模式來發現流程模型中的所有低頻日志序列,并在此基礎上計算日志與模型的行為距離向量,最后利用日志與模型的行為緊密度找出有效的低頻行為模式。

由于文獻[5~7]主要是基于控制流視角考慮有效低頻行為,但是忽略了數據流視角,數據流對有效低頻行為的識別也尤為重要。文獻[8]進一步提出了一種基于數據感知啟發式挖掘算法(DHM),該方法利用數據屬性通過分類技術將非頻繁路徑與隨機噪聲區分開來。文獻[9]從控制流和數據流結合的視角來進行有效低頻行為分析,利用頻繁模式和交互行為配置文件找出低頻行為,然后通過條件依賴概率分析了數據流信息對非頻繁行為的影響強度,從而提出了一種基于數據感知的頻繁模式的有效低頻行為識別方法。

綜上所述,現有研究雖然采用了數據流和控制流結合的視角進行有效低頻行為分析,但忽略了由于數據變化引起的數據影響鏈產生的系列行為變化,進而產生低頻行為,這些低頻行為對有效低頻行為識別與優化流程模型至關重要。因此,本文重點基于數據變化對流程活動執行產生的聯動影響來分析有效低頻行為,提出了一種基于活動恢復集的有效低頻行為分析方法。第一步首先根據給定的事件日志計算跡變體直接跟隨關系分數來篩選包含更多重要直接跟隨關系的跡,然后通過篩選出的跡構建初始流程模型。第二步根據事件日志中跡的頻率篩選出低頻行為,然后根據事件日志的活動影響鏈圖找出低頻行為中每個活動基于跡的恢復集,最后計算每條跡的行為容忍度來區分有效低頻行為與噪聲。本文在業務流程執行中引入多視角一致性檢查和有效低頻行為識別,該方法將低頻事件日志數據化,通過行為容忍度這一衡量標準來區分有效低頻行為與噪聲,并通過服裝生產的數據集和公開數據集BPI Challenge 2017對其適用性進行了評估。實驗表明本文方法不僅可以識別其他方法不能識別的有效低頻行為,還可以在不顯著降低精度的基礎上提高流程模型的擬合度。其主要貢獻如下:a)不同于基于頻率過濾事件日志的方法,提出了通過計算事件日志中跡變體直接跟隨關系得分以判斷其行為重要性的方法,從而更好地獲得初始流程模型;b)通過分析活動的輸入和輸出數據,提出了采用活動影響鏈圖以分析數據流和控制流間的相互影響關系,為有效低頻行為的識別提供了理論基礎;c)基于活動影響鏈圖,進一步提出了基于活動恢復集的行為容忍度計算方法,以實現有效低頻行為的識別。

1 動機例子

當今,工業互聯網迅速發展,與各個生產制造相結合促進生產業快速發展[10]。在智能制造的過程中,特定情況下的數據修改會對業務流程產生一系列影響,導致活動序列發生頻次很低,進而在流程挖掘中被忽略。為了研究這些低頻行為也會對流程挖掘產生影響,下面將用一個例子來進行說明。如表1所示,給出了一個服裝生產的部分事件案例。其中A為訂單開始,B為樣品預生產,C為客戶審核,D為輸入訂單規模,E為計算報價,F為制定生產計劃,G為分配庫存,H為請求采購, I為儲備庫存,J為開始生產,K為抽樣檢查產品,L為生產完成,M為輸入交貨地址,N為選擇運輸方式,O為計算運輸成本,P為開始配送,Q為結束訂單。

現實生活的生產制造過程中,客戶可能會在工廠已經準備發貨后由于一些突發原因修改訂單的數量。雖然這種突發情況比較少見,但從現實角度思考它是非常合理的。如跡σ15表示這個訂單在已經準備好庫存后進行了訂單數量的修改,因此在開始準備庫存后重新執行計算報價和修改生產計劃是合理的。即σ15雖然是一個低頻行為,但是從實際角度出發它是一個有效的低頻跡。表1中存在一些類似的低頻行為,如σ11~σ16,如果僅考慮控制流視角來挖掘流程模型,這些低頻跡會被當成噪聲直接過濾掉以獲得簡單的業務流程模型,但這些低頻跡中可能存在對業務流程有意義的有效低頻行為。如果從控制流和數據流相結合的視角考慮,即在考慮控制流的基礎上考慮活動之間的數據影響,這些低頻行為可能會為業務流程提供更多有價值的信息。在服裝生產銷售實際流程中,會存在一些由于突然事件而造成的低頻行為,如跡σ15,通過分析發現,這條跡在執行儲備庫存活動I之后又重新執行輸入訂單規模活動D,由于輸入訂單規模D的再次執行,導致執行計算報價活動E和制定生產計劃活動F相繼重復發生。后續重復執行的活動子序列〈E,F〉是導致跡σ15低頻出現的關鍵子序列。現有的流程模型挖掘算法未深入分析由一個活動的偏差執行導致一系列活動相繼偏差執行的原因,從而導致類似σ15這樣的低頻跡直接識別為噪聲過濾,使構建的流程模型不能真實地描述系統運行的實際操作。圖1是基于頻次的歸納式挖掘算法[11]挖掘出的流程模型,可以發現σ15等一些低頻跡無法在圖1所示的流程模型上重演。

在實際業務流程中可以發現,σ15這條跡是具有現實意義的,對于σ15,當第二次執行輸入訂單規模D后會改變訂單的數量,而訂單數量這個數據項會影響后續以它作為輸入的多個活動的發生,如〈E,F〉。因此一個活動發生偏差后可能會導致一系列活動受影響,如σ15中由于活動D的偏差執行,導致了活動子序列〈D,E,F〉重復發生,從而使得σ15低頻出現。因此,針對這種由于某一個活動的偏差發生而引起一系列后續活動相繼重復發生而導致的低頻行為開展研究,并提出了活動恢復集的低頻行為識別方法。

2 基本概念

Petri網是分布式系統的建模和分析工具,它可以描述系統中進程或部件的順序、并發、沖突以及同步關系等,本文將使用Petri網對流程進行建模,本章給出了本文中使用的幾個術語的基本定義。

可見,網PN=(P,T,F,C)的基本元素集合是P和T,在Petri網中,分別使用圓圈和方框表示。

在本文中,使用多重集DL表示事件日志L中的所有直接跟隨關系。

3 基于恢復集的有效低頻行為分析

本章主要介紹了基于活動恢復集來發現有效低頻行為的方法,并給出相應的算法。該方法不僅可以解決現存流程挖掘技術只注重發現頻繁行為而忽略低頻行為的問題,而且通過將控制流和數據流相結合的視角來發現有效低頻行為,實現了流程模型增強的目的。首先通過跡變體直接跟隨關系分數篩選包含更多重要直接跟隨關系的跡,并利用這些跡構建初始流程模型;其次通過判斷事件日志中跡的頻率是否小于閾值來發現低頻行為;進而通過數據影響分析從事務日志中獲取活動恢復集以分析低頻行為,并從中識別有效低頻行為,最后通過有效低頻行為進行模型增強。該方法的研究框架如圖2所示。3.1節給出了通過捕獲事件日志中的重要行為來發現初始流程模型的算法,3.2節給出了一些相關定義和一個基于恢復集的有效低頻行為識別的算法。

3.1 基于行為重要性過濾事件日志

流程發現是流程挖掘的主要分支之一,旨在發現一個流程模型,該模型能準確描述事件日志中的數據所捕獲的底層流程[15]。本節通過捕獲事件日志中的重要行為來發現流程模型[16],該方法可以在減少挖掘時間的同時,保證挖掘出的模型質量。

首先遍歷事件日志L找到流程變體LT,然后遍歷LT找到所有直接跟隨關系,并將它們放入多重集DL。直接跟隨關系a>Lb的頻率F(a>Lb) 的計算方法如式(1)所示。本文將F(a>Lb)作為直接跟隨關系a>Lb行為重要性的判別標準。

其中:|a>Lb|表示a>Lb這個直接跟隨關系的數量;|DL|表示事件日志LT中包含的所有直接跟隨關系個數之和。計算出每個直接跟隨關系的頻率后,遍歷DL去除多重集DL中重復的跟隨關系得到Dl,并按照每個直接跟隨關系的頻率從小到大進行排序。設置一個閾值θ,選出F(a>Lb)的直接跟隨關系多重集集合P,其中P∈Dl。當閾值θ選擇過大時,可能體現不出篩選重要跟隨關系的作用,當閾值θ選擇過小時,可能會丟失一些重要的直接跟隨關系,從而導致發現的流程模型質量較差。本文主要通過實驗對比挖掘過程模型的質量來選擇一個相對最優的閾值θ作為基準閾值,具體步驟見第4章節實驗部分。

例如:有一個事件日志L=[ADB3,ACDB2,EF,CADB4],LT=[ADB,ACDB,EF,CADB],DL=[A>LD,D>LB,A>LC,C>LD,D>LB,E>LF,C>LA,A>LD,D>LB],F(D>LB)≈0.33,Dl=[A>LD,D>LB,A>LC,C>LD,E>LF,C>LA]。

本文通過選擇包含P中更多直接跟隨關系的跡來挖掘初始流程模型。首先將每個跡變體直接跟隨關系分數Sγi的初始值設置為0。如果跡變體包含P中的一個直接跟隨關系,則將Sγi加1來增加其重要性。否則,如果跡變體包含不屬于P的直接跟隨關系,則將Sγi減1來降低其重要性。例如,對于跡變體γ=〈e1,e2,…,en〉,如果任意i∈{1,2,…,n-1},ei>L ei+1∈P,Sγ+1,否則為Sγ-1。算法1主要通過行為重要性過濾事件日志。其實現思想是根據日志L中所有跡變體的直接跟隨關系分數從高到低對跡變體進行排序,然后從高到低選擇跡變體添加到日志L′中,最后通過篩選后的事件日志L′得到一個初始流程模型,具體如算法1所示。

算法1 根據行為重要性篩選事件日志

第1、2行首先遍歷事件日志L,得到流程變體LT,然后遍歷LT得到所有的直接跟隨關系的多重集DL;第3、4行計算多重集DL中每個直接跟隨關系的頻率F(a>Lb),在第5行遍歷DL,去除多重集DL中重復的元素得到Dl;第6、7行按照每個直接跟隨關系的頻率從大到小進行排序,然后選擇直接跟隨關系頻率大于θ的直接跟隨關系多重集集合P;第8、9行初始化跡變體分數Sγi的初始值為0;第10~15行遍歷所有跡變體,判斷是否包含P中直接跟隨關系,如果包含則令Sγi加上1來增加其狀態,否則減1;第16~19行根據它們在LT中的分數從高到低對所有跡變體進行排序,然后從高到低選擇跡變體, 并將選定的跡變體附加到子日志。通過對事件日志中的跡重要性進行判斷,進而得出一個初始的模型,方便后文的有效低頻行為分析。

3.2 基于數據影響分析有效低頻行為

為了區分事件日志中的低頻行為是有效低頻還是噪聲,本節基于數據影響分析提出識別有效低頻行為的算法。

定義4 輸入-活動-輸出IAO[17]。IAO是一組三元組(in,Act,out),其中in,out∈Data_I∪{null},Data_I是一組數據項,即輸入數據項in經過活動Act,輸出對應的輸出數據項out。

表2是本文第1章節中示例的部分IAO集。例如,訂單ID是樣品預生產(B)的輸入數據,樣品審核結果是樣品預生產(B)的輸出數據。

在日志移動時,檢索由給定活動更改的所有數據項,通過數據影響分析識別可能受到這些數據項影響的所有活動[18]。為了方便對活動進行數據影響分析,通過表2畫出部分事件日志的活動影響鏈圖,如圖3所示,每個灰色虛線框里面的活動表示受其對應活動更改的所有數據項的活動。例如〈客戶審核、結束訂單〉這兩個活動會受到〈樣品預生產〉這個活動影響。給定一個事件日志L,A表示事件日志L中所有的活動集合,給定一個活動e,用RS(e)表示受活動e影響的所有活動集合,本文稱RS(e)為活動e的影響集。例如,從圖3中可以看出RS(D)={E,F,G,H,I,N,O}。

根據事件日志的IAO集檢索活動e更改的所有數據項,應用數據影響分析識別可能受到這些數據項影響的所有已經執行的活動。由于事件日志L中活動不會同時出現在同一條跡中,所以進一步給出了恢復集的概念。

定義6 恢復集[17]。給定一條跡σ,e是對齊γ中發生日志移動的事件。Aff(e)是受e影響的所有數據項的集合,e關于σ的恢復集定義為RC(e, σ)=∪d∈Aff(e)DI(d,σ)。

假設給定一條跡σ=〈A,B,C,D,E,F,G,J,K,Q〉,由于活動D的影響集為RS(D)={E,F,G,H,I,N,O},則活動D基于σ的恢復集為RC(D,σ)=〈E,F,G〉。定義6的恢復集表示,在跡σ中,由活動e的輸出數據改變導致的后續受影響的發生活動集合。后續章節將采用活動恢復集來識別有效低頻行為。

當檢測到日志移動時,首先判斷發生日志移動的活動a是否是由某個前驅活動b的數據影響而導致的移動,即判斷活動a是否屬于發生日志移動的前驅活動b的恢復集a∈RC(b, σ)。若是,說明活動b的偏差執行是由活動a導致的,因此活動b產生的日志移動成本代價將被忽略。引入活動恢復集的概念后,傳統的流程模型于跡的偏差對齊計算方法將不再適用,定義7將進一步給出行為容忍度的概念,該定義在計算模型和跡的偏差對齊成本時考慮了由活動恢復集而導致的偏差情況。

定義7 行為容忍度。給定一個事件日志L={σ1,…,σm},σi表示事件日志L中的一條跡,則這條跡σi的行為感容忍度為

其中:Clog、Cmod、Crec、Cre分別表示這條跡對應的日志移動、模型移動、恢復移動,恢復集中未執行預期活動的成本代價;|Mlog|、|Mmod|、|Mrec|分別表示發生日志移動、模型移動、恢復移動的次數;|Mre|表示在回溯完整條跡后,尚未執行的預期活動RE列表中剩余所有活動的個數。日志移動表示流程模型中發生的活動在事件日志中沒有發生而產生的移動;模型移動表示跡中發生的事件在流程模型中沒有發生而產生的移動;恢復移動表示屬于某個前驅活動的恢復集中的活動產生的日志移動;未執行的預期活動表示當整條跡已經分析完成,所有活動基于跡的恢復集中本該執行實際卻未執行的活動。

以第1章動機例子的σ15〈A,B,C,D,E,F,H,I,J,D,E,F,K,M,N,O,P,Q〉為例,與圖1所示的模型進行一致性檢查,構建一條對齊[19],如表3所示,其中(D,>>)為日志移動、(>>,L)模型移動、{(E,>>),(F,>>)}為恢復移動、{ H,I }為未執行預期活動。

本文中將Clog和Cmod的大小設置為1。Crec為恢復移動的成本,恢復移動是基于某個前驅活動的恢復集而產出的移動,即此活動發生的移動是由前驅活動導致的偏差,因此,在計算偏差代價時,可以將其忽略不計,本文將其成本設為0。Cre為恢復集中未執行預期活動的成本,其表示在恢復集中本該執行實際上沒有發生的活動成本,因此本文將其設置為1。設置閾值φ,如果一條跡的行為容忍度大于閾值φ,則認為這條跡是有效的。當閾值φ選擇過大時,會將一些有效低頻行為識別為噪聲,當閾值φ選擇過小時,可能會將一些噪聲識別成有效低頻行為。本文φ主要是基于實驗數據,通過實驗驗證來進行選擇,具體步驟見第4章節實驗部分。算法2主要通過計算跡的行為容忍度來區分有效低頻行為。該算法首先通過事務日志獲取每個活動的輸入數據項和輸出數據項,然后通過數據影響分析識別和檢查數據項對其他業務流程元素的影響,通過遍歷事件日志,得到每個活動的恢復集,從而計算每條跡基于模型的行為容忍度,以實現有效低頻行為的識別。

算法2 基于恢復集分析有效低頻行為

第1~3行根據事件日志L中跡的頻率選出低頻日志L_inf;第4~13行將這些低頻日志L_inf結合過程模型進行一致性檢查,構造一個一致性對齊列表M,并根據規則求出每個活動的恢復集;第14行初始化RE為空集,其表示為一條跡上尚未執行的預期活動的集合;第16~29行表示在對齊M的基礎上,動態更新尚未執行的預期活動的RE列表;第30~34行通過定義7求出每條跡的行為容忍度,將日志L_inf中的低頻行為識別為有效低頻和噪聲。

4 實例分析

本章針對第1章中服裝生產制造的案例和BPI Challenge 2017的公開數據集進行實驗分析,并將本文方法與現有方法進行對比分析,并對結果進行討論。首先將本文方法在區分有效低頻行為方面與其他方法[7,20]進行比較,然后通過將不同級別的罕見行為注入到現實日志中時,評估發現流程模型的質量。實驗運行環境是Intel i7-6500處理器和8 GB RAM。

4.1 服裝生產案例實驗分析

4.1.1 根據行為重要性構建流程模型

首先遍歷表1中事件日志L,找到流程變體LT,然后遍歷LT找到所有直接跟隨關系的對象,計算直接跟隨關系a>Lb在整個多重集中的頻率F(a>Lb)作為選擇標準,如表4所示。本文給定選擇F(a>Lb)的閾值θ,從而選出符合閾值要求的直接跟隨關系多重集集合P。閾值θ的選取會影響流程模型的擬合度以及發現此流程模型的時間,為了選擇相對合適的θ值,本文設計一個實驗來進行驗證,實驗結果如圖4所示。從圖4中發現擬合度和時間是隨著θ增長而逐漸增加的,當閾值θ從0.9調整到0.95時,挖掘模型的擬合度只增加了0.005,然而挖掘模型所用的時間同比增加了31.78%,因此通過對比本文選擇θ=0.9時的直接跟隨關系多重集集合P更合適。

通過3.1節中的方法計算所有跡變體的分數之后,根據它們在LT中的分數從高到低對所有跡變體進行排序。最后,從高到低選擇跡變體,并將選定的跡變體添加到日志L′。最后通過日志L′得到一個相對合理的流程模型,如圖5所示,并計算出其流程模型的擬合度fitness(M)=0.953。與現有的流程挖掘算法相比,雖然構建的流程模型的擬合度不是最高的,但是在考慮時間因素的基礎上,通過實驗驗證本文方法是相對最優的,實驗結果如表5所示。

4.1.2 有效低頻行為識別

首先,從表1的事件日志中選擇頻率低于閾值τ的低頻行為,本文設置τ=0.2,因此將頻率低于0.2的跡認定為低頻行為,進而選出的低頻事件日志{σ11,σ12,σ13,σ14,σ15,σ16},并按照實例數從多到少進行排序,結果如下:{〈ABCDEFGJKMNONOPQ〉13,〈ABCDEFHIJKLMNOMNOPQ〉11,〈ABCDEFHIDEFJKLMNOPQ〉10,〈ABCDEFHIJDEFKLMNOPQ〉8,〈ABCDEFHIHIJKMNOPQ〉6,〈ABCCEGMOQ〉3}。下面將低頻跡與圖5所示的流程模型進行控制流對齊,其中σ11的對齊結果如表6所示。

根據活動影響鏈圖求出每個活動基于這條跡的恢復集,同樣以σ11為例,通過圖2得到活動N基于σ11的恢復集為RE(N,σ11)=〈O〉。根據每個活動的恢復集動態更新表5中的對齊,如果這個日志移動屬于前面活動的恢復集中的活動,則將>>改為Ω,更新后的對齊如表7所示。

然后基于恢復集在構建的對齊表上進行重放,計算出跡σ11的行為容忍度DF(σ11)=0.941,同理計算出其他所有低頻案例的行為容忍度分別為DF(σ12)=0.944,DF(σ13)=0.556,DF(σ14)=0.944,DF(σ15)=0.895,DF(σ16)=0.895。根據行為容忍的閾值判斷出哪些低頻行為是有效低頻行為,閾值φ的選擇會對模型優化的結果產生影響,根據上文計算的行為容忍度來觀察,當φ的取值在0.6~0.9時均不影響優化結果。當φ取值大于0.9時,優化后模型的擬合度會低于當φ=0.85時優化后模型的擬合度,因為本文設置行為容忍度的閾值為0.85,從而判斷出σ11,σ12,σ14,σ15,σ16為有效低頻行為,而σ13可能是因為業務流程或系統原因而產生的噪聲。利用σ11,σ12,σ14,σ15,σ16這些有效低頻行為對圖5所示的模型進行優化,優化后的模型如圖6所示。

4.1.3 方法評估

針對第1章動機例子的數據,本節通過將本文方法(DAR)與LFB[7]、MP算法[20] 對比,來評估本文方法識別有效的低頻行為的能力。對比結果如表8所示,從表8可以看出本文方法在識別有效低頻行為上優于其他方法,而MP可能將不正確的低頻行為(噪聲)識別為有效的低頻行為,并且通過實驗驗證了采用本文方法(DRA)進行優化后的模型質量優于其他兩種方法。為了更全面地研究使用該方法對有效低頻行為分析的影響,本文向服裝生產事件日志注入5%、10%、15%的噪聲,考慮在跡中的隨機位置添加隨機活動、隨機刪除活動以及在跡中交換活動這三種方式來添加噪聲,然后分析不同閾值大小下擬合度、精度、簡單性角度不同方法對比的結果,實驗結果如圖7~9所示。

從圖7、8發現,在擬合度方和精確度方面,本文方法優于另外兩種方法,首先因為這兩種方法均沒有考慮到數據視角,導致會把一些有效低頻行為誤認為噪聲,進而使優化后的模型擬合度和精度相對較低。本文方法在注入5%、10%、15%噪聲下的事件日志挖掘出的模型質量雖然有所下降,但對比另外兩種方法仍然具有一定優勢。在簡單性方面,如圖9所示,本文方法優于MP,與LFP相差不多。因為MP主要基于最大概率路徑分析活動分布狀態和行為間強傳遞關系來區分噪聲活動和有效序列,導致一些噪聲被識別成有效行為,進而導致挖掘的流程模型相對復雜。

實驗結果表明,在對本文實驗事件日志添加噪聲之后,本文方法仍然表現出較好的有效低頻行為識別能力,降低了假陽性的出現。所以利用本文方法識別出的有效低頻行為對流程模型進行優化,在大部分情況下都是優于其他兩種方法的。

4.2 公開數據集實驗分析

為了證明本文方法具有一定的泛化能力,本節使用BPI Challenge 2017公開數據集進行實驗分析。該數據集與荷蘭金融機構的貸款申請流程有關,包含2016年通過在線系統提交的所有申請及其后續事件,具有31 509條跡,1 202 267個事件,26個活動。實驗結果如圖10所示。

通過圖10可以發現,針對BPI Challenge 2017的事件日志,本文方法具有一定的優勢。在擬合度方面,本文方法明顯優于另外兩個方法,這是因為LFB只是基于控制流考慮了子序列間的行為緊密度來進行識別有效低頻行為,而MP方法同樣只考慮了控制流,主要根據最大概率路徑分析活動分布狀態和行為間強傳遞關系和區分有效低頻行為。在簡單性方面比LFB這個方法差一點,可能是因為本文方法考慮的數據過于細致,導致挖掘出的流程模型相較于LFB方法復雜。

綜上所述,本文方法在大部分的情況下都是優于其他兩個方法,從而驗證了其有效性。通過本文方法優化的模型具有較高的模型質量,說明基于活動恢復集來區分有效低頻行為具有較高的準確性, 主要因為本文考慮活動輸入輸出數據的改變對此活動以及其后繼活動產出的影響鏈,進而增加了有效低頻行為的識別質量,然后通過計算跡的行為容忍度來區分有效低頻行為和噪聲,同時降低了噪聲被識別為低頻行為的可能性。

5 結束語

為了更好地區分有效低頻行為與噪聲,本文提出基于活動恢復集的有效低頻行為識別方法。首先從事務日志中提取每個活動的輸入輸出數據項,其次根據活動輸入輸出數據項表構造活動影響鏈圖,再從活動影響鏈圖中得到每個活動的影響集,然后在考慮活動恢復集的基礎上構建對齊,從而計算每一條跡的行為容忍度來區分有效低頻行為和噪聲,并且通過識別出的有效低頻行為對初始模型進行優化。最后,本文使用合成和真實的事件日志進行評估,結果驗證了本文方法可以識別其他方法不能識別的有效低頻行為。同時本文方法可以在不顯著降低精度的基礎上提高發現流程模型的擬合度。在未來的工作中,考慮將本文方法應用到更多的工業互聯網領域,以更好地驗證提出方法的泛化能力,同時可以進一步結合機器學習等方法來優化數據影響鏈圖。

參考文獻:

[1]Conforti R, Rosa M L, Ter Hofstede A H M. Filtering out infrequent behavior from business process event logs[J]. IEEE Trans on Knowledge and Data Engineering, 2017, 29(2): 300-314.

[2]Sani M F, Van Zelst S J, Van der Aalst W M P. Improving process discovery results by filtering outliers using conditional behavioural probabilities[C]//Proc of International Conference on Business Process Management. Cham: Springer, 2018: 216-229.

[3]Chapela-Campa D, Mucientes M, Lama M. Understanding complex process models by abstracting infrequent behavior[J]. Future Gene-ration Computer Systems, 2020, 113: 428-440.

[4]Van Zelst S J, Sani M F, Ostovar A, et al. Detection and removal of infrequent behavior from event streams of business processes[J]. Information Systems, 2020,90: 101451.

[5]Chapela-Campa D, Mucientes M, Lama M. Discovering infrequent behavioral patterns in process models[C]//Proc of International Conference on Business Process Management. Cham: Springer, 2017: 324-340.

[6]郝惠晶, 方賢文, 方娜, 等. 基于Petri網的業務流程低頻行為挖掘與優化分析[J]. 計算機集成制造系統, 2020,26(6): 1660-1667. (Hao Huijing, Fang Xianwen, Fang Na, et al. Low-frequency behavior mining and optimization of business process base on Petri net[J]. Computer Integrated Manufacturing Systems, 2020,26(6): 1660-1667.)

[7]郝惠晶, 方賢文, 王麗麗, 等. 基于Petri網行為緊密度的有效低頻行為模式分析[J]. 計算機科學, 2019,46(2): 321-326. (Hao Huijing, Fang Xianwen, Wang Lili, et al. Analysis of effective low frequency behavior patterns based on Petri net behavior choseness[J]. Computer Science, 2019,46(2): 321-326.)

[8]Mannhardt F, De Leoni M, Reijers H A, et al. Data-driven process discovery—revealing conditional infrequent behavior from event logs[C]//Proc of International Conference on Advanced Information Systems Engineering. Cham: Springer, 2017: 545-560.

[9]Wang Lili, Fang Xianwen, Asare E, et al. An optimization approach for mining of process models with infrequent behaviors integrating data flow and control flow[J]. Scientific Programming, 2021, 2021: e8874316.

[10]Li Jianqiang, Yu F R, Deng Genqiang, et al. Industrial Internet: a survey on the enabling technologies, applications, and challenges[J]. IEEE Communications Surveys & Tutorials, 2017, 19(3): 1504-1526.

[11]Leemans S J J, Fahland D, van der Aalst W M P. Discovering block-structured process models from event logs containing infrequent beha-viour[C]//Proc of International Conference on Business Process Management. Cham: Springer, 2014: 66-78.

[12]Smirnov S, Weidlich M, Mendling J. Business process model abstraction based on behavioral profiles[C]//Proc of International Confe-rence on Service-Oriented Computing. Berlin: Springer, 2010: 1-16.

[13]Taymouri F, Rosa M L, Dumas M, et al. Business process variant analysis: survey and classification[J]. Knowledge-Based Systems, 2021, 211: 106557.

[14]Fani Sani M,Van Zelst S J,Van der Aalst W M P. The impact of biased sampling of event logs on the performance of process discovery[J]. Computing, 2021,103(6): 1085-1104.

[15]Pasquadibisceglie V, Appice A, Castellano G, et al. PROMISE: coupling predictive process mining to process discovery[J]. Information Sciences, 2022, 606: 250-271.

[16]Wang Mimi, He Xudong, Zhao Peihai. Process model enhancement through capturing important behaviors and rating trace variants[J]. IEEE Access, 2021, 9: 1zsdjK2vpPAr15BR51DgnmQ==43634-143660.

[17]Tsoury A, Soffer P, Reinhartz-Berger I. How well did it recover? Impact-aware conformance checking[J]. Computing, 2021, 103(1): 3-27.

[18]白少康, 方賢文, 錢陳婧. 基于數據影響的業務流程一致性檢查方法[J]. 計算機應用研究, 2024, 41(2): 540-547. (Bai Shaokang, Fang Xianwen, Qian Chenjing. Business process conformance checking method based on data impact[J]. Application Research of Computers, 2024, 41(2): 540-547.)

[19]王麗麗, 向小陽, 方賢文. 基于日志聚類構造行為子集的近似一致性方法[J]. 計算機應用研究, 2022, 39(6): 1872-1878. (Wang Lili, Xiang Xiaoyang, Fang Xianwen. Approximate consistency method for constructing behavior subsets based on log clustering[J]. Application Research of Computers, 2022, 39(6): 1872-1878.)

[20]Lu Ke, Fang Xianwen, Fang Na, et al. Discovery of effective infrequent sequences based on maximum probability path[J]. Connection Science, Taylor & Francis, 2022, 34(1): 63-82.

主站蜘蛛池模板: www.狠狠| 91综合色区亚洲熟妇p| …亚洲 欧洲 另类 春色| 国产簧片免费在线播放| 国内老司机精品视频在线播出| 久久天天躁狠狠躁夜夜躁| 国产精品页| 国产亚洲高清视频| 91福利在线观看视频| 国模视频一区二区| 免费啪啪网址| 5388国产亚洲欧美在线观看| 人妻丰满熟妇av五码区| 中文字幕资源站| 毛片最新网址| 久久国产精品影院| 国产1区2区在线观看| 国产午夜看片| jizz国产在线| 人妻丝袜无码视频| 婷婷综合在线观看丁香| 午夜啪啪网| 亚洲第一黄色网| 精品国产成人三级在线观看| 精品丝袜美腿国产一区| 色综合中文字幕| 精品天海翼一区二区| 97在线免费| 区国产精品搜索视频| 极品性荡少妇一区二区色欲| 欧美综合中文字幕久久| 操美女免费网站| 亚洲精品欧美日本中文字幕| 亚洲精品人成网线在线| 夜夜高潮夜夜爽国产伦精品| 成人日韩视频| 国产精品第页| 久久精品aⅴ无码中文字幕| 免费国产无遮挡又黄又爽| 五月婷婷亚洲综合| 国产一区自拍视频| 亚洲第一色视频| 激情无码字幕综合| 国产精品林美惠子在线播放| 成人毛片在线播放| 美女无遮挡免费网站| 国产三区二区| 日韩欧美网址| 久久美女精品国产精品亚洲| 国产办公室秘书无码精品| 久青草网站| 国产激情在线视频| a毛片在线播放| 免费中文字幕一级毛片| 国产欧美精品午夜在线播放| 国产伦片中文免费观看| 日本人真淫视频一区二区三区| 一本大道无码高清| 欧美日本一区二区三区免费| 日韩毛片免费视频| 国产黄色视频综合| 久久精品视频亚洲| 97久久精品人人| 免费av一区二区三区在线| 久久一日本道色综合久久| 国产精品第页| 婷婷久久综合九色综合88| 中文字幕亚洲综久久2021| 欧美自慰一级看片免费| 综合色88| 成人综合在线观看| 午夜福利亚洲精品| 亚洲国产精品日韩欧美一区| 制服丝袜 91视频| 色噜噜中文网| 久久久波多野结衣av一区二区| 国产亚洲第一页| www.99在线观看| 国产69精品久久久久孕妇大杂乱| 播五月综合| 在线国产91| 国产精品自在自线免费观看|