摘 要:常用的跡聚類方法大多使用相對單一的標準,如利用活動序列關系,而忽略了活動的行為關系、時間或資源屬性,這對于一些柔性配置的業務流程系統提升過程挖掘質量是不利的。針對該問題,提出了一種結合活動行為關系與關聯時間的多視角跡聚類方法。首先,根據活動之間的行為關系構建控制流編碼;同時,在時間屬性上,把跡表示為一組最近關聯活動對及其時間差;其次使用加權聚合的方式集成兩個視角下的跡相似性,然后進行聚類調整。最后,將所提方法應用于登錄系統場景,并且在五個真實日志上與其他聚類方法進行對比。實驗結果表明,該方法能夠從復雜的登錄系統中發現過程場景,并且從適應度、精度和F1分數三個度量標準上驗證了該方法的優越性。
關鍵詞:跡聚類;過程挖掘;行為關系;時間;多視角
中圖分類號:TP391.9 文獻標志碼:A 文章編號:1001-3695(2023)02-023-0450-06
doi: 10.19734/j.issn.1001-3695.2022.07.0352
Multi-perspective trace clustering method based on activity behavior relation and association time
Zhang Shuna, Fang Huana,b
(a. College of Mathematics amp; Big Data, b. Anhui Province Engineering Laboratory for Big Data Analysis amp; Early Warning Technology of Coal Mine Safety, Anhui University of Science amp; Technology, Huainan Anhui 232001, China)
Abstract:Most of the commonly used trace clustering methods use a relatively single standard, such as using the activity sequence relationship, while ignoring the activity behavior relationship, time or resource attributes, which is unfavorable for some flexibly configured business process systems, as it hard to improve the quality of process mining. In order to solve such problems, this paper proposed a multi-perspective trace clustering method based on activity behavior relationship and association time. Firstly, this method constructed the control flow code according to the behavior relationship between activities. At the same time, in terms of time attributes, it used a group of nearest association activity pairs and their time differences to represent traces. Secondly, it used weighted aggregation to integrate the trace similarity under the two perspectives, and then adjusted the clustering results. Finally, the paper applied this method in the login system scenario and compared with other clustering methods on five real logs. The experimental results show that the method can find process scenarios from complex login systems, and verify the superiority of the method from three metrics of fitness, precision and F1 score.
Key words:trace clustering; process mining; behavior relation; time; multi-perspective
0 引言
過程挖掘(process mining,PM)是一種業務流程管理技術,旨在通過從當今信息系統中可用的存儲數據(例如事件日志)中提取知識來發現、分析、檢查和改進這些流程[1]。過程挖掘的基礎是事件日志,由流程感知信息系統、工業機器或傳感器記錄。事件日志反映員工或機器執行的活動,允許分析活動之間的關系。此外,事件日志中包含屬于不同流程實例的事件。每個事件都由多個屬性描述,例如時間戳和標簽,用于捕獲已執行流程中的活動[2]狀態信息。
流程發現(process discovery,PD)是過程挖掘的三大功能之一,它的主要目標是從事件日志中重建流程模型[3]。目前過程發現的主要挑戰是如何找到一個與記錄的觀測結果精確匹配的模型,同時也是人類可以解釋的模型。現實世界中的許多業務流程通常在高度靈活的環境中執行,例如醫療保健或產品開發[4]。這種高度靈活配置的環境可以誘發密集分布的、具有多種復雜行為的流程實例。當不同的場景分組到一個流程中時,流程發現通常會生成一個類似意大利面條的模型,即難以閱讀和理解的高度復雜的模型[5]。此外,PD目前很難全面考慮其他流程透視圖(如數據屬性)上的行為,而這些被忽略的屬性往往是流程分析師感興趣的。例如,在醫院,相似的入院流程可能適用于急診和非急診患者,雖然這兩類患者的活動順序可能相似,但潛在的過程可能在資源分配或活動持續時間方面有所不同[6]。
跡聚類試圖通過將觀察到的不同行為拆分為若干組具有相似行為的多個子日志[7]。針對每個同類的子日志,再分別應用現有的流程發現算法,能發現更準確、更具解釋性的流程模型。常用的跡聚類方法和技術通常僅使用活動屬性,例如用于聚類的活動實例,而忽略活動或流程案例的數據屬性。然而,在柔性配置的業務流程系統中,存儲在事件日志中的附加數據屬性可能對流程挖掘的質量起到非常重要的影響作用,如數據的依賴關系在流程建模中發揮著重要作用:首先,擁有活動和數據的集成視圖有助于與利益相關者就流程及其數據操作進行溝通;此外,由于模型包含復雜的數據依賴關系,通過模型產生的案例差異也由數據之間的依賴關系綜合構成[8]。研究表明,僅依靠控制流的方法無法充分識別不同的過程行為,控制和數據流的集成視圖有助于分析流程的一致性和正確性[9]。因此,包含不同的流程視角并提供準確的流程模型是過程挖掘研究中的一項挑戰,多視角下的跡聚類方法能夠降低挖掘過程模型的復雜性,提高跡子集的同質性[10]。因此,本文從活動行為關系和時間屬性的兩個維度綜合考慮流程的多個視角,而不是單獨考慮聚類的單個視角[11]。
本文提出了一種新的聚類方法,同時考慮兩個活動的兩個視角維度,即活動之間的行為關系、活動執行的持續時間。其基本思想是,不同的流程行為通常取決于流程實例的活動上下文,例如,活動的持續時間。這些差異投影在控制流上可能很小,但投影在數據透視圖上則可能很大。在將流程日志構造為同質集群時,為了識別過程跡的簇并最大化簇的同質性,對不同的視角定義了相應的相似性度量,最后通過加權串聯的方式合并不同視角下的相似度。本文工作的最大創新之處在于,結合了活動的時間視角,通過獲取各個活動的最近關聯活動,并且計算它們之間的持續時間,以發現案例屬性之間的時間差異,并將其用于聚類。
1 動機案例
表1展示了患者在醫院的治療程序,其中,活動標識符對應的含義為:A(會診)、B(收取費用)、C(征取家屬意見)、D(體檢)、E(手術治療)、F(特殊治療)、G(門診治療)和H(出院)。日志包含與醫院患者相關的診斷和治療活動的信息,每一行代表一個案例,即一位患者的治療流程。每個案例由多個事件組成。事件由以下屬性表示:活動標識符和數據屬性持續時間。
從表1中可以看出,案例2和4的發生的活動類別相同,活動的順序相似。僅有活動B的發生順序存在差異,在案例2中B是在E之前執行,而在案例4中B是在E之后執行的。如果使用活動包編碼[4]比較這兩個案例,則案例2和4的相似度為1,很難把它們區分出來。但是,通過觀察它們包含的活動
持續時間可以看出,案例4活動的持續時間相比案例2的要短很多,并且它們的總體持續時間相差69 min。從時間結合活動的角度,可以看出案例2是常規病人,而案例4對應的流程是急診病人。
因此,為了在這樣一個靈活的環境中識別跡子集中的模式,更加全面地度量跡相似性,僅考慮活動包視角是不夠的。僅僅使用活動信息來定義案例的相似性,就會遺漏諸多數據屬性等方面的有價值信息,譬如在表1中將案例2和4被錯誤地定義為高度相似。而相似性是跡聚類方法的核心操作,因此相似性將從本質上影響最終的聚類。
受本案例啟發,本文在同時考慮活動和時間視角的情況下,為每個視角都定義相應的相似性度量,然后根據跡的頻率信息進行加權集成兩個視角的相似性,以實現有效區分案例之間的差異并確保跡的同質子集聚類。
2 相關工作
聚類用于將流程日志結構化為跡聚類,這有助于減少異構性并提高可理解性。這可以區分為降低挖掘模型的復雜性[12]和分解結果模型[13]。文獻[14]提出跡聚類的一般框架,對跡聚類進行了先進的分析。本文通過聚類方式的不同把現有的跡聚類方法分為基于距離的聚類和基于模型的聚類。
a)基于距離的跡聚類方法。此類方法通常把跡轉換為空間向量,然后使用一些常見的距離度量方式(如:歐氏距離、編輯距離等)來計算跡之間的相似性。Greco等人[15]首次在流程挖掘領域提出跡聚類執行方法,使用向量空間模型,在考慮活動和轉換的情況下表示跡的子集;文獻[4]介紹了跡聚類的擴展方法和通用方法,通過引入了一組配置文件,每個配置文件處理日志的特定透視圖,這些配置文件作為跡相似性的度量基礎,其中對于跡的表示僅考慮活動的類別而忽略了活動之間的行為關系;文獻[12]使用跡的原編碼,通過評估標準字符串距離度量,如Levenshtein編輯距離,計算跡的相似性,然而,如果跡中包含多次循環的序列,使用編輯距離會產生比較大的誤差;與傳統使用向量空間跡表示的方式不同,文獻[16]提出了基于保守模式的多個特征集,并驗證了所提出的特征集比傳統主流距離度量方法具有更好的性能。文獻[10]通過定義一個結合了有關已執行活動和執行資源的信息的距離度量,它雖然提供了跡之間多視角相似性的集成定義,但是對屬性的編碼使用的是傳統的活動包方式,難以反映活動和資源之間的依賴關系。
b)基于模型的跡聚類方法。此類方法將聚類偏差和模型偏差結合到一個綜合視圖中,通過最小化模型偏差來調整聚類。文獻[17]通過直接優化底層流程模型的適用性,以產生跡聚類準確的結果,它從目前可用的技術遭受聚類偏差和評估偏差之間的巨大差異的觀察開始,通過采用一種主動學習的方法,解決了這種偏差分歧;文獻[18]提出了一種新的聚類方法,該方法在案例屬性上使用頻繁項集挖掘來揭示數據透視圖上的關系。這些方法包括一些額外的領域知識,優化每個聚類的底層流程模型的適用性,以確保生成比較準確的聚類結果;文獻[19]以模型發現的結果為指導,首先優化結果模型的平均復雜性,進而再單獨提高每個聚類子模型的準確性。雖然基于模型的方法有利于生成準確的流程模型,但它們忽略了其他流程視角。
據筆者所知,現有研究僅僅依賴于控制流視角,而忽略了數據流屬性,如時間或資源信息,包含不同的過程視角并提供準確的過程模型是一項挑戰。本文提出的一種基于事件日志中頻繁出現的結構模式對事件跡進行聚類的方法,將相應的事件日志劃分為不同的日志子集,其中同一子集中的事件跡很可能屬于同一場景。一旦將事件日志劃分為不同的集群,就可以在集群上應用流程發現技術,以獲得不同場景的流程模型。為了降低跡聚類的復雜性,需要設計算法用以高效識別相似的日志案例。算法的設計思路可能有很多,但是最簡單的一種無疑是在跡的構建向量中添加一些額外信息,這樣勢必能夠獲得更快速獲取高適合度、高精度標準的過程模型。
3 基本定義和記號
定義1 事件。設ε為事件空間的所有事件標識符的集合,事件包含一些屬性activity、timestamp等。對于一個事件e∈ε,#act(e)表示與事件e相關的活動,#time(e)表示事件e發生時的時間戳。
定義2 事件跡、日志。一條跡σ∈ε是事件的有限序列〈e1,e2,…,en〉,在跡中,每個事件只出現一次,時間不會減少,即#time(ei)lt;#time(ej),1≤ilt;j≤n。設C是所有可能的跡的集合。事件日志是一組跡LC。
定義3 日志的行為輪廓[20]。設Ω為日志L中的活動集合,活動對(x,y),x,y∈Ω最多存在下面兩種關系的一種:
這兩種關系的集合BPL={→L,‖L}稱為日志中的行為輪廓。
定義4 Petri網[21]。設N=(P,T,F)為一個Petri網系統,其中:P、T分別為一個有限的庫所和變遷集合;P∩T=;F(P×T)∪(T×P)是流關系。
4 基于跡的控制流與時間屬性的跡聚類方法
本章對提出的多視角下的跡聚類方法(multi perspective trace clustering method,MPTC)框架進行詳細描述,方法基本框架如圖1所示。MPTC方法以事件日志作為輸入,其中日志包含關于特定流程已執行案例的特定信息。首先,結合流程實例的屬性對事件日志分別從兩個角度構建空間向量模型:控制流和時間屬性;其次,從控制流和時間屬性兩個角度,分別構建每個角度下的相似性度量方法,加權聚合后得到加權聚合相似性矩陣;然后,對得到的加權聚合相似性矩陣使用k中心聚類來劃分日志;最后,根據屬于同一個變體的跡在各個簇中所占的比例對由k中心聚類的聚類結果進行調整,得到最終的聚類結果。
由于一組跡的聚類主要取決于跡之間的相似性度量,所以對于每個視角,正確設計一種方法來確定跡的相似性是至關重要的。接下來,將對案例在控制流和時間屬性角度的向量空間的構造及其對應的相似性度量進行具體介紹。
4.1 跡的控制流向量構建方法
控制流保留了跡中各個活動之間執行的關系。因此,在定義兩個跡之間的相似性時,由控制流視角來判斷跡的相似性是非常有意義的。本文使用基于活動的后繼關系,并且考慮了活動之間的并發關系來構建控制流編碼。由于在真實日志中可能會有異常跡的出現,本文通過式(1)來發現活動之間的并發關系。給定一個閾值θ,如果a‖b,其中a,b∈Ω,當且僅
通過一個案例來介紹帶有并發活動的控制流編碼。表2給出了由人工模型生成的一部分日志案例。
根據定義3,可以計算得到該日志中的并發活動為:b‖d,c‖d。根據后繼關系對σ20進行編碼,因為c‖d,將這兩種序列關系視為等價關系,即c→dd→c,其中“”表示等價關系。因此,對于跡σ20的控制流編碼如表3所示。
對于控制流視角,本文認為兩個跡之間具有相同行為的數量越多它們越相似,所以本文使用余弦相似度來計算跡在控制流視角的相似度。控制流編碼的相似度計算公式如式(2)所示。
其中:vectork(σi)表示σi的控制流編碼中的第k個位置的數值。該公式的返回結果值的區間為[0,1]。當結果為0時,表示它們沒有相同的行為;當它們具有相同類別的行為時,結果為1。
4.2 跡的時間維度向量構建方法
本文從兩個活動之間的持續時間的角度出發,用于構建流程實例的相似性評價方法。然而,大部分日志都只記錄了活動的開始時間或者結束時間,所以本文工作將通過找出當前活動執行的最近關聯活動來計算活動之間的持續時間,以此明確活動上下文的關聯時間屬性。
定義5 活動前綴。對a∈activity,活動a在σ∈L中的前綴表示為:Pre(a,σ)={#act(ei)|#act(ei)=a∧jlt;i∧#act(ej)≠a}活動a在日志L上的活動前綴集合為PreSet(a)={Pre(a,σ)|σ∈L}。
然而,包含在活動前綴集合中的活動,并不一定是關聯活動。因此,MPTC方法通過式(3)的置信度計算公式來篩選出各個活動的關聯活動,其中AσC表示存在σ∈L,并且在σ中
本文使用基于k中心的聚類方法,首先根據用戶想要劃分的簇的個數,來初始化簇中心;然后根據加權聚合相似性矩陣來把跡劃分到與其相似性最高的簇中心所在的簇中。分類好之后更新簇中心,重新計算每個跡與簇中心點的聚類并選擇相似性最高的歸類,重復該過程,直到中心點不再變化。最終得到使用k中心方法產生的聚類結果clusters。
然而,與傳統方法不同的是,本文提出的MPTC方法是根據跡的控制流和時間屬性的加權聚合相似性值來比較跡之間的差異。在真實事件日志中,雖然屬于同一個變體的跡的活動序列相同,即它們的控制流編碼相同,但是它們的時間屬性不一樣。因此,即使同屬于一個變體的跡,也可能因為時間上的差異而被劃分到其他簇中。所以本文對聚類之后的集群調整的依據是:屬于一個變體的跡所占頻率最高的簇,代表著其主要的時間分布。使用算法2來闡述聚類調整的過程。第6~10行找出屬于當前變體的跡所屬頻率最高的簇。第11~14行把屬于當前變體的跡都并入到頻率最高的簇中,并且從其他簇中移除屬于當前變體的跡。第15和16行把調整后的簇都并入到adclusters中并返回。
算法2 根據變體頻率調整聚類結果
輸入:日志變體,k中心聚類結果clusters。
輸出:調整后的聚類結果adclusters。
1 adclusters←{}
2 for each ∈ do
3 tv←{σ|σ∈L∧variant(σ)=} // 屬于同一個變體的跡
4 freq←0 // 初始化簇中包含屬于該變體的跡的數量
5 maxclu←1 // 保存屬于該變體的跡所占比例最大的簇
6 for each subclu∈clusters do
7 count←|{σi|σi∈tv∧σi∈subclu}| /* 計算簇中屬于該變體的跡的數量 */
8 if countgt;fre then
9 fre←count
10 max clu←subclu
11 for each subclu∈clusters do
12 if subclu!=maxclu then
13 sub←subclu \{σ|σ∈tv} /* 從簇中剔除屬于該變體的跡 */
14 else subclu←subclu∪{σ|σ∈tv∧σsubclu}
15 for each subclu∈clusters do
16 adclusters←adclusters∪subclu
17 return adclusters
通過一個案例來解釋算法2所描述的過程,表4給出了包含五條跡的事件日志,每個活動都對應一個開始時間。
首先構造控制流編碼,該日志中活動C與D存在并發關系,因為該日志包含兩個變體,即1=〈A,B,C,D,E,F,H〉,2=〈A,B,D,C,E,G,H〉,所以通過使用式(2)計算其控制流視角相似性為simcontrol(1,2)=1/3。其次,通過使用算法1獲取各個活動的最近關聯時間對,其中minconf設置為0.9,該日志的最近關聯活動對與時間向量如表5所示。圖2上三角(深灰色)計算了五條跡在時間視角上的相似性,其中式(5)中的δ=0.1。下三角部分(淺灰色)是對兩個視角進行加權聚合得到的相似性值sim,其中控制流視角的權重為0.4,時間視角的權重為0.6。通過使用k中心聚類把該日志劃分為兩個簇分別為C1={T1,T3}C2={T2,T4,T5},然而,雖然T4與T1、T3同屬一個變體,但其活動的持續時間分布與T1,T3差異較大,因此,本文根據屬于一個變體的跡所占頻率最高的簇,代表著其主要的時間分布,把T4調整到C1中,得到最終的聚類結果C1={T1,T3,T4}C2={T2,T5}。
5 仿真實驗與分析
在本章中,通過一組仿真實驗來驗證所提MPTC方法的可行性和有效性。為了驗證本文方法的可行性,把MPTC方法應用在登錄系統產生的人工日志上。為了驗證本文方法的有效性,首先,使用五個真實事件日志來評估生成的集群的質量,這些評估的方法使用基于流程挖掘相關的度量標準;其次,本文將MPTC方法與其他三種跡聚類方法進行了比較。
5.1 MPTC方法可行性驗證
這組實驗旨在檢驗所提出的方法在登錄系統中發現過程場景的有效性。本文首先使用Petri網建模語言仿真實現了某軟件的登錄系統流程。其次,使用PLG工具對該流程產生包含5 000條跡的人工日志。然后,應用MPTC方法將事件日志劃分為三個集群,并使用歸納挖掘算法從事件日志的每個子集中發現流程模型。
圖2展示了登錄系統Petri網流程圖,表6描述了登錄系統流程中各個變遷的含義。圖3包含了多個不同行為的子流程,看起來較為復雜,不利于流程分析師發現其中的問題并優化。圖4~6顯示了使用MPTC方法分解后的子流程。其中,圖4顯示了已有賬號信息的用戶登錄的流程,該類型用戶只需輸入對應賬號密碼即可登錄,因此流程較為簡單。圖5描述了新用戶的登錄流程,對于新用戶為了使用該軟件的所有功能,必須經過嚴格的信息驗證。圖6顯示了游客登錄的流程,對于游客用戶該軟件為其分配臨時賬號用于登錄,因為該類型用戶沒有經過身份驗證,只能使用部分功能。通過該仿真實驗說明MPTC方法能夠把日志劃分為若干同質性子集,證明該方法的可行性。
5.2 MPTC方法有效性驗證
將本文提出的跡聚類方法MPTC應用于真實事件日志。在表7中,描述了所用事件日志的一些基本統計信息,這些日志來自不同的環境,以顯示本文方法在各種場景中的適用性,所有事件日志都是公開可用的(https://data.4tu.nl)。為了評估所形成集群的重要性,可以比較從每個集群內的跡中發現的過程模型。
因為實驗使用的是不知道其實際行為的真實事件日志,所以本文重點評估以下度量:發現的過程模型具有很高的適應性和精度。適應度衡量模型在多大程度上可以再現日志中包含的過程行為,而精度衡量模型在日志中可能出現行為的程度。適應度值和精度值越高,過程模型的質量越好。本文使用Pm4py庫來計算適應度值和精度值。為了考慮到聚類之間的大小差異,選擇根據每個聚類中的跡的數量對單個簇的適應度和精度進行加權。加權平均適應度和加權平均精度的公式[23]如下:
其中:fitnessk、precisionk分別表示第k個簇的適應度和精度;nk表示第k個簇包含的跡的數量;N表示簇的個數。
適應度和精度是過程模型的兩個方面,可能并不總是一致的。為了尋找在適應度和精度之間進行良好權衡的簡單流程模型,本文使用F1分數(式(9))來評估過程模型的整體性能。
首先通過在五個真實數據集上來驗證增加了案例的時間屬性是否可以提高聚類效果。在實驗中,保證每個日志的集群個數都在相同的標準下進行的。對五個真實日志的集群數量設置如下:BPI20(4)、BPI13clo(3)、BPI13op(3)、Review(4)和Sepsis(4)。針對聚類的結果,首先對每個子日志應用啟發式挖掘,然后借助Pm4py工具來計算適應度、精度和F1分數。圖7顯示了在五個真實數據集上,比較了在僅由控制流的情況下和既考慮控制流又考慮時間屬性的情況下的適應度、精度和F1分數評估結果。
從圖7中可以看出,對于適應度和精度,在大部分情況下,結合了控制流和時間屬性的聚類結果要優于僅使用控制流的情況。而對于F1分數度量結果,則考慮了時間屬性的情況一直高于僅使用控制流的情況。其次,表8中記錄了在F1分數度量的情況下,使用多視角(CT)比僅使用控制流(C)的情況下的提升效果。因此,增加了時間信息的跡表示方式產生的聚類結果,能夠獲得更準確地反映模型適合度和精度標準的過程模型。
其次,本文還與相關工作中文獻所提到的跡聚類方法進行了比較,主要進行對比分析的研究工作包含活動包編碼(BOA)[4]、跡的原編碼且距離度量使用Levenshtein距離(Lev)和基于模型的跡聚類方法(Acti)[17]。在該實驗中,對于四種跡聚類方法在五個真實日志下的產生的集群數量,都在同一標準下,并且聚類結果都在多次調整后選出的最優結果進行的比較。跡聚類方法的對比結果如圖8所示,在適應度度量下,本文方法在大部分日志下都優于其他方法。在精度度量下,本文方法僅在Review和BPIC13op日志下處于最優,其中在Sepsis日志下的表現的效果不太理想,這可能因為該日志的變體數量在整個案例數量上占比較大,活動之間的時間分布較為離散。然而,從綜合度量F1分數指標下顯示,對于大部分日志本文方法優于其他三種跡聚類方法。
6 結束語
本文提出了一種融合活動行為關系和時間屬性的多視角跡聚類方法MPTC,該方法可以產生更同質的事件日志聚類。MPTC方法首先把跡分別從控制流的角度和時間屬性的角度進行表示,其次對控制流和時間屬性編碼定義了不同的相似性度量標準,并且使用加權聚合的方式集成兩個視角的相似性,確保更加準確地描述跡之間的差異。在聚類結果上,使用基于變體頻率的調整方式,進一步提高了聚類的效果。最后,在五個真實事件日志進行的實驗評估表明,在比較跡之間的相似性差異時,通過引入時間屬性可以提高生成的跡集群的適應度、精度和F1分數,除此之外,在過程模型質量評估標準下與已有研究的三種跡聚類方法相比具有一定的優勢。不過本文僅考慮了時間屬性,沒有考慮跡的資源等屬性,今后還可以添加跡的資源屬性作進一步的改進。此外,跡的序列編碼和時間屬性的聚合加權值都是人工調節的,通過考慮聚類后的模型偏差來自適應地調節數據屬性的權重也是未來的研究方向之一。
參考文獻:
[1]Saylam R,Sahingoz O K. Process mining in business process management: concepts and challenges [C]// Proc of International Confe-rence on Electronics,Computer and Computation. Piscataway,NJ: IEEE Press,2013: 131-134.
[2]Ko J,Comuzzi M. Detecting anomalies in business process event logs using statistical leverage [J]. Information Sciences,2021,549(3): 53-67.
[3]Van Der Aalst W. Process mining: data science in action [M]. Berlin: Springer,2016.
[4]Song M,Günther C W,Van Der Aalst W M P. Trace clustering in process mining [C]//Proc of International Conference on Business Process Management. Berlin: Springer,2008: 109-120.
[5]Medeiros A K A,Guzzo A,Greco G,et al. Process mining based on clustering: a quest for precision [C]//Proc of International Confe-rence on Business Process Management.Berlin:Springer,2007:17-29.
[6]Lu Xixi,Tabatabaei S A,Hoogendoorn M,et al. Trace clustering on very large event data in healthcare using frequent sequence patterns [C]// Proc of International Conference on Business Process Management. Cham: Springer,2019: 198-215.
[7]Reijers H A,Mendling J,Dijkman R M. Human and automatic modularizations of process models to enhance their comprehension [J]. Information Systems,2011,36(5): 881-897.
[8]Amiri M J,Koupaee M. Data-driven business process similarity [J]. IET Software,2017,11(6): 309-318.
[9]Thaler T,Ternis S F,Fettke P,et al. A comparative analysis of process instance cluster techniques [J].Proceedings Der 12:Internationalen Tagung Wirtschaftsinformatik,2015,29(8):423-437.
[10]Jablonski S,Rglinger M,Schnig S,et al. Multi-perspective clustering of process execution traces [J]. Enterprise Modelling and Information Systems Architectures,2019,14(2): 1-22.
[11]Baumann M H,Baumann M,Schnig S,et al. Towards multi-perspective process model similarity matching [C]// Proc of Enterprise and Organizational Modeling and Simulation Workshop.Berlin:Sprin-ger,2014:21-37.
[12]Bose R P J C,Van Der Aalst W M P. Context aware trace clustering: towards improving process mining results [C]// Proc of SIAM International Conference on Data Mining.2009:401-412.
[13]Ekanayake C C,Dumas M,García-Bauelos L,et al. Slice,mine and dice:complexity-aware automated discovery of business process models [M]//Business Process Management.Berlin:Springer,2013:49-64.
[14]Zandkarimi F,Rehse J R,Soudmand P,et al. A generic framework for trace clustering in process mining[C]//Proc of the 2nd International Conference on Process Mining.Piscataway,NJ:IEEE Press,2020:177-184.
[15]Greco G,Guzzo A,Pontieri L,et al. Discovering expressive process models by clustering log traces [J]. IEEE Trans on Knowledge and Data Engineering,2006,18(8): 1010-1027.
[16]Bose R P,Van Der Aalst W M P. Trace clustering based on conserved patterns: towards achieving better process models [C]// Proc of International Conference on Business Process Management. Berlin: Springer,2009: 170-181.
[17]De Weerdt J,Vanden B S,Vanthienen J,et al. Active trace clustering for improved process discovery [J]. IEEE Trans on Knowledge and Data Engineering,2013,25(12): 2708-2720.
[18]Seeliger A,Nolle T,Myuhlhuser M. Finding structure in the unstructured: hybrid feature set clustering for process discovery [C]// Proc of International Conference on Business Process Management.Cham:Springer,2018:288-304.
[19]Sun Yaguang,Bauer B,Weidlich M. Compound trace clustering to generate accurate and simple sub-process models [C]// Proc of International Conference on Service-Oriented Computing.Cham:Sprin-ger,2017:175-190.
[20]方歡,孫書亞,方賢文. 基于不完備日志聯合發生關系的行為變化挖掘方法 [J]. 計算機集成制造系統,2020,26(7): 1887-1895. (Fang Huan,Sun Shuya,Fang Xianwen. Behavior change mining methods based on incomplete log conjoint occurrence relation [J]. Computer Integrated Manufacturing System,2020,26(7): 1887-1895.)
[21]李東月,方歡. 基于活動發生關系的流程相似性度量方法 [J]. 控制理論與應用,2020,37(9): 2011-2019. (Li Dongyue,Fang Huan. An approach of process similarity measurement based on activity occurrence relation [J]. Control Theory and Applications,2020,37(9): 2011-2019.)
[22]鄭婷婷,陳潔璇,許洋,等. 業務流程中一種個性化的任務完成時間預測方法 [J]. 計算機集成制造系統,2019,25(4): 993-1000. (Zheng Tingting,Chen Jiexuan,Xu Yang,et al. Approach for indivi-dual task completion time prediction in business processes[J].Computer Integrated Manufacturing System,2019,25(4):993-1000.)
[23]De Koninck P,De Weerdt J. Scalable mixed-paradigm trace clustering using super-instances [C]// Proc of International Conference on Process Mining. Piscataway,NJ: IEEE Press,2019: 17-24.
收稿日期:2022-07-07;修回日期:2022-08-31 基金項目:國家自然科學基金資助項目(61902002)
作者簡介:張順(1997-),男,安徽亳州人,碩士研究生,主要研究方向為過程挖掘;方歡(1982-),女(通信作者),安徽池州人,教授,碩導,博士研究生,主要研究方向為Petri網理論與應用、智能控制等(fanghuan0307@163.com).