






















摘 要:隨著機器學習模型的廣泛應用,研究者們逐漸認識到這類方法的局限之處。這些模型大多數為黑盒模型,導致其可解釋性較差。為了解決這一問題,以集成學習模型為基礎,提出了一種基于規則的可解釋模型以及規則約簡方法,包括生成優化的隨機森林模型、冗余規則的發現和約簡等步驟。首先,提出了一種隨機森林模型的評價方法,并基于強化學習的思想對隨機森林模型的關鍵參數進行了優化,得到了更具可解釋性的隨機森林模型。其次,對隨機森林模型中提取的規則集進行了冗余消除,得到了更加精簡的規則集。在公開數據集上的實驗結果表明,生成的規則集在預測準確率和可解釋性方面均表現優秀。
關鍵詞:可解釋模型; 規則學習; 集成學習; 規則約簡
中圖分類號:TP391 文獻標志碼:A
文章編號:1001-3695(2024)06-020-1743-06
doi:10.19734/j.issn.1001-3695.2023.10.0523
Research on ensemble learning model for simplified rules and rule reduction strategy
Abstract:With the widespread application of machine learning models, researchers have gradually recognized the limitations of such methods. Most of these models are black-box models, resulting in poor interpretability. To address this issue, this paper proposed a rule-based interpretable model and rule reduction method based on ensemble learning models, which included generating optimized random forest models, discovering and reducing redundant rules, and other steps. Firstly, this paper proposed an evaluation method for random forest models, and optimized the key parameters of random forest models based on the idea of reinforcement learning, resulting in a more interpretable random forest model. Secondly, the rule sets extracted from the random forest model were subjected to redundancy elimination, resulting in a more concise rule set. Experimental results on public datasets show that the generated rule sets perform well in terms of prediction accuracy and interpretability.
Key words:interpretable model; rule learning; ensemble learning; rule reduction
0 引言
隨著機器學習方法、人工智能技術的廣泛應用,這類方法的良好性能得到了更多的關注。然而,絕大多數機器學習方法與人工智能技術構建的模型都是人類難以理解的黑盒模型,在一些對穩定性、安全性要求較高的領域中,專家們往往更看重模型決策的邏輯,從而避免模型給出的解決方案帶來的負面影響。因此,研究可解釋的模型是一種可行的嘗試。值得注意的是,可解釋性模型的建立不僅僅是學術與工程上的要求,在未來很可能演變為法律中應承擔的責任[1]。
黑盒模型雖然解釋性弱,但其預測性能往往較好,因此以黑盒模型為對象,以模仿的形式從中學習知識是一種不錯的選擇。圖1展示了從黑盒模型中獲取知識的通用流程,以模仿學習的方法從黑盒模型中構建一種可解釋的模型,再從中生成知識。其中,模仿學習使用的主要是黑盒模型與原始數據交互生成的數據。
在可解釋的模型中,基于規則的模型代替人類較難理解的模型和方法[2,3],可以做到決策準確性和可解釋性的平衡。所謂規則,即有限定條件、有結論的一種易于理解的知識。在分類問題的場景下,集成學習模型綜合了多個單一模型的預測結果,具有良好的預測性能。因此,以集成學習模型作為模仿學習的生成對象,從中進一步提取規則是一種可行的思路。
if-then規則的形式化表示如下:
其中:r為規則;F為規則中包含的特征的集合;fi∈F;ai、bi分別表示規則中第i個特征的上下界;ar表示此規則采取的動作。
為了與規則緊密聯系起來,本文主要以隨機森林模型這一集成學習模型的經典范例為示例,引入規則生成及約簡的方法。注意到基于樹結構的模型天然具有一定的可解釋性,可以根據根節點至葉節點的路徑導出if-then形式的規則。而隨機森林模型可以看作多個樹模型的集成,從中可以提取大量規則,便于后續對規則的進一步處理。
圖2展示了一個決策樹模型的形態,從根節點出發,依次擴展到各個葉節點,可以生成如下幾條規則:
a)if featureA>valueA, then actionA.
b)if featureA≤valueA and featureB<valueB, then actionB.
文獻[4]提出了一種模仿學習的方法,以決策樹模型擬合黑盒模型的決策過程,再從決策樹模型中提取規則。從決策樹模型到規則的轉換,可以將決策過程直觀地展示出來,這是一種可解釋性較強的方法。文獻[5]在文獻[4]的基礎上,以隨機森林模型替換了決策樹模型,可以生成更多的規則,準確率較高。
文獻[4,5]的方法雖然獲得了一定的知識,但這類方法生成的規則集仍有進一步優化的空間。首先,當數據集規模很大時,得到的規則數量巨大,后續對規則的處理較為棘手。如果能在維持較好預測準確率的情況下,建立一種決策樹數量更少、決策樹深度更低的隨機森林模型,則從中提取的規則數量也將大大減少。
其次,規則集的處理是本文研究的另一個核心問題。從隨機森林模型中導出的規則集會包含較多規則,其中必然有冗余的規則,而每條規則也可能有冗余的約束,消除這些冗余對于規則集的可解釋性較為重要。近年來在規則學習的研究中,已有一些文獻開始對規則的簡化進行探索,但對于規則之間的關聯有所忽略,利用規則之間的相似性對規則集進行約簡是較為新穎的一種思路。
綜上,本文在隨機森林模型擬合黑盒模型效果較好的基礎上,對隨機森林模型的生成進行優化,使之更具可解釋性。同時,本文對規則的約簡進行了研究,提出了更徹底的規則約簡算法,實現了基于規則的可解釋模型在預測性能與可解釋性兩方面的均衡。本文方法的整體流程如圖3所示。
1 基于隨機森林模型的規則學習
隨機森林模型可以看作決策樹模型的集成,其保真性有了較大的提高。但基于隨機森林模型擬合黑盒模型后,導出的規則數量較多,需要采取一些方法對規則進行處理,本章介紹的幾種方法都是基于隨機森林模型的規則約簡方法,均取得了較好的結果。
Adnan等人[6]提出了一種簡潔的規則約簡方法,從規則與訓練數據的交互入手,給出了規則的準確度、覆蓋度和長度等幾個重要定義。
定義1 規則的長度:設F為每條規則中包含的特征的集合,F中包含特征的數量稱為規則的長度。
定義2 規則的覆蓋度:表示規則可以匹配的數據實例在數據集中的比例。設數據實例的總數為N,一條規則可以匹配的數據實例個數為Nrule,則覆蓋度Cov可以用式(2)表示。
Cov=Nrule/N(2)
定義3 規則的預測準確率:指規則在預測測試數據集時產生的正確預測的比例。設一條規則可以匹配的數據實例個數為Nrule,其中預測正確的數據實例個數為Ncorrect,則預測準確率Acc可以用式(3)表示。
Accuracy=Ncorrect/Nrule(3)
文獻[6]指出,在規則集中,若規則的準確度、覆蓋度小于所有規則的平均值,或長度大于所有規則的平均值,則規則顯然是低質量的,這部分規則可以約簡。
Mashayekhi等人[7]首先引用了一種被證明較為合理的規則得分公式,其針對的是if-then形式的規則。其次,在原始的規則集中,使用了基于爬山法的搜索策略,對規則進行約簡,而確定規則在規則集中的位置是該規則得分公式給出的排名。這種方法實質上是將規則集看作一個整體進行化簡,當新加入規則可以提高規則集的預測效率時,會將該規則保留,否則仍然維持原狀。
Dong等人[8]也以隨機森林模型生成的規則為基礎,提出了一種兩階段的規則提取算法。兩階段分為對規則的局部處理和全局處理,局部處理主要指對單條規則的化簡,而全局處理則是把所有規則作為一個整體進行約簡。
在局部化簡中,文獻[8]使用了一種啟發式的方法,不斷嘗試將規則中的特征約束消除,通過判斷消除約束后的規則是否優于原規則來決定是否保留化簡后的規則。這里評估規則質量時使用的是文獻[7]涉及的規則得分公式。對于全局約簡問題,類似于文獻[7]的思路,將其抽象為搜索問題,使用了基于遺傳算法的搜索策略,進一步提取規則,簡化結果規則集。
Qiu等人[9]基于基于深度神經網絡的Q學習(deep neural network-based Q-learning,DQN)模型提出了一種規則提取的方法。在該方法中,提取規則的過程較為簡單,其中輸入向量的每一維數據依次轉換為式(1)中對應特征feature的取值,而輸出即為式(1)中的動作action。該文獻將初始提取得到的規則作為實例規則,經過規則泛化、合并及修正等步驟,獲得最終的結果規則集。
上述幾種方法涉及規則的評價、規則的全局與局部化簡,雖然都對規則進行了一定程度的約簡,但沒有考慮生成規則的隨機森林模型的可解釋性,導致初始規則集的規模較大,且將規則的全局簡化簡單地抽象為搜索問題,對大量規則進行處理時效率較低。本文以這幾種方法為基礎,提出了一種基于規則約簡的隨機森林模型的生成策略,并對規則的約簡方法進行了優化,生成兼具預測準確率與可解釋性的規則集模型。
2 面向規則約簡的隨機森林模型
本章方法的目標是獲取一種面向規則約簡的隨機森林模型,模型的輸入是黑盒模型與環境進行交互得到的原始數據,由(狀態,動作)構成的數據集。顯然,這類數據集適用于訓練分類模型,其中狀態可以表示為特征向量,動作可以表示為分類的標簽。
基于這樣的訓練數據,現有的方法大多直接訓練一個經典的隨機森林模型。經典的隨機森林模型為了保證較高的預測準確率,會導致隨機森林中決策樹的數量較多,決策樹的深度也較大,從中導出的規則數量很多,后續對規則的處理是較為繁瑣的。因此,本階段方法的目標是訓練一個在預測性能與可解釋性兩方面較為均衡的隨機森林模型——面向規則約簡的隨機森林(random forest for Fules reduction,RR-RF)模型。綜合上述分析,對RR-RF模型的生成問題作如下定義:設目標為生成一個面向規則約簡的隨機森林模型,要求此模型滿足式(4)。
其中:s表示隨機森林模型的預測準確率;n表示隨機森林模型中決策樹的數量;d表示所有決策樹的平均深度;max()表示最大值函數;min()表示最小值函數。
2.1 RR-RF模型的評價方法
對于經典的隨機森林模型,一般根據其對測試集的準確率等機器學習模型的指標進行評價。但本文研究RR-RF模型的最終目的是獲得規則,準確率不是最重要的目標。因此本節從對規則的評價入手,設計了以下方法對隨機森林模型進行評價。
當前一些研究提出的對于規則的評價公式是有效的,但從隨機森林模型中提取規則,再對規則進行測試的效率較低。為了解決這一問題,本階段方法提出這樣一種思路:將對規則的評價轉換為對隨機森林模型的評價,以便在訓練RR-RF模型時可以實時地進行評價。
文獻[7]中提出的規則得分公式可以對規則進行合理的評價,本階段方法選擇對此公式進行改造,將其轉換為對隨機森林模型的評價公式。式(5)給出了文獻[7]中提出的規則得分公式。
其中:sr表示規則r的得分;Nc表示訓練集中該規則預測正確的樣本數;Ni表示訓練集中該規則預測錯誤的樣本數;l表示規則的長度;a是一個大于0的常數,避免出現Ni為0的情況。這一公式的前兩項主要是對規則的預測能力進行評價,使那些準確率較高的規則具有優勢。而第三項引入規則長度為分母,對過長的規則進行了限制,使得簡短的規則具有更高的得分。
考慮將式(5)轉換為與隨機森林模型相關的表達式,在得到一個隨機森林模型后可對其進行評價,間接地對即將生成的規則進行評價。觀察到式(5)中的Nc、Ni與隨機森林訓練過程中葉節點的基尼系數gini(用于判斷一個節點中數據分類后的純度)、葉節點包含的樣本數量samples是相關的,因此將式(5)改造為與gini、samples相關的得分。首先,令
samples=s,gini=g,Nc=x,Ni=y
對于式(5),其第一項分母可以寫為x+y,而x、y的和即葉節點包含的樣本個數,此關系可以用式(6)表示。
x+y=s(6)
對于基尼系數g,當數據集中特征均為數值型時,可以簡化為二分類的情況。在二分類的場景下,容易得到基尼系數的計算公式,即式(7)。
g=1-[a/(a+b)]2-[b/(a+b)]2(7)
其中:a+b=s。當決策樹準確率較高時,根據樣本純度劃分得到的a、b和根據規則判斷得到的x、y是近似相等的,故可以用x、y替換式(5)中的a、b,將基尼系數的計算式重新整理為式(8)。
g=1-(x/s)2-(y/s)2(8)
聯立式(4)(6)得到x、y關于s、g的值,如式(9)(10)所示。
將式(9)(10)代入式(5),就將規則得分轉換為了關于samples、gini的表達式,如式(11)所示。
式(11)實質上是將對規則的評價轉換為了對決策樹模型中任一葉節點的評價,將所有葉節點的評價整合在一起,就可以完整地評價RR-RF模型。在得到一個隨機森林模型后、沒有直接使用規則進行測試前,就可以間接地根據式(11)判斷后續生成的規則的質量,從而確定是否要調整隨機森林模型的關鍵參數。
2.2 RR-RF模型的生成策略
經過2.1節的計算,本文已經具備了對隨機森林模型進行評價的條件,接下來的工作是根據這個條件訓練RR-RF模型。
訓練一個形態適宜的隨機森林模型,需要設置的參數主要是決策樹的個數n_estimators和決策樹的最大深度max_depth。這里需要補充的是,在式(11)中,規則長度l可以使用決策樹的最大深度max_depth近似。如何確定隨機森林模型的參數已經達到最佳值,即式(11)給出的評價何時達到最大值?觀察式(11),當g=0、s為訓練集中樣本總數時是最好的情況,實際上這是只有一個節點的情況,不符合實際情況。而隨著決策樹向下分裂,g、s呈現不斷減小的趨勢,但l會不斷增大,導致式(11)中第2、3項的變化趨勢難以確定。
結合上述分析,較難通過數學計算給出這幾個參數的最佳值。為了解決該問題,本階段方法考慮設計一種迭代的方法來訓練隨機森林模型,每一輪得到一個新的隨機森林模型后,可根據式(11)來評價模型,這一過程用式(12)表示。
其中:RFi表示上一輪訓練得到的隨機森林模型;RFi+1表示本輪將要得到的隨機森林模型;numsi+1、depthi+1分別表示根據式(11)評估后調整得到的隨機森林模型的最佳決策樹個數、決策樹的最大深度;Estimator()表示根據式(11)得出的隨機森林模型評估方法;RF_Trainner()表示隨機森林模型的訓練方法。
在每一輪訓練時調整隨機森林模型的關鍵參數。本階段方法考慮一種類似強化學習的獎懲機制,首先對參數max_depth和n_estimators進行隨機調整,調整后,如果隨機森林模型生成的評價降低則給負獎勵,否則給正獎勵;然后根據獎勵確定參數的調整方向(增大或減?。?,直到隨機森林模型評價基本不再變化。
本階段方法的具體細節見算法1。
算法1 RR-RF模型的生成策略
應用算法1后,即可得到RR-RF模型,再根據引言中提出的規則提取方法即可生成原始的規則集。
2.3 實驗與分析
2.3.1 實驗數據及對比方法
為了更好地驗證本文方法的效果,本階段方法主要在計算機領域的分類問題上進行了實驗。本節使用的數據集主要來自UCI[10]公開數據集,均為分類問題的數據集,且特征均為數值型。表1展示了本節實驗使用的9個數據集,給出了數據集的名稱、特征數量、類別數量和實例數量。
為了更充分地展示RR-RF模型在準確率和可解釋性兩方面的均衡,本節實驗采用經典隨機森林模型[10]與經典決策樹模型[11]作為對比方法,這兩個模型僅考慮預測的準確率。在經典隨機森林模型中,max_depth設置為20,n_estimators設置為30;在經典決策樹模型中,均采用默認參數。
2.3.2 實驗結果與分析
整體的實驗結果如表2所示,其中主要設置了兩個指標來衡量規則的質量,分別是三種模型生成的規則數量和三種模型對于測試集的預測準確率。
首先,RR-RF模型的預測準確率在9個數據集上均明顯好于經典決策樹模型,這是因為RR-RF模型包含多個決策樹,在預測性能上勢必優于單一的決策樹。而在規則數量上,RR-RF模型的結果也僅比經典決策樹模型多一些,除在Electrical Grid Stability數據集上兩者得到的規則數量都很少外,在其余數據集上的差距基本不超過20%,在HTRU2和Raisin兩個數據集上甚至得到了更少的規則數量。
其次,觀察RR-RF模型與經典隨機森林模型的對比結果。在生成的規則數量上,RR-RF模型具有很大的優勢,這就證明RR-RF模型對于可解釋性的貢獻優于經典的隨機森林模型。而在預測準確率上,優化模型雖然略低于經典隨機森林模型,但在9個數據集上基本不超過3%,因此是可以接受的。
綜合上述分析,RR-RF模型在保持了較高預測準確率的同時,生成了更少的規則,使得規則集更具可解釋性。此外,本文提出對隨機森林模型優化的思想也是比較新穎的。目前的主流方法通常忽略了這一點,僅使用經典的樹集成模型,導致后續會生成較大量的規則,對規則集進行處理勢必要耗費很多時間,而本階段方法基本上解決了這一問題。
3 冗余規則的約簡策略
RR-RF模型中提取的if-then規則的數量相比經典隨機森林模型減少了很多,但所得的規則集規模仍然比較龐大。這樣的“知識”不易被人類理解,也難以在實際應用中由領域專家進行選擇。因此,本文以RR-RF模型中提取的原始規則集作為輸入,對其進一步約簡,輸出一個兼具預測性能和可解釋性的規則集。
從if-then規則的形式上看,主要可以從兩個維度進行約簡。首先,對于單條規則,其中包含多個特征約束的判斷,部分特征約束可能是冗余的,可以進行簡化,這種思路稱為規則的局部簡化。其次,將規則集作為一個整體來看待,其中很多規則的作用是相似的,導致存在大量冗余的規則,可以從規則集中刪除,這種思路稱為規則的全局約簡。
第2章方法訓練得到的RR-RF模型通過降低決策樹模型的深度,實質上完成了對規則的局部約簡,因此本章方法專注于完成對規則的全局約簡。設每條規則的特征約束數量為C,規則集中規則的數量為N,則本文的具體目標表示為
其中:min()表示最小值函數;第一個式子表示期望得到所有規則的特征約束數量平均值的最小值;第二個式子表示期望得到規則數量最少的規則集。
3.1 冗余規則發現與約簡
針對式(13)提出的目標,當下有較多方法進行處理。一些方法把約簡的過程抽象為搜索問題,從規則集中搜索部分質量較高的規則。這類方法沒有考慮規則間的聯系,當規則數量較多時,搜索性能可能遇到瓶頸。還有一些方法,如Mollas等人[12]提出使用關聯規則挖掘思想對規則集進行化簡。
本階段方法考慮通過相似規則的聚類方法實現對規則的全局約簡,整體流程如圖4所示。該方法的輸入是從RR-RF模型中導出的原始規則集。第一步是規則的聚類方法,通過計算規則之間的相似性,將可能冗余的相似規則聚類至每個子規則集中。第二步則是從規則集全局的維度出發,在每個子規則集中選取部分有代表性的規則,得到精簡的規則集。
3.1.1 規則相似性計算與規則方法
本節方法的目標是削減整個規則集的維度,但直接對規則集進行約簡效率較低,且沒有考慮到相似規則造成的冗余。因此,本階段方法首先對規則進行聚類,進而在各個相似的子規則集中發現一些具有代表性的規則,從而約簡冗余的規則。
進行規則聚類的計算,首先要解決的問題是如何計算規則之間的相似性。本方法參考文獻[12],提出了一種規則相似性的計算方式。對于任意兩條規則ri、rj,設Fij為兩條規則中涉及的所有特征的并集,即設FD為數據集中包含的所有特征。對于FD中的任意特征f,ri、rj在f上的相似度sf可以按式(14)計算。
其中:iij和uij分別由式(15)(16)表示。
iij=min(ui,uj)-max(li,lj)(15)
uij=max(ui,uj)-min(li,lj)(16)
在ri中,f∈[li,ui];在rj中,f∈[lj, uj]。最終得到ri、rj之間的相似度similarityij,由式(17)表示。
在具體對if-then規則進行聚類時,需要考慮規則的特點。首先,規則之間沒有明顯的層次結構,因此基于層次的聚類算法不宜使用?;趧澐值木垲愃惴ê啙嵖尚?,處理大規模數據的可用性更高,因此本階段選取基于劃分的聚類算法。此外,規則的每個特征值是一個范圍,不宜計算其均值,而選取一條規則代表每個聚簇是比較合適的,因此決定采用經典的K-medoids聚類算法對規則集中的規則進行聚類。
完成規則的聚類后就將每一類相似的規則置于同一個子規則集中,下一步需要對每個子規則集中的冗余規則進行約簡。
3.1.2 冗余規則的全局約簡方法
本節的目標是在每個子規則集中發現具有代表性的規則,這一步的處理可以稱為規則的全局約簡。
在每個子規則集中尋找代表性規則,其實質可以抽象為搜索問題,搜索集是聚類后的每個子規則集,搜索結果是其中的代表性規則。這一過程可以用式(18)表示。
Rs=SearchS(R)(18)
其中:R表示原始規則集;Rs表示搜索后得到的結果規則集;Search()表示搜索函數;S表示搜索依據的最佳策略。本階段方法嘗試提出一種搜索的策略,配合對規則的評價,對每個子規則集進行搜索,獲得質量較好的部分規則。
對于任意一個子規則集,首先計算其中每條規則的得分和規則對于訓練數據集的覆蓋度,其中規則得分使用式(5)進行計算。其次,將規則按照規則得分進行降序排序。確定一個候選集C,每次取規則集中前n個規則依次加入候選集,n為可調整的超參數,選取的規則覆蓋度必須超過此規則集中所有規則覆蓋度的平均值。從C中依次取出規則加入結果規則集R_new,再利用測試集對R_new的預測準確性進行測試,若其準確性優于該規則加入R_new之前的準確性,則保留該規則,并在原規則集中刪去該規則。具體細節見算法2。
算法2 規則全局約簡方法
這一算法充分利用了規則長度、覆蓋度和準確性幾個指標,使得約簡后的規則集的質量較高。此外,本算法使用的搜索策略參考了文獻[13]的beam search思想,搜索效率較高。經過算法2的處理,獲取了每個子規則集中具有代表性的規則,將這些規則合并,可以得到一個完整的結果規則集,這也是本章方法消除了原始規則集中的冗余部分后得到的精簡規則集。
3.2 實驗與分析
本節實驗中使用的數據集同2.3節介紹的9種數據集,使用的對比方法即第1章介紹的四種基于隨機森林模型的規則學習方法,主要對比幾種方法處理后的規則集的質量。其中,本文方法處理的規則集為RR-RF模型中生成的初始規則集,而其他幾種方法處理的規則集為經典隨機森林模型中生成的規則集。
3.2.1 規則整體質量對比
表3展示了本文方法與對比方法生成的規則集的實驗效果,給出了規則集的預測準確率和規則的數量,其中前者指示規則集的預測性能,而后者指示規則集的可解釋性,期望規則集在這兩方面做到均衡。
分析表3的結果可知,本文方法在兩個指標上基本都優于對比方法1、2。本文方法與對比方法1、2都是以規則得分篩選規則并對規則集進行整體搜索的,但本文方法通過聚類消除冗余規則的思路使獲得的結果規則集更具優勢。
觀察本文方法與對比方法3、4,三種方法生成的規則集的效果很接近。其中,在規則數量方面,本文方法得到的結果規則集在數量上更少,明顯優于另外兩種方法;在預測準確率方面,本文方法的效果在4個數據集上低于另外兩種方法,但這種差距不超過0.5%,而在其他數據集上均能持平或者效果更佳。此外,本文方法的可用性更好,圖5給出了本文方法與對比方法3在7個數據集上處理規則集時所用的時間,對比方法4的處理時間過長,沒有參與對比。
由圖5可知,本文方法處理規則的速度更快,在規模較大的數據集時表現得更明顯。綜合而言,相較于四種對比方法,本文方法處理得到的規則集兼具準確性與可解釋性,同時能更高效地處理冗余規則。
3.2.2 相似規則發現對結果的影響
這一節主要討論本節方法中,規則聚類方法對整體實驗效果的影響。需要補充說明的是,在不同數據集上最終得到的最佳聚類數K是不同的,需要根據實驗結果具體分析。
采取相似規則發現的初衷是將每類相似的規則聚為一個子規則集,在每個子規則集中進行規則的全局搜索,期望提高搜索的效率。本節主要在Australian credit等四數據集上對比應用規則聚類算法前后規則集的質量。圖6和7展示了規則的特征數量、規則集的預測性能和規則數量的對比。
觀察圖6和7的對比結果可知,應用了規則聚類算法后,規則集數量有所增加,但有效保障了規則集的預測準確率。此外,應用了規則聚類算法后,對每一個子規則集搜索更快捷,提高了方法的整體效率。
4 結束語
本文主要研究了面向規則約簡的隨機森林模型的生成策略,提出了冗余規則約簡的方法。經過實驗驗證,這種基于規則的可解釋方法可以代替經典的機器學習,針對決策問題給出準確而可理解的答案。
具體而言,本文的創造性工作主要如下:
a)以黑盒模型與原始數據集交互形成的數據集為訓練數據,提出了面向規則約簡的隨機森林模型的生成策略。在訓練的過程中以迭代的方式生成隨機森林模型,并根據模型的評價,利用強化學習的思想對模型的關鍵參數進行相應的調整。為了適當地評價隨機森林模型,提出了一種隨機森林模型的評價公式,簡化了評價的過程。
b)對于隨機森林模型中提取的初始規則集,本文提出了一種基于規則聚類的冗余規則約簡方法。該方法分為兩步,首先應用K-medoids規則聚類算法,將規模較大的規則集分散到了小的子規則集中。其次,在每個子規則集中應用了一種快速搜索的算法,提取了其中最具代表性的規則,去除了大量的冗余規則。最終可以獲取一個精簡的、預測性能較好的規則集,公開數據集上的實驗表明,本文方法處理得到的規則集具有可靠的性能與較好的可解釋性。
上述兩個階段前后呼應,相輔相成,具有明確的邏輯順序,覆蓋了規則學習中模仿黑盒模型、規則生成與規則約簡這一流程。當然,本文的研究還有幾個方面可以繼續深入:首先,本文方法的第二階段采取了規則聚類的方法,其中聚類后的規則聚簇可以根據問題場景發現其具體的含義。其次,可以進一步對if-then形式的規則進行抽象,提取更高層次的知識。
參考文獻:
[1]Wachter S, Mittelstadt B, Floridi L. Transparent, explainable, and accountable AI for robotics[J/OL]. Science Robotics, 2017,2(6). https://www.science.org/doi/10.1126/scirobotics.aan6080.
[2]Angelov P P, Soares E A, Jiang R,et al. Explainable artificial intel-ligence: an analytical review[J/OL]. Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery, 2021,11(5). https://doi.org/10.1002/widm.1424.
[3]Adadi A, Berrada M. Peeking inside the black-box: a survey on explainable artificial intelligence(XAI)[J]. IEEE Access, 2018,6: 52138-52160.
[4]張昊. 面向大電網潮流斷面功率調整的知識挖掘方法研究[D]. 哈爾濱: 哈爾濱工業大學, 2021. (Zhang Hao. Research on know-ledge mining method for power flow section power adjustment of large power grid[D]. Harbin: Harbin Institute of Technology, 2021.)
[5]呂司濤. 基于規則的黑盒模型可解釋方法研究[D]. 哈爾濱: 哈爾濱工業大學, 2022. (Lyu Sitao. Research on interpretation me-thods of rule-based black-box models[D]. Harbin: Harbin Institute of Technology, 2022.)
[6]Adnan M N, Islam M Z. ForEx++: a new framework for knowledge discovery from decision forests[J/OL]. Australasian Journal of Information Systems, 2017, 21. https://doi.org/10.3127/ajis.v21i0.1539.
[7]Mashayekhi M, Gras R. Rule extraction from random forest: the RF+HC methods[C]//Proc of the 28th Canadian Conference on Artificial Intelligence. Berlin: Springer, 2019: 223-237.
[8]Dong Luan, Ye Xin, Yang Guangfei. Two-stage rule extraction me-thod based on tree ensemble model for interpretable loan evaluation[J]. Information Sciences, 2021,573(9): 46-64.
[9]Qiu Mingming, Najm E, Sharrock R, et al. PBRE: a rule extraction method from trained neural networks designed for smart home services[C]//Proc of International Conference on Database and Expert Systems Applications. Cham: Springer, 2022: 158-173.
[10]Frank A. UCI machine learning repository[EB/OL]. (2023-10-16). http://archive.ics.uci.edu/ml.
[11]Pedregosa F, Varoquaux G, Gramfort A, et al. Scikit-learn: machine learning in Python[J]. Journal of Machine Learning Research, 2011,12: 2825-2830.
[12]Mollas I, Bassiliades N, Vlahavas I, et al. LionForests: local interpretation of random forests[EB/OL]. (2020-07-23). https://arxiv.org/abs/1911.08780.
[13]Kumar A, Vembu S, Menon A K, et al. Beam search algorithms for multilabel learning[J]. Machine Learning, 2013,92(1): 65-89.