






















收稿日期:2022-05-10;修回日期:2022-07-11" 基金項目:國家自然科學基金項目(71801150);上海市人民政府決策咨詢研究項目(2022-Z-J07)
作者簡介:汪萬敏(1996-),女,安徽六安人,碩士研究生,主要研究方向為供應(yīng)鏈管理(changcun0103@163.com);智路平(1982-),男(通信作者),山西太原人,高級實驗師,碩導,博士,主要研究方向為供應(yīng)鏈管理.
摘 要:
針對行業(yè)欺詐行為形式多樣、操作隱蔽,且數(shù)據(jù)分布極端不平衡等問題,研究采用ADASYN(adaptive synthetic sampling approach for imbalanced learning)算法將分類決策邊界向困難的實例進行自適應(yīng)移動實現(xiàn)數(shù)據(jù)擴增,以解決不平衡數(shù)據(jù)造成的過擬合問題。采用基于隨機森林的序列向前搜索策略算法篩選出最優(yōu)特征子集對欺詐進行檢測,降低ADASYN算法添加噪聲數(shù)據(jù)對分類邊界確定的影響,構(gòu)建欺詐檢測模型,并使用LIME對模型檢測結(jié)果作出局部解釋,提高模型的使用價值。實驗表明,該模型可以較好地克服傳統(tǒng)欺詐檢測模型對多數(shù)類樣本誤分類的缺陷,有助于提高行業(yè)對交易欺詐行為識別的效率。同時,通過LIME對模型檢測出的隨機樣本進行有效解析,便于決策者對算法模型的檢測結(jié)果作出實證分析,起到明顯的預(yù)警及決策參考價值。
關(guān)鍵詞:欺詐檢測;隨機森林;ADASYN;LIME;特征選擇
中圖分類號:TP181"" 文獻標志碼:A""" 文章編號:1001-3695(2022)12-012-3605-09
doi:"" 10.19734/j.issn.1001-3695.2022.05.0237
Fraud detection model generalization performance improvement and
interpretability study based on ADASYN-SFS-RF
Wang Wanmin, Zhi Luping
(Business School, University of Shanghai for Science amp; Technology, Shanghai 200093, China)
Abstract:
Aiming at the problems of various forms, hidden operations, and extremely unbalanced data distribution of fraud in the industry, this paper adopted the ADASYN algorithm to adaptively move the classification decision boundary to difficult instances to achieve data augmentation, to solve the over-fitting problem caused by unbalanced data. It used the sequence forward search strategy algorithm based on the random forest to filter out the optimal feature subset to detect fraud, reduced the impact of noise data added by the ADASYN algorithm on the determination of classification boundary, constructed a fraud detection model, and used LIME to make local interpretation of the model detection results to improve the use of the model. The experiments show that the model can better overcome the defects of traditional fraud detection models in misclassifying most classes of samples, and help to improve the efficiency of transaction fraud identification in the industry. At the same time, the random samples detected by the model are effectively analyzed through LIME, which is convenient for decision-makers to make empirical analyses on the detection results of the algorithm model and plays an obvious early warning and decision-making reference value.
Key words:fraud detection; random forest; ADASYN; LIME; feature selection
0 引言
欺詐是指故意告知對方虛假情況,或者故意隱瞞真實情況,誘使對方基于錯誤判斷作出相應(yīng)的行為,是一種旨在通過非法手段獲取金錢的刑事犯罪。隨著經(jīng)濟發(fā)展和科技進步,欺詐問題逐漸覆蓋多種不同的場景和業(yè)務(wù),如信用卡欺詐、銀行欺詐、保險欺詐、財務(wù)報表欺詐、比特幣欺詐和供應(yīng)鏈欺詐等,基于新技術(shù)和新場景的詐騙手段不斷升級,詐騙方式更具專業(yè)化和智能化。據(jù)公安部數(shù)據(jù)顯示,近10年來,我國電信詐騙案件每年以20%~30%的速度快速增長。在金融欺詐中,保險領(lǐng)域欺詐比例尤為突出。據(jù)國際保險監(jiān)管者協(xié)會測算,全球每年有20%~30%的保險賠款涉嫌欺詐,損失金額約800億美元。由于欺詐行為形式多樣、覆蓋領(lǐng)域廣,涉及犯罪意圖的欺詐案件交易大多操作隱蔽難以識別,有效識別欺詐行為是反欺詐研究的重點和難點[1]。因此,面對數(shù)字金融欺詐多樣化、產(chǎn)業(yè)化、隱蔽化和場景化的復(fù)雜環(huán)境,反欺詐需要結(jié)合新技術(shù),提高預(yù)測精度,精準防范。
反欺詐問題的解決多使用欺詐檢測系統(tǒng)(fraud detection system,F(xiàn)DS)。此類系統(tǒng)通常基于專家分析方法、數(shù)據(jù)分析方法或兩者的結(jié)合。專家分析方法試圖利用規(guī)則來識別具體的欺詐情況,其準確性主要取決于專家的知識,主觀性較強,解釋性較弱。數(shù)據(jù)分析方法以機器學習算法為基礎(chǔ),通過學習欺詐性數(shù)據(jù)的特征,利用經(jīng)驗來提高系統(tǒng)自身的性能[2]。然而,概念漂移、支持實時檢測、數(shù)據(jù)不平衡和數(shù)據(jù)量過大等問題和挑戰(zhàn)阻礙了FDS的性能,降低了檢測速度和預(yù)測精度[3]。
為了解決這些問題,關(guān)于反欺詐的研究受到越來越多的關(guān)注。在信用卡欺詐檢測領(lǐng)域,文獻[4]使用K-means聚類模型和遺傳算法提高了信用卡欺詐檢測的識別率,從而有效減少了錯誤分類的數(shù)量。陽文斯[5]提出一種基于聯(lián)邦學習的帶隱私保護的信用卡欺詐檢測方法,使AUC值達到95.5%,比傳統(tǒng)欺詐檢測系統(tǒng)提升了約10%。琚春華等人[6]利用KNN判別分類器篩選出安全生成樣本,克服了SMOTE算法在生成新樣本時的盲目性和局限性,構(gòu)建基于KNN-SMOTE-LSTM的信用卡欺詐檢測網(wǎng)絡(luò)模型。在財務(wù)報表欺詐檢測領(lǐng)域,Calderon等人[7]采用多元化的方法,基于深度學習理論,運用神經(jīng)網(wǎng)絡(luò)方法在財務(wù)審計和風險評估領(lǐng)域進行了深入研究。Rizki等人[8]在對欺詐因素進行特征選擇后,建立了SVM和人工神經(jīng)網(wǎng)絡(luò)模型,以檢測財務(wù)報表是否存在欺詐。文獻[9]將提取的三類特征分別輸入一個經(jīng)典的LSTM模型,模型的輸出層與一個多層感知器整合在一起,并與隨機森林模型進行對比實驗。在保險欺詐檢測領(lǐng)域,易東義等人[10]提出一種新的基于圖卷積和變分自編碼的單分類醫(yī)保欺詐檢測模型(OCGVAE),并將邏輯回歸模型用以判別數(shù)據(jù)類別。曹魯慧等人[11]提出基于TLSTM的醫(yī)保欺詐識別框架,將用戶的歷史就醫(yī)行為序列作為TLSTM模型的輸入,預(yù)測患者再入院原因及診療方案。吳文龍等人[12]采用WGAN-KDE方法改善數(shù)據(jù)不平衡問題,結(jié)合自編碼器提取數(shù)據(jù)的深層隱藏特征來檢測醫(yī)保欺詐行為。在供應(yīng)鏈欺詐檢測領(lǐng)域,Wan[13]將XGBoost算法和隨機森林混合使F1-score分別比logistic回歸算法、SVM和高斯樸素貝葉斯算法高0.49%、0.49%和27.9%。Beteto等人[14]提出SAT的概念,有助于液體燃料供應(yīng)鏈企業(yè)在欺詐和其他信息不規(guī)范的最初階段發(fā)現(xiàn)其前兆。通過對相關(guān)文獻的整理發(fā)現(xiàn),現(xiàn)有欺詐檢測模型的泛化性能不足,尤其在處理不平衡數(shù)據(jù)集和特征選擇等問題上容易出現(xiàn)預(yù)測精度低和過擬合等問題。
在欺詐檢測領(lǐng)域,如何向客戶和管理者對模型檢測結(jié)果的現(xiàn)實意義作出解釋也是必須要考慮的問題,Rao等人[15]提出了一種可解釋的欺詐交易預(yù)測框架,xFraud檢測器可以有效且高效地預(yù)測傳入交易并生成合理的解釋。Farrugia等人[16]提出了一種實時的完全自主的規(guī)范性解決方案,用于iGaming行業(yè)內(nèi)可解釋的欺詐檢測。Sinanc等人[17]將信用卡交易作為時間序列處理,并將其轉(zhuǎn)換為圖像,提出了一種新的可解釋的人工智能方法。但是關(guān)于欺詐檢測模型檢測結(jié)果可靠性的研究較少,特別是缺少關(guān)于影響欺詐檢測的重要因素是否具有現(xiàn)實意義的研究。
為了提高欺詐檢測模型的泛化性,增強模型檢測結(jié)果應(yīng)用于實際工作的實踐指導價值,對模型理論結(jié)果進行實踐解釋,本文使用ADASYN算法18]進行數(shù)據(jù)擴增,使用基于隨機森林(random forest,RF)[19]的序列向前搜索策略算法(sequential forward selection,SFS)[20]篩選出最優(yōu)特征子集,降低ADASYN算法添加噪聲數(shù)據(jù)對分類邊界確定的影響,并用該最優(yōu)特征子集訓練隨機森林強分類器對欺詐進行檢測,提高模型的泛化性能,構(gòu)建一個基于ADASYN-SFS-RF的欺詐檢測模型,最后使用LIME(local interpretable model-agnostic explanations)[21]對模型檢測出的隨機樣本進行解析,剖出影響該樣本預(yù)測結(jié)果重要性的前序特征,及其對應(yīng)貢獻度與對應(yīng)特征值,識別出影響樣本欺詐檢測的重要因素,對算法模型檢測結(jié)果的現(xiàn)實意義向客戶和管理者作出解釋。
1 基于ADASYN-SFS-RF的欺詐檢測模型
本文假設(shè)每個欺詐行為在時間上都是獨立的,時間不作為影響欺詐檢測的變量。欺詐檢測模型的要點是對不平衡數(shù)據(jù)集問題的處理,當不均衡比例超過4∶1,分類器就會偏向于大的類別,分類器失效。傳統(tǒng)欺詐檢測方法在處理不平衡數(shù)據(jù)集時存在對多數(shù)類樣本誤分類率高的缺陷。
為了克服該類缺陷,提高模型的泛化性能,首先采用ADASYN算法將密度分布作為準則來自動確定每個少數(shù)數(shù)據(jù)示例需要生成的合成樣本數(shù)量,將分類決策邊界向困難的實例進行自適應(yīng)移動實現(xiàn)數(shù)據(jù)擴增,以解決不平衡數(shù)據(jù)造成的過擬合問題。引入隨機森林通過自助采樣和隨機選擇分割特征來構(gòu)造每棵決策樹,在以決策樹為基學習器構(gòu)建Bagging集成的基礎(chǔ)上,在決策樹的訓練過程中引入隨機屬性選擇。通過樣本擾動和屬性擾動,實現(xiàn)基學習器的“多樣性”,并整合所有決策樹的最終結(jié)果,利用少數(shù)服從多數(shù)的投票機制對原始特征構(gòu)建迭代提升樹模型進行特征重要性度量,隨后結(jié)合基于隨機森林的序列向前搜索策略算法篩選出最優(yōu)特征子集,降低ADASYN算法添加噪聲數(shù)據(jù)對分類邊界確定的影響,并用該最優(yōu)特征子集訓練基礎(chǔ)分類器得到隨機森林強分類器,提高模型的泛化性能,構(gòu)建基于ADASYN-SFS-RF的欺詐檢測模型對欺詐交易進行檢測。最后,利用LIME對模型的決策作出局部解釋。模型可分為數(shù)據(jù)預(yù)處理、模型訓練、模型測試和模型解釋四個步驟。基于ADASYN-SFS-RF的欺詐檢測模型架構(gòu)如圖1所示。
ADASYN-SFS-RF欺詐檢測可解釋模型的具體步驟如下:
a)對歷史交易數(shù)據(jù)進行數(shù)據(jù)預(yù)處理:數(shù)據(jù)篩選、缺失值處理和one-hot encoding,生成原始數(shù)據(jù)集,將原始數(shù)據(jù)集劃分70%為訓練集,30%作為測試集。其中,數(shù)據(jù)篩選和缺失值處理在保持原始數(shù)據(jù)結(jié)構(gòu)和含義的同時,縮小數(shù)據(jù)量,提升學習算法的泛化能力和結(jié)果的易讀性與解釋性;one-hot encoding將分類特征轉(zhuǎn)換為分類數(shù)值,使數(shù)據(jù)適應(yīng)算法與庫,便于后續(xù)學習。
b)用ADASYN處理標準化訓練集Xtrain,通過將密度分布作為準則來自動確定每個少數(shù)數(shù)據(jù)示例需要生成的合成樣本數(shù)量,將分類決策邊界向困難的實例進行自適應(yīng)移動實現(xiàn)數(shù)據(jù)擴增,以解決不平衡數(shù)據(jù)造成的過擬合問題,生成新的訓練集Xtrain_adasyn。
c)采用基于隨機森林的序列向前搜索策略方法篩選出最優(yōu)特征子集Xtrain_new_adasyn(訓練集)和Xtest_new_adasyn(測試集),可以降低ADASYN算法添加噪聲數(shù)據(jù)對分類邊界確定的影響,通過降維減少模型運行時間,降低存儲成本和過擬合風險,有效提高分類模型的性能和準確性。
d)用最優(yōu)特征子集Xtrain_new_adasyn訓練基礎(chǔ)分類器,采用“網(wǎng)格搜索+10折分層交叉驗證”的方式來選擇模型中的超參數(shù),構(gòu)建泛化性能最優(yōu)的隨機森林強分類器f(x)。
e)用最優(yōu)特征子集Xtrain_new_adasyn訓練隨機森林強分類器f(x),將準確度、查全率、F1-score和AUC值作為評價指標,用Xtest_new_adasyn評估基于ADASYN-SFS-RF的欺詐檢測模型的泛化性能,輸出測試結(jié)果。
f)LIME通過擾動最優(yōu)特征子集Xtest_new_adasyn中的實例樣本Xt的輸入,在其附近采樣生成新的數(shù)據(jù)集Xt′,并根據(jù)采樣樣本到實例樣本Xt的距離賦予其權(quán)重。利用新數(shù)據(jù)集Xt′訓練出易于解釋的線性回歸模型,來擬合待解釋模型的局部邊界,得到對黑盒模型良好的局部近似,識別出影響樣本欺詐檢測的重要因素。將該結(jié)果與步驟e)的模型測試結(jié)果進行驗證,判斷模型預(yù)測結(jié)果的準確性和識別出的欺詐影響因素對模型欺詐檢測性能的影響,就模型檢測結(jié)果的現(xiàn)實意義向客戶和管理者作出解釋。
2 基于ADASYN-SFS-RF的欺詐檢測算法
假設(shè)數(shù)據(jù)集合為D,特征向量為X,類別標簽為Y,則令D=(Xi,Yj),i=1,2,…,M,j=1,2,…,N為樣本集合。此時,Xi∈X且Xi=(Xi1,Xi2,…,XiM),M為特征的個數(shù)。經(jīng)過數(shù)據(jù)標準化處理后的標準數(shù)據(jù)集由標準化訓練集Xtrain和標準化測試集Xtest構(gòu)成。其中,多數(shù)類的正常交易樣本集為Xl,少數(shù)類的欺詐交易樣本集為Xs,因此,Xs≤Xl且Xs+Xl=M。弱分類器迭代次數(shù)T,生成的隨機森林強分類器為f(x),ADASYN算法生成的數(shù)據(jù)集為Xtrain_adasyn,基于隨機森林的序列向前搜索策略方法篩選出的最優(yōu)特征子集為Xtrain_new_adasyn和Xtest_new_adasyn。ADASYN-SFS-RF欺詐檢測可解釋模型的算法步驟如下:
a)通過公式d=Xs/Xl計算標準化的訓練集Xtrain中的樣本不平衡度,其中d∈(0,1]。如果dlt;dth,計算需要為少數(shù)類的欺詐交易樣本Xs合成的樣本數(shù)量,公式如下:
G=(Xl-Xs)×β(1)
其中:β∈[0,1]是隨機數(shù),用于指定合成數(shù)據(jù)生成后所需的平衡水平。β=1表示在泛化過程之后創(chuàng)建了完全平衡的數(shù)據(jù)集,即采樣后正負比例為1∶1。
b)對于每個屬于少數(shù)類的Xi,基于n維空間中的歐氏距離找到K個最近的鄰居,并計算K近鄰中多數(shù)類的正常交易樣本Xl的比例ri,并對ri進行標準化,公式如下:
ri=ΔiK(2)
i=ri∑msi=1ri(3)
其中:i=1,2,…,ms;Δi是K近鄰中的屬于多數(shù)類的樣本數(shù)量。因此ri∈[0,1]。
c)根據(jù)樣本權(quán)重,計算每個少數(shù)類的欺詐交易樣本Xi需要合成新樣本的數(shù)量,公式如下:
gi=i×G(4)
其中:G為式(1)定義的少數(shù)類的欺詐交易樣本合成的樣本數(shù)量。
d)從Xi的K個最近鄰居中隨機選擇一個少數(shù)類樣本Xzi,根據(jù)公式Si=Xi+(Xzi-Xi)×λ重復(fù)合成直到滿足步驟a)需要合成的數(shù)目為止,即從1到gi進行迭代,得到新的數(shù)據(jù)集S。其中,(Xzi-Xi)是n維空間中的差向量,λ∈(0,1]是隨機數(shù)。
e)迭代完成后,使得S+Xs=Xl,數(shù)據(jù)集達到平衡狀態(tài),記生成的新訓練集為Xtrain_adasyn。
f)先從Xtrain_adasyn的所有特征中找到最大化交叉驗證分數(shù)的特征,記做特征A,從頭開始繼續(xù)搜索,尋找一個特征B,特征B和A的組合可以達到最優(yōu)的分類效果,依此類推,通過迭代找到最優(yōu)的新特征來添加到選定的特征集中,當達到所需的選定特征數(shù)量時,該迭代過程停止,最終篩選出最優(yōu)特征子集Xtrain_new_adasyn和Xtest_new_adasyn。
g)對最優(yōu)特征子集Xtrain_new_adasyn中N個樣本進行Bootstrap抽樣(有放回抽樣),取樣N次,形成n個樣本集,重復(fù)得到T個訓練子集,并用未抽到的樣本進行預(yù)測,評估其誤差。
h)對于每個訓練子集,從其特征變量中隨機選出m個特征(其中m應(yīng)遠小于M),根據(jù)m個特征,計算其最佳的分裂方式,剔除訓練集中沒有被選擇的特征對應(yīng)的參數(shù),利用新的訓練集構(gòu)建決策樹,不剪枝。
i)得到T個由決策樹構(gòu)成的隨機森林,對于每個測試數(shù)據(jù),采用少數(shù)服從多數(shù)的投票機制得到最終的預(yù)測結(jié)果,構(gòu)建強分類器f(x)。
j)通過超參數(shù)優(yōu)化,經(jīng)過網(wǎng)格搜索和10折分層交叉驗證調(diào)整強分類器f(x)的參數(shù),包括基評估器的數(shù)量(森林中樹的數(shù)量)、節(jié)點的劃分標準、節(jié)點最小分割的樣本數(shù)和葉子節(jié)點含有的最少樣本。
k)用Xtrain_new_adasyn訓練步驟j)構(gòu)建的強分類器f(x),并利用測試集Xtest_new_adasyn評估ADASYN-SFS-RF欺詐檢測模型的泛化性能,輸出測試結(jié)果。
l)選擇步驟f)篩選出的最優(yōu)特征子集Xtrain_new_adasyn中的樣本作為實例,記示例樣本為Xt。LIME通過相似度計算,在示例樣本Xt附近進行擾動得到新數(shù)據(jù)集Xt′,相似度計算公式為
πx=exp(-D(Xt,Xt′)σ2)(5)
其中:πx為新數(shù)據(jù)集Xt′與示例樣本數(shù)據(jù)集Xt的距離。以相似度作為權(quán)重,訓練出一個易于解釋的線性回歸模型來擬合待解釋模型的局部邊界,得到對黑盒模型良好的局部近似。然后基于該線性模型找出影響示例樣本預(yù)測結(jié)果重要性的前序特征,及其對應(yīng)貢獻度與對應(yīng)特征值,識別出影響樣本欺詐檢測的重要因素。
m)將該結(jié)果與步驟k)的模型測試結(jié)果進行驗證,對示例進行可解釋分析,判斷模型預(yù)測結(jié)果的準確性和識別出的欺詐影響因素對模型欺詐檢測性能的影響,就模型檢測結(jié)果的現(xiàn)實意義向客戶和管理者作出解釋。
3 案例分析
供應(yīng)鏈欺詐行為是電商企業(yè)面臨的重大問題之一,鑒于當前供應(yīng)鏈的復(fù)雜性,電商企業(yè)如何有效利用沉淀的交易數(shù)據(jù),通過機器學習方法,在事前或事中及時阻斷欺詐交易,保障用戶安全交易,減少欺詐帶來的損失,是供應(yīng)鏈企業(yè)始終追求的目標。本文使用建立的基于ADASYN-SFS-RF的欺詐檢測模型對供應(yīng)鏈公司DataCo Global歷史訂單數(shù)據(jù)進行供應(yīng)鏈欺詐檢測,實驗Python版本為3.7.1,scikit-learn版本為1.0.2,詳細實驗配置如表1所示。
3.1 數(shù)據(jù)來源
研究使用的供應(yīng)鏈歷史交易數(shù)據(jù)集為公開數(shù)據(jù)集,該供應(yīng)鏈欺詐數(shù)據(jù)集由Constante等人通過Mendeley數(shù)據(jù)倉庫以知識共享4.0許可的方式透明地維護,包含DataCo Global公司2015年1月1日—2018年1月30日所有的訂單信息,約18萬條交易記錄。
其中,180 519筆交易中有4 062筆是欺詐交易,欺詐交易占所有交易的2.25%,數(shù)據(jù)分布極端不平衡。此外,它還包含了另一個名為DescriptionDataCoSupplyChain.csv的文件,該文件是對DataCoSupplyChainDatasetc.csv中每個變量的描述[22]。數(shù)據(jù)集的具體特征信息如表2所示。
3.2 數(shù)據(jù)預(yù)處理
scikit-learn是Python高效的機器學習算法庫,可以實現(xiàn)數(shù)據(jù)預(yù)處理、數(shù)據(jù)降維、分類、回歸、無監(jiān)督等常用的機器學習算法。本文采用Python的scikit-learn機器學習庫中的preproces-sing模塊進行數(shù)據(jù)預(yù)處理。
3.2.1 數(shù)據(jù)篩選
數(shù)據(jù)篩選以降低計算復(fù)雜度為目標,通過刪除冗余和嘈雜的數(shù)據(jù),或離散化復(fù)雜的連續(xù)特征空間來進行篩選。在保持原始數(shù)據(jù)結(jié)構(gòu)和含義的同時,縮小數(shù)據(jù)量,提升學習算法的泛化能力和結(jié)果的易讀性和解釋性。
由于F44(order zipcode)有155 679個缺失值, F47(pro-duct description)有180 519個缺失值,缺失率超過85%,所以剔除這兩個特征; F12(customer email)、F16(customer password)和F51(product status)數(shù)據(jù)沒有差異性,對模型的效果沒有貢獻,遂剔除這三個特征;由于F4(benefit per order)和F40(order profit per order)、F5(sales per customer)和F39(order item total)、F8(category ID)和F46(product category ID)、F14(customer ID)和F28(order customer ID)、F31(order item cardprod ID)和F45(product card ID)、F35(order item product price)和F50(product price)的值是100%重合的,冗余的特征會降低模型的質(zhì)量,為了使工作更加簡單,遵循保留特征名稱最短的原則,刪除冗余特征F40(order profit per order)、F5(sales per customer)、F46(product category ID)、F28(order customer ID)、F31(order item cardprod ID)和F35(order item product price);由于已經(jīng)有客戶/部門ID作為標識,故剔除F15(customer iname)、F13(customer fname)和F22(department name)。為了便于分析,刪除一些不重要的特征,如F19(customer street)、F20(customer zipcode)、F23(latitude)、F24(longitude)、F29(order date)、F48(product image)和F52(shipping date)。
相關(guān)性分析可以判斷某些特征對某一特定欺詐交易是否具有強烈的相關(guān)性,通過相關(guān)矩陣以使本文看到哪些特征與欺詐交易有高度的正相關(guān)或負相關(guān)。如圖2所示, F8(category ID)和F21(department ID)、F8(category ID)和F45(product card ID)、F21(department ID)和F45(product card ID)相關(guān)性超過閾值(0.85),故刪除F8(category ID)和F45(product card ID)。
3.2.2 數(shù)據(jù)編碼
刪除與預(yù)測類別直接相關(guān)的特征F43(order status),并創(chuàng)建一個新的列,對欺詐狀態(tài)進行二進制分類。由于數(shù)據(jù)量較大且收集來源多元,存在較多缺失值,針對缺失數(shù)據(jù)量大于85%的特征,采用刪除法進行處理;對于缺失數(shù)據(jù)量小于85%的特征,采用均值插入法進行處理。數(shù)值標準化方面,為了讓數(shù)據(jù)適應(yīng)算法與庫,采用one-hot encoding創(chuàng)建啞變量,將F1(type)、F6(delivery status)、F17(customer segment)、F25(market)和F53(shipping mode)這5個字符型數(shù)據(jù)轉(zhuǎn)換為20個0-1的數(shù)值型特征變量。其余字符型特征均調(diào)用scikit-learn庫中的oridinalEncoder函數(shù),將分類特征轉(zhuǎn)換為分類數(shù)值。經(jīng)過one-hot encoding后的特征說明,如表3所示。
3.2.3 特征標準化
為了消除特征量綱差異的影響,還需要對特征進行歸一化處理,使不同指標處于同一量綱下。常用的方法有線性函數(shù)歸一化(min-max scaling)和零均值歸一化(Z-score normalization)。數(shù)據(jù)標準化方法有多種,如:直線型方法(如極值法、標準差法)、折線型方法(如三折線法)和曲線型方法(如半正態(tài)性分布)。不同的標準化方法對系統(tǒng)的評價結(jié)果會產(chǎn)生不同的影響。其中,最常用的是Z-score標準化,這種方法給予原始數(shù)據(jù)的均值和標準差進行數(shù)據(jù)的標準化[23]。經(jīng)過處理的數(shù)據(jù)符合標準正態(tài)分布,即均值為0,標準差為1,公式如下:
xz-score=x-μσ(6)
其中:μ是樣本數(shù)據(jù)的均值;σ是樣本數(shù)據(jù)的標準差。標準后的數(shù)據(jù)保持異常值中的有用信息。本文采用scikit-learn庫中的StandardScaler函數(shù)對數(shù)據(jù)進行標準化處理。
3.3 超參數(shù)優(yōu)化
對于不平衡數(shù)據(jù)集來說交叉驗證是一種非常有效的訓練手段,為了保證劃分后的訓練集和驗證集中各類別樣本分布與原始數(shù)據(jù)集盡可能相同,故采用StratifiedKFold分層交叉驗證,如圖3所示。10折交叉驗證是將全部數(shù)據(jù)集D劃分為10個互斥子集,即D=D1∪D2∪…∪D10,Di∩Dj=(i≠j),每次用9個子集的并集作為訓練集,余下的那個子集作為測試集,重復(fù)10次。在9個訓練集上訓練出學習器模型,把這個模型放到測試集上,得到分類率的平均值,作為該模型或者假設(shè)函數(shù)的真實分類率。
評價指標主要采用準確度(accuracy)、查準率(precision)、查全率(recall)、F1-score、和AUC值。對于二分類問題,又可以將樣例根據(jù)其真實類別與分類器預(yù)測類別劃分出混淆矩陣(confusion matrices)來判斷實驗結(jié)果的可靠性,如表4所示。
基于表4中的符號,真正例率(true positive rate,TPR)和假正例率(1 positive rate,F(xiàn)PR)分別定義為
TPR=TPTP+FN(7)
FPR=FPTN+FP(8)
根據(jù)學習器的預(yù)測結(jié)果對樣例進行排序,按此順序逐個把樣本作為正例進行預(yù)測,以真正例率為縱軸、假正例率為橫軸可以畫出ROC曲線來評估二分類器的泛化性能。綜上,本文采用了“網(wǎng)格搜索+10折分層交叉驗證”的方式來選擇模型中的超參數(shù),提高模型的泛化能力。由于數(shù)據(jù)集為不平衡數(shù)據(jù)集,所以選擇AUC值作為網(wǎng)格搜索的評估指標對結(jié)果進行評估。各基礎(chǔ)分類模型的參數(shù)如表5所示。
3.4 基礎(chǔ)分類器泛化性能對比實驗
本文選擇PyCharm2021.3.2(community edition)作為編譯環(huán)境,利用Python的scikit-learn機器學習庫將原始數(shù)據(jù)集劃分為70%訓練集和30%測試集。采用scikit-learn庫中的StandardScaler函數(shù)對數(shù)據(jù)進行標準化處理得到標準數(shù)據(jù)集,其中包括標準化的訓練集Xtrain和標準化的測試集Xtest。然后,調(diào)用scikit-learn庫中的函數(shù),利用標準化的訓練集Xtrain訓練機器學習二分類領(lǐng)域主流的基礎(chǔ)分類模型:邏輯回歸、決策樹、BP神經(jīng)網(wǎng)絡(luò)、K最近鄰、支持向量機和隨機森林。本文選取準確度、查全率、F1-score和AUC值作為評價指標,并利用標準化的測試集Xtest評估各基礎(chǔ)分類模型的泛化性能。為了便于比較,將獲得的各分類模型檢測結(jié)果統(tǒng)一列出,如表6所示。
表5、6中,LR為邏輯回歸(logistics regression,LR),DT為決策樹(decision tree,DT),BP為BP神經(jīng)網(wǎng)絡(luò)(back propagation neural network,BP),KNN為K最近鄰(K nearest neighbor,KNN),SVM為支持向量機(support vector machine,SVM),RF為隨機森林(random forest,RF)。
通過對比實驗發(fā)現(xiàn),RF在準確率、召回率、F1-score和AUC值均具有較高的分數(shù)。基礎(chǔ)分類器SVM和BP具有較高的AUC值,但SVM的召回率較低,且BP不易于并行計算,因此SVM和BP方法不適于處理供應(yīng)鏈欺詐檢測。在供應(yīng)鏈交易的數(shù)據(jù)集上,基礎(chǔ)分類器DT和LR的召回率、F1-score和AUC值均顯著低于其他的基礎(chǔ)分類器,分類效果較差。
圖4(a)為各個基礎(chǔ)分類器的ROC曲線,由于可視化效果并不好,不便于分析,所以將TPR大于0.85的部分放大得到圖4(b)。根據(jù)圖4(b)所示,由于基礎(chǔ)分類器RF的ROC曲線完全“包住”其余基礎(chǔ)分類器,則斷言RF分類器的性能最優(yōu)。其中,由于基礎(chǔ)分類器SVM、DT和LR的ROC曲線發(fā)生交叉,則難以一般性地斷言三者孰優(yōu)孰劣。但根據(jù)ROC曲線下的面積,即AUC值,可知SVM的AUC值為0.87略高于LR和DT。
綜合表6、圖4(a)(b)的結(jié)果,RF可以有效提升泛化性能,對維數(shù)較高的樣本具有很好的處理能力。對于供應(yīng)鏈交易欺詐檢測,人們更傾向于找到更多的欺詐交易,同時不希望有較高的假陽率。雖然BP和SVM具有強大的分類能力,但隨著樣本數(shù)量的增加,訓練的時間過長,并不適用于大數(shù)據(jù)運算處理。RF具有易于對模型的參數(shù)進行設(shè)置、計算的時間復(fù)雜度低、對分類問題的預(yù)測精度較高、對噪聲和過擬合具有較好的魯棒性等優(yōu)點,在眾多機器學習方法中,優(yōu)勢明顯。因此,將更多的研究方向放在RF中,選擇RF作為模型的基礎(chǔ)分類器。
3.5 不平衡過采樣算法對比實驗
為了避免由于不平衡數(shù)據(jù)集造成的分類器失效或過擬合等問題,采用ADASYN算法處理標準化的訓練集Xtrain,通過將分類決策邊界向困難的實例進行自適應(yīng)移動實現(xiàn)數(shù)據(jù)擴增,生成新的訓練集Xtrain_adasyn,以解決不平衡數(shù)據(jù)造成的過擬合問題,過采樣前后數(shù)據(jù)分布對比如圖5所示。
為了驗證基于ADASYN-SFS-RF的欺詐檢測模型的有效性及在處理數(shù)據(jù)不平衡問題時可以很好地克服傳統(tǒng)方法對多數(shù)類樣本誤分類的缺陷,將本文的實驗結(jié)果與不平衡過采樣算法中的SMOTE、SvmSMOTE、BorderlineSMOTE和ADASYN結(jié)合RF進行對比,且RF的參數(shù)和之前保持一致,檢測結(jié)果如表7所示。
本文將樣例根據(jù)其真實類別與分類器預(yù)測類別劃分出混淆矩陣來判斷實驗結(jié)果的可靠性,各模型的混淆矩陣中基礎(chǔ)指標的數(shù)值如表8所示。同時,繪制了各模型的混淆矩陣,以SMOTE+RF模型、SvmSMOTE+RF模型、ADASYN+RF模型和ADASYN-SFS-RF欺詐檢測模型為例,如圖6~9所示。
通過對比圖6~9可知,直接采用過采樣算法會提升對少數(shù)類樣本的精度,但會導致對多數(shù)類樣本嚴重的誤分類情況,假陽率大大提升。根據(jù)表8可知,在RF模型中,假陽率為0.494 9%,F(xiàn)P個數(shù)為262,但是該模型對少數(shù)類樣本預(yù)測的錯誤率高達16.078 8%,F(xiàn)N個數(shù)為196;在SMOTE+RF模型、BorderlineSMOTE+RF模型和ADASYN+RF模型中,假陽率分別為1.815 4%、1.758 7%和1.817 3%,F(xiàn)P個數(shù)分別為961、931和962;在SVMSMOTE+RF模型中,假陽率高達1.866 4%,F(xiàn)P的個數(shù)為988;由圖8可知,ADASYN-SFS-RF模型的假陽率為0.489 3%,F(xiàn)P個數(shù)為259,對少數(shù)類樣本預(yù)測的錯誤率僅為1.886 8%,F(xiàn)N個數(shù)為23。
3.6 特征選擇算法對比實驗
在降低ADASYN算法添加噪聲數(shù)據(jù)對分類邊界確定的影響的同時,從不同特征選擇算法對模型的影響的角度,驗證基于ADASYN-SFS-RF的欺詐檢測模型的有效性。本文采用基于隨機森林的序列向前搜索策略方法篩選出最優(yōu)特征子集Xtrain_new_adasyn(訓練集)和Xtest_new_adasyn(測試集),其中,Xtrain_new_adasyn用于訓練RF,構(gòu)建泛化性能最優(yōu)的隨機森林強分類器。將實驗結(jié)果與特征選擇中的基于評價策略的嵌入式方法和帶有交叉驗證的遞歸特征消除法進行對比,基于隨機森林評價策略的嵌入式方法的特征重要性排序如圖10所示。根據(jù)圖10中隨機森林對44個特征的重要性排名結(jié)果,逐步減少變量個數(shù)(表9),以F1-score和AUC值作為評價指標,最終選擇隨機森林重要性排名前21的特征(加粗為F1-score和AUC值最高)。
帶有交叉驗證的遞歸式特征消除法根據(jù)特征消除的順序?qū)μ卣鬟M行排序,并根據(jù)剩余的特征建立模型的方法來優(yōu)化模型。采用10折分層交叉驗證并以AUC值作為評價指標讓模型自主選擇最優(yōu)的特征數(shù)量,由圖11可知,當特征的數(shù)量為44時,模型預(yù)測效果最優(yōu)。本文選取準確度、查全率、F-score和AUC值作為評價指標,各特征選擇算法檢測結(jié)果如表10所示。
本文引入基于隨機森林的序列向前搜索策略算法對特征進行選擇,由圖12(a)可知,隨著特征數(shù)量的增加,模型泛化性能趨于穩(wěn)定。由圖12(b)可知,當特征數(shù)為10時,模型預(yù)測效果最好,10個特征的具體描述如表11所示。
綜上,針對不平衡的數(shù)據(jù)分布,本文采用ADASYN算法進行數(shù)據(jù)擴增,使用基于隨機森林的序列搜索策略方法篩選出最優(yōu)特征子集對欺詐進行檢測,降低ADASYN算法添加噪聲數(shù)據(jù)影響分類邊界的確定的影響,構(gòu)建基于ADASYN-SFS-RF的欺詐檢測模型。實驗表明,該模型相對于其他欺詐檢測方法可以很好地克服傳統(tǒng)方法對多數(shù)類樣本誤分類的缺陷,降低過擬合風險,模型準確度可達到99.48%,AUC值可達到98.81%,假陽率為0.489 3%,顯著提高了供應(yīng)鏈企業(yè)對識別交易欺詐行為的效率,起到非常顯著的預(yù)警效果。
4 模型解析
通過提高模型的泛化性能可以提高對欺詐的檢出度,但是在欺詐檢測領(lǐng)域,當一個客戶的訂單被模型檢測為欺詐交易,如何向客戶和管理者對模型檢測結(jié)果的現(xiàn)實意義作出解釋也是必須要考慮的問題,如為什么會有這樣的預(yù)測,或者哪些變量導致了預(yù)測的發(fā)生等。本文使用LIME通過擾動示例樣本的輸入在其附近生成新的樣本點,訓練出易于解釋的線性回歸模型來擬合待解釋模型的局部邊界,得到對黑盒模型良好的局部近似,有效地理解樣本整體特征。分別以傳遞測試集中的第25個和第146個樣本為示例,輸出了模型對這兩個樣本的預(yù)測結(jié)果,影響該樣本預(yù)測結(jié)果重要性的前序特征,及其對應(yīng)貢獻度與對應(yīng)特征值,如圖13、14所示(藍色表示樣本“No Fraud”,橙色表示樣本“Fraud”,見電子版) 。
實驗結(jié)果表明,基于ADASYN-SFS-RF的欺詐檢測模型預(yù)測第25個樣本有100%的概率為正常交易,由圖13(a)可知,模型作出該決策主要考慮了訂單的交付狀態(tài)和所購產(chǎn)品的預(yù)定交付天數(shù),而客戶購買登記的商店所屬的國家、客戶購買商品的城市、所購產(chǎn)品的實際運輸天數(shù)、客戶的編號、交付地區(qū)、訂單編碼和訂單交付地區(qū)的狀態(tài)等權(quán)重較小的因素干擾模型作出正常交易的判斷。由圖13(b)可知,訂單的交付狀態(tài)為正常發(fā)貨,所購產(chǎn)品的預(yù)定交付天數(shù)為4天的權(quán)重較高,是模型將該樣本預(yù)測為正常交易的主要原因,而客戶購買登記的商店所屬的國家為北美洲國家波多黎各(PR),所購產(chǎn)品的實際運輸天數(shù)為5天,雖然使其有可能為欺詐交易,但是權(quán)重較低。調(diào)用相應(yīng)的測試集標簽發(fā)現(xiàn),模型的預(yù)測結(jié)果正確。
基于ADASYN-SFS-RF的欺詐檢測模型預(yù)測第146個樣本有91%的概率為欺詐交易。由圖14(a)(b)可知,模型作出該決策主要考慮了訂單的交付狀態(tài)、客戶購買登記的商店所屬的國家、所購產(chǎn)品的預(yù)定交付天數(shù)、所購產(chǎn)品的實際運輸天數(shù)、客戶的編號和交付地區(qū),而客戶購買商品的城市、訂單交付地區(qū)的狀態(tài)等權(quán)重較小的因素干擾模型作出欺詐交易的判斷。模型經(jīng)過訓練,學習得到美國賓夕法尼亞州和北美洲國家波多黎各是欺詐交易頻發(fā)地區(qū),并根據(jù)訂單的交付狀態(tài)為取消發(fā)貨、所購產(chǎn)品的預(yù)定交付天數(shù)為0天和交付所購產(chǎn)品的實際運輸天數(shù)為0天判斷其為欺詐交易。作為美國市場份額最大的跨境電商平臺,亞馬遜標準配送的平均時長為7~12個工作日,加速配送的平均時長為5~9個工作日,所以數(shù)據(jù)集中第146個樣本,購買產(chǎn)品的預(yù)定交付天數(shù)為0天和實際運輸天數(shù)為0天,與實際不符。調(diào)用相應(yīng)的測試集標簽發(fā)現(xiàn),模型的預(yù)測結(jié)果正確,且解釋符合邏輯。
5 結(jié)束語
本文主要聚焦在欺詐檢測這一非常具有挑戰(zhàn)性的機器學習問題上,通過對不平衡分類、數(shù)據(jù)挖掘和機器學習技術(shù)等方面的研究,融合了隨機森林強分類器、過采樣技術(shù)、特征選擇算法和LIME,提出了基于ADASYN-SFS-RF的欺詐檢測模型。該模型相對于其他欺詐檢測方法可以很好地克服傳統(tǒng)方法對多數(shù)類樣本誤分類的缺陷,模型準確度達到99.48%,AUC值達到98.81%,可以顯著提高企業(yè)對識別交易欺詐行為的效率,起到非常顯著的預(yù)警效果。同時,本文將供應(yīng)鏈欺詐作為載體對基于ADASYN-SFS-RF的欺詐檢測模型進行了案例分析。通過訓練基于ADASYN-SFS-RF的欺詐檢測模型,與不平衡過采樣算法中的SMOTE、SvmSMOTE、BorderlineSMOTE和ADASYN結(jié)合隨機森林強分類器進行對比。結(jié)果表明,基于ADASYN-SFS-RF的欺詐檢測模型對多數(shù)類樣本的錯誤分類率為0.489 3%,F(xiàn)P個數(shù)為259,對少數(shù)類樣本預(yù)測的錯誤率僅為1.886 8%,F(xiàn)N個數(shù)為23。在降低ADASYN算法添加噪聲數(shù)據(jù)對分類邊界確定的影響的同時,從不同特征選擇算法對模型的影響的角度,驗證基于ADASYN-SFS-RF的欺詐檢測模型的有效性,將本文的實驗結(jié)果與特征提取中的基于評價策略的嵌入式方法和帶有交叉驗證的遞歸特征消除法進行對比,該模型在準確率、召回率、F1-score和AUC值均表現(xiàn)最優(yōu)。最后,嘗試通過LIME對模型檢測結(jié)果的現(xiàn)實意義作出解釋。
本文模型通過循環(huán)有機的結(jié)構(gòu)化融合,克服了傳統(tǒng)方法對多數(shù)類樣本誤分類的缺陷,展現(xiàn)了優(yōu)越的欺詐檢測性能,同時增強了模型的可解釋性,為企業(yè)應(yīng)用機器學習技術(shù)進行欺詐檢測提供了一定的理論依據(jù)和實踐參考。同時,由于假設(shè)每個欺詐行為在時間上都是獨立的,本文模型更適用于對實時監(jiān)測要求低的場景。鑒于供應(yīng)鏈歷史交易數(shù)據(jù)中的數(shù)據(jù)分布會隨著時間的推移而變化,所以后續(xù)工作考慮針對這類時域序列數(shù)據(jù)展開研究,方法上則可以進一步向弱監(jiān)督、無監(jiān)督的學習方式進行深入研究。
參考文獻:
[1]張巍巍,吳恒亮. 大數(shù)據(jù)技術(shù)在財產(chǎn)保險反欺詐中的應(yīng)用研究綜述 [J]. 中國管理信息化,2021,24(15): 143-145. (Zhang Weiwei,Wu Hengliang. A review of research on the application of big data technology in property insurance anti-fraud [J]. China Management Informatization,2021,24(15): 143-145.)
[2]Abdallah A,Maarof M A,Zainal A. Fraud detection system: a survey [J]. Journal of Network and Computer Applications,2016,68: 90-113.
[3]Saravanan P,Subramaniyaswamy V,Sivaramakrishnan N,et al. Data mining approach for subscription-fraud detection in telecommunication sector [J]. Contemporary Engineering Sciences,2014,7(11): 515-522.
[4]Benchaji I,Douzi S,Ouahidi B E. Using genetic algorithm to improve classification of imbalanced datasets for credit card fraud detection [C]//Proc of International Conference on Advanced Information Technology,Services and Systems. Cham: Springer ,2018: 220-229.
[5]陽文斯. 基于聯(lián)邦學習的信用卡欺詐檢測系統(tǒng)研究 [D]. 深圳:中國科學院大學(中國科學院深圳先進技術(shù)研究院),2020. (Yang Wensi. Research on credit card fraud detection system based on federal learning [D]. Shenzhen: University of Chinese academy of Sciences(Shenzhen Institute of Advanced Technology,Chinese Academy of Sciences),2020.)
[6]琚春華,陳冠宇,鮑福光. 基于KNN-SMOTE-LSTM的消費金融風險檢測模型——以信用卡欺詐檢測為例 [J]. 系統(tǒng)科學與數(shù)學,2021,41(2): 481-498. (Qu Chunhua,Chen Guanyu,Bao Fuguang. Risk detection model for consumer finance based on KNN-SMOTE-LSTM credit card fraud detection as an example [J]. Systems Science and Mathematics,2021,41(2): 481-498.)
[7]Calderon T G,Cheh J J. A roadmap for future neural networks research in auditing and risk assessment [J]. International Journal of Accounting Information Systems,2002,3(4): 203-236.
[8]Rizki A A,Surjandari I,Wayasti R A. Data mining application to detect financial fraud in Indonesia’s public companies [C]// Proc of the 3rd International Conference on Science in Information Techno-logy.Piscataway,NJ: IEEE Press,2017: 206-211.
[9]Sun Yahui,Wu Yue,Xu Yunjie.Using an ensemble LSTM model for financial statement fraud detection[C]//Proc of the 24th Pacific Asia Conference on Information Systems. 2020:144.
[10]易東義,鄧根強,董超雄,等. 基于圖卷積神經(jīng)網(wǎng)絡(luò)的醫(yī)保欺詐檢測算法 [J]. 計算機應(yīng)用,2020,40(5): 1272-1277. (Yi Dongyi,Deng Genqiang,Dong Chaoxiong,et al. A medical insurance fraud detection algorithm based on graph convolutional neural network [J]. Journal of Computer Applications,2020,40(5): 1272-1277.)
[11]曹魯慧,秦豐林,閆中敏. 基于TLSTM的醫(yī)療保險欺詐檢測 [J]. 計算機工程與應(yīng)用,2020,56(21): 237-241. (Cao Luhui,Qin Fenglin,Yan Zhongmin. Fraud detection for health insurance based on TLSTM [J]. Computer Engineering and Applications,2020,56(21): 237-241.)
[12]吳文龍,周喜,王軼,等. WKAG: 一種針對不平衡醫(yī)保數(shù)據(jù)的欺詐檢測方法 [J]. 計算機工程與應(yīng)用,2021,57(9): 247-254. (Wu Wenlong,Zhou Xi,Wang Yi,et al. WKAG: a fraud detection method for unbalanced medical insurance data [J]. Computer Engineering and Applications,2021,57(9): 247-254.)
[13]Wan Fang. XGBoost based supply chain fraud detection model [C]// Proc of the 2nd IEEE International Conference on Big Data,Artificial Intelligence and Internet of Things Engineering. Piscataway,NJ: IEEE Press,2021: 355-358.
[14]Beteto A,Melo V,Lin J,et al. Anomaly and cyber fraud detection in pipelines and supply chains for liquid fuels [J]. Environment Systems and Decisions,2022,44: 1-19.
[15]Rao S X,Zhang Shuai,Han Zhichao,et al. xFraud: explainable fraud transaction detection on heterogeneous graphs [J]. Proceedings of the VLDB Endowment,2021,15(3):427-436.
[16]Farrugia D,Zerafa C,Cini T,et al. A real-time prescriptive solution for explainable cyber-fraud detection within the iGaming industry [J]. SN Computer Science,2021,2(3): 1-9.
[17]Sinanc D,Demirezen U,SaIrolu瘙塁. Explainable credit card fraud detection with image conversion [J]. ADCAIJ: Advances in Distributed Computing and Artificial Intelligence Journal,2021,10(1):63-76.
[18]He Haibo,Bai Yang,Garcia E A,et al. ADASYN: adaptive synthetic sampling approach for imbalanced learning [C]// Proc of IEEE International Joint Conference on Neural Networks. Piscataway,NJ: IEEE Press,2008: 1322-1328.
[19]Li B,F(xiàn)riedman J,Olshen R,et al. Classification and regression trees (CART) [J]. Biometrics,1984,40(3): 358-361.
[20]Cotter S F,Rao B D,Kreutz-Delgado K,et al. Forward sequential algorithms for best basis selection [J]. IEE Proceedings-Vision: Image and Signal Processing,1999,146(5): 235-244.
[21]Ribeiro M T,Singh S,Guestrin C. “Why should I trust you?”Explaining the predictions of any classifier [C]// Proc of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.New York:ACM Press,2016: 1135-1144.
[22]Constante F,Silva F,Pereira A. DataCo smart supply chain for big data analysis [EB/OL]. (2019-03-13). https://data.mendeley.com/datasets/8gx2fvg2k6/5.
[23]王蘇桐. 引入可解釋性的隨機森林規(guī)則提取方法及應(yīng)用 [D]. 大連:大連理工大學,2020. (Wang Sutong. Introduction of interpretable random forest rule extraction method and its application [D]. Dalian: Dalian University of Technology,2020.)