摘 要:針對大數據環境下隨機森林算法存在冗余與不相關特征過多、特征子空間信息含量不足以及并行化效率低等問題,提出了結合增益率與堆疊自編碼器的并行隨機森林算法PRFGRSAE(parallel random forest algorithm combining gain ratio and stacked auto encoders)。首先,提出了結合非線性歸一化增益率和堆疊自編碼器的降維策略DRNGRSAE(dimension reduction combining nonlinear normalization gain ratio and stacked auto encoders),通過過濾特征集中的冗余和不相關特征,并利用堆疊自編碼器提取特征,有效減少了冗余以及不相關特征數;其次,提出了結合拉丁超立方抽樣與歸一化相關度的子空間選擇策略SSLF(subspace selection strategy combining Latin hypercube sampling and feature class correlation),通過對特征集進行多層劃分抽樣,形成空間表達度較高的特征子空間,有效保證了特征子空間的信息含量;最后,提出結合可變動作學習自動機的reducer分配策略DSVLA(distribution strategy based on variable-action learning automata),使每個數據簇均勻分配到reducer進行處理,有效提高了并行化效率。實驗結果表明,PRFGRSAE算法的加速比與準確度較IMRF、KSMRF和GAPRF算法都有顯著提升,因此該算法應用于大數據處理,特別對包含較多特征的數據集有更高的精準度和并行效率。
關鍵詞:大數據; MapReduce; 并行隨機森林; 增益率; 堆疊自編碼器
中圖分類號:TP301.6 文獻標志碼:A
文章編號:1001-3695(2023)03-017-0750-10
doi: 10.19734/j.issn.1001-3695.2022.08.0374
Parallel random forest algorithm combining gain ratio and stacked auto encoders
Liu Weiming1a,1b, Chen Weida1a, Mao Yimin1a, Chen Zhigang2
(1. a.School of Information Engineering, b.School of Resource amp; Environmental Engineering, Jiangxi University of Science amp; Technology, Ganzhou Jiangxi 341000, China; 2.School of Computer Science amp; Engineering, Central South University, Changsha 410083, China)
Abstract:In the big data environment, the random forest algorithm suffers from excessive redundancy and irrelevant features, the insufficient spatial information content of feature subspace, and low parallelization efficiency. To resolve these issues, this paper presented PRFGRSAE. Firstly, this algorithm proposed a DRNGRSAE, which filtered redundant and irrelevant features of the feature set and extracted features by stacked auto-encoders to reduce the number of redundant and irrelevant features effectively. Secondly, it proposed a SSLF that combined Latin hypercube sampling and normalized correlation degree, which formed feature subspaces with high spatial expression by performing multi-layer division sampling on the feature set, and ensured the feature subspace information content. Finally, it proposed a reducer allocation strategy DSVLA combining with variable action learning automata, which allocated each cluster to reducers for processing evenly and improved the parallelization efficiency effectively. Experimental results show that compared with IMRF, KSMRF, and GAPRF algorithms, the speedup ratio and accuracy of the PRFGRSAE algorithm are significantly improved. Therefore, the algorithm can obtain higher accuracy and parallel efficiency when applied to process large data, especially for data sets with more features.
Key words:big data; MapReduce; parallel random forest; gain ratio; stacked autoencoder
0 引言
隨機森林算法[1]是一種以決策樹為基分類器的集成學習方法,通過集成多棵不相關決策樹的分類結果來獲得最終類別,具有分類效果好、魯棒性強以及運算速度快等特點[2],近些年已廣泛應用于環境監控[3]、滑坡預測[4]、網絡防御[5,6]、醫學預測[7]、故障檢測[8,9]、生物信息[10]等領域。隨著社交媒體、互聯網、云計算等信息科學技術的快速發展,大數據受到了廣泛關注。然而,數據規模的激增使得隨機森林算法在處理大數據時遭遇分類效果不理想、并行處理過程效率不高[11]等困境,因此,如何優化大數據下的隨機森林算法成為當前研究的重要方向。
近年來,MapReduce并行處理模型憑借操作簡易、擴展性強、成本低廉等優點獲得廣泛關注[12]。目前,許多基于MapReduce的隨機森林算法成功應用于大數據處理領域[13,14]。其中,Kumar等人[15]提出了基于MapReduce的隨機森林算法MRRF(random forests based on MapReduce),該算法基于MapReduce實現了隨機森林的并行化計算,但在構建過程中沒有考慮到冗余與不相關特征對隨機森林分類性能的影響。針對此問題,許多學者通過引入群體智能算法來減少過多的冗余與不相關特征的影響。例如,Lakshmanaprabu等人[16]通過基于MapReduce框架,提出了結合交叉率與蜻蜓算法的隨機森林算法IDAPRF(parallel random forests based on improved dra-gonfly algorithm),利用結合交叉率的改進蜻蜓算法來進行特征選擇,以此避免子集包含過多冗余與不相關特征的情況;Mehanovi等人[17]在MapReduce的基礎上提出了結合遺傳算法的并行隨機森林算法GAPRF (parallel random forests based on gene-tic algorithm),該算法在初始化算子后,通過選擇、交叉、變異過程調整評估函數,使群體進化得到最優特征,通過去除一部分不相關特征緩解了不相關特征過多的問題。雖然以上算法使用群智能算法對特征集尋優,通過減少某些特征的被選權重來降低對分類準確度的影響,其本質上沒有減少數據集的冗余與不相關特征數量,也沒有考慮到優勢特征的冗余特征,因此無法有效解決因數據集的冗余與不相關特征數量過多而導致隨機森林算法整體分類效果降低的問題。優化大數據下的隨機森林算法需考慮如何保證最優解的情況下減少數據集的冗余與不相關特征數量。
雖然減少冗余與不相關特征數量能有效提高并行隨機森林算法的分類性能,但是特征子空間信息含量對并行隨機森林算法的影響同樣不容忽視。為了解決此問題,Lulli等人[18]提出一種結合子空間分層選擇的并行隨機森林算法DRF (random forests combining data preparation),通過分層抽樣將特征空間劃分為三個部分,并從三個部分抽取特征構造特征子空間,一定程度上提高了特征子空間的信息含量。Jain等人[19]提出了結合K-means算法的并行隨機森林算法KSMRF(scalable MapReduce random forest based on K-means algorithm),通過計算特征間基于距離度量的相似性形成多個特征分區,并從分區中選取特征形成特征子集,從而獲取信息含量較高的特征子空間,緩解了特征子空間信息含量不足的問題。雖然上述算法在一定程度上能提高特征子空間的信息含量,但仍不能對特征空間進行全面表達,且算法執行過程會形成不相關分區,通過不相關分區形成的特征子空間信息含量會相對減少,進而降低隨機森林算法的分類精準度。所以優化大數據下的隨機森林算法仍需要考慮如何更有效地保證特征子空間的信息含量。
對于大數據下的隨機森林算法,除了上述兩個問題,仍需考慮計算節點負載不均造成的并行化效率低的影響。對此,Sisodia等人[20]提出一種優化MapReduce模型的并行隨機森林算法IMRF(parallel random forests combining improved MapReduce),通過心跳機制獲得各datanodes的數據容量情況,并在每次分配前計算每個數據節點的容量比,利用節點容量比改進了節點數據的分配過程以平衡計算節點負載,提高并行化效率。雖然該算法在一定程度上解決了計算節點負載不均造成的并行效率低的問題,但當數據量過大,無法將數據分配到合適reducer節點時仍會產生節點負載不均,影響并行化效率。因此,要優化大數據下隨機森林算法,需要進一步考慮如何有效提高并行化效率。綜上,如何減少數據集的冗余與不相關特征數量,如何更有效地保證特征子空間的信息含量以及如何提高并行化效率仍是目前大數據下隨機森林算法亟待解決的問題。針對以上問題,本文提出了結合增益率與堆疊自編碼器的并行隨機森林算法——PRFGRSAE,主要工作如下:a)提出了一種結合非線性歸一化增益率和堆疊自編碼器的降維策略DRNGRSAE,通過對特征集的冗余與不相關特征分別過濾,再使用堆疊自編碼器獲取中間矩陣以提取特征,有效減少了冗余以及不相關特征的數量;b)提出結合拉丁超立方抽樣和歸一化相關度的子空間選擇策略SSLF,通過對特征集進行拉丁超立方抽樣劃分為多層空間,并在各層抽樣形成空間表達度較高的特征子空間,有效保證了特征子空間的信息含量;c)提出結合可變動作學習自動機的reducer分配策略DSVLA,通過環境反饋對reducer負載進行約束,并更新可變動作學習自動機的動作概率集,經多次迭代后將每個數據簇分配到對應的reducer進行處理,有效提高了并行化效率。
1 相關概念及算法介紹
1.1 相關概念
定義1 信息增益率[21]。它是特征Xm關于類別L的信息增益與該特征分裂信息SI(Xm)的比值,用于衡量特征重要性。設特征Xm關于類別L的信息增益為IG(L,Xm),并且特征Xm的分裂信息為SI(Xm),則特征Xm的信息增益率Gr(L,Xm)為
其中:IG(L,Xm)=H(L)-H(L,Xm);H(L)為類別L的信息熵;H(L,Xm)為特征Xm關于類別L的條件信息熵。
定義2 拉丁超立方抽樣(Latin hypercube sampling,LHS)[22]。它是一種分層隨機抽樣,能夠保證每一個變量范圍的全覆蓋。設需要從樣本空間X={x1,x2,…,xn}中抽取k個樣本,且抽樣集為S。拉丁超立方體抽樣的步驟如下:
a)劃分區間,獲得k個不重疊且概率相同的子空間。
b)抽樣,隨機從各層空間抽取一個樣本形成抽樣集S。
1.2 相關算法
1.2.1 堆疊自編碼器算法
堆疊自編碼器算法(stacked auto encoders,SAE) [23]是一種能夠進行特征提取的神經網絡算法,可以從復雜高維的輸入數據中學習到不同維度和層次的抽象特征向量。該算法主要包括編碼和解碼兩個過程,具體過程如圖1所示。
1.2.2 可變學習自動機
可變動作學習自動機 (variable-action learning automata,VLA)[24]是一種通過隨機環境對選定動作的反饋來更新動作概率,并在一定迭代次數下趨近于最優動作的機器學習算法,能夠從動作集中找到最佳的動作,從而使從環境中受到的平均懲罰最小化。該算法主要包括動作概率更新和最優動作獲取兩個階段,其具體步驟如下:設t時刻下從動作集α={α1,α2,…,αn}選擇了動作αi,環境反饋為βi,βi=1時獎勵參數為Θ,βi=0時懲罰參數為Ξ。
a)VLA從動作集中選擇t時刻下概率最大的動作并傳給環境獲得反饋,利用反饋得到獎懲參數對t+1的時刻下動作概率進行更新:
2 PRFGRSAE算法
2.1 算法思想
PRFGRSAE算法主要分為三個階段:a)特征降維,提出DRNGRSAE策略,通過選出優勢特征將特征集劃分為候選特征集和優勢特征集以過濾靠后的不相關特征,再通過皮爾森冗余度過濾候選特征集中的冗余特征,然后通過優化的SAE重構后得到最優中間矩陣,減少了數據集中的冗余與不相關特征數;b)子空間選擇,提出SSLF策略,在給定表達誤差下,通過最小表達約束對特征集進行LHS多層劃分,并逐層抽樣形成特征空間表達度較高的子空間,有效保證特征子空間的信息含量;c)并行構建隨機森林,提出DSVLA策略,通過環境反饋與負載約束函數對動作禁用并更新概率,在多次迭代后獲得最優動作集,并將每個簇分配到對應的reducer進行處理以平衡節點負載,提高了并行化效率。
2.2 特征降維
目前在大數據環境下的并行隨機森林算法中,獲取的特征子集會隨數據維度的增長而產生冗余和不相關特征數過多的問題,因此本文提出DRNGRSAE策略,該策略主要過程如下:a)特征選擇過程,首先結合信息熵與非線性歸一化增益率提出了歸一化相關度(normalization correlation degree,NCD),通過比較NCD的大小選出優勢特征,并將特征集劃分為優勢特征集和候選特征集,再去除NCD較低的不相關特征,然后結合皮爾森相關系數與NCD提出皮爾森冗余度(Pearson correlation degree,PDD),對候選特征集中PDD值較高的特征進行過濾;b)特征提取過程,首先通過SAE獲取初始參數,并利用softmax分類器進行分類獲得分類矩陣,然后通過L2范數估計重構誤差及分類誤差,最后使用梯度下降法對重構過程的參數進行優化,并將優化參數代入SAE重新獲取最優中間矩陣,以獲得降維特征集。
2.2.1 特征選擇
證明 由于增益率可以傾向于選擇取值較少的特征,并且當SI(di)→0時,增益率的置信度也會隨之降低,所以加入了平均信息增益AIG作為懲罰項以平滑增益率曲線,由大數定律可得Gr(L,di)=IG(L,di)∑qiIGi×pi+SI(di)。而Gr(L,di)可代表特征使類別信息不確定性減少的程度,信息熵[H(di)+H(L)]/2可表示特征與類別總不確定性,所以Gr(L,di)[H(di)+H(L)]/2可以表示特征di減少的不確定性占總不確定性的比重。當值較小時,表明該特征不利于分類,值較大時則表明該特征對分類有較大作用,且信息熵H(di)=-∑pi=1p(di)log p(di),H(L)=-∑cj=1p(Lj)log p(Lj)。又由于信息熵函數為凸函數,根據Jen-sen不等式可得H(di)≤log∑pi=1p(di)1p(di),即H(di)≤log p,同理H(L)≤log j,即對Gr(L,di)進行了非線性歸一化處理可得NCD(L,di)=Gr(L,di)min{log m,log j},所以可以使用該比值NCD(L,di)來衡量特征與類別的相關性,證畢。
2)過濾冗余特征
在減少不相關特征數后,為了減少特征集中的冗余特征數,需要過濾候選特征集中優勢特征的冗余特征。其過程如下:先結合皮爾森相關系數與NCD提出了PDD,通過優勢特征與候選特征的PDD值來衡量兩者相似性,再根據PDD進行升序排列并剔除部分PDD值較高的特征;然后重新組合獲得優化后的特征集D′=[d1,d2,…,ds]∈Euclid ExtraaBpp×s(1<s≤k)。
定理2 皮爾森冗余度PDD。已知特征對(di,dj)的協方差為cov(di,dj),優勢特征di與dj的歸一化相關度分別為NCD(L,di)、NCD(di,dj),方差分別為val(di)、val(dj),則特征dj的特征冗余度計算如下:
證明 cov(di,dj)代表優勢特征di與dj之間的親疏關系,值越大表明兩者越相似;val(di)和val(dj)則分別代表優勢特征di和dj的發散程度,值越大,則特征的發散程度越高,對于各樣本的區別更大,更利于分類。因此,皮爾森系數cov(di,dj)val(di)val(dj)可以用于衡量優勢特征di和dj在當前發散程度下的相似性,即在分類時,優勢特征di發揮的作用會被特征dj影響的程度有多大,并通過兩特征的NCD值得到ψ(dj)進行加權,從而更合理地評估特征dj與優勢特征di的相似性。故ψ(dj)·cov(di,dj)val(di)val(dj)可以用于衡量特征的冗余度,證畢。
將特征矩陣D′與標簽集L進行列合并后得到數據集DB′傳入到特征提取階段。特征選擇的偽代碼如算法1所示。
算法1 特征選擇算法
輸入:原數據集DB。
輸出:特征矩陣D′,數據集DB′。
for each feature di in D //1≤i≤q
output I←IGi; //put information gain of each feature into I set
end for
AIG=average(I);
for each feature di in D //1≤i≤q
output F←FCCi; //output a F set containing FCC of each features
end for
sorted(F);superior feature←〈fu,FCCu〉; / take the u features of the previous as dominant features/
for each feature fi in F//1≤i≤u
output cov(di,dj); // covariance of feature di,dj
output val(di),val(dj); //respective variance of feature di,dj
calculate DBF(di,dj);//obtain DBF value of feature di,dj
end for
delete the features with higher DBF;
return D′;
DB′← combine D′ and L by column;
return DB′.
2.2.2 特征提取
在得到特征選擇后的數據集后,由于數據集維數仍較高,需要對特征選擇后的數據集使用SAE進一步提取優化,其過程如下:a)初始權重矩陣和特征矩陣重構,在獲取初始權重矩陣和偏置后,利用反向傳播對權重矩陣及偏置進行調整并重構特征矩陣,接著用softmax分類器進行分類得到分類矩陣;b)信息損失量和分類誤差估計,通過L2范數衡量分類矩陣與原矩陣間的變量差異,以及原標簽集與分類矩陣標簽集之間的標簽差異,分別得到重構后的信息損失量J(θ)和分類誤差Lerror;c)參數集優化,為了使信息損失量和分類誤差總和達到最小,提出了結合L2范數、信息損失量以及分類誤差的參數優化函數P(θ,C),通過梯度下降法P(θ,C)參數集進行求解得到最優參數,之后將最優參數代入SAE獲得最優權重矩陣,并對特征矩陣進行降維。特征提取的具體過程如下:
b)信息損失量與分類誤差估計。在獲得分類矩陣和重構矩陣后,結合L2范數提出信息損失量J(θ)和分類誤差Lerror衡量重構矩陣是否能盡可能地與原矩陣相等,并對重構后的信息損失量及分類誤差進行估計。
定理3 信息損失量J(θ)。已知原特征di∈D′,重構特征di∈D″,則信息損失量J(θ)計算如下:
證明 由于SAE的轉換過程是有損的,這個過程矩陣D′通過權重矩陣W1、W2、W3轉換成D″,即D″=σ(σ2D′W1W2+σb1W2+σb2)W3+b3≈D′,獲得的重構矩陣D″的特征di與原特征矩陣D′的特征di存在著信息差異,則可用L2范數計算兩矩陣中各元素的歐氏距離來反映轉換產生的信息損失量,所以,∑si=1‖d′i,di‖2能夠衡量矩陣D′與重構矩陣D″的信息損失量。證畢。
定理4 分類誤差Lerror。已知特征矩陣D′的標簽集為L,重構矩陣D″通過softmax分類預測得到的預測標簽集為f(M2),則分類誤差Lerror計算如下:
證明 由于矩陣D′通過權重矩陣W1、W2、W3轉換成重構特征矩陣D″的過程是有損的,在對重構特征矩陣D″進行分類時,得到的預測標簽集為f(M2)=σ(M1W2+b2)C,與特征矩陣D′的標簽集L存在信息差異,同定理3可知,通過L2范數可以計算兩分類矩陣在轉換中產生的信息損失量,所以‖L,f(M2)‖2可以用于衡量分類誤差。證畢。
c)參數集優化。為了使重構矩陣盡可能與原矩陣相等,需要獲取最優權重矩陣以及偏置,提出關于參數集θ={W1,W2,W3,b1,b2,b3}和C的參數優化函數P(θ,C),對J(θ)、Lerror進行最小化,并使用梯度下降法求解。
定理5 參數優化函數P(θ,C)。已知特征矩陣D′,標簽集L,通過參數集θ與分類矩陣C可得到重構特征矩陣D″與預測標簽集f(M2),則參數優化函數P(θ,C)計算如下:
其中:λ為分類誤差的權重。
2.3 子空間選擇
在獲得特征降維的特征集后,由于目前大數據環境下的并行隨機森林算法中,從降維特征集中抽取特征構建子空間時通常使用隨機選擇或均勻選擇的方式,這些方式都沒有很好地考慮特征的信息含量,導致構建的特征子空間攜帶的信息含量不能充分表達原數據。本文提出了結合LHS與歸一化相關度的子空間選擇策略SSLF,在給定表達誤差的情況下,通過最小表達約束 (minimum expression limit,MEL)獲取LHS劃分層數,再使用LHS對特征集進行多層劃分,并逐層抽取特征形成特征子空間,以提高子空間信息量。子空間選擇過程如下:
a)首先按歸一化相關度將特征集進行排序,并提出最小表達約束 ,在給定的置信度以及表達誤差下對特征集劃分層數進行約束,并使用LHS抽樣將特征集劃分為Dm層,然后從每一層隨機抽取出一個特征,得到包含Dm個特征且有足夠表達度的特征子集。
2.4 并行構建隨機森林
在獲得特征子集后需要利用各特征子集構建決策樹,而目前大數據環境下的并行隨機森林算法中,在并行階段由于各個計算節點中構建的決策樹不同,鍵值對數量與數據分布不均勻,使得reducer節點負載不均,降低了并行化效率。本文提出了結合可變動作學習自動機的reducer分配策略DSVLA,對reducer負載進行平衡以優化MapReduce模型,并將優化后的MapReduce模型用于并行構建隨機森林。具體過程如下:首先使用MapReduce對特征子集進行劃分并通過record reader函數轉換為鍵值對;然后將相同鍵值的鍵值對作為一個數據簇傳入各自的VLA后,提出負載約束函數(load constraint function,LCF)對reducer的負載進行約束并更新動作概率,迭代得到最優動作集,并將每個簇分配至對應的reducer構建決策樹;最后,對S個特征子集使用DSVLA策略構建S棵決策樹,并用決策樹對數據集DB″進行預測后,合并決策樹獲得隨機森林模型和全局分類結果,與標簽L比較后得到模型的準確度。假定有R個reducer上的負載WL={WL1,WL2,…,WLR},每個reducer上放置的簇為CP={CP1,CP2,…,CPR},具體過程如下:
a)相同鍵值對作為一個簇,得到簇集CS={CS1,CS2,…,CSn},CS.sizev對應簇CSv的大小,且對應的VLA可表示為LA={LA1,LA2,…,LAn},其中LAv=(βv,αv,pv,T),αv={αv1,αv2,…,αvR},v={1,2,…,n},并將每個動作概率集pv的值初始化為1/R。
b)在LAv對應的動作集αv={αv1,αv2,…,αvR}中隨機選擇一個動作αvj,并傳入環境REv,環境返回反饋βv以及動作懲罰概率Cvj,提出負載約束函數LCF對reducer j的負載進行約束并獲得當前最小變異系數COV,當WLj>Dsize時對動作進行禁用并置動作概率為0,即αvj amp; pvj=0;接著更新t時刻的動作概率i(t),并根據反饋βv以及動作懲罰概率Cvj更新t+1時刻的動作概率pi(t+1)。
定理7 負載約束函數LCF。已知αvj表示第v個VLA將簇CSv分配到reducer j,在R個reducer上的負載WL={WL1,WL2,…,WLR},可用動作集為,STDdev(WL)、STDdev(WL′)為分配前后的負載標準差,則此時的負載約束函數LCF計算如下:
證明 當reducer j上的負載小于可負載數據Dsize=∑Ri=1WLi/R,則簇可以分配到reducer j,其動作αvj屬于可用動作,屬于集,反之,動作αvj不屬于集且置概率為0,此時可得分配后的reducer j負載值WL′j。因為STDdev(WL)=1/R∑Ri=1(WLi-Dsize)2,當數據在各reducer間分布較為均勻,負載值WL更趨于集中在均值附近,WL→Dsize,有STDdev(WL)→0,故STDdev(WL)Dsize→0,即STDdev(WL)Dsize越小,數據分布更均勻,反之STDdev(WL)Dsize越大,數據分布更傾斜,分配后情況也類似。此外,假設第g、h次簇分配下,有reducer i的STDdev(WL)相等,而兩次分配的均值相差較大時,即STDdev(WL)g=STDdev(WL)h,Dsizeg→0,Dsizeh→∞,那么有STDdev(WL)g=∑Ri=1(WLi)2g,STDdev(WL)h=∑Ri=1(WLi-∞)2h,當WLi發生變化時,一定有ΔSTDdev(WL)ggt;gt;ΔSTDdev(WL)h,因此均值越大,STDdev(WL)/Dsize越小,數據的抖動產生的影響越小,負載值更趨于集中,數據在各reducer間分布更均勻,反之STDdev(WL)/Dsize越大,數據抖動越大,數據在各reducer間分布更傾斜。因此,STDdev(WL)/Dsize可以用于衡量負載值集中程度,數據分布的均勻性以及抗抖動程度,可以選擇最小STDdev(WL)/Dsize對負載程度進行約束,證畢。
c)通過負載約束函數LCF約束各時刻下的負載,直到達到COV設定最小誤差ε(ε→0)以及最大迭代次數,得到每個簇的最優動作,以及包含每個簇分配信息的分配集CP={CP1,CP2,…,CPR},并把簇分配到相應的reducer構建決策樹。
d)對S個特征子集使用VLADS策略構建S棵決策樹,并利用決策樹對數據集DB″進行預測后,合并決策樹及其分類結果來獲得隨機森林模型與全局分類結果,與標簽L比較后得到模型的準確度。
隨機森林并行構建過程如圖3所示。
由上述可得并行構建隨機森林的偽代碼如算法4所示。
算法4 并行構建算法
輸入:數據集DB″,特征子集Tl(l=1,2,…,S)。
輸出:隨機森林模型及其準確率。
for each Tl do
initialize WL=0,CP= and LA;
record reader(Tl)→CS={CS1,CS2,…,CSn};
while (itr〈itrmax and(COV-OptCOV)>ε)
for v=1 to n do
disable all actions of LA that WLv>Dsize and rescale probability;
select αvj and send to REv for obtaining βv,Cvj;
OptCOV=LCF(WLi);
update v(t) and v(t+1);
CPj←αvj
distribute CSv to reducer j
end for
build decision tree in parallel and predict local result;
end for
merge all decision tree and obtain random forests;
return accuracy.
2.5 時間復雜度分析
PRFGRSAE算法主要包括特征降維、子空間選擇和并行構建隨機森林三個階段,分別記三個階段的時間復雜度為T1、T2和T3,則該算法時間復雜度可表示為TPRFGRSAE=O(T1+T2+T3)。
在特征降維階段包括特征選擇和特征提取兩個步驟。特征選擇步驟的時間復雜度主要由計算非線性歸一化增益率、計算皮爾森冗余度決定。已知數據集的樣本為p,特征維度為q,優勢特征數為u,mapper節點個數為m,則該步驟的時間復雜度為
特征提取步驟的時間復雜度主要由迭代獲取提取后的特征集決定,已知提取后的特征集M為p×h′階矩陣,且需要迭代v次,則該步驟時間復雜度為
因此,特征降維階段時間復雜度為
在子空間選擇階段,主要由對選出的子空間進行信息含量的評估過程決定。已知選出S個子空間,各子空間包含Dm個特征,則該階段的時間復雜度為
在并行構建隨機森林階段,時間復雜度主要由建立MapReduce任務進行并行隨機森林模型的構建過程以及預測過程決定。構建過程包括決策樹構建以及匯集成隨機森林的過程,已知建立S棵決策樹, map任務節點數為m, reduce任務節點數為r,則該階段時間復雜度為
綜上,PRFGRSAE 算法總的時間復雜度為TPRFGRSAE=O((p+q-u)qm+ph′v+(S log p)ph′mr+SD2m),其中Dmlt;lt;h′,Slt;lt;h′,Dmlt;lt;p,Slt;lt;p,所以最終時間復雜度近似為TPRFGRSAE=O(ph′×(v+S log pmr))。
對于IMRF[13]算法,該算法首先對數據集進行Bootstrap抽樣得到訓練T棵決策樹的訓練子集,該部分的時間復雜度為O(pqT);然后在map階段并行構建決策樹,獲得每棵樹的分類結果,并在reduce階段合并每棵樹的分類結果,獲得全局分類結果。令map任務節點數為k,reduce任務節點數為b,測試集樣本數為p′,可得該部分的時間復雜度為O((T log p)pqk+(T log p)pqb),則IMRF算法的時間復雜度約為O(pqT+(T log p×pq)(k+b)kb)。
對于KSMRF[15]算法,該算法首先應用K-均值算法對特征進行以初始質心為u的K次迭代得到特征分區,該部分的時間復雜度為O(pqKu);然后從得到的特征分區抽取特征構建T′棵決策樹并匯集成隨機森林。令map任務節點數為k′,reduce任務節點數為b′,該部分時間復雜度為O((T′ log p)pqk″+(T′ log p)pqb″),則GAPRF算法的時間復雜度為O(pqKu+(T′ log p)pqk″+(T′ log p)pqb″)。
對于GAPRF[17]算法,該算法首先在MapReduce模型下使用改進遺傳算法的選擇、交叉、變異三個過程迭代v′次進行特征提取,該部分時間復雜度為O(pqv′);然后根據提取的特征,使用map函數構建T′棵決策樹;最后在reduce階段匯集全部決策樹得到隨機森林模型,并統計全部決策樹的分類結果得到全局結果。令map任務節點數為k″,reduce任務節點數為b″,可得該部分時間復雜度為O((T″log p)pqk″+(T″log p)pqb″),則GAPRF算法的時間復雜度為O(pqv′+(T″log p)pqk″+(T″log p)pqb″)。
因此,對于PRFGRSAE算法,由于h′lt;lt;q,v≤v′,S≤T≤T′,m≈k≈k′≈k″,r≈b≈b′≈b″,所以ph′v<pqv′,于是有TPRFGRSAE<O(pqT+(T log p)pq(k+b)kb),TPRFGRSAE<O(pqKu+(T′ log p)pqk″+(T′ log p)pqb″),且TPRFGRSAE<O(pqv′+(T′ log p)pqk′+(T′ log p)pqb′),相較于IMRF、GAPRF算法,PRFGRSAE算法有著更為理想的時間復雜度。
3 實驗及分析
3.1 實驗準備
3.1.1 實驗環境
本文設計了相關實驗以驗證PRFGRSAE算法的性能。硬件配置為主從結構的分布式集群,包含了一個master節點和四個slaver節點。所有節點的CPU均為 Intel Core i9,3.6 GHz 8核處理器,16 GB內存,2 TB SSD硬盤。實驗環境中的五個節點均在同一局域網,并由500 Mbps以太網相連,每個節點統一配置了Hadoop 2.7.5的分布式計算平臺,JDK 1.8版本的Java環境。各個節點的具體配置如表1所示。
3.1.2 參數設置
算法的參數設置如下:為了保證模型的準確度,在特征選擇階段的優勢特征選擇為當前特征數q的80%,即μ=0.8q,在特征提取階段,分類誤差的權重λ設為0.5;在特征子空間選擇階段,給定置信度δ為95%,表達誤差ξ為0.1;為了保證公平性,并行構建階段,決策樹數量Tt設為150(除3.4.2節算法運行時間),實驗中參數設置如表2所示。
3.2 實驗數據
本文在實驗部分采用的實驗數據為四個來自UCI公共數據庫的真實數據集,分別為DeepFakes[25]、SUSY[26]、URL[27]和LoT_attack[28]。其中,DeepFakes是一個部分數據經過修改的肺部CT掃描圖像的醫療預測數據集,該數據集記錄了20 000個樣本,并通過200 000個特征檢測醫療數據是否被修改,具有樣本數量少、特征數多的特點;SUSY是一個記錄了粒子運動學特性以及特性相關函數的物理粒子信息數據集,該數據集記錄了5 000 000個樣本,并通過18個特征來判斷某一信號過程是否產生超對稱粒子,具有樣本數量多、特征數少的特點;URL是一個記錄網站域名性質檢測的網絡防御相關數據集,該數據集記錄了2 396 130個樣本,并通過3 231 961個特征判斷一個網站是否惡意URL,具有樣本數量多、特征數多的特點;LoT_attack是從九臺商業物聯網設備收集包含僵尸網絡的網路真實流量數據集,該數據集記錄了7 062 606條樣本,并通過115個特征來判斷僵尸網絡的攻擊是良性還是惡性的,具有樣本數量多、特征數適中的特點。數據集的詳細信息如表3所示。
3.3 評價指標
實驗分別引入加速比和Kappa系數兩個指標來衡量PRFGRSAE算法在大數據環境下的并行效率和分類準確率,其定義如下:
a)加速比。它是同一任務在單機條件下運行時間與并行計算總體運行時間之比,用于衡量算法通過并行計算降低總體運行時間而獲得的性能提升,其定義如下:
其中:T1表示單機下的運行時間;Tn表示在n個節點下的運行時間;Sn表示加速比,值越大,并行化效率越高。
b)Kappa系數。已知真實的每一類樣本個數分別為a1,a2,…,ac,而預測得到的每一類樣本個數分別為b1,b2,…,bc,總樣本個數為n,則Kappa系數定義如下:
其中:p0表示總體分類精度。通常情況下,kap值落在[0,1],可分為五組來表示不同的一致性級別,一致性越高,表示分類準確率越高,如表4所示。
3.4 PRFGRSAE算法可行性分析
3.4.1 算法加速比
為了驗證PRFGRSAE算法在大數據下的分類可行性,將決策樹數量設置為150,分別計算PRFGRSAE算法在DeepFakes、SUSY、URL和LoT_attack四個數據集上的加速比,并取10次運行時間的平均值作為實驗結果。最終的實驗結果如圖4所示。
從圖4可以看出,PRFGRSAE算法在四個數據集上的加速比隨著節點數的增加不斷提升。PRFGRSAE算法在DeepFakes數據集上運行的加速比相較于單節點分別增長了0.679 9、1.301 4、1.681 2和2.421 2;在SUSY數據集上運行的加速比相較于單節點分別增長了0.871 3、1.622 4、2.217 1和2.752 1;在URL數據集上運行的加速比相較于單節點分別增長了0.600 4、1.411 4、1.875 2和2.578 7;在LoT_attack數據集上運行的加速比相較于單節點分別增長了1.040 2、1.761 0、2.414 1和2.978 2。從圖4中的數據可知,PRFGRSAE算法在各數據集上的加速比顯著增加,對于特征數較多的DeepFakes和URL數據集,其加速比的上升趨勢最好;對于樣本數據量較多的SUSY和LoT_attack數據集,其表現出了較好的算法伸縮性。產生這些結果主要是由于:a)PRFGRSAE算法在并行化階段合并時,設計了DSVLA策略對數據劃分為簇,并根據策略分配到節點進行處理,平衡了節點數據分布不均,有效提高了并行化效率;b)PRFGRSAE算法在數據降維階段,設計了DRNGRSAE策略減少不相關特征以及優勢特征的冗余特征數量,再對特征維度進行壓縮,減少特征數量以及過多的冗余計算,極大減少了并行過程數據量,能獲得更高的加速比。實驗結果表明,PRFGRSAE算法在上述四個醫療預測、物理粒子信息以及網絡防御相關的數據集上有很好的并行處理效率。
3.4.2 算法性能分析
選取隨機森林中數量為100、150、200、250的決策樹,分別計算PRFGRSAE算法在DeepFakes、SUSY、URL和LoT_attack四個數據集上的運行時間以及Kappa值,并取10次運行時間的平均值作為實驗結果,最終實驗結果如圖5所示。
從圖5可以看出,決策樹數量分別從100增加到150、150增加到200、200增加到250時,PRFGRSAE算法在DeepFakes數據集上運行的時間分別增加了940 s、1 866 s、2 061 s,相較于100棵決策樹,150、200、250棵準確度分別提高了3.65%、3.44%、3.20%;在SUSY數據集上運行的時間分別增加了2 401 s、3 892 s、2 508 s,準確度分別增加2.89%、2.54%、2.46%;在URL數據集上運行的時間增幅一直是遞增的,分別增加了3 677 s、4 067 s、4 396 s,準確度分別增加3.91%、3.59%、3.58%;在LoT_attack數據集上運行的時間分別增加了3 709 s、4 210 s、3 078 s,準確度則分別增加了2.41%、2.15%、2.00%。從圖中呈現的數據可以得知,PRFGRSAE 算法在四個數據集上的運行時間的增幅隨著決策樹的增多逐漸增大,并且PRFGRSAE 算法在150棵決策樹時準確率最高。主要原因是:a)隨著設定決策樹數量的增加,在構建決策樹過程中需要處理數據集的時間復雜度也隨之增加;b)DeepFakes和URL數據集的特征數較多,PRFGRSAE算法設計了DRNGRSAE降維策略對多特征數據集的特征降維過程需要消耗時間處理;c)隨著決策樹的增加,決策樹之間的差異會減小,對分類精準度的影響也降低,因此模型準確度增長幅度會越來越小。綜上,決策樹數量為150的PRFGRSAE算法用于處理四個與醫療預測、物理粒子信息分析以及網絡防御相關的數據集上有更佳的分類精準度。
3.5 算法性能比較分析
3.5.1 算法時間復雜度比較分析
為了驗證PRFGRSAE算法的時間復雜度,將與IMRF、GAPRF和KSMRF算法進行綜合比較,在DeepFakes、SUSY、URL、LoT_attack四個數據集進行對比實驗,將算法生成150棵決策樹的運行時間進行比較。實驗結果如圖6所示。
從圖6可以看出,PRFGRSAE算法在四個數據集上的運行時間均小于其他三種算法。在特征數目較多的DeepFakes數據集上,相較于IMRF、KSMRF和GAPRF算法,PRFGRSAE算法的運行時間分別降低了43.8%、33.5%、11.9%;在樣本數量較多,特征數較少的SUSY數據集上,PRFGRSAE算法的運行時間相較于IMRF、KSMRF和GAPRF算法分別降低了24.9%、18.8%和14.9%;隨著數據規模的增長,在樣本數較多、特征數較多的URL數據集上,PRFGRSAE的運行時間相較于IMRF、KSMRI和GAPRF算法,分別降低了23.7%、15.6%和7.1%;在樣本數量較多、特征數適中的LoT_attack數據集上,PRFGRSAE的運行時間相較于IMRF、KSMRF和GAPRF算法分別降低了21.4%、13.9%和4.8%。PRFGRSAE算法的時間復雜度小于其他三種算法的主要原因是:a)PRFGRSAE算法設計了DRNGRSAE策略減少了不相關特征以及冗余特征數量,并對特征維度進行壓縮,減少了選擇特征進行分裂時的計算復雜度,有效降低了構建決策樹過程的時間復雜度,進而降低了整體的運行時間;b)PRFGRSAE算法設計了DSVLA策略,劃分數據為較小的數據簇,通過負載約束函數將每一個簇均勻分布在reducer節點上,避免合并過程的節點負載不均,有效提高了并行化效率。因此,以上兩點的改進使得PRFGRSAE算法更能適應于大數據環境,相較于IMRF、KSMRF和GAPRF算法有更低的時間開銷,且對于多特征數據集具有更好的效果。
3.5.2 算法加速比較分析
為驗證PRFGRSAE算法的并行性能,將與IMRF、GAPRF和KSMRF算法進行比較,在DeepFakes、SUSY、URL和LoT_attack四個數據集進行對比實驗,根據算法生成150棵決策樹得到的加速比進行對比。實驗結果如圖7所示。
從圖7可以看到,隨著節點數的增加,PRFGRSAE算法在各數據集上逐漸獲得最高的加速比。當節點數為5時,在特征數目較多的DeepFakes數據集上,PRFGRSAE算法比IMRF、KSMRF和GAPRF算法分別提升了0.664 8、0.236 7、0.533 8;在樣本數量較多、特征數較少的SUSY數據集上,分別提升了0.395 5、0.178 1、0.539 0;而在樣本數量較多、特征數較多的URL數據集上,分別提升了0.476 2、0.391 6、0.258 6;在樣本數量較多、特征數適中的LoT_attack數據集上分別提升了0.497 9、0.216 8、0.333 0。產生這些結果的主要原因是:a)PRF PRFGRSAE算法設計了DRNGRSAE策略以減少特征集的冗余與不相關特征數量,相對于其他算法,在模型構建過程中避免更多的重復計算,降低了時間復雜度,并行過程的時間開銷更低,因此加速比更高;b)在并行階段則使用DSVLA策略劃分數據為簇,并根據策略分配節點進行處理,平衡了節點負載壓力,有效提高了并行化效率,其并行化加速比均高于IMRF和KSMRF算法。相比于上述三種算法,PRFGRSAE算法在上述四個數據集上的并行性能和魯棒性更佳。
3.5.3 算法分類準確度比較
為驗證PRFGRSAE算法在不同數據集下的分類準確率,將與IMRF、GAPRF和KSMRF算法在四個數據集上根據計算得到的Kappa值進行對比實驗。實驗結果如圖8所示。
從圖8中可以看出,相較于IMRF、KSMRF和GAPRF算法,PRFGRSAE算法在四個數據集上都取得了最高的Kappa值。在特征數較多的DeepFakes和URL數據集上Kappa值都遠高于其他三種算法,其中,在DeepFakes數據集上相較于IMRF、KSMRF和GAPRF算法分別提高了10.8%、5.9%、6.4%,在URL數據集上分別提高了12.4%、5.7%、6.9%;在樣本數量較多、特征數適中的LoT_attack數據集上相較于IMRF、KSMRF和GAPRF算法分別提高了5.9%、2.1%、3.9%,在樣本數量較多、特征數較少的SUSY數據集上分別提高了5.3%、2.4%、3.8%。產生這些結果的主要原因是:a)PRFGRSAE算法使用了DRNGRSAE策略在特征降維階段有效減少了冗余與不相關特征數量,特征集的特征更具有代表性,形成的模型也有更高的分類精準度;b)PRFGRSAE算法使用的SSLF策略根據數據集特征維度不同將特征空間劃分成多層抽取空間,并逐層抽取特征形成特征子空間,這樣形成的特征子空間中的特征更能表達整個特征空間,有效保證了特征子空間的信息含量,進而提高了模型整體的分類精準度。IMRF算法在構建決策樹時沒有考慮子空間信息含量對準確率的影響;GAPRF使用改進遺傳算法選擇特征時容易陷入局部最優,選擇到局部最優特征,形成的子空間信息含量不足;KSMRF算法在分區時由于沒有對冗余特征進行處理,容易形成不相關分區,降低了模型的精準度。所以在特征數較多的醫療預測數據集DeepFakes和網絡防御數據集URL上,PRFGRSAE算法能夠取得比其他三種算法更高的Kappa值和更高的分類精準度。綜上,PRFGRSAE算法在處理高維數據集時,能夠有效保證特征子空間的信息含量,相較于其他三種對比算法分類精準度更好。
3.5.4 實驗總結
a)由3.4.2節可知,PRFGRSAE算法在決策樹數量為150時,在醫療檢測、物理粒子信息分析以及網絡防御的高維數據集上能取得更高的準確度。
b)由算法復雜度分析和加速比比較結果可知,PRFGRSAE算法在節點數由1增加到5的過程,相對于其他三個比較算法均取得了最高的加速比;而在節點數為5時,相較于其他三個比較算法,運行時間均為最少。因此,PRFGRSAE算法能夠在醫療檢測、物理粒子信息分析以及網絡防御的高維數據集上取得更高的并行效率。
c)由分類準確度比較實驗可知,PRFGRSAE算法在上述四個數據集上,相較于其他三個比較算法,Kappa值都取得了不同程度的提升且均為最高。由此可以得出,PRFGRSAE算法應用于醫療檢測、物理粒子信息分析以及網絡防御等方面可以取得更高的精準度。
4 結束語
為解決并行隨機森林算法在處理高維數據時存在的冗余和不相關特征數過多、特征子空間信息含量不足以及并行化效率低等問題,本文提出了一種結合增益率與堆疊自編碼器的并行隨機森林算法PRFGRSAE。a)該算法為了解決冗余和不相關特征數過多的問題,使用DRNGRSAE降維策略,通過特征選擇與提取過程對特征的冗余和相關度進行計算,且利用堆疊自編碼器進行降維,有效減少了冗余與不相關特征數;b)為解決特征子空間信息含量不足的問題,使用了SSLF策略,通過最小表達約束對LHS劃分層數進行約束并使用LHS對特征集進行劃分,形成空間表達度較高的特征子空間,有效保證了特征子空間的信息含量;c)為解決并行效率低的問題,使用了DSVLA策略,將細化分的數據簇傳入VLA中并選取動作與隨機環境交互后,通過負載約束函數獲得每一個簇對應的reducer,使得鍵值對更加均勻地分布在每個reducer上,有效提高了并行化效率。實驗結果表明,對于樣本數量較多、特征數較多的醫療預測、物理粒子信息分析、網絡防御相關數據集,PRFGRSAE算法能夠更高效地完成分類任務,其時間開銷最少、分類精準度更佳。
雖然PRFGRSAE算法在并行隨機森林分類任務方面取得一定的進步,但仍然還有很大的提升空間。在并行處理方面可以將現有負載均衡策略與群智能算法結合求解最優的分配方式,提升并行化效率;在空間上,需要考慮如何減少矩陣計算的空間占用;在準確率方面,可以結合一些前沿的特征評價方法,在考慮冗余特征、不相關特征的基礎上,考慮加入更有效率特征選擇方法,形成更有代表性的特征子空間,這些方向將是今后研究的重點。
參考文獻:
[1]Akpan U I, Starkey A. Review of classification algorithms with changing inter-class distances[J]. Machine Learning with Applications, 2021,4(6): 100031.
[2]Zhang Xiaoyu,Huang Wei,Lin Xiao,et al. Complex image recognition algorithm based on immune random forest model[J]. Soft Computing,2020,24(16): 12643-12657.
[3]Harrison J W,Lucius M A,Farrell J L,et al. Prediction of stream nitrogen and phosphorus concentrations from high-frequency sensors using random forests regression[J]. Science of the Total Environment,2021,763(4): 143005.
[4]Ge Qi,Sun Hongyue,Liu Zhongqiang,et al. A novel approach for displacement interval forecasting of landslides with step-like displacement pattern[J]. Georisk: Assessment and Management of Risk for Engineered Systems and Geohazards,2022,16(3): 489-503.
[5]Karthik M G,Krishnan M B M. Hybrid random forest and synthetic minority over sampling technique for detecting Internet of Things attacks[J/OL]. Journal of Ambient Intelligence and Humanized Computing,2021,12(3). https://doi.org/10.1007/s12652-021-03082-3.
[6]曹揚晨,朱國勝,祁小云,等. 基于隨機森林的入侵檢測分類研究[J]. 計算機科學,2021,48(Z1): 459-463. (Cao Yangchen,Zhu Guosheng,Qi Xiaoyun,et al. Research on intrusion detection classification based on random forest[J]. Computer Science,2021,48(Z1): 459-463.)
[7]Speiser J L. A random forest method with feature selection for developing medical prediction models with clustered and longitudinal data[J]. Journal of Biomedical Informatics,2021,117(5): 103763.
[8]Zhang Wenbo,Wang Jiaxing,Han Guangjie,et al. A data set accuracy weighted random forest algorithm for IoT fault detection based on edge computing and blockchain[J]. IEEE Internet of Things Journal,2020,8(4): 2354-2363.
[9]彭成,王松松,賀婧,等. 基于離散小波變換和隨機森林的軸承故障診斷研究[J]. 計算機應用研究,2021,38(1): 101-105. (Peng Cheng,Wang Songsong,He Jing,et al. Research on bearing fault diagnosis based on discrete wavelet transform and random forest[J]. Application Research of Computers,2021,38(1): 101-105.)
[10]Orlenko A,Moore J H. A comparison of methods for interpreting random forest models of genetic association in the presence of non-additive interactions[J]. BioData Mining,2021,14(1): article No.9.
[11]Li Hui,Li Zhe,Peng Sizhe,et al. Mining the frequency of time-constrained serial episodes over massive data sequences and streams[J]. Future Generation Computer Systems,2020,110(9): 849-863.
[12]Hashem I A T,Anuar N B,Marjani M,et al. MapReduce scheduling algorithms: a review[J]. Journal of Supercomputing,2020,76(7): 4915-4945.
[13]宗學軍,冉維周,王國剛,等. 基于分布式隨機森林的火電廠燃燒系統設備建模方法[J]. 信息與控制,2021,50(5): 574-581. (Zong Xuejun,Ran Weizhou,Wang Guogang,et al. Equipment modeling method of combustion system in thermal power plant based on distributed random forest[J]. Information and Control,2021,50(5): 574-581.)
[14]周翔,翟俊海,黃雅婕,等. 基于隨機森林和投票機制的大數據樣例選擇算法[J]. 計算機應用,2021,41(1): 74-80. (Zhou Xiang,Zhai Junhai,Huang Yajie,et al. Instance selection algorithm for big data based on random forest and voting mechanism[J]. Journal of Computer Applications,2021,41(1): 74-80.)
[15]Kumar K,Sharma N A,Ali A B M S. Classification in a distributed system:a study of random forest in the Hadoop MapReduce framework[C]//Proc of IEEE Asia-Pacific Conference on Computer Science and Data Engineering. Piscataway,NJ: IEEE Press,2019: 1-6.
[16]Lakshmanaprabu S K,Shankar K,Ilayaraja M,et al. Random forest for big data classification in the Internet of Things using optimal features[J]. International Journal of Machine Learning and Cybernetics,2019,10(10): 2609-2618.
[17]Mehanovi D,Keo D,Kevri J,et al. Feature selection using cloud-based parallel genetic algorithm for intrusion detection data classification[J]. Neural Computing and Applications,2021,33(18): 11861-11873.
[18]Lulli A,Oneto L,Anguita D. Mining big data with random forests[J]. Cognitive Computation,2019,11(2): 294-316.
[19]Jain A,Nadeem A,Altoukhi H M,et al. Personalized liver cancer risk prediction using big data analytics techniques with image proces-sing segmentation[J/OL]. Computational Intelligence and Neuroscience. (2022-03-28). https://doi.org/10.1155/2022/8154523.
[20]Sisodia A,Jindal R. An effective model for healthcare to process chronic kidney disease using big data processing[J/OL]. Journal of Ambient Intelligence and Humanized Computing,2022,13(3).https://doi.org/10.1007/s12652-022-03817-w.
[21]劉文穎,王方雨,蔡萬通,等. 基于 L2 范數組合云的風電場短期風速—功率擬合方法[J]. 中國電機工程學報,2019,39(4): 1029-1040. (Liu Wenying,Wang Fangyu,Cai Wantong,et al. Short-term wind speed-power fitting method for wind farms based on L2 norm combination cloud model[J]. Proceedings of the CSEE,2019,39(4): 1029-1040.)
[22]Toufigh V,Pahlavani H. Probabilistic-based analysis of MSE walls using the Latin hypercube sampling method[J]. International Journal of Geomechanics,2018,18(9): 04018109.
[23]Li Peng,Chen Zhikui,Yang L T,et al. An improved stacked auto-encoder for network traffic flow classification[J]. IEEE Network,2018,32(6): 22-27.
[24]Gheisari S. VLA-CR: a variable action-set learning automata-based cognitive routing protocol for IoT[J]. Computer Communications,2020,164(12): 162-176.
[25]Mirsky Y,Mahler T,Shelef I,et al. CT-GAN: malicious tampering of 3D medical imagery using deep learning[C]//Proc of the 28th USENIX Conference on Security Symposium. Berkeley,CA: USENIX Association,2019: 461-478.
[26]Baldi P,Sadowski P,Whiteson D. Searching for exotic particles in high-energy physics with deep learning[J]. Nature Communications,2014,5:article No.4308.
[27]Ma J,Saul L K,Savage S,et al. Identifying suspicious URLs: an application of large-scale online learning[C]//Proc of the 26th Annual International Conference on Machine Learning. New York: ACM Press,2009: 681-688.
[28]Meidan Y,Bohadana M,Mathov Y,et al. N-BaIoT: network-based detection of IoT botnet attacks using deep autoencoders[J]. IEEE Pervasive Computing,2018,17(3): 12-22.
收稿日期:2022-08-01;修回日期:2022-09-19 基金項目:2020年度科技創新2030—“新一代人工智能”重大項目(2020AAA0109605);國家自然科學基金資助項目(41562019)
作者簡介:劉衛明(1964-),男,江西新余人,教授,碩導,碩士,主要研究方向為數據挖掘;陳偉達(1996-),男,廣東汕頭人,碩士研究生,主要研究方向為數據挖掘;毛伊敏(1970-),女(通信作者),新疆伊犁人,教授,碩導,博士,主要研究方向為數據挖掘(mymlyc@163.com);陳志剛(1960-),男,湖南長沙人,教授,博導,博士,主要研究方向為分布式系統與數據挖掘.