999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Spark 和三路交互信息的并行深度森林算法

2023-09-19 07:41:00毛伊敏周展陳志剛
通信學報 2023年8期
關鍵詞:特征策略

毛伊敏,周展,陳志剛

(1.江西理工大學信息工程學院,江西 贛州 341000;2.韶關學院信息工程學院,廣東 韶關 512026;3.中南大學計算機學院,湖南 長沙 410083)

0 引言

深度森林是Zhou 等[1]提出的一種基于決策樹結構的深度學習模型,其包含多粒度掃描和級聯森林兩大組成部分,因其超參數少、參數敏感度低及模型深度自適應等優點,已被廣泛應用于網絡流量分類[2]、文本分類[3]、故障診斷[4]、目標識別[5]、惡意代碼分類[6]等領域。然而,隨著新一代信息技術的革新和大數據時代的來臨,各領域將產生亟待處理的海量數據,這些數據通常表現出數據量大、數據價值密度低等特性,深度森林難以有效處理這類數據,因此如何設計出適合處理大數據問題的深度森林算法已成為一大研究熱點。

Spark[7]作為專門處理大規模數據問題開發的并行計算框架,因其出色的計算能力和良好的通用性,被廣泛應用于企業項目開發和學術研究中。文獻[8]提出了用于退網用戶預測的并行深度森林(PDF-OGUP,parallel deep forest for off-grid user prediction)算法,為節省多粒度掃描階段的空間占用,設計了基于下標的掃描算法,并以隨機采樣構建隨機森林的方式減少所需內存空間。針對網絡入侵問題,文獻[9]設計了基于特征分割和深度并行隨機森林(FS-DPRF,feature segmentation and deep structure of parallelized random forest)檢測模型,提出了RDD(resilient distributed datasets)層次替換策略解決了RDD 重用問題,提高了作業效率。為進一步提高并行深度森林算法的計算能力,文獻[10]結合Spark 框架設計了一種全新的并行深度森林BLB-gcForest(bag of little bootstraps-gcForest)算法。首先,該算法使用BLB(bag of little bootstrap)自助采樣法替換傳統采樣法,減少了大量特征在級聯森林各層級中的傳輸,提高了計算效率和通信效率;其次,提出自適應子森林劃分算法,以確保每個子森林并行計算的資源利用率最大化;最后,利用輪詢機制來實現節點的負載均衡。以上列舉的3 種并行深度森林算法雖然在訓練效率上有了一定的提升,但仍然存在以下不足。1) 在特征選擇階段,無法有效去除原始數據攜帶的大量冗余和無關特征,導致后續模型訓練過程中存在冗余及無關特征問題。2) 在多粒度掃描階段,輸入的原始特征經過滑動窗口掃描后,將產生大量的特征子序列,拼接多個輸出的類向量將導致類向量過長問題。3) 在級聯森林訓練階段,級聯森林的每一層都將拼接原始特征和上層特征作為本層輸入,但相對于原始特征的維度,每層轉化后的增廣特征的維度則要小得多,這將導致增廣特征被淹沒[11],使模型收斂速度緩慢。4) 在模型并行化訓練階段,子森林的劃分粒度不能依據模型訓練效果自適應確定,加之異構節點情況下存在中間數據傾斜,將導致模型并行訓練效率低下。

針對上述問題,本文提出了基于Spark 和三路交互信息的并行深度森林(PDF-STWII,parallel deep forest algorithm based on spark and three-way interactive information)算法,其主要工作如下。

1) 提出基于特征交互的特征選擇(FSFI,feature selection based on feature interaction)策略,通過消除原始特征中存在的大量冗余及無關特征,解決了冗余及無關特征過多的問題。

2) 提出多粒度向量消除(MGVE,multi-granularity vector elimination)策略,通過將多粒度掃描產生的任意2 個相似類向量融合為一個向量,解決了多粒度掃描過程中產生的類向量過長問題。

3) 提出了級聯森林增強(CFFE,cascade forest feature enhancement)策略,密集連接所有級聯層輸出的增廣特征的同時動態縮減部分原始特征,解決了模型收斂速度慢的問題。

4) 提出了多級負載均衡(MBL,multi-level load balancing)策略,通過自適應子森林劃分(ASFS,adaptive sub-forest splitting)算法控制森林劃分粒度和異構傾斜數據劃分(HSDP,heterogeneous skew data partition)算法平衡異構數據的傾斜,提高了模型的并行化訓練效率。

1 相關概念介紹

定義1互信息[12]常用來衡量變量之間的相關性程度,互信息越大,變量間的相關性越強,反之,則相關性越弱。反映隨機變量fi和fj相關性的互信息I(fi;fj)可定義為

其中,H(fi)為變量fi的信息熵,表示變量不確定性程度;H(fi|fj)為變量fj確定時fi的條件熵I(fi;fj) <min{H(fi),(fj)}。

定義2對稱不確定性[13]常用于相關特征選取,其通過歸一化互信息修正了互信息在選取特征時存在的偏置。2 個隨機變量fi和fj的對稱不確定性SU(fi,fj)可定義為

從式(2)可知,SU(fi,fj)∈[0,1]。

定義3三路交互信息[14]作為互信息的擴展可用來度量特征之間的交互性,其值可為正數、零和負數。當三路交互信息為正數時,2 個特征共同對標簽提供的信息大于它們單獨對標簽提供信息的和,此時2 個特征存在互補性;當三路交互信息為負數時,2 個特征對標簽提供的信息存在冗余;當三路交互信息為零時,2 個特征提供給標簽的信息是獨立的。對于特征fi和fj及標簽C,三路交互信息I(fi;fj;C)可表示為

其中,p(fi)p(fj)p(C)為三者的聯合概率。

定義4近似馬爾可夫毯[15]可用于冗余特征的檢驗,如果特征fj是特征fi的近似馬爾可夫毯,則2 個特征之間存在冗余,SU(fj,C) ≥SU(fi,C)和SU(fj,fi) ≥SU(fi,C)同時成立。

定義5皮爾遜相關系數常用來衡量2 個向量之間的相似程度,取值范圍為[-1,1],其絕對值越大,相關性越強。當取值為正時,2 個向量呈正相關,當取值為負時,2 個向量呈負相關;當取值為零時,2 個向量無關。皮爾遜相關系數定義為

其中,cov(X,Y)表示2 個向量之間的協方差,σX和σY分別表示向量X和向量Y的標準差,μ表示向量均值,E 表示數學期望值。

2 PDF-STWII 算法說明

PDF-STWII 算法主要包括4 個階段:特征選擇、多粒度掃描、級聯森林訓練、模型并行化訓練。各階段的主要任務如下。

1) 特征選擇。提出FSFI 策略,通過度量特征的相關性和冗余度,消除大量冗余及無關特征,同時挖掘出存在交互作用的特征,過濾大量冗余及無關特征。

2) 多粒度掃描。提出MGVE 策略,融合任意2 個相似類向量,縮短類向量長度。

3) 級聯森林訓練。提出CFFE 策略,密集連接各層增廣特征,同時逐層削減部分特征,防止增廣特征被淹沒,加快模型收斂速度。

4) 模型并行化訓練。提出了MBL 策略,其包含兩方面內容。在算法并行處理層面,提出ASFS算法,通過分析子森林訓練效果,自適應確定森林的劃分粒度,提高算法并行度。在數據并行化處理方面,提出了HSDP 算法,分析分布式異構環境中各計算節點的性能差異,將中間數據合理分配到各節點,以平衡中間數據傾斜,最終從算法和數據兩方面提高模型并行化訓練效率。

2.1 特征選擇

針對原始數據集包含大量冗余及無關特征問題,提出的FSFI 策略從特征相關性、冗余度和特征交互三方面綜合考慮特征選取,高效剔除冗余無關特征。FSFI 包括無關特征過濾、冗余特征消除和特征綜合評分。

2.1.1無關特征過濾

在特征選擇過程中,由于相對于特征的冗余度和交互性計算,特征的相關性計算更快,所以在特征選擇的初始階段,提出特征相關性系數(FRC)過濾大量無關特征,刪除小于相關性閾值的特征,并利用FRC 對特征排序。

定理1特征相關性系數(FRC)。已知數據集D∈Rn×m,其中n和m分別為數據的樣本量和特征,則fi與標簽C的相關性系數FRCi定義為

其中,fsi表示樣本s中fi的值。

證明對標簽具有較強區分度的特征,通常存在較大的方差,可用標準差反映特征fi對類別的區分能力。D為特征fi的標準差,標準差越大,特征區分標簽類別的能力越強;由互信息定義可知I(fi;C) <min{H(fi),H(C)},互信息的大小受特征和標簽信息熵的限制,直接使用互信息來衡量相關性時,具有越大信息熵的特征越有可能被選取,因此將互信息I(fi;C)除以特征fi和標簽C的最小信息熵以消除偏置,最終將反映特征區分度的標準差和消除偏置的互信息相乘獲得特征相關性系數FRC,證畢。

2.1.2冗余特征消除

經過無關特征初步過濾過程,特征的維度大幅縮減,但冗余特征并未消除,為此,在特征消除階段提出冗余度指標R來衡量特征之間的冗余程度。冗余消除過程如下。首先,利用近似馬爾可夫毯快速判斷冗余特征并消除;然后,利用冗余度指標R計算特征間的冗余度,對比冗余度指標和冗余度閾值,進一步消除冗余特征。

定理2冗余度指標R。已知存在特征fi和特征fj,則計算特征間的冗余度指標R可表示為

證明SU(fi,C)為特征fi與標簽C的對稱不確定性,根據對稱不確定性定義可知,SU(fi,C)可度量特征fi與標簽C的相關信息量,同理,SU(fi,fj)可度量2 個特征之間的相關信息量,反映特征信息重疊大小。H(fi)為fi的信息熵,表示特征自身信息量的大小。當越大時,在一個確定信息空間中的特征fi和特征fj的信息重疊概率也就越大,即越可能存在信息冗余。綜上,P可表示冗余概率,SU(fi,fj)可表示冗余信息量,冗余概率和冗余信息量聯立獲得冗余度指標R,證畢。

2.1.3特征綜合評分

經過無關特征過濾和冗余特征消除過程,剩余的特征都具有較高質量,為了進一步挖掘出更高質量的特征子集,從特征相關性、冗余度和特征交互性出發,設計特征綜合評估函數JFSFI,獲取更優特征子集。

定理3特征綜合評估函數JFSFI。假設候選特征fi與標簽C的相關性為I(fi;C),與已選特征fj的冗余度為I(fi;fj),候選特征fi和已選特征fj對標簽的交互性為I(fi;fj;C),特征綜合評估函數JFSFI可表示為

其中,F′表示候選特征集,Fs表示已選特征集。

綜上,特征評估函數JFSFI在選擇特征時能夠有效挖掘出高相關性、低冗余度且具有交互作用的候選特征,證畢。

FSFI 的偽代碼如算法1 所示。

算法1FSFI

2.2 多粒度掃描

多粒度掃描[16]利用多種尺寸的滑動窗口對原始特征進行切片,隨后將切片得到的多個窗口尺寸大小的特征子序列傳入隨機森林中進行訓練,最后將訓練得到的類向量拼接傳入級聯森林中訓練。然而由于滑動窗口掃描得到的特征子序列存在大量相同特征,訓練得到的大量類向量也相似,拼接大量相似類向量將使傳入級聯森林的類向量過長,增加級聯森林訓練開銷。

針對多粒度掃描過程中產生的類向量過長問題,本節設計了MGVE 策略將相似類向量融合。其具體過程如圖1 所示。

圖1 MGVE 過程

定理4相似類向量判定函數S(P(A,B),δ)。已知在多粒度掃描階段隨機森林輸出類向量A和B,則2 個向量的相似性判定表示為

其中,P(A,B)為向量A和B的皮爾遜相關系數,δ為設定的相似度閾值。當P(A,B)>δ時,S(P(A,B),δ)=1表明2 個向量相似,反之不相似。

證明由于P(A,B)能直接反映2 個向量之間的線性相關程度,同時每個隨機森林輸出的類向量為各個類別的概率,這使每個向量的內部概率值的和為1。當用皮爾遜相關系數測得2 個向量相關性越大時,2 個向量方向越趨于一致,此時2 個向量內對應的各數值就越接近,2 個向量相似度越高,因此用皮爾遜相關系數與設定的閾值δ相比可判定2 個向量是否相似,證畢。

MGVE 的偽代碼如算法2 所示。

算法2MGVE

2.3 級聯森林訓練

針對級聯森林訓練過程中模型收斂速度慢的問題,本節提出了CFFE 策略,其主要過程如下。首先,密集連接每一層級聯森林產生的增廣特征;其次,為維持總的輸入特征的維度不變,每一層級聯森林訓練后都根據訓練效果給原始特征賦予不同的特征重要性權重w,去除部分權重低的特征。具體過程如圖2 所示。

圖2 CFFE 過程

定理5特征j重要性權重w(j)。假設表示特征j是級聯森林中第i個隨機森林RFi中的權重,m個隨機森林訓練使用了特征j,則特征j在本層的重要性權重w(j)為

證明假設在構建決策樹時,決策樹τ內部的節點i被預測為類別c的概率為p(c),則節點i的信息熵E(i)可表示為

特征j將節點i劃分為左右子節點,左右子節點的信息熵分別為El(i)和Er(i),則節點i被j劃分的效果Q(i,j)可表示為

決策樹τ總共有N個節點,特征j在決策樹τ中的局部權重wτ(j)可表示為

為評估決策樹權重,使用袋外誤差δ作為評估標準。設決策樹τ的袋外誤差為δτ,則隨機森林中決策樹τ的歸一化權重γτ可表示為

通過式(14)和式(15),獲得特征j在決策樹τ中的局部權重wτ(j)和決策樹權重γτ,則特征j在單個隨機森林RF 中的權重wRF(j)可表示為

證畢。

2.4 模型并行化訓練

針對模型并行化訓練效率低的問題,本節提出了MLB 策略,從算法和數據2 個層面提升模型的并行化訓練效率,包含算法層面的ASFS 算法和數據層面的HSDP 算法。

2.4.1自適應子森林劃分

在算法層面,為提高模型的并行化訓練效率,本節提出了ASFS 算法,其主要過程為如下。首先,采用自助采樣法將采樣特征分配到子森林中;然后,根據各個子森林的訓練結果給每個子森林設定子森林權重系數WSF;最后,利用子森林的權重WSF計算出整個森林劃分得分因子 scoreF以確定森林劃分粒度。具體過程如圖3 所示。

圖3 子森林劃分

定理6子森林權重系數WSF(r)。設第r個子森林中包含Q個決策樹,利用OOB 數據集驗證獲得第i個決策樹的袋外誤差errOOBi,則第r個子森林的權重系數WSF(r)可表示為

定理7 森林劃分得分因子 scoreF(s)。將第s個森林劃分為r個子森林,則第s個森林的森林劃分得分因子為

證明為第i個子森林的平均預測準確率,準確率越高,子森林整體的分類能力越強。WSF(i)為子森林權重系數,權重越大,子森林的穩定性越強、準確率越高,一個森林包含多個子森林,每個子森林的預測效果又包含準確率和穩定性兩方面特性,因此結合兩方面特性的 scoreF(s)可表示子森林的整體預測效果,證畢。

ASFS 的偽代碼如算法3 所示。

算法3ASFS

輸入級聯層數T,每層森林數S,預設最大子森林數R,子森林中樹的數量Q

輸出子森林劃分矩陣P[][]

2.4.2異構傾斜數據劃分

在數據層面,由于Spark 在Shuffle 階段采用默認的哈希分區策略極易引起中間數據傾斜,嚴重影響模型的并行化訓練效率,為此本文提出HSDP 算法。平衡中間數據傾斜需進行如下操作。

1) 傾斜評估。Spark 以哈希分區作為默認的分區方式將產生2 種數據傾斜情況:同一鍵值包含大量鍵值對,經過Shuffle 過程被分配到同一分區,導致這一分區數據量巨大;大量不同鍵值對應同一分區索引,導致大量不同鍵對應的鍵值對分配到同一分區。以上2 種數據傾斜情況在節點異構環境下將更加嚴重,對此,本文提出異構傾斜度量因子D來評估在節點異構條件下中間數據的傾斜程度。

定理8異構傾斜度量因子D。假設中間數據包含m個不同的key,且第i個key 對應的數據容量為Qi,N個桶對應N個計算節點,第j個桶包含的key 表示為 {K1,j,K2,j,…,Km,j},每個桶的數據量依次表示為q1,…,qj,…,qN,qavg為所有桶的平均數據量,則異構傾斜度量因子D可表示為

其中,RCj表示第j個計算節點的相對計算能力。

證明由于qavg和avg_capability 是實際環境中的固定值,于是可設定系數α表示兩者的比例,即qavg=αa vg_capability。qj-αc apabilityj為第j個桶的理論最大負載和實際負載的差值,D′為實際負載和理論負載的標準差,實際負載和理論負載越接近,異構傾斜度量因子D越小,因此可用D作為異構傾斜度量因子來衡量中間數據傾斜程度,證畢。

2) 中間數據預測。為降低數據統計耗時,采用主從整體采樣法預測中間數據。首先,從節點通過RDD操作計算所有Map 任務的mapPartitionsRddSize ;然后,設置采樣率r,通過sampleSize=rmapPartionsRddSize 計算總共的采樣大小,根據sampleSizePerPartion 計算每個Map任務采樣的樣本大小;其次,每個從節點利用sampleSizePartion 的大小調用RDD 的sample 函數對RDD 數據分區進行采樣,統計出本地樣本中key 值記錄,隨后將(Ki,Qi)傳輸到主節點;最后,主節點匯總每個Map 任務的所有樣本數量,根據采樣率得到中間數據集{(K1,Q1),(K2,Q2),…,(Km,Qm)}的整體分布情況。

3) 異構傾斜數據劃分。通過整體采樣方法獲得中間數據的預測,根據節點的異構情況采用貪心策略將中間數據合理分配到各個桶中。

HSDP 的偽代碼如算法4 所示。

算法4HSDP

2.5 算法時間復雜度分析

PDF-OGUP、FS-DPRF 和BLB-gcForest 等算法都基于Spark 框架設計,且各自采用不同的優化策略提高算法性能,因此選取這3 種算法與本文算法進行實驗對比。

PDF-STWII 算法主要包括特征選擇、多粒度掃描、級聯森林訓練、級聯森林并行化訓練。各階段的時間復雜度分別標記為T1、T2、T3、T4。

特征選擇包括無關特征過濾、冗余特征消除、特征綜合評分。已知數據樣本量為n,特征數目為m,無關特征過濾遍歷所有樣本和特征,其時間復雜化度為O(nm) ;冗余特征消除需要計算近似馬爾可夫毯和三路交互信息,需要的時間復雜度為O(m2);特征綜合評分階段需要的時間復雜度為O(m2n),因此特征選擇時間T1為

在多粒度掃描階段,時間復雜度主要取決于特征子集在隨機森林訓練以及類向量融合的時間開銷。假設經過特征選擇后的特征個數為s,滑動窗口大小為w,樣本數目為n,隨機森林的個數為N,則T2為

其中,O(s-w)為窗口掃描時間復雜度,O(s(s-w)nN)為特征子集訓練時間復雜度,O(N2)為類向量融合的時間復雜度。

在級聯森林訓練階段,假設傳入級聯森林的原始特征的個數為v,樣本數目為n,每一層森林的個數為N,每個森林包含Q棵樹,級聯森林層數為L,則T3為

在模型并行化訓練階段中,時間復雜度主要由子森林劃分、異構數據分區兩部分組成。假設每一層森林的個數為N,每個森林包含Q棵樹,級聯森林的層數為L,每個森林可劃分為r子森林,并行節點數量同樣為r,則T4為

其中,O(NLQ)為自適應子森林劃分的時間復雜度,O(r2)為異構數據分區的時間復雜度。

綜上,PDF-STWII 算法的時間復雜度為

其中,r為單個森林劃分的子森林個數。

在大數據環境下,深度森林模型訓練的時間復雜度主要取決于多粒度掃描階段中輸出的類向量長度和級聯森林訓練層數,即算法的時間復雜度T主要由T3中的v和L決定。由于算法PDF-OGUP、FS-DPRF 和BLB-gcForest 都沒在多粒度掃描階段對相似類向量進行融合,從而使vPFG-OGUP>vPDF-STWII,vFS-DPRF>vPDF-STWII,vBLB-gcForest>vPDF-STWII。又由于本文在級聯森林中使用了CFFE 策略加快了模型收斂,因此需要的訓練層數相對更少,從而使LPFG-OGUP>LPDF-STWII,LFS-DPRF>LPDF-STWII,LBLB-gcForest>LPDF-STWII。綜上,相較于PDF-OGUP、FS-DPRF 和BLB-gcForest 算法,PDF-STWII 算法具有更低的時間復雜度。

3 實驗結果分析

3.1 實驗環境

為驗證本文算法的性能表現,本文設計了相關實驗。在硬件方面,本文實驗設置8 個計算節點,其中包括1 個主節點和7 個從節點。各個計算節點的硬件配置均為Intel(R) Core(TM) i7-11800H CPU、16 GB DDR4 RAM、1 TB SSD,實驗中的計算節點處于同一局域網內,通過1 GB/s 的以太網相連。在軟件方面,各計算節點配置均為Ubuntu16.04、Hadoop 2.7.4、JDK 1.8.0。各節點的詳細配置如表1 所示。

表1 節點詳細配置

3.2 實驗數據與設置

實驗數據。所有算法采用4個來自UC(Iuniversity of California Irvine)公共數據庫的數據集,分別為Farm Ads、Susy、Connect-4 和FMA,其中Farm Ads是從12 個網站文本中搜集的各種有關農場動物的話題;Susy 是記錄粒子在加速器條件下是否產生超對稱粒子信號過程的數據集;Connect-4 數據集記錄了四子棋游戲中所有合法的8 層位置信息;FMA 記錄了包括歌曲標題、專輯、藝術家等眾多曲目信息。各數據集的詳細信息如表2 所示。

表2 實驗數據集

實驗設置。對于實驗數據劃分,采用所有算法數據劃分一致性原則,即70%為訓練集,30%為測試集;對于模型參數,設數據的特征長度為d,在多粒度掃描階段中滑動窗口大小依次設置為每個子森林中的決策樹的數量初始化為隨機森林中決策樹數量的開方,每一層級聯森林包含2 個隨機森林和2 個完全隨機森林。

3.3 評價指標

3.3.1加速比

加速比是指同一任務在單處理器系統和在并行處理器系統中運行消耗的時間的比率,常用來衡量并行系統或程序并行化的性能和效果,加速比越大,算法的并行化程度越高,其定義如下

其中,Ts表示在串行系統中的執行時間,TP表示在并行系統中的執行時間。

3.3.2準確率

準確率(Accuracy)是指在分類模型中正確分類的樣本數與總的樣本數的比值,能夠反映算法的分類能力,其定義為

其中,TP、TN、FP、FN 在混淆矩陣中分別表示真正例、真反例、假正例、假反例。

3.4 算法性能的比較分析

算法整體性能需考慮多方面指標,為綜合衡量算法性能,利用算法運行時間來度量算法訓練速度,利用加速比來度量算法并行處理能力,利用準確率來度量算法分類性能。

3.4.1算法運行時間對比分析

為檢驗4 種算法訓練速度,將PDF-OGUP、FS-DPRF、BLB-gcForest 與本文算法(PDF-STWII)在上述4 個數據集上進行對比實驗,森林中決策樹數量為200,實驗采用10 折交叉驗證方式,實驗結果如圖4 所示。

圖4 不同數據集上4 種算法的運行時間

從圖4 中可知,在對4 個數據集的測試中,本文算法所需要的運行時間最低,并且當數據集的特征數量越多時,本文算法相對其他算法縮短的運行時間比例也越大,在特征量最少的數據集Susy 中,本文算法相比PDF-OGUP、FS-DPRF、BLB-gcForest運行時間分別減少了2.62%、10.41%、3.41%;在特征量最多的數據集Farm Ads 中,PDF-STWII 算法相比PDF-OGUP、FS-DPRF、BLB-gcForest 運行時間分別減少了13.8%、19.12%、10.76%。產生以上結果的主要原因如下。1) 本文算法設計了FSFI策略,消除了大量冗余及無關的特征,在不影響分類精度的前提下極大地減少了后續多粒度掃描和級聯森林訓練過程中輸入的特征量,加快了模型的訓練速度;2) 本文算法設計了MGVE 策略,通過將2 個相似的類向量融合為一個類向量,減少了級聯森林訓練過程中的特征維度,進而減少級聯森林的訓練開銷。實驗結果表明,PDF-FSIF 算法在處理高維大數據問題時具有良好性能。

3.4.2加速比對比分析

為驗證本文算法的并行計算能力,本文利用上述的4 個數據集分別對PDF-OGUP、FS-DPRF、BLB-gcForest 和本文算法在不同計算節點下進行算法加速比實驗,實驗采用10 折交叉驗證方式進行,森林中決策樹數量設置為200,實驗結果如圖5 所示。

圖5 不同數據集上4 種算法的加速比

從圖5 可知,各算法的加速比均隨著計算節點數量的增加而呈現不同程度的上升。當節點個數為8 時,本文算法的加速比高于對比算法,在特征量最少的數據集Farms Ads 中,本文算法的加速比分別比PDF-OGUP、FS-DPRF、BLB-gcForest 高0.32、0.52、0.18;在特征量最大的數據集Susy 中,本文算法的加速比分別高0.88、1.18、0.465;本文算法取得最高加速比的原因在于設計了MLB 策略,從算法結構劃分和中間數據合理分配2 個層面的同時提高了模型的并行化訓練效率,從而使算法在處理數據時具有更高的加速比。實驗結果表明,PDF-STWII 算法在處理大數據問題時,具有較高加速比。

3.4.3準確率對比分析

為驗證本文算法的分類性能,實驗選取準確率作為評估指標,將本文算法與對比的PDF-OGUP、FS-DPRF和BLB-gcForest 算法在4 個數據集上進行10 折交叉驗證實驗,實驗結果如圖6 所示。

圖6 不同數據集上4 種算法的分類精確度

從圖6 中可知,隨著決策樹數量的增加,4 種算法模型的分類準確率都有一定的提升,其主要原因在于隨著決策樹數量的增加,算法的泛化能力得到了增強,準確率隨之提高。實驗發現本文算法具有更高的準確率,當森林中決策樹數量為200 時,本文算法在 4 個數據集上的平均準確率相比PDF-OGUP、FS-DPRF 和BLB-gcForest 分別提高了1.24%、1.43%、0.96%,產生以上結果的原因如下。1) 本文算法設計了 FSFI 策略,消除大量冗余和無關特征,同時挖掘出具有交互作用的特征,提高了算法分類準確率;2) 本文算法設計了CFFE 策略,密集連接增廣特征,充分利用每一層級聯森林的分類貢獻,提高了模型的預測能力。實驗結果表明,本文算法在大數據環境下具有優良的分類性能。

3.5 消融實驗

為驗證算法各策略的有效性和對算法模型的貢獻,選取準確率和加速比作為評價指標,在上述4 個數據集上設計消融實驗,實驗采用8 個計算節點,森林中決策樹數量為200,實驗結果由10 折交叉驗證獲得,實驗結果如表3 所示。

表3 消融實驗結果

從表3 可知,各策略對加速比和準確率具有不同影響,其中,MBL 策略對算法加速比提升最明顯,其次分別是FSFI、MGVE 和CFFE,在處理4 類數據集時,相比無任何策略,使用了MBL、FSFI、MGVE 和CFFE 策略可將算法的平均加速比分別提升19.04%、5.56%、3.64%和1.98%。產生以上結果的原因如下。1) MBL 策略對森林自適應劃分和平衡中間數據傾斜,能有效提高模型并行計算能力;2) FSFI 策略消除了原始特征中大量冗余無關特征,從而提高各計算節點的訓練效率;3) MGVE策略融合相似類向量,降低子森林訓練開銷,因此能一定程度提高加速比;4) CFFE 策略在級聯森林訓練過程中能夠逐層削減少量特征,因此對加速比也有細微影響。

對算法準確率提升最大的是 CFFE 策略和FSFI 策略,其次是MGVE 策略和MBL 策略,在處理4 個數據集時,使用CFFE、FSFI、MGVE和MBL 策略相比無任何策略,分別可將算法的平均準確率提升1.98%、1.94%、0.45%和0.21%。產生以上結果的原因如下。1) CFFE 策略密集連接各層增廣特征,利用了每層森林的預測貢獻;2) FSFI策略消除了冗余無關特征并挖掘特征之間的交互信息;3) MGVE 策略將相似類向量融合對特征進行了轉化,因此對準確率的提升有一定影響;4) MBL 策略主要劃分森林結構和平衡中間數據傾斜,因此對準確率影響不大。綜上,以上4 種策略能有效應對大數據分類問題,且能有效提高算法加速比和準確率。

4 結束語

為解決深度森林算法在處理大數據存在的不足,本文提出了PDF-STWII 算法。首先,提出了FSFI 策略以消除原始特征中存在的大量冗余及無關特征;其次,提出了MGVE 策略,通過將相似的2 個類向量合并為一個類向量,解決了多粒度階段中產生的類向量過長問題;隨后,提出了CFFE策略,通過密集連接增廣特征,提高信息利用率,加快了模型收斂速度;最后,提出了MLB 策略,通過自適應子森林劃分和異構傾斜數據劃分,解決了模型并行化訓練效率低的問題。實驗結果表明,PDF-STWII 算法在處理大數據問題時具有良好的并行化訓練效率和分類性能。

雖然PDF-STWII 算法在并行化訓練效率和分類精度上有了一定的提升,但仍存在以下不足:1)在多粒度向量消除策略中,利用求均值的方式將2 個向量融合為一個向量會丟失部分信息;2) 在大數據環境中,本文算法難以有效處理不平衡數據分類問題。上述問題將作為未來的重點研究對象。

猜你喜歡
特征策略
抓住特征巧觀察
基于“選—練—評”一體化的二輪復習策略
新型冠狀病毒及其流行病學特征認識
求初相φ的常見策略
例談未知角三角函數值的求解策略
如何表達“特征”
我說你做講策略
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
高中數學復習的具體策略
數學大世界(2018年1期)2018-04-12 05:39:14
抓住特征巧觀察
主站蜘蛛池模板: 国产成人高清精品免费5388| 国产福利在线观看精品| 国产精品密蕾丝视频| 亚洲大尺度在线| 欧美日韩免费观看| 视频二区亚洲精品| 毛片免费在线视频| 色婷婷久久| 国产第一页屁屁影院| www亚洲精品| 日本成人在线不卡视频| 亚洲人成在线精品| 日本成人在线不卡视频| 国产精品人人做人人爽人人添| 国产成人欧美| 国产在线第二页| 国产99视频精品免费视频7| 多人乱p欧美在线观看| 亚洲欧美天堂网| 亚洲永久色| 狂欢视频在线观看不卡| 国产呦精品一区二区三区下载| 中文字幕2区| 久久精品人人做人人| 正在播放久久| 国产福利小视频高清在线观看| 日韩一二三区视频精品| 黄色免费在线网址| 国产又粗又猛又爽视频| 亚洲日韩精品无码专区| 美女免费黄网站| 国产亚洲精品97AA片在线播放| 黑人巨大精品欧美一区二区区| 精品超清无码视频在线观看| 免费亚洲成人| YW尤物AV无码国产在线观看| 亚洲精品制服丝袜二区| 亚洲综合极品香蕉久久网| 欧美高清国产| 久久国产精品无码hdav| 97国产在线播放| 国产精品观看视频免费完整版| 国产永久无码观看在线| 最新亚洲人成网站在线观看| 国产精品一区在线观看你懂的| 全免费a级毛片免费看不卡| 国产精品一区二区国产主播| 国产精品成| 国产激情在线视频| а∨天堂一区中文字幕| 午夜精品一区二区蜜桃| 国产夜色视频| 四虎在线高清无码| 免费可以看的无遮挡av无码 | 91精品aⅴ无码中文字字幕蜜桃| 国产成人三级| jizz亚洲高清在线观看| 国产中文在线亚洲精品官网| 精品人妻无码中字系列| 日韩亚洲高清一区二区| 99伊人精品| 亚洲日本在线免费观看| 日韩欧美中文亚洲高清在线| 中文无码精品A∨在线观看不卡| 一级黄色网站在线免费看| 国产高清在线丝袜精品一区| 二级特黄绝大片免费视频大片| 亚洲人妖在线| 丝袜美女被出水视频一区| 亚国产欧美在线人成| 人妻无码一区二区视频| 激情综合网址| 亚洲中文无码av永久伊人| 日本免费福利视频| 国产小视频在线高清播放| 91久久性奴调教国产免费| 欧美亚洲一二三区| 1769国产精品免费视频| 久久人体视频| 亚洲一区二区在线无码| 嫩草在线视频| 国产高清国内精品福利|