張 婷
(岳陽職業(yè)技術(shù)學(xué)院,湖南 岳陽 414000)
隨著科學(xué)技術(shù)的不斷革新及信息化水平的不斷增強(qiáng),21世紀(jì)全球步入大數(shù)據(jù)時代,各領(lǐng)域每日信息量呈數(shù)以萬億的規(guī)模不斷增長,部分海量數(shù)據(jù)呈現(xiàn)出不平衡特性,表現(xiàn)為各類別數(shù)據(jù)樣本數(shù)量存在巨大差別,即某類別數(shù)據(jù)數(shù)量遠(yuǎn)低于其他類別,此類不平衡大數(shù)據(jù)在實(shí)際生活中較為普遍,在諸多領(lǐng)域均有應(yīng)用,如疾病診斷、郵件檢測、信用卡欺詐識別等。非平衡大數(shù)據(jù)具有難以捕捉數(shù)據(jù)分布特征等特性,采用傳統(tǒng)方法對非平衡大數(shù)據(jù)集群信息進(jìn)行分析,其效果并不理想,如何識別非平衡數(shù)據(jù)特征,進(jìn)行正確分析是當(dāng)下研究的重要課題。利用深度神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)能力,對非平衡大數(shù)據(jù)的高級特征進(jìn)行提取,對于實(shí)現(xiàn)非平衡大數(shù)據(jù)集群信息的正確分析具有重要意義。深度學(xué)習(xí)的目標(biāo)是基于大規(guī)模的訓(xùn)練數(shù)據(jù)創(chuàng)建最佳分類面,達(dá)到準(zhǔn)確學(xué)習(xí)數(shù)據(jù)特征的目的,實(shí)現(xiàn)數(shù)據(jù)信息的準(zhǔn)確分析。
隱私是個人或企業(yè)的私密性信息,無論對個人或是企業(yè)都至關(guān)重要,隱私泄露將嚴(yán)重影響人們的正常生活及企業(yè)的持續(xù)發(fā)展,因此,對于非平衡大數(shù)據(jù)集群而言,采取有效措施保護(hù)非平衡大數(shù)據(jù),防止信息泄露是需重點(diǎn)關(guān)注的問題。通過對原始數(shù)據(jù)信息進(jìn)行匿名化處理,將信息中的敏感信息掩蓋,使攻擊者無法精準(zhǔn)識別隱私內(nèi)容是實(shí)現(xiàn)非平衡大數(shù)據(jù)保護(hù)的有效手段。由于非平衡大數(shù)據(jù)集群中各節(jié)點(diǎn)服務(wù)器性能存在差異性,資源大小也千差萬別,根據(jù)資源數(shù)量協(xié)調(diào)各節(jié)點(diǎn)的資源調(diào)度性能,確保非平衡大數(shù)據(jù)集群的負(fù)載均衡,是實(shí)現(xiàn)集群高效調(diào)度的重要途徑。
李葉飛等針對Hadoop大數(shù)據(jù)系統(tǒng)中任務(wù)執(zhí)行效率低的問題,設(shè)計了可根據(jù)累計工作量能隨意在高、低權(quán)重隊列間轉(zhuǎn)換的任務(wù)調(diào)度器,實(shí)現(xiàn)系統(tǒng)數(shù)據(jù)的協(xié)調(diào)調(diào)度,使系統(tǒng)的任務(wù)執(zhí)行效率有所提升,由于該方法未考慮數(shù)據(jù)不平衡對分類效果的影響,導(dǎo)致該方法的錯分類率較高;張譯天等基于大數(shù)據(jù)流式計算框架Heron下任務(wù)間通信開銷不同的問題,提出構(gòu)建流分類模型,依據(jù)數(shù)據(jù)流大小實(shí)現(xiàn)數(shù)據(jù)分類,并將相關(guān)的高頻數(shù)據(jù)流視為一個調(diào)派任務(wù),用節(jié)點(diǎn)內(nèi)通信更替原節(jié)點(diǎn)間通信,實(shí)現(xiàn)任務(wù)的高效調(diào)度,最大化節(jié)省通信開銷,但該方法容易遭受網(wǎng)絡(luò)攻擊,數(shù)據(jù)存在安全性問題。
基于非平衡大數(shù)據(jù)存在的分類及數(shù)據(jù)安全問題,本文提出基于無限深度神經(jīng)網(wǎng)絡(luò)的非平衡大數(shù)據(jù)集群匿名化調(diào)度算法,以提升非平衡大數(shù)據(jù)集群數(shù)據(jù)調(diào)度的高效性、準(zhǔn)確性、安全性。
非平衡大數(shù)據(jù)集群匿名化調(diào)度結(jié)構(gòu)如圖1所示。

圖1 非平衡大數(shù)據(jù)集群匿名化調(diào)度結(jié)構(gòu)
(1)數(shù)據(jù)采集模塊。利用傳感器采集各節(jié)點(diǎn)服務(wù)器的非平衡大數(shù)據(jù),構(gòu)建非平衡大數(shù)據(jù)集群。
(2)數(shù)據(jù)分類模塊。利用最小最大概率機(jī)可最大化降低極大錯分類概率的特性,將之與卷積神經(jīng)網(wǎng)絡(luò)(CNN)相結(jié)合,通過卷積神經(jīng)網(wǎng)絡(luò)提取非平衡大數(shù)據(jù)的特征,以端對端形式對非平衡數(shù)據(jù)進(jìn)行訓(xùn)練,構(gòu)建出強(qiáng)大的分類器,實(shí)現(xiàn)非平衡數(shù)據(jù)分類。
(3)數(shù)據(jù)匿名化處理模塊。通過K-匿名化方法實(shí)現(xiàn)非平衡大數(shù)據(jù)匿名化處理。
(4)數(shù)據(jù)調(diào)度模塊。采用基于蟻群算法的非平衡大數(shù)據(jù)集群均衡調(diào)度方法實(shí)現(xiàn)集群數(shù)據(jù)的調(diào)度。
由于卷積神經(jīng)網(wǎng)絡(luò)容易遭受小干擾攻擊,本文的數(shù)據(jù)分類模塊通過引入最小最大概率機(jī)改善其抗攻擊性,以適應(yīng)非平衡大數(shù)據(jù)集群的所屬環(huán)境。最小最大概率機(jī)(Minmax Probability Machine,MPM)可在極惡劣條件下降低極大錯分類概率,使其概率為極小值,在卷積神經(jīng)網(wǎng)絡(luò)的共同作用下,以端對端形式對非平衡數(shù)據(jù)進(jìn)行訓(xùn)練,構(gòu)建出強(qiáng)大的分類器,實(shí)現(xiàn)非平衡數(shù)據(jù)集群分類,即為深度最小最大概率機(jī)(Deep Minimax Probability Machine,DeepMPM)。DeepMPM的優(yōu)勢是可充分利用CNN的特征提取能力,經(jīng)多層卷積、池化后,與多層全連接相連,將其傳輸至MPM,以MPM作為強(qiáng)大的分類器替換softmax,DeepMPM模型結(jié)構(gòu)如圖2所示。

圖2 DeepMPM模型結(jié)構(gòu)
、為原始非平衡數(shù)據(jù),MPM是基于原始數(shù)據(jù)求解其均值及協(xié)方差矩陣,實(shí)現(xiàn)非平衡數(shù)據(jù)的優(yōu)化,而DeepMPM方法中,則是先利用CNN對非平衡數(shù)據(jù)的高級特征進(jìn)行提取,在提取特征基礎(chǔ)上再通過MPM實(shí)現(xiàn)分類。對于神經(jīng)網(wǎng)絡(luò),其非線性映射可表示為(),其中該網(wǎng)絡(luò)參數(shù)為。、為原始非平衡數(shù)據(jù)的所屬類別,通過神經(jīng)網(wǎng)絡(luò)提取的非平衡數(shù)據(jù)的高級特征表示為(,)、(,),通過下式可實(shí)現(xiàn)原始非平衡數(shù)據(jù)優(yōu)化的參數(shù)估計:




(1)



(2)
式中,為分類超平面參數(shù),為分類超平面。為達(dá)到DeepMPM的端對端訓(xùn)練目標(biāo),利用拉格朗日乘子法轉(zhuǎn)換式(2),目標(biāo)函數(shù)可描述為:


(3)
式(3)利用梯度回傳法并以端對端形式對、尋優(yōu),表示拉格朗日系數(shù),的梯度可利用鏈?zhǔn)椒ㄟM(jìn)行求解,可描述為:

(4)
在深度神經(jīng)網(wǎng)絡(luò)的反向傳播過程中,通過梯度下降法求解最佳、,獲得的梯度。
設(shè)、為獲得的最佳參數(shù),由此分類面的求解公式可描述為:

(5)

數(shù)據(jù)匿名化模塊采用基于K-匿名化的非平衡大數(shù)據(jù)匿名化方法,實(shí)現(xiàn)非平衡大數(shù)據(jù)匿名化處理。由于采用深度最小最大概率機(jī)法對非平衡大數(shù)據(jù)進(jìn)行分類處理,各類別通常由個屬性組構(gòu)成,各等價類內(nèi)數(shù)據(jù)相似度需呈現(xiàn)最大化特點(diǎn),類間數(shù)據(jù)則需保持其差異性的最大化,再利用等價類的類質(zhì)心更新全部屬性組,以達(dá)到非平衡大數(shù)據(jù)的匿名化處理。


(6)


(7)
式中:在第屬性的泛化層中層的標(biāo)號表示為(),表示第屬性的泛化層映射。對于混合型數(shù)據(jù),其距離則通過對、加權(quán)平均方式進(jìn)行求解,可用下式描述:


(8)


(9)
式中:的取值范圍可通過()進(jìn)行映射,轉(zhuǎn)換到區(qū)間[min,max],從而防止將埋沒。

={,,…,}=

(10)

()={,}
(11)
蟻群算法可根據(jù)非平衡大數(shù)據(jù)集群節(jié)點(diǎn)數(shù)及各節(jié)點(diǎn)的任務(wù)處理能力,對信息素矩陣進(jìn)行動態(tài)更新,篩選出最佳任務(wù)調(diào)派方式,實(shí)現(xiàn)非平衡大數(shù)據(jù)集群的動態(tài)調(diào)度,因此,數(shù)據(jù)調(diào)度模塊通過基于蟻群算法的負(fù)載均衡調(diào)度方法實(shí)現(xiàn)非平衡數(shù)據(jù)集群調(diào)度,調(diào)度步驟如下:
第一步:算法的初始設(shè)置。
針對非平衡大數(shù)據(jù)集群的全部節(jié)點(diǎn),獲得其參數(shù)的初始值,并對各節(jié)點(diǎn)當(dāng)下所執(zhí)行任務(wù)的處理速度進(jìn)行求解,求解公式表示為:

(12)
式中:對于非平衡大數(shù)據(jù)集群中節(jié)點(diǎn)服務(wù)器,第個參數(shù)的權(quán)重表示為,該參數(shù)值表示為,節(jié)點(diǎn)全部參數(shù)的加權(quán)總和即為該節(jié)點(diǎn)的任務(wù)調(diào)派性能。
(1)待執(zhí)行任務(wù)均存儲于負(fù)載均衡器的緩沖池中,從中調(diào)取需執(zhí)行的任務(wù),并確定任務(wù)長度。
(2)在步驟(1)(2)的基礎(chǔ)上對各任務(wù)調(diào)派方式下的執(zhí)行時間進(jìn)行計算。
(3)對蟻群信息素矩陣進(jìn)行初始設(shè)置,將其設(shè)置為1。
(4)任務(wù)調(diào)派概率矩陣初始設(shè)置,令初始值設(shè)為1。
第二步:通過不斷迭代獲得最優(yōu)結(jié)果。
(1)產(chǎn)生螞蟻,數(shù)量為,各螞蟻需對全部任務(wù)進(jìn)行調(diào)派,依據(jù)任務(wù)調(diào)派概率矩陣,對執(zhí)行任務(wù)節(jié)點(diǎn)進(jìn)行求解,通過path矩陣實(shí)現(xiàn)調(diào)派方式的控制。該矩陣描述為:

(13)
式中:由節(jié)點(diǎn)調(diào)派的任務(wù)表示為,該矩陣取值為0或1,當(dāng)其值為0時,表示任務(wù)不由節(jié)點(diǎn)調(diào)派,當(dāng)其值為1時,則表示節(jié)點(diǎn)調(diào)派任務(wù)。
(2)各螞蟻執(zhí)行完任務(wù)調(diào)派任務(wù)后,獲取其任務(wù)調(diào)派時間,搜索任務(wù)執(zhí)行時間最小的調(diào)派方式,以之作為局部最佳搜索結(jié)果。
(3)調(diào)整信息素矩陣。該矩陣用下式描述:
(+1)=·()+Δ()
(14)
式中:()表示時間點(diǎn)節(jié)點(diǎn)調(diào)派任務(wù)的信息素濃度,迭代過程中信息素逐漸減弱,減弱系數(shù)為。迭代次后信息素濃度的增長量表示為Δ()。
(4)調(diào)整任務(wù)調(diào)派概率矩陣。該矩陣用下式表達(dá):

(15)

(5)再次調(diào)取任務(wù)繼續(xù)迭代。
以某企業(yè)的非平衡大數(shù)據(jù)集群的大數(shù)據(jù)信息為研究對象,創(chuàng)建數(shù)據(jù)集,數(shù)據(jù)集中包含6類信息共6000個,其中選取5000個樣本作為訓(xùn)練集,1000個樣本作為測試集。首先將數(shù)據(jù)集中6類數(shù)據(jù)轉(zhuǎn)換成二分類問題,即以一對多方式將各類數(shù)據(jù)均分成2類,從而轉(zhuǎn)換為6個二分類的處理。
利用訓(xùn)練集數(shù)據(jù)分別對本文的DeepMPM及CNN模型進(jìn)行訓(xùn)練,分析兩模型的正(少數(shù)樣本)、負(fù)類(多數(shù)樣本)的分類精度,實(shí)驗結(jié)果如表1所示。

表1 CNN、DeepMPM模型的正、負(fù)類分類準(zhǔn)確度對比
分析表1可知,采用DeepMPM模型對非平衡大數(shù)據(jù)集的測試樣本數(shù)據(jù)進(jìn)行分類,正、負(fù)類分類準(zhǔn)確度均高于CNN模型,這是因為本算法通過卷積神經(jīng)網(wǎng)絡(luò)的端對端方式訓(xùn)練非平衡大數(shù)據(jù),利用CNN的特征提取能力并以MPM作為強(qiáng)大分類器實(shí)現(xiàn)非平衡數(shù)據(jù)分類,使得分類準(zhǔn)確度獲得提升,分類效果顯著。
在非平衡大數(shù)據(jù)實(shí)現(xiàn)準(zhǔn)確分類的基礎(chǔ)上,通過與文獻(xiàn)[5]的基于累計工作量的數(shù)據(jù)調(diào)度算法、文獻(xiàn)[6]的基于Heron的流分類任務(wù)調(diào)度算法對比,分析不同元組數(shù)量下的信息損失及信息泄密風(fēng)險情況,驗證本文算法的匿名化處理性能,實(shí)驗結(jié)果分別如圖3、圖4所示。

圖3 各算法的信息損失對比

圖4 各算法的泄密風(fēng)險分析
分析圖3可知,隨著元組數(shù)量的不斷增長,三種算法的信息損失呈逐漸下降趨勢,降低幅度各不相同,文獻(xiàn)[5]算法降幅最小、其次為文獻(xiàn)[6]算法,本文算法的下降趨勢最大,當(dāng)元組數(shù)量達(dá)到5000時,信息損失只有6%左右。實(shí)驗結(jié)果表明,采用本文算法進(jìn)行非平衡大數(shù)據(jù)的匿名化處理可有效降低非平衡大數(shù)據(jù)的信息損失率。取得優(yōu)勢結(jié)果的原因在于本文算法應(yīng)用K-匿名化算法匿名化處理分類后的數(shù)據(jù)信息,可使各等價類內(nèi)數(shù)據(jù)具有最高相似度,類間數(shù)據(jù)呈現(xiàn)最大差異性,提高了數(shù)據(jù)匿名化效果。
分析圖4,隨著元組數(shù)量的不斷增多,三種算法的泄密風(fēng)險均呈遞減趨勢變化,文獻(xiàn)[5]算法的泄密性較高,其次為文獻(xiàn)[6]算法,本文算法泄密性小,當(dāng)元組數(shù)量達(dá)到5000時,泄密風(fēng)險只有2%左右,原因在于元組數(shù)量的增多使得等價類內(nèi)相似數(shù)據(jù)大幅增長,提取原始大數(shù)據(jù)高級特征,以最小和最大概率機(jī)作為分類器,實(shí)現(xiàn)非平衡大數(shù)據(jù)的分類,大大降低了非平衡數(shù)據(jù)的攻擊概率,確保數(shù)據(jù)的安全性。
分別與文獻(xiàn)[5]算法、文獻(xiàn)[6]算法對比,分析三種算法對不同任務(wù)量的非平衡大數(shù)據(jù)進(jìn)行調(diào)度時,非平衡大數(shù)據(jù)集群的負(fù)載均衡,實(shí)驗結(jié)果如圖5所示。

圖5 三種算法的負(fù)載均衡分析
分析圖5,隨著待執(zhí)行任務(wù)數(shù)量的不斷增大,三種算法調(diào)度后非平衡大數(shù)據(jù)集群的負(fù)載均衡度指標(biāo)均呈不斷上升趨勢,但上升幅度大不相同,文獻(xiàn)[5]算法的負(fù)載均衡指標(biāo)增長幅度最大,當(dāng)處理任務(wù)達(dá)到1100個時,該指標(biāo)達(dá)到50以上;文獻(xiàn)[6]算法明顯優(yōu)于文獻(xiàn)[5]算法,當(dāng)處理任務(wù)數(shù)低于700個時具有較好的調(diào)度性能,由于該算法更加側(cè)重于對優(yōu)勢節(jié)點(diǎn)的調(diào)度,未實(shí)現(xiàn)空閑節(jié)點(diǎn)的有效利用,當(dāng)任務(wù)數(shù)大于700個時,反映出該算法的調(diào)度劣勢;本文算法的調(diào)度性能明顯優(yōu)于文獻(xiàn)算法,任務(wù)數(shù)增長至1100個,該算法調(diào)度后非平衡大數(shù)據(jù)集群的負(fù)載均衡度指標(biāo)仍處于較低水平。實(shí)驗結(jié)果表明,本文算法能實(shí)現(xiàn)優(yōu)勢節(jié)點(diǎn)與空閑節(jié)點(diǎn)間任務(wù)的均衡分配,提升了集群任務(wù)的調(diào)度能力,集群調(diào)度效果突出。這是因為本設(shè)計的數(shù)據(jù)調(diào)度模塊中采用了基于蟻群算法的負(fù)載均衡調(diào)度方法,進(jìn)行非平衡大數(shù)據(jù)集群各節(jié)點(diǎn)、任務(wù)的實(shí)時調(diào)度,提高了調(diào)度能力。
以非平衡大數(shù)據(jù)集為研究對象,驗證提出的基于無限深度神經(jīng)網(wǎng)絡(luò)的非平衡大數(shù)據(jù)集群匿名化調(diào)度算法的有效性。通過對比分析CNN、DeepMPM模型的正、負(fù)類分類準(zhǔn)確度,驗證本算法的分類效果;通過對比分析本算法與文獻(xiàn)[5]算法、文獻(xiàn)[6]算法的信息損失、泄密風(fēng)險指標(biāo),驗證本算法的匿名化效果;通過對比分析負(fù)載均衡度指標(biāo),驗證本算法的非平衡大數(shù)據(jù)集群的調(diào)度性能。實(shí)驗結(jié)果表明:利用CNN的特征提取能力并以MPM作為強(qiáng)大分類器,提升非平衡大數(shù)據(jù)的分類準(zhǔn)確度;本算法可降低非平衡大數(shù)據(jù)的信息損失率、泄密風(fēng)險,并可充分調(diào)度優(yōu)勢節(jié)點(diǎn)與空閑節(jié)點(diǎn)實(shí)現(xiàn)任務(wù)的均衡分配,提升了集群任務(wù)的調(diào)度能力,集群調(diào)度效果突出。