杭州萬向職業(yè)技術(shù)學(xué)院,浙江 杭州 310023
大數(shù)據(jù)是目前應(yīng)用廣泛的信息儲存和傳播介質(zhì),其核心就是能夠?qū)Υ罅康臄?shù)據(jù)進(jìn)行專業(yè)化處理。大數(shù)據(jù)的應(yīng)用遍布社會經(jīng)濟(jì)領(lǐng)域的方方面面,尤其在企業(yè)的數(shù)字化運營中,更是離不開大數(shù)據(jù)的支撐。大數(shù)據(jù)有著異構(gòu)化、多元化的特征,主要以分布式進(jìn)行傳播。最近幾年,關(guān)于異構(gòu)大數(shù)據(jù)的處理,受到了業(yè)界和學(xué)界的廣泛關(guān)注,并取得了較多的研究成果。丁有偉等提出一種異構(gòu)集群中能量高效的大數(shù)據(jù)處理算法,認(rèn)為傳統(tǒng)大數(shù)據(jù)處理的集群規(guī)模大,耗費的時間長,需要進(jìn)行一定的改進(jìn),可以通過節(jié)點選擇與負(fù)載均衡方式,減少每一個節(jié)點的能量浪費,從而提高大數(shù)據(jù)處理效率[1]。汪少敏等探討如何提升電信企業(yè)的大數(shù)據(jù)價值密度,認(rèn)為同一個對象處在不同系統(tǒng)時,許多數(shù)據(jù)難以被有效識別,數(shù)據(jù)的利用也不完整,可以通過異構(gòu)關(guān)聯(lián)的方法,站在用戶維度實現(xiàn)多系統(tǒng)的數(shù)據(jù)融合,強(qiáng)化大數(shù)據(jù)的處理效果[2]。涂俊英針對云計算環(huán)境,提出一種多源異構(gòu)大數(shù)據(jù)跨源調(diào)度算法,目的是降低計算消耗,在調(diào)度之前實施預(yù)取操作,并以此為基礎(chǔ)更新處理全部變量,重新排列等待調(diào)度的多源異構(gòu)大數(shù)據(jù)權(quán)重,形成數(shù)據(jù)傳輸?shù)淖罴奄|(zhì)量選擇[3]。賀曉勇提出了一種多源異構(gòu)大數(shù)據(jù)跨源調(diào)度方法,認(rèn)為傳統(tǒng)方法分析多源異構(gòu)數(shù)據(jù)的差異性存在較多不足,包括大數(shù)據(jù)調(diào)度效率不高、數(shù)據(jù)計算的消耗大等,而采用多源異構(gòu)大數(shù)據(jù)跨源調(diào)度方法,通過縱向與橫向的數(shù)據(jù)融合,實現(xiàn)大數(shù)據(jù)調(diào)度的一致性,并以此為基礎(chǔ)實現(xiàn)優(yōu)先級計算與分配,縮短計算等待的時間,增強(qiáng)大數(shù)據(jù)調(diào)度的整體性能[4]。結(jié)合前人的研究成果,本文提出一種基于向量編碼和多級反向傳播的異構(gòu)大數(shù)據(jù)處理方法,主要將一維向量空間轉(zhuǎn)化為多維向量空間,并通過多級反向傳播獲取精確數(shù)據(jù),旨在為大數(shù)據(jù)處理拓展更多的途徑。
大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)對比,有些特征較為突出,如數(shù)據(jù)結(jié)構(gòu)體現(xiàn)出很大的差異性,數(shù)據(jù)類型呈現(xiàn)出異構(gòu)狀態(tài),數(shù)據(jù)挖掘的過程較為復(fù)雜,且數(shù)據(jù)調(diào)度非常困難。鑒于大數(shù)據(jù)自身的這些特性,本文對數(shù)據(jù)向量進(jìn)行重新編碼,以獲取大數(shù)據(jù)更多的異構(gòu)特征,然后使用多級反向傳播的方式,對異構(gòu)形態(tài)的大數(shù)據(jù)進(jìn)行統(tǒng)一,從而使大數(shù)據(jù)得到更好的調(diào)度。基于向量編碼和多級反向傳播的大數(shù)據(jù)模型構(gòu)建步驟如下:
(1)對于需要挖掘的數(shù)據(jù)對象,將其一維向量空間轉(zhuǎn)化為多維向量空間,以適合重新編碼,得出能夠反映大數(shù)據(jù)異構(gòu)特性的多維向量模型。
(2)以大數(shù)據(jù)的各維度和規(guī)模為基礎(chǔ),進(jìn)一步獲取大數(shù)據(jù)在該空間內(nèi)的異構(gòu)特征。
(3)采用多級反向傳播,使大數(shù)據(jù)的精確集幾何空間和多維向量空間得到融合。
(4)通過多維向量空間內(nèi)的大數(shù)據(jù)異構(gòu)特征獲取,構(gòu)建基于向量編碼和多級反向傳播的大數(shù)據(jù)模型。
假設(shè)數(shù)據(jù)組的一個有限域空間Gm具有m個維度,以下是數(shù)據(jù)組的任何一個維度空間:

對各數(shù)據(jù)的多維向量空間進(jìn)行如下定義:

在有限域空間中,設(shè)B為大數(shù)據(jù)的異構(gòu)特性向量,通過多級反向傳播,使B和多維向量形成以下的映射關(guān)系:

在上式中,b為B元素,j為向量維度,c代表以B作為驅(qū)動,面向A實施編碼之后的向量。
基于向量編碼和多級反向傳播的大數(shù)據(jù)模型如下:

設(shè)K為一個大數(shù)據(jù)項目,由大數(shù)據(jù)集R、描述對象E、元素屬性集AR組成。?ar∈AR,?e∈E,通過多級反向傳播將線性屬性進(jìn)行映射:ar:e→Tr。Tr代表R中任何一個元素r的屬性映射關(guān)系,得出:R(e)?AR(r)。所以一個粗糙的大數(shù)據(jù)項目可表示成:KR=<R,E∩AR(r),AR∪λ>。λ代表大數(shù)據(jù)項目的粗糙權(quán)重。再次設(shè)K為一個多維度且粗糙權(quán)重較高的大數(shù)據(jù)項目,在多級反向傳播下,其三個組成部分R、E、AR具有粗糙映射的關(guān)系,KR則是K降維之后的大數(shù)據(jù)項目,K的精確集和KR的精確集有以下關(guān)系:

對于大數(shù)據(jù)項目來說,若粗糙權(quán)重較高,則數(shù)據(jù)在多維向量空間內(nèi)會同樣具有多維特性,未知性與動態(tài)性較強(qiáng),這時候就需要對數(shù)據(jù)進(jìn)行降維處理,以獲取已知數(shù)據(jù),并使動態(tài)性得到調(diào)整,賦予大數(shù)據(jù)項目明確的線性特征,提高數(shù)據(jù)挖掘的精確度。多維向量空間和數(shù)據(jù)降維之后的幾何空間對應(yīng)關(guān)系如圖1 所示。從該圖可知,原本有三個組成部分的大數(shù)據(jù)項目,通過降維變成了兩個組成部分。多維向量空間中的數(shù)據(jù)經(jīng)過降維之后,轉(zhuǎn)入了幾何空間,大數(shù)據(jù)項目的線性特征變得更加明確。由此得出大數(shù)據(jù)項目的數(shù)據(jù)調(diào)度方案:通過閾值對大數(shù)據(jù)項目的粗糙集和精確集進(jìn)行劃分,精確集中的數(shù)據(jù)可以直接獲取結(jié)果,粗糙集中的數(shù)據(jù)則需要經(jīng)過降維處理,消除未知性和調(diào)整動態(tài)性,然后進(jìn)入精確集,才可以獲取結(jié)果。

圖1 多維向量空間和數(shù)據(jù)降維之后的幾何空間對應(yīng)關(guān)系Fig.1 The corresponding relationship between multidimensional vector space and geometric space afterdata dimensionality reduction
本次實驗主要是對比分析本文算法與傳統(tǒng)算法的差異性,傳統(tǒng)算法采用文獻(xiàn)[5]的算法,共對比了3 個性能:數(shù)據(jù)調(diào)度誤差、數(shù)據(jù)傳輸延遲、數(shù)據(jù)挖掘的迭代次數(shù)。實驗環(huán)境如表1 所示。

表1 實驗環(huán)境Table 1 Experimental environment
兩種算法的3 個性能對比如圖2 所示。(1)數(shù)據(jù)調(diào)度誤差。當(dāng)50 個終端逐漸激活之后,數(shù)據(jù)量也在不斷增加,將2 種算法在實驗規(guī)定時間內(nèi)的數(shù)據(jù)傳輸量與原始數(shù)據(jù)量比較,得出數(shù)據(jù)調(diào)度誤差。根據(jù)比較結(jié)果,傳統(tǒng)算法使用的是靜態(tài)調(diào)度,對數(shù)據(jù)量變化的反應(yīng)較慢,容易出現(xiàn)數(shù)據(jù)出錯或者丟失的現(xiàn)象,影響到數(shù)據(jù)質(zhì)量。而本文算法使用的是動態(tài)調(diào)度,將一維向量空間轉(zhuǎn)化成多維向量空間,比較容易獲取大數(shù)據(jù)的異構(gòu)特征,大數(shù)據(jù)調(diào)度的效率很高,并且增加了數(shù)據(jù)的精度。(2)數(shù)據(jù)傳輸延遲。在數(shù)據(jù)量增加的情況下,統(tǒng)計2 種算法在實驗規(guī)定時間內(nèi)的數(shù)據(jù)傳輸延遲,求出平均值。根據(jù)比較結(jié)果,相對于傳統(tǒng)算法來說,本文算法通過多級反向傳播,每一級的數(shù)據(jù)傳播在每一維空間里,都可以借助向量編碼實現(xiàn)動態(tài)調(diào)度,降低了數(shù)據(jù)傳輸?shù)难舆t程度,增強(qiáng)了數(shù)據(jù)傳輸?shù)膶崟r性。(3)數(shù)據(jù)挖掘的迭代次數(shù)。當(dāng)服務(wù)器數(shù)量增加時,對比2 種算法進(jìn)行數(shù)據(jù)挖掘所需的迭代次數(shù)。相對于傳統(tǒng)算法來說,本文算法對多維向量空間的數(shù)據(jù)進(jìn)行降維,并轉(zhuǎn)入幾何空間,使大數(shù)據(jù)項目的線性特征更加明確,因此能夠在較少迭代次數(shù)的情況下獲取精確數(shù)據(jù)。

圖2 本文算法與傳統(tǒng)算法的性能對比Fig.2 The performance comparison between this algorithm and traditional algorithm
隨著大數(shù)據(jù)應(yīng)用領(lǐng)域的日益廣泛,對于數(shù)據(jù)挖掘效率、數(shù)據(jù)精度、傳輸實時性有更高要求,鑒于傳統(tǒng)算法的一些弊端,本文提出了一種基于向量編碼和多級反向傳播的異構(gòu)大數(shù)據(jù)處理方法。對于多維度且粗糙權(quán)重較高的大數(shù)據(jù)項目,多維空間中的數(shù)據(jù)同樣具備多維特性,未知性與動態(tài)性較強(qiáng),通過降維處理之后,將數(shù)據(jù)轉(zhuǎn)入精確集的幾何空間,消除數(shù)據(jù)的未知性并調(diào)整數(shù)據(jù)的動態(tài)性,提高了數(shù)據(jù)精度。將本文算法與傳統(tǒng)算法進(jìn)行對比,發(fā)現(xiàn)本文算法具有更高的大數(shù)據(jù)調(diào)度效率和數(shù)據(jù)精度,數(shù)據(jù)傳輸?shù)难舆t程度更低,且能夠在較少迭代次數(shù)的情況下獲取精確數(shù)據(jù)。因此本文對異構(gòu)大數(shù)據(jù)的處理方法有較大的推廣價值。