紀 沖,劉 巖
(內蒙古農業大學計算機與信息工程學院,內蒙古 呼和浩特 010018)
大數據挖掘是將數據作為組成知識的主體,從大量隨機的數據里,挖掘出潛藏在數據庫內人們不知道的有用知識[1]。互聯網技術的高速發展、網絡資源使用率的不斷提升使得各行各業對大數據挖掘的重視程度也越來越大,特別是在一些特殊網絡環境下,由于大數據各類特征參數較多,則數據挖掘前需要對各類數據進行集成處理[2-3]。
數據挖掘是一種比較廣義的交叉學科,數據集成最為常見的方法是模式集成方法,這種方法是一種非常經典的集成算法,中間件算法是模式集成算法里比較經典的,該算法會將所有獨立的數據源,根據Wrapper進行轉換同時封裝,這些數據的存儲位置不會出現變動,利用Mediator對所有封裝之后的數據源進行視圖統一,Mediator會把瀏覽的歷史請求變換成局部數據源模式的搜索,利用Wrapper進行結果提取,同時使用Mediator對數據集成,之后撤回至其它中間件或用戶中。Mediator主要提供全局優化查詢處理,不會提供實際的數據儲存[4]。由此可見傳統的數據集成挖掘方法,都存在較為一致的缺陷,即數據集成與數據挖掘之間存在檢測或分類的誤差,這種誤差嚴重的會致使在結束挖掘之后,出現亂碼,數據顯示不全的問題。
針對上述問題,提出基于半監督深度學習法的網絡大數據集成挖掘。該方法會通過半監督深度學習算法來檢測并分類大數據種類和特性,為后續挖掘提供較好的網絡環境,通過網格服務對大數據集成,使各不相同的數據能夠處于同一坐標處,使用關聯度挖掘算法對數據高精度集成挖掘。
在網絡環境下,為減少數據庫的運行內存,提升挖掘方法的穩定性,利用大數據集成挖掘方法組建應對不同網絡環境下大數據的矩陣轉換[5-6]。
擬定Dj代表網絡環境下數據庫內大數據中第j行的單排矩陣,dji代表第i列、第j行的大數據,同時i=1,2,3,…,m。假如矩陣內所有行中一共包含m種大數據,那么Dj為
Dj=(dj1,dj2,dj3,…,djm)
(1)
假如大數據總量中存在n種,通過T來描述矩陣的轉置轉換[7-8],那么網絡環境下,數據庫內大數據的總矩陣D為
D=(D1,D2,D3,…,Dn)T
(2)
對總矩陣D里集合X的大數據x進行挖掘,擬定其單屬性的關聯度是sim(X,Y),其中,Y代表和X對應的集合,通過y來描述Y內的大數據,挖掘出的樣本通過s來進行描述,那么s就需要符合如下條件的所有需求

(3)
其中,Freq代表條件出現的次數,θ表示所允許的最大誤差挖掘,δ代表該誤差出現的概率。
典型的機器深度學習通常會分成無監督學習與有監督學習。有監督學習是利用訓練標記的樣本,對沒有標記的樣本預測,而無監督學習是根據訓練無標記樣本,查找無標記樣本之間存在的內部特征來進行預測。半監督深度學習是對上述兩種深度學習之間的機器深度學習進行融合,能夠同時對標記樣本和無標記樣本進行訓練[9]。
在實際使用中,有標記的樣本總量較為稀少,因其需要通過手動來進行標記所以耗費較大,因此少量存在標記的樣本尤其珍貴,而樣本里未標記的樣本總量有很多。本文的數據挖掘首先會通過構建數據檢測模型來識別網絡中大數據屬性,但由于正常樣本多于有標記樣本總量,因此首先把未標記樣本都設定為正常樣本,根據無監督學習[10]訓練單分類數據檢測模型,之后按照有標記的樣本,校正單分類數據檢測模型,從而達到增量學習的目的。
本文充分利用現存的少量有標記樣本與大量無標記的樣本數據,采用半監督學習,利用先驗單分類檢測數據模型信息和新的標記樣本更新模型對樣本數據進行處理,一方面能夠使訓練之后的樣本繼承先前學習到的知識,還可以讓整體學習存在可積累性,另外一方面也可以實現在線學習,不斷的讓數據檢測模型獲得更新。典型的數據檢測模型是[11]無監督深度學習,其將數據對象擬定成一種整體,組建一種封閉且緊湊的超球體,使需要描述的數據對象盡可能或全部地處于這種球體里。

(4)
式中,R代表待求解的球的最小半徑,C為懲罰系數,ζi為懲罰項,a為超球體的中心。
在訓練結束之后,需要對新的數據點Z評定是否屬于這個類,就是
(z-a)T(z-a)≤R2
(5)
至此利用單分類數據檢測模型訓練了未標記樣本,針對數據樣本可以使用該模型進行評定。但是未標記樣本里存在少量的[12]冗余數據樣本,直接根據單分類數據檢測模型有可能會產生一些微小的誤差,因此本文結合了少量的標記樣本組成了半監督深度學習數據檢測模型。

1)對含有標記的樣本分詞處理,根據數據檢測模型對樣本標記之間存在的關聯性與特征詞進行分析,條件前K種關鍵特征詞當作篩選特征詞;
2)針對未標記樣本,利用(1)得到篩選特征詞對應的未標記樣本特征;
3)針對(2)獲得的未標記樣本特征,根據深度學習的網絡訓練取得未標記樣本的文本向量。
4)利用文本向量,利用半監督深度學習方法對單分類SVDD模型進行訓練,將超球體的半徑縮短到最小化;
5)對于新的標記樣本,利用在線學習的方式訓練向量學習SVDD模型,同時對單分類模型進行校正,提高模型的識別效果。通過該模型來檢測大數據內的信息資源。
為提升所提挖掘算法的精準性與實用性,需要實現約束大數據特征關聯度,約束的內容需要根據網絡數據庫確認挖掘條件,約束內容需要包含確保挖掘工作計算量小、挖掘質量高的作用。
通過confidence(X?Y)來描述特征集合X內涵蓋特征集合Y的概率,confidence(Y?X)和上述相反,大數據特征關聯度sim(X,Y)的挖掘結果為

(6)
由于confidence(X?Y)與confidence(Y?X)的取值范圍是[0,1],所以,大數據特征關聯度sim(X,Y)的取值范圍也應該是[0,1]。在sim(X,Y)=0時,即網絡大數據間的特征是互相獨立的,此時不需要進行大數據集成挖掘聚類。
網絡數據位置的關聯度挖掘結果,能夠利用計算大數據傳輸信道的質心得到,把大數據集合X與Y傳輸信道的質心擬定成c1與c2,兩種質心之間的距離是|c1c2|,下面通過圖1來對大數據位置關聯度的挖掘原理進行描述。

圖1 大數據位置關聯度挖掘原理


(7)
網絡大數據方向關聯度即指大數據集合X與Y傳輸方向之間的角度(s1,s2),其余弦值能夠通過公式描述成

(8)
通過上式能夠看出,大數據集合X與Y傳輸方向之間存在的角度(s1,s2),如果角度cos(s1,s2)越大,(s1,s2)值就會越小。在(s1,s2)超過180度之后,cos(s1,s2)值就會變成負數。為了免除大數據位置關聯度挖掘結果,對大數據方向關聯度挖掘結果造成的干擾,所提網絡大數據集成挖掘方法利用[1-cos(s1,s2)]的正弦值來描述方法,取代傳統[1-cos2(s1,s2)]的正弦值描述方法,使大數據方向關聯度被精確的挖掘出來。
基于上述方法,把大數據方向關聯度的挖掘結果擬定成sim(dist),對大數據結合X與Y傳輸方向的平均值avg(|s1|,|s2|),進行加成計算,就會出現:
sim(dist)=avg(|s1|,|s2|)[1-cos(s1,s2)]
(9)
把上述式(6)、(7)與(8)根據式(4)給出的挖掘樣本s條件進行聚類,確保最后的網絡大數據集成挖掘結果。通過F來表述挖掘樣本s的挖掘效率,那么,Fs就能夠表示成大數據挖掘聚類,即本文方法的集成挖掘結果為

(10)
式中,Fj為大數據的特征、位置與方向同時出現的概率,Fmax為大數據特征、位置與方向關聯度內的最大值,N為未進行挖掘工作前的大數據樣本總量,Ns為挖掘出的數據特征、位置與方向的總量。
根據以上步驟,利用有監督與無監督深度學習間的機器學習,組成半監督深度學習訓練標記樣本,利用支持向量數據組建超球體。利用超球體結合標記樣本,組建半監督深度學習數據檢測模型,采用深度學習檢測大數據,以此為基礎篩選樣本特征詞,利用半監督深度學習方法訓練單分類SVDD模型,實現檢測大數據內的信息資源,獲取網絡大數據集成挖掘結果。
為驗證所提方法的應用有效性,設計一次仿真。仿真環境為Intel Celeron Tulatin1GHz CPU和384MB SD內存的硬件環境和MATLAB6.1的軟件環境。
為進一步驗證所提方法的實用性,將文獻[1]提出的基于事務映射區間求交的網絡大數據集成挖掘方法、文獻[2]提出的基于數值信息抽取的網絡大數據集成挖掘方法以及文獻[3]提出的基于差分隱私的網絡大數據集成挖掘方法作為本次實驗的對照組,不同方法的集成精度對比見表1。

表1 不同數據集中三種方法的大數據集成精度對比
從表1所統計出的數據可知,本文方法與文獻方法相比集成挖掘結果精度更高,且所提方法在大數據集成挖掘過程中應用的穩定性較高。
為進一步驗證所提方法的性能優勢,設計本節實驗。以大數據集成挖掘耗時為指標,不同方法的大數據的集成挖掘耗時對比測試結果如圖2。

圖2 不同方法的耗時對比測試
從圖2實驗結果中可以看出,三種傳統方法隨著待挖掘大數據量的增多,其耗時不斷增加,當大數據量達到60TB時,其耗時最高為6.5ms。相比之下,所提方法的耗時明顯低于三種傳統方法,在大數據量為10TB時,耗時為2.3ms。當大數據不斷增多時,該方法的集成挖掘時間明顯降低,且耗時水平較為穩定。大數據達到最大值60TB時,其耗時仍然在2ms上下。本次實驗數據表明所提方法具有較為理想的應用性能,符合目前該領域的實際應用要求。
為集成挖掘不同格式、來源、特點性質的大數據,本文提出一種基于半監督深度學習法的網絡大數據的集成挖掘方法。通過半監督深度學習算法對大數據實現集成挖掘。通過仿真驗證了所提方法具有較高的大數據集成挖掘精度與效率。但隨著網絡數據規模不斷擴大、計算量高速增加,易出現數據查詢工作超負荷運轉問題,因此在現有方法的基礎上,對負載優化模型為日后進一步需要研究的課題。