姜寧
(延安大學 數學與計算機科學學院,陜西 延安 716000)
大數據具有4V 特性,其變化速度快,模式多,價值高。由于大數據存在4V 的特性,傳統的分類方法和處理平臺很難實現對海量數據的有效處理。近年來,并行技術、特征選取和分類等技術的不斷發展,為大數據的處理開辟了新的思路。DCNN 在特征選擇、泛化、近似等方面都有很好的應用,也是當今分類技術的一個重要領域。雖然基于DCNN 的深度學習技術已經在海量數據的分類中取得了巨大突破,但是如何有效減少網絡訓練時間和空間復雜性仍是一個亟待解決的問題。DCNN 中存在大量的冗余參數,在設計過程中會產生大量的時間和硬件開銷。冗余參數優化是一種較為有效地降低冗余參數的方法,由于該方法能夠很好地實現數據壓縮,以此來保證數據的完整性,同時又能很好地抑制數據的過度擬合,引起人們的廣泛關注。為此,文章提出一種基于大數據的深度卷積神經網絡冗余參數優化算法。
針對大數據的特征提出一種基于大數據的深度卷積神經網絡模型,該模型首先對分類器進行訓練,通過判斷其與對象數據之間的相似性來確定目標數據的位置。借助分類器對各種對象進行判別,無須經常在線更新,從而極大地降低了網絡上反復更新、學習所帶來的計算量增多的現象?;诖髷祿纳疃染矸e神經網絡模型如圖1所示。

圖1 基于大數據的深度卷積神經網絡模型
從圖1可以看出,在深度卷積神經網絡的非線性變換中,模型僅需兩種數據,一種作為目標數據,一種作為查詢數據。該模型的主要工作是對兩組數據進行相似性的計算,并利用相似度對兩組數據進行訓練?;诖髷祿纳疃染矸e神經網絡模型主要由三個層次組成,分別是輸入層、隱藏層和輸出層:
(1)輸入層。輸入層的功能是把最小的數據矢量合并為一個矢量(即輸入的數值)。
(2)隱藏層。與普通神經網絡相似,它的隱藏層輸出是由權重矩陣、偏置項以及輸入層向隱藏層輸入的。
(3)輸出層。輸出層的卷積神經元數目與詞典長度相等,而每一個神經元的數值則表示下一個單詞的發生概率。
加權矩陣是一種基于深度卷積神經網絡的新方法,它代表了輸入層到輸出層的直接邊界加權矩陣。采用直接連線可以減少一半的迭代數,否則可以把權重矩陣設為0。在訓練深度卷積神經網絡時,采用正向傳播和逆向傳播兩種方式對加權進行更新。不斷重復更新過程,直至整個網絡中出現最小的漏洞。通過不斷的優化與更新,最終獲得相應的矢量數據。
在大數據時代,數據數量以幾何倍數增長。除了重要的數據之外,大量的數據都是未經處理的。同時,數據的分散性也使得數據的采集工作變得異常困難。數據冗余是數據庫的一個重要特點,為了改善大量冗余數據占用網絡存儲空間而影響整體網絡運行效率的問題,提出了基于大數據的深度卷積神經網絡冗余參數優化方法。
在冗余數據數量較大特性的基礎上,對數據進行了分類、提取、分析以及對訪問過程的判定。根據大數據集的特殊集合對三類集(即術語集、邊界集、殘差集)進行大數據分割。其中術語集是對概念信息的描述,邊界集是對實體運算和基礎概念之間關系的描述,而殘差集是對實體運算的描述。利用邊界權法將剩余的殘差集轉化為帶有邊權的無向圖,可以實時反映訪問邊界的訪問數量。利用多層次分割法對海量數據進行分割,并將一組單詞復制到相應的分割模塊中??梢詫⒑A繑祿澐譃椴煌臄祿希敊嘀剡^大時,可以對其進行分割。在加權過小的情況下,可以將數據劃分為多個重復的集合,以此完成大數據的劃分。
大數據間具有較高的相似度,數據結構中的基本單位包含大量的數據屬性,這些數據屬性具有極高的相似度,為數據的冗余差分壓縮奠定了基礎。在數據性質相近的情況下,相同的數據結構單元具有相同的基本單元,這種極為相似的數據很難通過合并而構成大數據集合。
假設大數據中存在種屬性,計算種屬性數據集合的冗余參數熵,公式為:

其中,表示種屬性中某個數據出現頻率最高的標志,表示數據個數。
在不同的數據集中,使用不同的模板構建一組相似的數據,并將其與其他數據進行比對,確保在不同的數據集中,各數據間的相似度達到某種程度。熵越小,數據集之間的相似度越高,由此完成冗余參數壓縮。
為了優化冗余參數,利用深度卷積神經網絡模型訓練參數。在深度卷積神經網絡中,有兩種訓練參數的方法:梯度下降和隨機梯度下降。在具有大量數據的情況下,該方法存在訓練迭代率較低,導致存儲空間不足等問題。隨機梯度下降方法能夠迅速地進行訓練,但由于資料的缺乏,容易造成過度擬合。為此,文章提出了一種批量隨機梯度下降算法。
批量隨機梯度下降算法是一種將兩種算法相結合的新方法,它能有效地提高模型的學習效率,減小每次迭代方差的影響。在批量隨機梯度下降算法中,學習速率和動量是兩個參數,通過調整學習速率可以有效地避免過度擬合,通過設定動量可避免在最低處發生畸變。
為了在冗余參數優化后提高參數的可用效率,提出一種基于批量的隨機梯度下降方法,用以訓練該模型,使該模型的損失函數達到最大值。模型訓練的目的就是要發現其與預期的差異,在輸出結果與期望值不符的情況下,可以反求各層的輸入與輸出之差,并將其分配到各單位。為了減小分析的誤差,采用批量隨機梯度下降算法對各層次的參數進行精細調整。
根據平均排隊長度,判斷擁擠程度與擁擠概率之間的關系。阻塞程度可用以下公式來表示:

其中,l表示在時間內數據隊列的緩沖長度,表示時間內數據包到達速率的平均值,表示物理緩存長度。
首先,按照(2)的定義,在隊列排隊狀態下,所有到達的報文都將被拋棄,在此情況下,丟棄概率為1,而在隊列排隊狀態為空的情況下,丟棄概率則為0。在不存在擁擠的情況下,若將最小值和最大值映射到平均排隊長度,則會導致數據包丟失。在平均隊列超過75%的情況下,網絡中存在著擁擠現象。為了解決擁擠現象,使用隊列緩沖區進行解決。對最小值和最大值進行了優化。
其次,網絡中的數據包容量受到限制。平均分組的處理時間與節點的分組處理速率和業務分組的平均分組速率相等。
最后,在排隊快速飽和時,業務節點的數據包處理速度趨于與節點的上行率相近,也就是說,在出現擁塞時,可以將節點的平均報文處理速度看作是節點的出現率。通過對每個回合的平均排隊長度進行調節,降低了數據丟失概率的計算次數。
通過確定平均隊列長度,能夠完成冗余參數優化。
為了驗證基于大數據的深度卷積神經網絡冗余參數優化算法研究的合理性,進行實驗驗證分析。
實驗硬件包括一個工作攻擊節點、七個任務攻擊節點,所有節點的CPU 均為AMD,內存為16 GB,通過1 Gbps 以太網連接攻擊節點。在Opnet 仿真環境中模擬網絡路由節點兩端的寬帶鏈路,人為制造網絡擁塞現象。使用YB-CA266型號存儲服務器存儲相關數據,利用System x3650M3 型號備份服務器備份相關數據,通過Windows 7 處理機處理相關數據。
選取7 個數據集,總大小為10 GB,這7 個數據集分別為#1、#2、#3、#4、#5、#6、#7,這7 個數據集的大小分別是2 GB、1 GB、0.5 GB、1.5 GB、1 GB、2 GB、2 GB。
對比分析冗余參數優化、非優化兩種情況下網絡存儲空間的大小,結果如表1所示。

表1 兩種情況下參數所占網絡存儲空間大小
由表1可知,當數據集為#1 時,優化后的冗余參數比非優化的冗余參數所占網絡存儲空間小2 GB;當數據集為#2時,優化后的冗余參數比非優化的冗余參數所占網絡存儲空間小6 GB;當數據集為#3 時,優化后的冗余參數比非優化的冗余參數所占網絡存儲空間小4 GB;當數據集為#4 時,優化后的冗余參數比非優化的冗余參數所占網絡存儲空間小6 GB;當數據集為#5 時,優化后的冗余參數比非優化的冗余參數所占網絡存儲空間小14 GB;當數據集為#7 時,優化后的冗余參數比非優化的冗余參數所占網絡存儲空間小10 GB。由此可知,優化后的冗余參數所占網絡存儲空間較小。
為了進一步驗證基于大數據的深度卷積神經網絡冗余參數優化算法研究的有效性,對比分析冗余參數優化、非優化兩種情況下參數的可用效率,對比結果如圖2所示。
由圖2可知,對于優化的冗余參數,參數可用效率最高可達92%,最低為80%;對于非優化的冗余參數,參數可用效率最高可達50%,最低為32%。由此可知,優化后的冗余參數具有較高的參數可用效率。

圖2 兩種情況下參數可用效率
為了彌補傳統方法存在的不足,提出了基于大數據的深度卷積神經網絡冗余參數優化算法。通過所構建的深度卷積神經網絡模型進行參數訓練,并對冗余參數進行優化。由實驗結果可知,冗余參數優化后所占網絡存儲空間較小,參數可用效率較高。在后續的研究進程中,為了進一步優化網絡存儲空間,需要對冗余參數進行消減,使網絡參數能夠適應不同的環境需求,在保證網絡擁塞控制效果的同時,降低算法計算的復雜程度。