陸江東, 鄭 奮, 戴卓臣
(第二軍醫大學 基礎醫學部,上海 200433)
隨著大數據的快速發展和延伸,已經應用于工業[1]、農業[2]、物流[3]和財務管理[4]等各個領域,成為高速可靠應用的關鍵技術之一. 因此,實現大數據的網絡化[5]和高速共享成為重要研究方向之一. 然而,在大數據網絡中,如何實現異構性大數據的高效識別和精確挖掘[6],保障大數據處理的有效性和可信性[7]成為當前亟需解決的關鍵問題.
在分析最佳特征子集及其派生增長速度的基礎上,文獻[8]基于高維和流格式的數據饋送的大數據,提出了一種新的輕量級特征選擇. 該特征選擇可用于挖掘飛流數據,從而加速粒子群優化類型的群搜索效率,提高分析精度和縮短處理時間. 為了保護開采數據中的敏感信息,文獻[9]提出了Rampart框架分類的保護方法.文獻[10]從類的相關性和上下文線索出發,提出了一種新的多媒體大數據挖掘系統的MapReduce框架基礎.從深度學習出發,以個性化特征的分布式數據為處理對象,文獻[11]設計了一種適用于廣域網絡的粗粒度分布式深度學習方法,在精度、通信和響應等方面性能優越. 文獻[12]所設計的機會認知和類腦智能相結合的數據挖掘算法,通過融合時間粒度和分割時間序列,結合馬氏距離,預測和分析大數據的相關性. 基于關聯映射和生物信息網絡的多維,文獻[13]設計的數據挖掘算法不僅可以降低生物信息網絡復雜數據挖掘的低效率和大數據挖掘速度慢等一系列問題. 文獻[14]研究了云計算中細粒度數據訪問控制問題,并提出了一種新的訪問控制策略實現細化和有效執行撤銷用戶的操作.
上述研究對于高密度大數據的冗余性和多樣化關聯關系未作深入研究,這些因素將對大數據網絡的數據識別和挖掘精度產生重要影響. 本文在上述分析的基礎上,提出了適用于大數據網絡,基于多維關聯架構的細粒度數據挖掘算法.
異構大數據網絡存儲與轉發、處理的數據具有明顯的個性特征,同類數據一致性較好,異構類數據差異化較強. 異構大規模網絡,由于多樣化用戶需求、網絡存儲設備差異化、大數據服務多樣化和非線性數據關聯等特性,終端發送的大數據結構特征弱化,關聯度及其維數成為關鍵因素. 此處,用戶需求的差異化和網絡存儲設備的特性是弱化數據結構特征和導致高關聯大數據的關鍵因素. 于是,從用戶需求出發結合多樣性建立異構大數據網絡,同時參考被弱化的數據結構特征.對于大數據網絡存儲設備,特別是大數據服務器文件系統結合異構類數據差異化特性建立關聯度模型,目的是為了解決多維度的異構大數據映射關系和關聯問題.
異構大數據網絡的存儲設備和大數據服務器對異構大數據的管理和處理基于網絡文件管理架構. 在架構中,對數據進行了詳細定義(詳見表1),用于全面描述異構大數據. 在大數據服務器中任意抽樣大數據,表1所述定義占空比如表2所示,在異構大數據網絡中的占空比詳見圖1.
分析圖1發現,異構大數據網絡的占空比中第4屬性即關聯性占空比極高,但是第6屬性即關聯性極低,這樣會嚴重制約異構大數據網絡的數據識別與挖掘效率,而且對于字符占比高的大數據的識別率極低.其中,各數據屬性定義的占空比分配不均,將會嚴重降低異構大數據網絡的系統效率和執行力.

表1 異構大數據定義

表2 大數據服務器占空比情況

圖1 異構大數據網絡占空比
因此,在異構大數據網絡中必須提高大數據維度和關聯度屬性的占空比,并將這2個屬性融合為一體,有助于均衡異構大數據在大數據服務器和不同網絡存儲設備上的結構特性和非線性特征. 針對表1所述的數據大小、數據創建時間、數據所屬設備、數據的結構和線性特征、字符數關聯性和維度等定義,進一步弱化大數據結構信息,加強多維關聯對大數據的描述定義,詳見表3.
于是,異構大數據網絡的多維關聯具有圖2所示的共享、存儲與管理模型. 其中,共享通過以維度為核心,解決了大數據服務器占空比分配不合理的問題. 大數據存儲以表1所定義的屬性進行管理和查詢.

表3 多維關聯定義

圖2 多維關聯的異構大數據網絡
綜上,異構大數據多維度空間的維度定義如公式(1):

其中,向量BD表示大數據源集合. 函數len(BD)表示向量的長度. 函數f(x)用于求解大數據關聯度.MA(BD)表示多維空間的關聯維度.α表示維度之間的夾角.
多維關聯系數CBD可由公式(2)求得:

針對大數據網絡不同特征的大數據,線性化和結構化的弱化本質是多維關聯. 在大數據網絡服務器上,大數據管理與處理的主要是大數據的內容與用戶需求之間的關系,特別是大數據一致性強度與數據健壯性對數據挖掘的影響,詳見圖3.

圖3 多維關聯關系圖
圖3所述的大數據網絡多維關聯形式有助于數據挖掘. 對于大數據網絡的各類用戶或參與數據轉發的協作終端的融合約束必須保持高度一致性. 因此,對于多維關聯下面給出形式語言描述定義. 這些定義適用于多個大數據源的交叉傳輸與識別. 為了更好地描述混合數據挖掘,提高挖掘精度和識別效率,對于形式描述語言進行多維定義. 而且,混合異構大數據形式定義具有自主判斷和決策能力,通過異構形式結合分支進程實現. 為了保持一致性和健壯性,在下述形式語言描述中,邏輯上以交叉分支為主,描述上以多個循環表達線性執行為主.
大數據對象BO形式描述:

大數據網絡多維關聯初始化進程:

其中,k表示網絡存儲設備的緩存最大值.
多維關聯矩陣生成進程:

對于上述返回值,通過式(3)-(6)所述的單位重構、維度置換、細粒度化和粒度均衡等4個步驟,實現多維關聯的細粒度重置. 其中,矩陣TF表示大數據源.

多維關聯細粒度數據挖掘算法描述如下.
輸入: 大數據源BD
輸出: 挖掘反饋向量MT

為了更好地驗證和分析本文所提出的適用于異構大數據網絡,基于多維關聯細粒度的數據挖掘算法記為MAFG-H的執行效率,特別是針對高密度、關聯復雜的大數據網絡數據挖掘的效率低下問題. 大數據網絡參數設置詳見表4. 所提出的MAFG-H算法分別與粗粒度挖掘算法記為CG-DM和線性化結構數據挖掘算法記為LS-DM.

表4 大數據網絡參數
數據挖掘算法采用Visual C++ 6.0實現. 執行該算法的服務器內存型號為DDR4 2400,容量是8 GB*2; CPU為Intel Xeon E3 v3、主頻位3.4 GHz. 操作系統位在Linux環境下Ubuntu server. 在表4所述的大數據網絡中抽樣采集三組數據,然后組合為獨立的實例數據. 三種算法的執行效率結果如圖4-7所示. 圖4分析了隨著數據會話數的增加,三種算法執行效率的表現; 圖5對比了發送大數據的終端數對算法性能的影響; 圖6給出了三種算法在不同網絡延遲下的性能表現; 冗余數據的占比對三種算法性能的執行效率影響詳見圖7.

圖4 會話數對執行效率的影響
分析上述結果發現,LS-DM算法難以對分布式、非線性大數據源的重構,所以執行效率非常低. 高密度、關聯復雜的大數據使得CG-DM算法的數據挖掘效率隨著會話數和終端數的增加,明顯下降,冗余數據比例對該算法的性能制約更為明顯. MAFG-H算法建立多維關聯空間,重構異構大數據網絡的數據源,解決非線性和分布式數據問題,并且基于細粒度為大數據網絡的各類用戶或參與數據轉發的協作終端的融合約束的高度一致性提供保障,因此始終具有較高的執行效率.

圖5 終端數對執行效率的影響

圖6 延遲對執行效率的影響

圖7 冗余數據對執行效率的影響
異構大數據網絡面臨著存儲管理難、轉發延遲高、處理精度低和執行效率低等問題,為了保障大數據一致性和歸一化異構類數據差異性,提出了適用于異構大規模網絡的多維管理細粒度數據挖掘算法及其機構. 一方面,建立了異構大數據網絡的存儲設備和大數據服務器的大數據管理和處理架構. 另一方面,設計了大數據網絡多維關聯形式. 最后,將異構大數據形式定義進行融合,實現自主判斷和決策,以保持大數據網絡的一致性和健壯性為目的,提出了多維關聯細粒度數據挖掘算法. 基于大數據網絡的仿真實驗和數學分析,從終端數、會話數、實時性和冗余數據等角度分析對比了執行效率,證明了所提算法的有效性和可行性.
1彭宇,龐景月,劉大同,等. 大數據: 內涵、技術體系與展望. 電子測量與儀器學報,2015,29(4): 469-482.
2李秀峰,陳守合,郭雷風. 大數據時代農業信息服務的技術創新. 中國農業科技導報,2014,16(4): 10-15.
3梁紅波. 大數據技術引領物流業智慧營銷. 中國流通經濟,2015,29(2): 85-89.
4張紅英,王翠森. 大數據時代財務分析領域機遇與挑戰. 財會通訊,2016,(5): 84-85.
5Chen BY,Yuan H,Li QQ,et al. Spatiotemporal data model for network time geographic analysis in the era of big data.International Journal of Geographical Information Science,2016,30(6): 1041-1071. [doi: 10.1080/13658816. 2015.110 4317]
6Zhang YF,Chen SM,Wang Q,et al. i2 MapReduce:Incremental MapReduce for mining evolving big data. IEEE Transactions on Knowledge and Data Engineering,2015,27(7): 1906-1919. [doi: 10.1109/TKDE.2015.2397438]
7Durocher D. Big data and technical credibility [President’s Message]. IEEE Industry Applications Magazine,2015,21(2): 4. [doi: 10.1109/MIAS.2014.2375011]
8Fong S,Wong R,Vasilakos AV. Accelerated PSO swarm search feature selection for data stream mining big data.IEEE Transactions on Services Computing,2016,9(1):33-45.
9Xu L,Jiang CX,Chen Y,et al. A framework for categorizing and applying privacy-preservation techniques in big data mining. Computer,2016,49(2): 54-62. [doi: 10.1109/MC.2016.43]
10Yan YL,Shyu ML,Zhu QS. Supporting semantic concept retrieval with negative correlations in a multimedia big data mining system. International Journal of Semantic Computing,2016,10(2): 247-267. [doi: 10.1142/S1793351 X16400092]
11盛益強,趙震宇,廖怡. 用于個性化數據挖掘的粗粒度分布式深度學習. 網絡新媒體技術,2016,5(6): 1-6.
12宋小芹,王莉麗,張衛星. 基于機會認知的類腦智能數據挖掘機制. 計算機仿真,2016,33(11): 375-378. [doi: 10.3969/j.issn.1006-9348.2016.11.082]
13唐曉東. 基于關聯規則映射的生物信息網絡多維數據挖掘算法. 計算機應用研究,2015,32(6): 1614-1616,1620.
14Yuan Q,Ma CG,Lin JY. Fine-grained access control for big data based on CP-ABE in cloud computing. In eds: Wang HZ,Qi HL,Che WX,et al. ICYCSEE 2015: Intelligent Computation in Big Data Era. Berlin Heidelberg. Springer.2015. 344-352.