許學添,鄒同浩
(廣東司法警官職業學院 信息管理系,廣東 廣州510520)
網絡數據庫中隱蔽數據快速挖掘方法研究
許學添,鄒同浩
(廣東司法警官職業學院 信息管理系,廣東 廣州510520)
在大型網絡數據庫構架中,包含有海量的圖片、聲音、文字等數據信息,由于數據之間的差異性較大以及擾動干擾,導致對待訪問的目標數據的隱蔽性較強,對隱蔽數據的快速挖掘是實現網絡數據庫優化訪問的基礎。傳統方法采用模糊C均值聚類算法進行數據挖掘,算法的抗干擾性不強,動態差異性數據的分類挖掘性能不高。提出一種基于數據時頻分布特征點檢測的網絡數據庫中隱蔽數據快速挖掘算法。構建網絡數據的數據分布結構模型,進行數據時間序列分析和信號模型構建,對網絡數據庫中的大數據進行FCM聚類預處理,對聚類輸出的數據進行時頻分析和特征點檢測,實現數據準確挖掘。仿真結果表明,采用該算法進行數據挖掘的準確度較高,快速收斂性較好,展示了較好的性能。
網絡數據庫;模糊C均值;數據挖掘;時頻分析
隨著現代網絡技術的迅猛發展,大量的圖片、聲音、文字、音視頻等數據信息通過網絡數據庫進行存儲和調度,網絡數據庫猶如一個龐大的數據加工廠,在網絡數據庫中,各種信息量不但呈現爆炸式增長,而且各種信息之間相互穿插、包含,特征日趨模糊。網絡數據庫的構架越來越復雜,隨著網絡數據庫容量的增大,信息處理速度的增加,對其管理難度不斷增強。網絡數據庫中大量的信息數據彼此交叉干擾,目標數據在網絡數據庫中的隱蔽性較強,信噪比較低,對目標數據的挖掘難度較高,研究網絡數據庫的隱蔽挖掘算法在提高數據庫的優化訪問和調度能力方面具有重要意義。
大型網絡數據庫構架中,由于數據之間的差異性較大以及擾動干擾,導致對待訪問的目標數據的隱蔽性較強,對隱蔽數據的快速挖掘是實現網絡數據庫優化訪問的基礎。傳統方法中,網絡數據庫的數據挖掘方法主要有粒子群算法、支持向量機算法、模糊C均值算法、語義指向性特征提取算法等[1-3],通過對數據的信號模型構建和分類算法設計,結合特征提取實現數據挖掘,取得了一定的研究成果,其中文獻[4]提出一種基于信息流減法聚類的大型Web數據庫的語義信息挖掘算法,實現對大型網絡數據庫的數據索引和挖掘,提高數據庫的訪問性能,但是該算法需要在高維相空間中進行數據調度,導致計算成本較大,實時性不好。文獻[5]提出基于語義本體模型和關聯指向性特征提取的數據庫信息挖掘算法,實現對低信噪比下的隱蔽數據信息挖掘,降低的誤檢率,但是該方法在受到冗余數據信息干擾下,容易陷入局部收斂。針對上述問題,文中提出一種基于數據時頻分布特征點檢測的網絡數據庫中隱蔽數據快速挖掘算法。構建網絡數據的數據分布結構模型,進行數據時間序列分析和信號模型構建,對網絡數據庫中的大數據進行FCM聚類預處理,對聚類輸出的數據進行時頻分析和特征點檢測,實現數據準確挖掘。最后通過仿真實驗進行了性能測試,驗證了文中算法在優化數據挖掘性能方面的優越性能,得出有效性結論。
1.1 網絡數據庫的數據存儲模型及數據挖掘算法的總體設計
為了實現對網絡數據庫中大數據的優化分類,提高網絡數據庫的訪問和調度能力,需要進行隱蔽數據挖掘,首先分析網絡數據庫的數據存儲模型,在大型網絡數據庫中,數據庫的存儲節點將大量的數據信息流分布到融合的空間結構中,通過云存儲和Deep Web數據存儲方式進行數據庫的海量信息融合聚類和數據調度,實現數據庫的優化訪問[6-9]。假設網絡數據庫的數據存儲模型為一個分布結點為G1=(Mα1,Mβ1,Y1),G2=(Mα2,Mβ2,Y2)的無向圖模型,在給定的隱蔽性數據分布的權重指數下,ai的屬性值為{c1,c2,…,ck)。數據庫的訪問接口的信息聚類中心滿足G1?G2?Y1?Y2,令A={a1,a2,…,an}為數據包的置信度概念區間,網絡數據庫的查詢向量集集成查詢接口、隱蔽信息傳輸通道和特征提取模塊以及查詢信息的輸出模塊,構成網絡數據庫的分布式存儲和傳輸機制,得到一個采用三元組形式構建的網絡數據庫的數據存儲的本體模型為:

根據上述構建的網絡數據庫本體模型,構建數據庫的Wigner-Ville分布空間,在Wigner-Ville分布空間中進行不同采樣時間間隔上的特征信息流分析,現在把有限數據集合X分為c類,假設網絡數據庫中的隱蔽數據是一種多頻微弱的寬帶信號,網絡數據庫中的隱蔽數據的波束形成方向有M個方向集合,通過數據預處理和數據篩選,得到網絡數據庫的數據存儲和調度模型如圖1所示。

圖1 網絡數據庫的數據存儲和調度模型
在圖1所示的網絡數據庫的數據存儲和調度模型中,進行數據挖掘算法設計,數據挖掘中首先進行數據信息流的信號模型構建,進行數據分類和數據信息流的調制解調處理,對干擾數據進行抗干擾濾波,采用分類算法進行數據分類實現數據的準確挖掘,數據挖掘的實現過程總體描述如圖2所示。

圖2 網絡數據庫的隱蔽數據挖掘實現的總體結構框圖
1.2 網絡數據庫中數據的信息流模型
在上述進行了網絡數據庫的數據存儲和調度模型設計的基礎上,進行網絡數據庫的隱蔽數據的信息流模型構建,采用信號處理方法進行數據流的信息特征提取和數據挖掘,通過構建一個包含n個矢量屬性集合進行數據庫的隱蔽信息的語義狀態信息,網絡數據庫的隱蔽數據為一個窄帶寬平穩的隨機過程,存儲空間中的本中模塊表示為一組復包絡形式,可寫作:

其中,b(τ,φ)是網絡數據庫中隱蔽數據的窄帶信息流的干擾擴展函數,(t)為各頻率分量的時變非平穩特征參量,τ為網絡數據庫中隱蔽數據的能量密度譜,選擇特定的窗函數形式:

上式中,N(z)是網絡數據庫頻譜圖的頻率分辨率,它的零點在處頻域的分辨率下降,D(z)為尺度因子,ψ(t)由尺度參數經時間軸平移和伸縮得到數據的包絡特征為:

其中,θ(t)為時頻分辨率的頻移特性,可得網絡數據庫中隱蔽數據信息流的交叉項,在語義特征的本體模型中,數據庫存儲中的包絡信息為一個標量時間序列為:

采用傅里葉變換對上述數據信息流進行信息融合,對待挖掘的數據信息流的傅里葉變換過程為:

上式中,f(t)為網絡數據庫的非平穩態瞬時相位特征值,ρ(a,b)為時頻聯合分布,a為尺度參數,b為加窗的Fourier譜。隱蔽數據x(t)出現在加窗的Fourier譜中兩次,并不包含任何窗函數,經過前饋調制濾波,得到網絡數據庫的邊緣性狀態函數表示為:

式中,xi∈Rn,代表網絡數據庫的錐形核分布狀態矢量,ui∈Rm為一個錐形核分布輸入矢量。在上述進行網絡數據庫中數據的信息流模型構建的基礎上,采用非線性時間序列分析方法進行數據特征提取和數據挖掘。
2.1 網絡數據庫的數據信息聚類處理及特征提取
在上述進行了大型網絡數據庫構架和數據信息流的時間序列分析模型構建的基礎上,進行網絡數據庫中的大數據信息聚類處理,實現數據的快速挖掘算法改進,傳統方法采用模糊C均值聚類算法進行數據挖掘,算法的抗干擾性不強,動態差異性數據的分類挖掘性能不高。為了克服傳統方法的弊端,文中提出一種基于數據時頻分布特征點檢測的網絡數據庫中隱蔽數據快速挖掘算法。對網絡數據庫中的大數據進行FCM聚類預處理,假設網絡數據庫中的大數據信息流的時頻參量x(n)為網絡數據庫中的隱蔽數據預測的時間序列組合,〈x(n)〉代表對x(n)取均值:

在上述進行了網絡數據庫中的隱蔽數據調度信息流時間序列重構的基礎上,進行流量監測的頻率響應配置,得到網絡數據庫中的隱蔽數據時間序列的特征向量幅值和自相關特征狀態為:

其中,M是d維的差異性時間窗口特征函數,計算網絡數據庫中的隱蔽數據時間序列的幾何不變量,得到的該狀態空間中網絡數據庫中隱蔽數據信息特征的干擾向量模型表達式為:

上式中,a(t)為網絡數據庫中的隱蔽數據的信息幅度,稱為復信號z(t)的瞬時幅度。采用FCM算法進行聚類分析,構建網絡數據庫中的隱蔽數據預測相關函數,假設網絡數據庫中隱蔽數據的有限數據集:

在網絡數據庫的定量遞歸矢量空間集合中含有n個樣本,其中樣本xi,i=1,2,…,n的表示網絡數據庫隱蔽數據標量時序為:

結合模糊C均值聚類,現在把有限數據集合網絡數據庫特征空間X分為c類,其中1<c<n,定義數據流的相空間軌跡,得到模糊聚類中心矩陣為:

其中Vi為有限數據集聚類中心的第i個特征空間,(第i個聚類中心矢量)。采用自相關特征配準方法對數據信息的分布區間進行模糊劃分,劃分矩陣表示為:

通過FCM聚類的定義,得到FCM聚類下網絡數據庫的大數據信息聚類的目標函數為(定義聚類目標函數):

式中,m為權重指數,(dik)2為干擾向量xk與Vi的相空間分布間隔距離,用歐式距離表示數據時頻分布特征點為:

其中,數據時頻分布特征點的分布有效性的置信空間為:

對上述網絡數據庫的數據信息聚類目標函數進行優化求解,采用數據時頻分布特征點方法進行數據挖掘優化。
2.2 改進算法的實現步驟描述
根據上述算法描述,對聚類輸出的數據進行時頻分析和特征點檢測,進行數據挖掘優化實現,實現過程描述為:
1)初始化。算法的初始化,首先進行時頻控制參數的初始化,包括聚類輸出迭代次數、相空間嵌入維數、信息融合區間、擾動范圍大小等參數的初始化,通過初始化選出隱蔽數據挖掘和特征聚類的初始最優個體和全局最優個體;
2)網絡數據庫中的隱蔽數據的自相關序列按照時頻檢測進行差分進化(DE,differential evolution)實現隱蔽數據的亮點檢測;
3)設定閾值ζ,計算網絡數據庫中的隱蔽數據的多樣性因子mf,并結合定量遞歸分析進行閾值比較,若mf<ζ,則進行下一步(第4步),如果mf>ζ,進入(5)步;
4)把網絡數據庫中的隱蔽數據時間序列加入到擾動序列中。產生隨機矩陣z,為c×D維的,其均衡調度控制分量都在(0,1)之間。根據于數據時頻分布特征點的映射形式,得到NP個于數據時頻分布特征點序列分量:

5)加入網絡數據庫中的隱蔽數據的擾動變量,得到優化數據挖掘輸出分量:

6)如果G=Gmax,那么迭代停止并得到有限數據集下數據挖掘的適應度值,如果不是,則G=G+1繼續迭代進入第2)。并對數據歸一化處理過程為:

通過上述算法改進設計,實現數據快速挖掘,降低迭代步數。
為了驗證文中算法在實現網絡數據庫中隱蔽數據快速挖掘中的性能,進行仿真實驗。驗的硬件環境為:處理器Intel(R)Core(TM)2 Duo CPU 2.94 GHz,內存:8.00 GB。采用Matlab仿真軟件,參數設定為Gmax=30,D=12,c=3,NP=30,F=0.5,CR= 0.1,m=2,網絡數據庫中的隱蔽數據的初始采樣頻率f1=2.1 Hz,終止頻率f2=0.23 Hz,時頻分布特征點檢測權重系數ω設定為0.82,根據上述仿真環境和參數設定,進行網絡數據庫隱蔽數據挖掘仿真,首先進行數據的時間序列分析和原始數據采樣,得到采集的原始數據點分布如圖3所示。

圖3 原始數據采樣分布
對采樣的數據進行數據FCM聚類處理,實現數據的時頻分布特征點檢測,得到檢測結果如圖4所示。

圖4 數據的時頻分布特征點檢測
通過上述檢測結果可見,采用文中方法進行隱蔽數據挖掘的聚焦性能較好,時頻域的特征點分布明顯,說明挖掘效能較高,為了定量分析文中方法的性能,采用文中方法和傳統方法,以數據挖掘的速度為測試指標,得到仿真對比結果如圖5所示,從圖可見,采用文中方法進行數據挖掘的精度較高,速度較快,收斂性較好,展示了文中方法的優越性。

圖5 數據挖掘性能對比
文中研究了網絡數據庫的隱蔽數據挖掘問題,提出一種基于數據時頻分布特征點檢測的網絡數據庫中隱蔽數據快速挖掘算法。構建網絡數據的數據分布結構模型,進行數據時間序列分析和信號模型構建,對網絡數據庫中的大數據進行FCM聚類預處理,對聚類輸出的數據進行時頻分析和特征點檢測,實現數據準確挖掘。仿真結果表明,采用該算法進行數據挖掘的準確度較高,快速收斂性較好,展示了較好的性能,具有較高的應用價值。
[1]陸興華,陳平華.基于定量遞歸聯合熵特征重構的緩沖區流量預測算法[J].計算機科學,2015,42(4):68-71.
[2]王小英,劉慶杰.關系型數據庫中數值數據的密文檢索模型研究[J].計算機仿真,2013,30(11):409-411.
[3]Chong F T,Heck M J R,Ranganathan P,et al.Data center energy efficiency:improving energy efficiency in data centers beyond technology scaling[J].IEEE Design&Test,2014,31(1):93-104.
[4]WANG Lin,ZHANG Fa,Arjona Aroca J,et al.GreenDCN: a general framework for achieving energy efficiency in data center networks[J].IEEE Journal on Selected Areas in Communications,2014,32(1):4-15.
[5]衛星,張建軍,石雷,等.云計算數據中心服務器數量動態配置策略[J].電子與信息學報,2015,37(8):2007-2013.
[6]侯森,羅興國,宋克.基于信息源聚類的最大熵加權信任分析算法[J].電子學報,2015,43(5):993-999.
[7]羅亮,吳文峻,張飛.面向云計算數據中心的能耗建模方法[J].軟件學報,2014,25(7):1371-1387.
[8]章登義,吳文李,歐陽黜霏.基于語義度量的RDF圖近似查詢[J].電子學報,2015,43(7):1320-1328.
[9]魏利峰,紀建偉,王曉斌.云環境中web信息抓取技術的研究及應用[J].電子設計工程,2016,24(4):29-31.
[10]陳永峰.大數據背景下數據挖掘在高校固定資產統計中的應用研究[J].河北軟件職業技術學院學報,2015,17(2):6-9.
[11]關陽,金力,朱李凡.數據挖掘中的數據預處理問題分析[J].數字技術與應用,2015(8):200.
[12]張躍,李葆青,胡玲芳,等.基于Web數據挖掘技術研究[J].電腦知識與技術,2015,11(9):106-115.
[13]宋志秋.大數據時代營銷中的數據挖掘技術[J].數字技術與應用,2015(3):209-209.
[14]吳曉英,明均仁.基于數據挖掘的大數據管理模型研究[J].情報科學,2015,32(11):131-134.
[15]戴春娥,陳維斌,傅順開,等.通過GPU加速數據挖掘的研究進展和實踐[J].計算機工程與應用,2015,51(16):109-116.
[16]王祥瑞,韓成浩.一種基于云計算的數據挖掘平臺架構設計與實現[J].數字技術與應用,2015(9):164.
Research on fast mining method of hidden data in network database
XU Xue-tian,ZOU Tong-hao
(Department of Information Administration Guandong Justice Police Vocational College,Guangzhou 510520,China)
In the framework of large network database,contains a mass of pictures,voice,text,etc.data information,because the difference between the data and disturbance,resulting in treat access the target data of strong concealment,the rapid excavation of hidden data is network database access optimization based.Traditional method uses the fuzzy C means clustering algorithm for data mining,the anti interference of the algorithm is not strong,the classification of dynamic differential data mining performance is not high.A fast data mining algorithm for hidden data in the network database based on the feature point detection of the data time frequency distribution is proposed.Data network data distribution structure model,time series analysis and data signal model is constructed and of FCM clustering preprocessing network database in the data and the output of the clustering of data frequency analysis and feature point detection,to achieve accurate data mining proposed.Simulation results show that the proposed algorithm is of high accuracy,fast convergence and good performance.
network database;fuzzy C means;data mining;time frequency analysis
TP391
A
1674-6236(2016)24-0015-04
2016-04-28 稿件編號:201604270
廣東省前沿與關鍵技術創新項目(2014B010110004);廣東省產學研合作項目(503036363071)
許學添(1984—),男,廣東揭陽人,碩士研究生,講師。研究方向:數據挖掘、生物信號處理。