李 穎
(廣東科學技術職業學院 計算機工程技術學院, 廣東 珠海 519090)
?
基于云計算的非連續層次數據挖掘方法
李 穎
(廣東科學技術職業學院 計算機工程技術學院, 廣東 珠海 519090)
大型云存儲數據庫中分布海量的非連續層次數據,該類數據具有較強的自耦合非線性特征,采用傳統方法進行數據挖掘時,存在挖掘難度大的問題.為此,提出一種基于云計算的非連續層次數據挖掘算法.進行數據挖掘模型的總體分析,對非連續層次數據進行語義指向性特征提取和量化編碼,在量化編碼的基礎上,采用模糊C均值聚類算法,完成語義本體特征指向性波束聚類,實現數據挖掘算法改進.實驗結果表明,非連續層次數據挖掘改進算法,精度較高,性能較好,抗干擾能力較強,性能指標優于傳統方法.
云計算;語義;數據挖掘;數據聚類;信息檢索
隨著網絡信息和大數據處理技術的快速發展,大量數據通過云存儲模型分布在網絡空間中,構成網絡Deep Web數據庫,在大數據信息處理技術高度發達的今天,采用云計算方法進行數據傳輸和調度,能有效提高Deep Web數據庫的訪問能力和信息檢索能力.在大型云存儲數據庫中,分布著海量非連續層次數據,具有較強的自耦合性非線性特征,在其他外界環境干擾下,挖掘難度較大.為提高對網絡數據庫的語義檢索和信息分析能力,需要進行基于云計算的非連續層次數據挖掘方法研究,實現云計算環境下的數據挖掘云平臺構建[1-3].
近年來,已有不少學者開展了對云存儲數據庫中非連續層次數據挖掘算法的研究,典型的算法包括基于演化博弈的云存儲數據庫非連續層次數據挖掘算法、基于統計信號分析的云存儲數據庫非連續層次數據挖掘算法、基于語義特征提取的數據挖掘算法和基于自適應波束形成的數據挖掘算法等[4-8].根據上述算法原理,相關學者進行數據挖掘算法的研究與改進,其中,文獻[9]提出一種基于關聯維特征提取的云計算非連續層次數據挖掘算法,通過相空間重構得到云存儲數據庫的高維運動空間軌跡,以此為基礎進行關聯維特征提取建模,實現對非連續層次數據的云挖掘,該方法具有較高的挖掘精度,但該算法需要進行高維相空間分解,計算開銷較大,特征提取的準確性受限;文獻[10]提出一種基于文本檢測法的數據挖掘算法,在云計算環境下,采用人工標注法以及文本檢測法,進行非連續層次數據的非線性特征編碼,在此基礎上進行數據準確訪問和信息索引,提高了數據挖掘和數據庫優化訪問的性能,但是該數據挖掘算法受到的干擾較大,在低信噪比環境下數據挖掘的精度不高,性能不好[11-14].

圖 1 云計算非連續層次數據交互中心 數據傳輸通道示意圖Fig.1 Schematic diagram of cloud computing non continuous layer data exchange center data transmission channel
因此,提出一種基于語義本體特征指向性波束聚類的非連續層次數據挖掘算法,進行數據挖掘模型的總體分析及非連續層次數據結構分析,對非連續層次數據進行語義指向性特征提取和量化編碼,在量化編碼的基礎上,采用模糊C均值聚類算法實現語義本體特征指向性波束聚類,實現數據挖掘算法改進,最后通過仿真實驗進行性能測試.
為了實現基于云計算的非連續層次數據挖掘,首先進行數據挖掘模型的總體設計,在大型云存儲數據庫中,非連續層次數據交互中心能控制操作系統的選擇,本文構建的基于云計算的非連續層次數據挖掘模型,采用私有云平臺下的Optorsim結構,需要把大型云存儲數據庫中的非連續層次數據分成3×3拓撲結構,設置4個負載區域層次的輸入輸出通道,大型云存儲數據庫的云計算非連續層次數據交互中心結構的數據傳輸通道模型描述如圖1所示.
圖1中,p1,p2和p3分別代表云計算非連續層次數據交互中心的數據幀傳輸節點,以近鄰點為中心,構建非連續層次數據的向量量化特征編碼模型[15-20],把p2當作OptorSim結構的數據聚類中心;初始化水平集函數φ,得到大型云存儲數據庫單個檢索節點的適應度函數.把4個數據交互通道的數據進行特征聚類和提取,提取非連續層次數據的多徑梯度圖,得到數據的語義本體模型輸入信道模型分別為x1,x2,x3和x4,表示為
(1)
其中:m為信息子空間中的云計算關聯屬性,基于云計算的非連續層次數據挖掘模型總體設計構架如圖2所示.
2.1 問題的提出及量化編碼

圖 2 基于云計算的非連續層次數據挖掘模型實現總體構架Fig.2 Realization of the overall framework of the non continuous data mining model based on cloud computing
在上述進行云計算的非連續層次數據挖掘方法總體構架基礎上,進行大型云存儲數據庫中分布的海量非連續層次數據挖掘模型的改進設計,由于非連續層次數據具有較強的自耦合性非線性特征,在受到大干擾下,挖掘難度較大.本文在云計算環境下,提出一種基于語義本體特征指向性波束聚類的非連續層次數據挖掘算法.對非連續層次數據進行語義指向性特征提取和量化編碼,對語義本體模型窗口中的非連續層次數據梯度最大值進行自適應加權,得到輸出的非連續層次數據關聯指向性加權向量為
(2)
采用一個1×N時間窗口進行特征壓縮,確定非連續層次數據挖掘時間窗口大小N,把時間窗口劃分成許多小的時間間隔,進行向量量化編碼,假設檢測函數x(t),量化編碼的連續滑動窗口距離表示為
(3)
其中:ωj為非連續層次數據的最大梯度差加權系數,表示為
(4)
通過對非連續層次數據中的有用文本進行語義指向性特征提取,假設數據是分段平穩的,在分段平穩的線性區域,各自判決非連續層次數據窄時域窗TLX、TLY,得到非連續層次數據的文本特征提取判決式為
(5)
設非連續層次數據的能量密度譜為m;在最小窗口距離下,得到向量量化編碼的時鐘采樣Nj*,其中向量量化編碼的矢量空間軌跡函數為
(6)
把語義本體特征指向性波束提取區域分割為3×3拓撲結構,選擇特定的窗函數,得到輸出的向量量化編碼對象集合Fm(x,y)為
(7)
(8)

2.2 數據挖掘算法實現

(9)
在t-ω平面上,利用輸出的語義指向性特征進行數據聚類中心搜索,采用模糊C均值算法,將有限的多分量非連續層次數據X分為c類,其中,1 (10) (11) (12) 結合上述LGB編碼結果,對核函數進行改造,調整加權得到Nj*和幾何鄰域NEj*(t),得到數據挖掘的聚類中心為 (13) (14) 此時,求得數據挖掘的目標函數的極值為 (15) (16) 其中:m為自適應基函數;(dik)2為樣本xk與文本像素樣本Vi的測度距離,通過上述語義指向性特征提取結果,得到數據聚類挖掘的特征空間歐式距離為 (17) 且滿足: (18) 通過上述處理,當xk和Vi構成一個復共軛時,可以保留原始數據的語義本體特征,實現語義本體特征指向性波束聚類,提高數據挖掘的精度. 為了驗證本文設計的云計算環境下,基于云計算的非連續層次數據挖掘算法的數據挖掘性能,進行仿真實驗.實驗的硬件環境為:處理器Intel(R)Core(TM)2 Duo CPU 2.94GHz,內存:8.00GB.采用Matlab仿真軟件,進行非連續層次數據挖掘算法的編程設計,非連續層次數據的測試數據來自大型云存儲數據庫Deep Web 200G,非連續層次數據采樣樣本的個數為1 024,采樣的周期為T=0.04s,非連續層次數據挖掘過程中,受到碼間串擾干擾的強度為SNR=0~24 dB,數據的標量時間序列基頻為100Hz,包含3個頻率分量的非線性數據特征分量,根據上述仿真環境和參數設定,進行數據挖掘算法仿真分析,首先進行原始數據的信息流模型構建和特征提取建模,得到原始數據信息流時域波形如圖3所示. 圖 3 原始數據信息流時域波形 圖4 非連續層次數據的語義指向性特征提取Fig.3 Time domain waveform of raw data information flow Fig.4 Semantic directional feature extraction of non continuous hierarchical data 圖 5 數據挖掘性能對比Fig.5 Data mining performance comparison 由圖3可知,原始數據信息流分布在云存儲數據庫中,受到較強的自耦合性非線性特征干擾,導致數據挖掘的精度低、性能差.因此,需進行數據挖掘模型改進,采用本文方法進行語義指向性特征提取,得到結果如圖4所示.由圖4可知,采用本文方法進行非連續層次數據的語義指向性特征提取,可以實現數據的語義本體特征指向性波束聚類,數據聚類挖掘的收斂性較好,提高了數據挖掘性能,為了定量分析挖掘性能,采用本文算法和傳統方法,以數據挖掘的準確度作為測試指標,采用10 000次蒙特卡洛實驗,得到數據挖掘的輸出均方根誤差RMSE,對比結果如圖5所示. 由圖5可知,采用本文算法進行基于云計算的非連續層次數據挖掘,數據挖掘輸出的均方根誤差較低,說明數據挖掘精度高于傳統方法,抗干擾性能強. 針對傳統的數據挖掘方法存在挖掘精度低、誤差大的問題.提出基于云計算的非連續層次數據挖掘算法.進行數據挖掘模型的總體分析,對非連續層次數據進行語義指向性特征提取和量化編碼,在量化編碼的基礎上,采用模糊C均值聚類算法,完成語義本體特征指向性波束聚類,實現數據挖掘算法改進.實驗結果表明,采用本文算法進行數據挖掘的精度較高、性能較好,語義本體特征指向性波束聚類效果較好,抗干擾能力較強. [1] 周鐳,單鋒,劉鵬,等. 基于供應鏈的企業信息化評價模型的建立[J]. 西安工程大學學報,2015,29(6):772-779. ZHOULei,SHANFeng,LIUPeng,etal.Theestablishmentoftheenterpriseinformatizationevaluationmodelbasedonsupplychain[J].JournalofXi’anPolytechnicUniversity,2015,29(6):772-779. [2] 劉經南,方媛,郭遲,等. 位置大數據的分析處理研究進展[J]. 武漢大學學報(信息科學版),2014,39(4):379-385. LIUJingnan,FANGYuan,GUOChi,etal.Advancesinbigdataanalysisandprocessinglocation[J].GeomaticsandInformationScienceofWuhanUniversity,2014,39(4):379-385. [3] 李鵬,劉思峰. 基于灰色關聯分析和D-S證據理論的區間直覺模糊決策方法[J]. 自動化學報,2011,37(8):993-999. LIPeng,LIUSifeng.Interval-valuedintuitionistfuzzynumbersdecision-makingmethodbasedongreyincidenceanalysisandD-Stheoryofevidence[J].ActaAutomaticaSinica,2011,37(8):993-999. [4]ELDEMERDASHYA,DOBREOA,LIAOBJ.BlindidentificationofSMandalamoutiSTBC-OFDMsignals[J].IEEETransactionsonWirelessCommunications,2015,14(2):972-982. [5]XUY,TONGS,LIY.Prescribedperformancefuzzyadaptivefault-tolerantcontrolofnon-linearsystemswithactuatorfaults[J].IETControlTheoryandApplications,2014, 8(6):420-431. [6]HUANGX,WANGZ,LIY,etal.Designoffuzzystatefeedbackcontrollerforrobuststabilizationofuncertainfractional-orderchaoticsystems[J].JournaloftheFranklinInstitute,2015,351(12):5480-5493. [7] 陸興華,陳平華. 基于定量遞歸聯合熵特征重構的緩沖區流量預測算法[J]. 計算機科學,2015,42(4):68-71. LUXinghua,CHENPinghua.Trafficpredictionalgorithminbufferbasedonrecurrencequantificationunionentropyfeaturereconstruction[J].ComputerScience,2015,42(4):68-71. [8] 譚君,賈松敏,李秀智,等. 改進的CLG變分光流場估計方法[J]. 電子設計工程,2016(1):5-8. TANJun,JIASongmin,LIXiuzhi,etal.ImprovedmethodforvariationalopticalflowfieldestimationbasedonCLG[J].ElectronicDesighEngineering,2016(1):5-8. [9]CHOIJ,YUK,KIMY.Anewadaptivecomponent-substitution-basedsatelliteimagefusionbyusingpartialreplacement[J].IEEETransactionsonGeoscienceandRemoteSensing,2011,49(1):295-309. [10]MEZOUARMC,KPALMAK,TALEBN,etal.Apan-sharpeningbasedonthenon-subsampledcontourlettransform:Applicationtoworldview-2imagery[J].IEEEJournalofSelectedTopicsinAppliedEarthObservationsandRemoteSensing,2014,7(5):1806-1815. [11]GLENTISGO,JAKOBSSONA,ANGELOPOULOSK.Block-recursiveIAA-basedspectralestimateswithmissingsamplesusingdatainterpolation[C]//InternationalConferenceonAcoustics,SpeechandSignalProcessing(ICASSP),Florence,2014:350-354. [12]SUNWeize,SOHC,CHENYuan,etal.Approximatesubspace-basediterativeadaptiveapproachforfasttwo-dimensionalspectralestimation[J].IEEETransactionsonSignalProcessing,2014,62(12):3220-3231. [13] 陳丹,柯熙政,張璐. 湍流信道下激光器互調失真特性[J]. 光子學報,2016,45(2):93-97. CHENDan,KEXizheng,ZHANGLu.Laserintermodulationdistortionandcharacteristicundertheturbulencechannel[J].ActaPhotonicaSinica,2016,45(2):93-97. [14] 許寧,肖新耀,尤紅建,等.HCT變換與聯合稀疏模型相結合的遙感影像融合[J]. 測繪學報,2016,45(4):434-441. XUNing,XIAOXinyao,YOUHongjian,etal.ApansharpeningmethodbasedonHCTandjointsparsemodel[J].ActaGeodaeticaetCartographicaSinica,2016,45(4):434-441. [15] 崔永君,張永花. 基于特征尺度均衡的Linux系統雙閾值任務調度算法[J]. 計算機科學,2015,42(6):181-184. CUIYongjun,ZHANGYonghua.Linuxsystemdualthresholdschedulingalgorithmbasedoncharacteristicscaleequilibrium[J].ComputerScience,2015,42(6):181-184. [16] 劉俊,劉瑜,何友,等. 雜波環境下基于全鄰模糊聚類的聯合概率數據互聯算法[J]. 電子與信息學報,2016,38(6):1438-1445. LIUJun,LIUYu,HEYou,etal.Jointprobabilisticdataassociationalgorithmbasedonall-neighborfuzzyclusteringinclutter[J].JournalofElectronicsandInformationTechnology,2016,38(6):1438-1445. [17]BAESH,YOONKJ.Robustonlinemultiobjecttrackingwithdataassociationandtrackmanagement[J].IEEETransactionsonImageProcessing,2014,23(7):2820-2833. [18]JIANGX,HARISHANK,THAMARASAR,etal.Integratedtrackinitializationandmaintenanceinheavyclutterusingprobabilisticdataassociation[J].SignalProcessing,2014(94):241-250. [19]LIL,XIEW.Intuitionisticfuzzyjointprobabilisticdataassociationfilteranditsapplicationtomultitargettracking[J].SignalProcessing,2014,(96):433-444. [20]ZHONGF,LIH,ZHONGS,etal.AnSOCestimationapproachbasedonadaptiveslidingmodeobserverandfractionalorderequivalentcircuitmodelforlithium-ionbatteries[J].CommunicationsinNonlinearScienceandNumericalSimulation, 2015,24(1):127-144 編輯、校對:趙 放 The method of non continuous data mining based on cloud computing LI Ying (School of Computer Engineering Technical, Guangdong Institute of Science and Technology, Zhuhai 519090, Guangdong,China) A large database of cloud storage has massive discontinuous level data, and the data has stronger coupling nonlinear characteristics. When using traditional method for data mining, mining difficult problems exist . Discontinuous hierarchical data mining algorithm based on cloud computing is put forward. Carrying on the overall analysis of the data mining model, semantic directivity characteristics of discontinuous level data are extracted and quantization coding is conducted. on the basis of quantitative coding, fuzzy C-means clustering algorithm is adopted,to complete semantic ontology directional beam cluster, improving the data mining algorithm. The experiment results showed that the improved algorithm has high precision,good performance and strong anti-jamming capability,and its performance is superior to that of traditional methods. cloud computing; semantic; data mining; data clustering; information retrieval 1674-649X(2016)04-0498-06 10.13338/j.issn.1674-649x.2016.04.016 2015-12-13 廣東省高職教育教學管理委員會教改課題(JGW2013026) 李穎(1977—),女,廣東省韶關市人,廣東科學技術職業學院講師,研究方向為虛擬化與云計算.E-mail:wing_lee@126.com 李穎.基于云計算的非連續層次數據挖掘方法[J].西安工程大學學報,2016,30(4):498-503. LI Ying.The method of non continuous data mining based on cloud computing[J].Journal of Xi′an Polytechnic University,2016,30(4):498-503. TP 391 A

3 仿真實驗與性能測試


4 結束語