王東強,王曉霞
(青島農業大學 理學與信息科學學院,山東 青島 266109)
云存儲中大數據優化粒子群聚類算法
王東強,王曉霞
(青島農業大學 理學與信息科學學院,山東 青島 266109)
對云存儲系統中的大數據進行優化聚類設計,降低存儲開銷,提高數據管理和調度能力,傳統方法中對云存儲大數據聚類方法采用量子進化方法,當量子群個體存在非線性偏移時,數據聚類存在局部收斂,導致聚類準確度降低。提出一種基于優化粒子群算法的云存儲中大數據優化聚類算法,進行了云存儲大數據聚類的原理分析,在傳統的模糊C均值聚類的基礎上,采用粒子群聚類算法進行大數據聚類算法改進設計,把數據的分割轉化為對空間的分割,得到云存儲系統中海量數據的模糊聚類中心矢量,采用粒子群聚類方法對聚類數據的離散樣本進行動態分配,得到數據聚類的信息素濃度,結合粒子群優化聚類的約束條件,求得云存儲中大數據聚類的中心最優解。仿真結果表明,采用該算法進行云存儲中大數據優化粒子群聚類,數據聚類的聚類準確度高,收斂性能較好,能在較短的迭代步數下計算得到最優解,在模式識別等領域展示了較好的應用價值。
云存儲;粒子群;大數據;聚類算法
隨著云計算的出現,云存儲服務的誕生與發展,基于云存儲系統的大數據云計算為云用戶提供了廉價的存儲空間[1]。從分配與數據管制形式來看,云存儲能夠劃分成公共云、私有云及混合云等類別。經過云計算,將云存儲系統里的資源數據實行統一調度與信息處置,經過資源融合,使用云網格估算,將一個須要相當大的估算問題劃分為很多小的部分,然后將這些局部一個一個分散到很多低性能的計算機來處置,達成以虛擬化為關鍵的云平臺架構,通過云存儲實現大數據的調度和管理,大數據調度的重要基礎是進行數據聚類,數據聚類是實現模式識別的根本。
傳統方法中對云存儲系統中的數據聚類方法主要有基于FCM的數據聚類算法、基于支持向量機SVM分解的數據聚類算法和基于BP神經網絡控制的數據聚類算法等[2-3],但是傳統方法在數據聚類過程中容易陷入局部收斂,導致聚類的準確度降低,對此,有關文獻實行了算法改進,當中,文獻[4]提出基于混沌差分進化的云存儲系統大數據聚類算法,采用層次聚類進行大數據的特征提取,在層次聚類過程中隨著類別層次的變化導致聚類中心矢量偏移,性能不好。文獻[5]中,對云存儲大數據聚類方法采用量子進化方法,當量子群個體存在非線性偏移時,數據聚類存在局部收斂,導致聚類準確度降低[6-7]。文中提出一種基于優化粒子群算法的云存儲中大數據優化聚類算法,首先進行了云存儲大數據聚類的原理分析,在傳統的模糊C均值聚類的基礎上,采用粒子群聚類算法實行大數據聚類算法改革設計,最后經過仿真實驗實行了性能檢驗及證明,展現出了文中算法在實際大數據聚類里的優越性能,得出有效性結論,在模式識別等領域展示了較好的應用價值[8]。
1.1 云存儲及大數據聚類問題描述
云存儲系統是云計算的核心問題之一,構建云存儲及大數據聚類算法,將資源多源性簡化為單一資源進行重構,提高云計算中多源信息資源的高效分配[9-11]。在云計算大數據管理中,需要對大數據進行數據聚類,通過數據聚類,提高數據的調度和擴展能力,在云存儲系統中,需要構建云存儲系統,典型的大數據云儲存系統模型設計如圖1所示。

圖1 典型大數據云存儲結構模型構建


其中,云存儲的樣本集x={x1,x2,…,xn}數據分析的聚類中心{a1,a2,…,ak},在第k+1次迭代過程中的粒子群的聚類中心矢量為:

其中ws和we表示云存儲系統的慣性權值,取值分別為0.95和0.4,在上述模型設計的基礎上,進行云存儲中大數據聚類算法研究,提高數據的聚類性能。
1.2 云存儲系統中的大數據聚類原理分析
在大數據環境下,對信任節點的數據種類進行區分治理,數量非常少的一類被叫作少數類,而另一類就被叫作多數類,具備這樣特點的兩區分數據集則被叫作是不平衡的[12-15]。文中在傳統的模糊C均值聚類的根本上,使用粒子群聚類算法實行大數據聚類算法改進設計,首先給出傳統的模糊C均值聚類算法設計模型,算法具體描述如下:
在云計算存儲系統中,假設有限特征解的海量數據集:

用基于M-Learning學習網絡局部性交叉性信息鏈模型,得到云存儲系統中的海量數據集合中含有n個樣本,數據的分割成均勻分布的粒子群,得到聚類樣本xi,i=1,2,…n的特征矢量為:

采用解析排隊模型進行數據聚類的信道補償,把有限數據集合X分為c類,其中1<c<n,通過上述處理,把數據的分割轉化為對空間的分割,得到云存儲系統中海量數據的模糊聚類中心矢量為:

其中vi為存儲結構中心的第i個特征向量,(第i個聚類中心矢量)。大數據特征聚類中心VMi的聚類劃分矩陣表示為:

通過定義,得到模糊C均值聚類算法,在大數據調度環境下,采用粒子群聚類方法對聚類數據的離散樣本進行動態分配,得到數據聚類的信息素濃度為:

式中,m為權重指數,(dik)2為樣本xk與Vi的大數據的存儲結構中心矢量,用歐式距離表示,為:

數據聚類中心的粒子最優解為:

結合約束條件,采用李雅普諾夫極限定理,求云存儲中大數據聚類的中心極值為:

對上述求最優解,得到數據聚類中心,進行數據聚類。
在上述進行云存儲系統結構模型構建和模糊C均值聚類算法描述的基礎上,進行粒子群聚類算法改進設計,對云存儲系統中的大數據進行優化聚類設計,降低存儲開銷,提高數據管理和調度能力,傳統方法中對云存儲大數據聚類方法采用量子進化方法,當量子群個體存在非線性偏移時,數據聚類存在局部收斂,導致聚類準確度降低。為了克服傳統方法的弊端,文中提出一種基于優化粒子群算法的云存儲中大數據優化聚類算法。
假設在D維大數據云存儲聚類特征空間中,有m個粒子組成一個種群,當擾動序列加入種群中,影響了聚類精度,對此,文中把數據聚類問題轉化為一個多目標優化問題,云存儲中大數據聚類的數學描述如下:

其中,fi(x)(i=1,2,…,n)為目標函數,gi(x)系統有兩個不穩定的1周期點x=0和x=1-1/μ,hj(x)為等式約束。這里,引入混沌粒子群擾動概念,得到決策變量x*支配的聚類中心的特征解為:

為了避免粒子陷入局部最優,對于每個大數據信息特征矢量Xi進行存檔,為:

其中,fi是Pareto最優解,Pij(k)表示 k時刻第i個決策變量,不等式fi(X*)≤fi(X)成立,其中i=1,2,…,n,設置聚類的閾值Nth,當Neff<Nth時,搜索區域的Oα和Oβ兩個區間的聚類正確的概率為:

采用粒子群跳數改進機制進行存儲庫中的粒子更新,粒子群跳數改進機制原理如圖2所示。

圖2 粒子群跳數改進機制原理
更新粒子群中每個粒子的空間位置

其中,xk為搜索該區域內的慣性權重,a為聚類中心的非劣解,de為極值點到非劣解的距離,在評估解集分布的均勻程度時,計算按最優聚類中心矢量函數,根據模因組中的更新迭代順序,得到:

由此得到云存儲中大數據聚類的粒子適應度函數為:

其中,{α,β}為分集聚斂目標函數,通過優化PSO聚類方法實現對云存儲中大數據聚類,由此實現算法改進。算法改進實現流程如圖3所示。
最后通過仿真實驗對本文設計的數據聚類算法進行性能測試和驗證,實驗的計算機硬件環境為:處理器Intel(R)Core(TM)2 Duo CPU主頻2.93 GHz,內存2 GB。操作系統:Windows 7。采用Matlab數學仿真軟件進行算法編程實現,云存儲系統設計中,通過粒子群重采樣策略實現對DOM函數的修改,采用eval()、setTimeout()、setInterval()等直接執行腳本函數進行粒子的多樣性濾波,仿真實驗中,粒子群的額種群規模為300,進化次數為1024,跳數機制為100,云存儲中的干擾向量的擾動率為0.2,分別取粒子數Ns=200,500,700,1000,以n=30K,m={20,50,100}和n=100K,m=100四種情況為例在進行云存儲大數據聚類仿真,在云存儲環境下,進行數據聚類測試,首先進行原始大數據采樣,得到原始數據結果如圖4所示。

圖3 大數據聚類算法實現流程

圖4 云存儲中的原始大數據采樣結果
上述數據由于相互特征差異不明顯,難以有效區分,采用文中算法進行數據聚類,實現模式識別,得到數據聚類結果如圖5所示。
從圖可見,采用文中算法進行數據聚類,具有較大的特征差異性,各類數據之間得到有效區分,對云存儲系統中的數據聚類性能較好,為了對比算法性能,以數據聚類的收斂度為測試指標,獲得仿真后果像圖6所示,由圖可知,使用文中算法,可以在限制的迭代步數下實現最優化聚類,收斂性能較好,展示了較好的應用價值。

圖5 數據聚類結果

圖6 大數據聚類收斂性能對比
對云存儲系統中的大數據進行優化聚類設計,降低存儲開銷,提高數據管理和調度能力,傳統方法中對云存儲大數據聚類方法采用量子進化方法,當量子群個體存在非線性偏移時,數據聚類存在局部收斂,導致聚類準確度降低。提出一種基于優化粒子群算法的云存儲中大數據優化聚類算法、首先進行了云存儲大數據聚類的原理分析,在傳統的模糊C均值聚類的基礎上,采用粒子群聚類算法實行大數據聚類算法改革設計,最后經過仿真實驗實行了性能檢測及證明,展現出了文中算法在實際大數據聚類里的優越性能,實驗后果證明,使用文中算法實行數據聚類的聚斂性能較好,能在較短的迭代步數下計算得到最優解,在模式識別等領域展示了較好的應用價值。
[1]譚鵬許,陳越,蘭巨龍,等.用于云存儲的安全容錯編碼[J].通信學報,2014,35(3):109-114.
[2]魏理豪,王甜,陳飛,等.基于層次分析法的信息系統實用化評價研究 [J].科技通報,2014,30(2): 142-148.
[3]吳濤陳黎飛郭躬德.優化子空間的高維聚類算法[J].計算機應用,2014,34(8):2279-2284.
[4]辛宇,楊靜,湯楚蘅,等.基于局部語義聚類的語義重疊社區發現算法 [J].計算機研究與發展,2015,52(7):1510-1521.
[5]徐向平,魯海燕,徐迅.基于環形鄰域的混沌粒子群聚類算法[J].計算機工程與應用,2016,52(2): 54-60.
[6]LIAO Lü-chao,JIANG Xin-hua,ZOU Fu-min,HE Wen-wu,QIU Huai.A Spectral Clustering Method for Big Trajectory Data Mining with Latent Semantic Correlation [J].Chinese JournalofElectronics,2015,43(5):956-964.
[7]余曉東,雷英杰,岳韶華,等.基于粒子群優化的直覺模糊核聚類算法研究 [J].通信學報,2015(5): 2015099.
[8]熊眾望,羅可.基于改進的簡化粒子群聚類算法[J].計算機應用研究,2014,31(12):115-123.
[9]茍杰,馬自堂.基于MapReduce的并行SFLA-FCM聚類算法[J].計算機工程與應用,2016,52(1):66-70.
[10]WANG Yong-gui,LIN Lin,LIU Xian-guo.結合雙粒子群和K-means的混合文本聚類算法[J].計算機應用研究,2014,31(2):364-368.
[11]馬艷英.基于遺傳算法的Web文檔聚類算法[J].現代電子技術,2016,39(1):148-152.
[12]沈艷,余冬華,王昊雷.粒子群K-means聚類算法的改進[J].計算機工程與應用,2014,50(21):125-128.
[13]王楊.基于改進的粒子群優化的模糊C-均值聚類算法[J].計算機與數字工程,2014,42(9):1610-1612.
[14]錢潮愷,黃德才.基于維度頻率相異度和強連通融合的混合數據聚類算法[J].模式識別與人工智能,2016,29(1):82-89.
[15]許成鵬,朱志祥.一種基于云計算平臺的數據庫加密保護系統[J].電子設計工程,2015(19):97-100.
Large data optimization particle swarm clustering algorithm based on cloud storage
WANG Dong-qiang,WANG Xiao-xia
(Science and Information College,Qingdao Agricultural University,Qingdao 266109,China)
The large data of cloud storage system is optimized for clustering design,reducing storage overhead,improving data management and scheduling ability.The traditional method uses quantum evolutionary algorithm to cluster large data clustering method.When the quantum group has a nonlinear shift,data clustering has local convergence,which leads to the decrease of clustering accuracy.A large data clustering algorithm based on particle swarm optimization is proposed,which is based on the traditional fuzzy C means clustering.The clustering algorithm is used to improve the design.The data is transformed into the spatial segmentation.The clustering algorithm is used to obtain the data concentration.The optimal solution is obtained.The simulation results show that this algorithm is used to optimize the particle swarm optimization in cloud storage.The clustering accuracy is high,and the convergence performance is better,and the optimal solution can be obtained in the short iterative step.
cloud storage;particle swarm;large data;clustering algorithm
TP391
:A
:1674-6236(2017)02-0026-05
2016-05-17稿件編號:201605165
山東省自然科學基金(20015CAZ185);校級課題(SYJK13-26)
王東強(1974—),男,山東招遠人,碩士研究生,實驗師。研究方向:計算機工程,網絡安全。