翁子寒
摘 要: 目前,計算數據中心設計動態數據聚集算法,通過仿真實驗進行驗證分析,表明動態數據聚集算法能夠保障計算數據中心的服務質量,提高計算機設備穩定性,提升計算機數據中心的服務質量,并且還可以在不同時段動態分配數據使用,實現有效的聚集數據分配模式,從而確保系統計算存儲節點可以輪流運轉,提升計算機數據中心區域溫控設備的精度,充分利用計算數據中心資源,滿足用戶的實際服務需求,降低計算數據中心系統動態數據分配能耗。
關鍵詞: 計算數據中心; 動態數據; 聚集算法; 仿真實驗
中圖分類號: TN919.2?34 文獻標識碼: A 文章編號: 1004?373X(2015)17?0142?02
Research on aggregation algorithm of dynamic data in computing data center
WENG Zihan
(Shanghai Children′s Medical Center, Shanghai 200127, China)
Abstract: The aggregation algorithm of dynamic data was designed according to current computing data center, which was verified and analyzed by simulation experiments. The simulation results show that this algorithm can ensure service quality of compu?ting data center, enhance the stability of computer equipment and improve service quality of computer data center. Data usage can be allocated dynamically at different time period to achieve effective allocation pattern of aggregate data, which can ensure that the storage nodes of system computation operate in turns, and improve the accuracy of temperature control equipments in the area of computer data center. This algorithm can make full use of the resources in computing data center to satisfy the actual service demands for users, and reduce the allocation energy consumption of dynamic data in computing data center system.
Keywords: computing data center; dynamic data; aggregation algorithm; simulation experiment
本研究針對當前計算數據中心的動態數據分配及數據分配方法中存在的問題,其局限性、公式復雜、算法運行效率低等弊端,提出動態數據聚集算法,并結合計算數據中心實際情況進行改進,仿真研究動態數據聚集算法在計算數據中心的應用效果。
1 淺析動態數據聚集算法
動態數據聚集算法中,聚類是數據挖掘中一類重要的問題,在許多領域有其應用之處。聚類的定義是:給定一個由許多數據元素組成的集合,將其分為不同的組(類、簇),使得組內的元素盡可能相似,不同組之間的元素盡可能不同[1]。在動態數據聚集算法中,其數據流具有以下特點:數據實時到達,數據到達次序獨立,不受系統控制;數據量巨大,不能預知其大小;單次掃描,數據一經處理,除非特意保存,否則不能再次被處理。由于計算機數據中心數據流的特點,要求數據壓縮表達,并且可以迅速、增量地處理新到達的數據,要求該算法可以快速、清晰地識別離群點。
2 計算數據中心應用動態數據聚集算法實現
對動態聚類算法中的數據流,在每一個時刻,動態聚類算法的在線部分連續地讀入一個新的記錄,將多維的數據放置到對應多維空間中的離散密度網格。在第一個gap時間內產生了初始簇[2],然后,算法周期性地移除松散的網格以及調整簇,由于不可能保留原始數據,D?Stream將多維數據空間分為許多密度網格,然后由這些網格形成簇,如圖1所示。
文本中,假設輸入的數據有[d]維,在計算機數據中心空間中定義數據:
[S=S1×S2×…×Sd]
在動態數據聚集中,可以將[d]維的空間[S]劃分成密度網格。假設對于每一維,它的空間是[Si,][i=1,2,…,d]被分為[pi]個部分。
[Si=Si,1∪Si,2∪…∪Si,pi]
這樣數據空間[S]被分成了[N=i=1d=pi]個密度網格。每個密度網格[g]是由[S1, j1×S2, j2×…×Sd,jd,][ji=1,]2,…,[pi]組成,將它表示為:
[g=(j1, j2,…, jd)]
一個數據記錄[X=(x1,x2,…,xd)]可以映射到下面一個密度網格[g(x):]
[g(x)=(j1, j2,…, jd) where Xi∈Si,ji]
根據網格密度變動,更新網格密度,當一個新的計算機中心數據到網格,接收數據記錄,設一個網格[g]在時刻[tn]接收到一個新的數據記錄,假設[g]接收到最后的數據記錄是在時刻[tl(tn>tl),]那么[g]的密度可以按下面的方式更新:
[D(g,tn)=λtn-tlD(g,tl)+1]
計算數據中心動態數據聚集算法的實現中,其最基本的計算思想是,在聚集數據的最中心對象,對[n]個對象給予[k]個劃分區域;并且此代表對象也可以被稱為中心點,而其他的對象為非代表對象,反復使用非代表對象替換代表對象,從而動態地找出數據中心更好的中心點,改進數據中心聚類質量。自定義一個函數:
function [result,c,s,index,label]=kpam(data,k);
[N,n]=size(data);
index=randperm(N);
v=data(index(1:k),:);
for t=1:100
if k==1
for j=1:N
label(j)=1;
end
else
for i=1:k
label(index(i))=i;
end
for j=k+1:N
for i=1:k
dist(:,i)=sqrt(sum((data(index(j),:)?v(i,:)).^2));
end
[m,l]=min(dist');
label(index(j))=l;
end
end
for i=1:k
c(i,:)=v(i,:);
end
一個非中心點代替一個中心點的總代價s
s((h?k),:,i)=sum(cjih(:,:),1);
end
end
if min(min(s))==0
for i=1:k
for h=k+1:N
if s((h?k),:,i)==min(min(s))
s((h?k),:,i)=1;
end
end
end
end
3 計算數據中心動態數據聚集算法仿真研究
3.1 仿真試驗環境搭建
對于計算數據中心動態數據聚集算法,針對動態數據聚集算法實施仿真試驗,在一臺帶有1.7 GHz CPU和256 MB內存的PC上進行,用VC++ 6.0以及一個Matlab圖形接口實現動態聚類算法仿真。研究其算法性能及結果準確性,數據中心將10個節點存放于一個機架上,環境參數見表1。
在動態數據聚集算法仿真試驗中,可以設置:[Cm=]3.0,[Cl=0.8,][λ=0.998,][β=0.3,]使用兩個測試集。第一個就是測試數據集,也是一個真實的數據集合KDD CUP?99,它包含由MIT林肯實驗室收集的網絡入侵數據流。也使用人工數據集測試動態聚類算法的伸縮性。這個人工數據集包含的數據數量從35 000~85 000不等,簇的數目被設定為4,維度的數目范圍[3]從2~40。在動態數據聚集算法仿真試驗中,將數據集的所有屬性規格化為[0,1]。每個維度被均勻地分為多個數據段,每個段的長度為len。
3.2 仿真結果評估
將評估計算數據中心的動態聚類質量與效率與傳統計算數據中心的算法進行比較,本文算法能提高算法時間、空間效率,對于計算中心高速的數據流不損失聚類質量,有獨特的優勢,準確地識別實時數據流,并實施演化行為。計算數據中心動態聚類算法與傳統數據分配算法相比,數據準確性得到提升,為98.2%,常規數據分配準確率為83.6%,有明顯優勢(P<0.05)。計算數據中心動態聚類算法的應用,可以提升計算數據中心系統的穩定性。
4 總 結
基于計算機數據中心數據分配中,在數據中心網絡技術基礎上,由于數據節點可以自由移動,這樣會降低數據分配進度,從而降低系統性能,導致計算機數據中心網絡維護開銷過高。故此,針對計算機數據中心數據分配,應該改進傳統靜態數據流數據方法,實現動態數據聚集,減少信息冗余,提升數據計算效率及安全性。
參考文獻
[1] 李文華,羅霄,張樂.飛控計算機數據模擬器的設計與實現[J].現代電子技術,2014,37(11):104?106.
[2] 徐小龍,楊庚,李玲娟,等.面向綠色云計算數據中心的動態數據聚集算法[J].系統工程與電子技術,2012,34(9):1923?1929.
[3] 郭建波.動態數據聚集算法探究:以綠色云計算數據中心為研究方向[J].中國信息化,2013(4):108?109.
[4] 翁祖泉,張琪.基于物聯網海量數據處理的數據庫技術分析與研究[J].物聯網技術,2014,4(6):88?90.
[5] 李海濤.云計算用戶數據傳輸與存儲安全研究[J].現代電子技術,2013,36(20):24?26.
[6] 楊波.基于云計算的作戰數據存儲系統研究[J].現代電子技術,2013,36(19):12?14.