陳議
摘 要當前,隨著互聯網技術的不斷發展,數據的規模擴大、類型增加,走向了前所未有的大數據時代。而云計算作為一種新型的信息模式,以其特有的優勢,得到學術界和企業界的廣泛關注,為大數據服務的發展奠定了良好的基礎。然而,由于目前尚未形成有效的運行機制,云計算環境下大數據分布不完全合理,因此,本文通過簡要描述云計算和大數據的概念及特征,提出基于模糊聚類分析的云計算環境下大數據分布規律的結構優化設計。
【關鍵詞】云計算環境 大數據 分布規律 模糊聚類方法
1 引言
云計算服務的興起為大數據的應用提供了保障,在考慮其性能和成本的前提下,越來越多的企業考慮將大數據處理的相關應用轉移到云計算環境下進行。在此背景下,學術界和企業界掀起了對云計算環境下大數據分布規律的結構優化設計方法的研究熱潮,并獲得了眾多研究成果,其中最為常見的方法包括模糊聚類方法、詳細度量方法和最小二乘法等。
2 云計算與大數據概述
2.1 云計算
云計算是指以互聯網為基礎,對所需資源進行隨時隨地的訪問和分享,是當前一種依靠互聯網技術的全新計算模式,其主要特征包括IT資源服務化、泛在接入、服務可計費、按需自服務及彈性服務,其本質是通過IT資源服務化的特征在互聯網上以泛在接入和服務可計費的方式,向用戶提供按需自服務式的彈性服務。由此得知,由于其IT資源服務化特征,在大規模應用計算時,云計算可提供資源保障;由于其所有過程皆是通過互聯網手段,用戶在檢索數據時,云計算可提供按需自服務式的彈性服務;由于其泛在接入特征,用戶可隨時隨地利用互聯網在移動終端上訪問或共享數據。
2.2 大數據
簡單來說,大數據就是指規模龐大的數據。但由于互聯網技術還在進一步更新和發展中,數據的規模和種類也在快速擴大和增加,不同的組織也因各自不同的需求對大數據有著不同的認識和理解,所以學術界尚不能對大數據進行統一定義。目前,由于IBM提出的大數據3V模型定義對大數據特征進行了形象的描述,而最能被人們普遍接受,即大數據具有海量性、多樣性、高速性三個特征。其中,海量性是指數據規模巨大,達到TB級及PB級;多樣性是指數據種類繁多,按照其結構分大致分為結構化數據和非結構化數據;高速性是指數據的出現速度、處理速度和分析速度都在持續加快。
3 云計算環境下大數據分布規律的結構優化設計
目前,研究云計算環境下大數據分布規律的結構優化設計方法有很多,主要包括模糊聚類方法、詳細度量方法和最小二乘法等。其中,模糊聚類法是指通過研究數據分布規律本身屬性,從而構建迷糊矩陣來確定聚類關系的一種方法;最小二乘法是指通過匹配最小化誤差的平方和尋找數據的最佳函數,使得所求數據與實際數據之間誤差平方和最小化的一種方法。
3.1 構建X上的模糊關系
構建待處理數據X上的模糊關系,是采用模糊聚類法的第一步,是大數據分布規律的結構優化設計的基礎。在這一過程中,需將屬性類似的系數構建成n階的迷糊矩陣,即相似系數矩陣。根據矩陣確定其在待處理數據X上的模糊關系。其中兩個模糊向量間的接近程度稱之為貼近度,而相似系數的計算和描述則需利用貼近度法,例如將X中的元素Xi和Xj看作是其各自特征的模糊向量,用貼近度對相似系數rij進行計算,則rij的表達式為:
rij=1-c(dp(Xi,Xj))α (1)
(1)式中:c,α指的是描述常數;p指的是描述不同距離的代碼系數,對論域X={x1,x2,…,x5}進行規格化處理,此時,取c值為0.1,計算相似系數,可獲取模糊相似矩陣,如式(2):
(2)
結合式(1)、式(2),在獲得模糊五階相似矩陣后,需對其進行劃分,才能進行下一步的大數據分布規律結構優化設計。
3.2 大數據分布規律結構優化設計
在進行大數據分布規律結構優化設計前,針對類和類間的距離,需運用最短距離法進行計算,例如用dij(i,j=1,2,…,n)描述樣本i與j之間的距離,則有:
(3)
若用G1,G2,…來描述類,則第k類的Gk和第r類的Gr之間的最短距離為:
Dkr=min{dij:i∈Gk,j∈Gr} (4)
利用最短距離法對云計算環境下大數據分布規律結構進行優化設計,可有效分析辨別出需要調整和轉移的數據,使得云計算環境下的大數據分布在一個不斷調整的動態過程里,隨時保持數據的最理想狀態。
3.3 仿真實驗
為了驗證上述優化設計的有效性,現通過仿真實驗,對模糊聚類方法、最小二乘法進行對比分析:兩種方法分別進行10次實驗,取其平均訪問代價作為結果。在對兩種方法進行評價的過程中,將相對訪問成本作為衡量的標準。得出結果如下:
(1)隨著代理存儲容量的增加,比較采模糊聚類方法和最小二乘法進行大數據分布規律結構優化設計后的相對訪問成本,隨著存儲容量的逐漸升高,模糊聚類方法的相對成本低于最小二乘法,當總預算從全部候選代理費用的10%增長至20%時,模糊聚類方法和最小二乘法的相對成本均在一定程度上有所增加,但模糊聚類方法的增加幅度低于最小二乘法,說明模糊聚類方法的性能優于最小二乘法。
(2)在各代理容量一定的情況下,云計算環境下預算費用逐漸增加時,比較模糊聚類方法和最小二乘方法相對成本的變化趨勢,模糊聚類方法的性能明顯優于最小二乘方法,在各代理容量或總預算較低時,模糊聚類方法的相對成本均低于最小二乘方法,當代理容量大小從50%到70%時,模糊聚類方法的相對成本基本沒有發生改變,說明模糊聚類方法基本不受代理容量的影響。因此,通過仿真實驗驗證了模糊聚類方法的有效性。
4 結語
綜上所述,在云計算概念提出以后,各大企業緊跟時代步伐,通過互聯網采用多項云計算服務。因此,越來越多的學者對云計算環境下大數據分布規律的結構優化設計進行研究,本文提出了利用模糊聚類法對云計算環境下大數據分布規律進行優化設計,并經仿真實驗分析確定了其有效性。
參考文獻
[1]朱亞東,高翠芳.基于PSO的云計算環境中大數據優化聚類算法[J].計算機技術與發展,2016,26(9):178-182.
[2]陳志華,劉曉勇.云計算下大數據非結構的穩定性檢索方法[J].現代電子技術,2016,39(6):58-61.
[3]姜明月.云計算平臺下的大數據分流系統的設計與優化[J].現代電子技術,2016,39(2):28-32.
作者單位
貴州省信息中心 貴州省貴陽市 550000