謝紀東,武繼剛
廣東工業大學 計算機學院,廣州 510006
數據網格已經廣泛應用在科學研究中,其目的是將許多分布遙遠的存儲資源連接起來,以方便網格用戶分享數據[1],這種數據一般需要消耗大量存儲以至于無法集中存儲在一個節點中[2]。
一般而言,計算密集型的應用需要用到大量數據,尤其在科學計算型應用[3-4],比如高能物理[5]、天氣模擬以及衛星圖像處理等[6-7]。而且隨著最近一段時間數據挖掘和機器學習的發展,越來越多的數據需要進行復雜的實驗和分析。
然而,由于硬件成本的限制,在本地存儲和維護大量數據的代價有時是難以接受的,而如果將數據全部放置在遠程服務器中,比如云端[8-9],由于網絡帶寬的限制,取回數據的時間代價又太大,因此副本放置技術應運而生,副本技術利用用戶對文件請求的歷史數據,利用有限的本地存儲資源只存儲用戶最需要文件的副本,而所有文件的原本存儲在云端,這樣不僅能有效利用本地存儲資源,也能充分利用云端的資源,同時方便共享數據資源。
本文通過改進文獻[10]中對文件熱度的定義,利用間隔執行機制以及異步策略來設計算法,算法由兩部分組成,一部分是全局算法,負責收集各個集群的用戶文件請求計算候選副本,另一部分為局部(本地)算法,由集群中心控制,局部算法負責放置副本到合適位置以適應集群網絡環境。本文主要有3點貢獻:
(1)通過邊際分析方法改進了文獻[10]中對文件流行度的定義從而能選擇更合適的候選副本。……