王淵
摘要:云計算是一種新型的互聯網應用模式,更新了傳統的IT產業,為IT產業的帶來更大的發展空間,隨著云計算的應用,對大規模圖數據處理的要求越來越高,在這一背景下,需要在云計算的環境下進行大規模圖數據處理技術的研究,從而提升大規模圖數據的處理能力,該文通過對云計算的概述,在大規模圖數據處理技術中應用云計算的優勢,大規模圖數據處理技術中云計算的應用三個方面進行具體的闡述,希望對未來我國基于云計算的大規模圖數據處理技術更好的發展提供可參考性建議。
關鍵詞:云計算;大規模圖數據;處理技術
中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2017)34-0244-02
在計算機科學中,應用最常見的抽象類數據結構之一就是圖,有著比線性表更復雜的語義,也更具有表述能力。所以,對當前的大規模圖數據處理提出了更高的要求。要實現對大規模圖數據處理技術的優化,更加高效的處理大規模圖數據,在云計算環境下,運用大規模圖數據處理技術是非常重要的。
1 云計算的概述
云計算的概述主要從以下兩個方面進行具體的論述:(1)云計算的核心是互聯網,是一種類型的應用程序,也可以將其定義為一個系統平臺,主要具有以下特點:虛擬化,云計算不具有實體,是一種網絡工具;可擴展性和通用性,云計算的功能較多,可以支持不同的程序,使得云計算具有動態伸縮性,可以滿足不同的程序的要求;高經濟性,云計算擁有超強的容錯性,在大規模的云計算過程中,可以應用廉價的云計算集群服務器支撐,發揮計算機的作用;(2)云計算技術,為保障云計算更廣泛的應用,研究相關的云計算技術在其應用的過程中有著重要的作用,云計算技術主要包括:海量分布式儲存技術,這一技術是云計算中最重要的儲存數據的方式,具有高安全性、高經濟性、高可用性的特點;數據管理技術,在云計算的過程中,需要對大量的數據進行分析、比較和儲存等處理,在這一過程中需要更好的管理數據避免丟失;并行編程技術,在云計算的編程模式有效的運行的基礎之上,提高云計算的運行質量和運行效率。
2 在大規模圖數據處理技術中應用云計算的優勢
根據上述中對于云計算的了解,本文將簡要論述和分析基于云計算的大規模圖數據的處理技術的優勢:(1)便于圖數據的儲存和維護。在應用大規模圖數據處理技術的過程中,可以處理GB級別的圖數據量,甚至可以處理PB級別的數據量,遠大于傳統的數據內存,使其在數據庫中不能被運用[1]。但是,在云計算的過程中,采用的是分布式的儲存方式,可以儲存大規模的數據。在云計算環境下應用大規模圖數據處理技術,可以根據需要進行數據儲存,保護數據的一致性,從而保證大規模圖數據的儲存過程中的數據安全;(2)大規模圖數據的應用性得到提高。在云環境下,運用云計算的特點,對圖數據進行分割處理,將圖數據分割為若干小圖,便于子圖的應用,從根本上提高圖數據的應用效果;(3)合理處理大規模的圖數據。在技術和經濟的角度看,云計算有更好的靈活性和伸縮性,適合處理彈性變化較大的圖數據。
3 基于云計算的大規模圖數據處理技術研究
3.1 基于云計算的圖數據存儲方式
現階段,進行大規模圖數據的管理過程中,比較常用的數據模型一般包括兩種,一種是單數據模型,另一種是超圖數據模型,兩者均可進行有向圖和無向圖的處理工作,區別在于存儲的格式不相同。作為大規模圖數據的存儲基礎,云計算的分布式存儲系統可以劃為分布式的文件系統和分布式的數據庫兩種形式。前一種形式的代表為GFS、HDFS,其可以直接實現諸如鄰接表、矩陣等不同結構的存儲。后一種形式的代表為Big Table、Hbase,而其中的數據庫模型直接可以劃分為文檔儲存、列族存儲、KV存數模型等。其中,文檔存儲的模型具有靈活性強、便捷度高的存儲格式,比較適用于存儲非結構化的數據內容;KV存儲模型則比較適用于本文中研究的大規模圖數據存儲工作,并且其具有模式簡單、支持海量存儲的優勢。當進行諸如Page Rank等圖數據處理工作時,KV存數模型無需經過繁雜、重復的查詢操作,就能夠完成數據的處理工作。例如:利用KV存儲模型進行處理鄰接表形式的圖數據時,就可以將Key設定為圖數據的源頂點,將Value設定為點的值與出邊信息,該種方式比較有助于圖數據的合并與遷移處理,從而提升空間原有的局部性,進而降低數據讀取在查詢處理期間的次數,最終提高數據的讀取效率。
3.2 基于云計算的圖數據分割
一般情況下,進行基于云計算的大規模數據處理工作時,都需要針對圖數據開展分布式存儲并行處理工作,主要是根據圖數據原有的連通行、圖計算的強耦合性等特征進一步提升圖數據的處理工作效率,與此同時,為了使得處理效果更加,還需要降低各個子圖數據之間的耦合度,此時,就需要實行圖分割處理方法。具體過程為:(1)在圖數據基礎上,分割出一個邏輯、結構都相對完整的大圖;(2)將上述分割出來的大圖分別放置在分布式存儲系統的每一個節點內;(3)展開數據處理工作,換而言之,即需要對所有的子圖分別啟動與之相對應的計算任務,全部子圖數據處理完成后,即代表著整體的大圖數據處理完成。在這一圖數據處理期間,關鍵點在于對大圖的分割工作,唯有分割效果合格,才能確保整個處理過程的成功,所以,為了確保分割的效果達標,進行分割時應該充分考慮到大圖內部的固有連通性、子圖規模均衡性這兩種因素。另外,分割的過程中,還需要最大程度保證大圖內部的連通性,縮小子圖之間的連通性,才能有效提升云計算分布式并行處理機制的應用效果,同時,還需要保證子圖規模的均衡性,避免偏斜出現問題對云計算任務的同步性造成影響。
4 大規模圖數據處理技術中云計算的應用
4.1 在云計算節點的可靠性方面得以提升
在傳統的大規模圖數據的處理過程中,需要工作人員對數據以及計算任務進行較長時間的處理,在很大程度上降低了圖數據的處理效率,也不能保證云計算節點的可靠性。例如,最常見的[PageRank]的計算過程,需要三十次的迭代處理,在計算的過程中,消耗了大量的資源和時間,針對這一問題,技術人員及相關的研究人員在已有的處理手段上加以創新,結合當下非常豐富的云計算環境,總結并分析當前階段我國傳統的大規模圖數據處理中存在的問題[2]。云計算節點是由普通的計算機組成的,在進行多次的處理后,會有個別的節點出現故障的狀況,這些突發的狀況會導致大規模圖數據計算中的失誤[3]。在大規模圖數據的處理技術的實踐過程中,應用合適的位置繼續執行處理工作,避免因云計算節點故障之后的資源浪費狀況,也在很大程度上降低了處理圖數據過程中的干擾。
4.2 圖計算的強耦合性得以實現
圖數據的內部信息是相互關聯的,圖計算的過程中也是相互關聯的狀態,在進行圖數據的計算過程中,在圖內存的訪問計算過程中,傳統的并行計算方法的運算狀態較低,存在一定的局限性。為更好的提升圖數據計算的準確性,產生了云計算的大規模圖數據處理技術,在實踐應用的過程中,可以實現對圖數據的每一項信息進行計算,并可以將所有的數據進行子圖數據的分割處理,在很大程度上提升了圖數據計算的效率。在大規模圖數據處理的過程中,可以選取相應的圖計算模型運算規模圖數據技術的處理,在實行圖數據分割的過程中,可以在很大程度上降低子圖數據之間的耦合性,在大規模數據處理的執行階段,采用圖計算模型計算,降低開銷,在很大程度上解決了傳統的大規模圖數據計算中常出現的水桶效應。
5 結論
綜上所述,在云計算的背景下,基于云計算處理圖數據,通過對儲存方式、分割方式以及計算模型等應用大規模的圖數據處理技術,在充分發揮技術優勢的同時,提高大規模數據的應用性和處理效率。因此,在云計算的背景下,合理的應用大規模圖數據處理技術是未來的發展方向。
參考文獻:
[1] 李海燕,歐曉勇.云計算技術在計算機數據處理中的應用分析與發展策略[J].激光雜志,2017,38(04):80-84.
[2] 于雙紅.云計算環境下大規模圖數據處理技術的應用研究[J].信息與電腦:理論版,2016,12(01):6-7.
[3] 劉軍,張暉.公安大數據技術應用研究——以山東公安警務云平臺建設為例[J].警察技術,2015,22(03):4-7.endprint