宇文富博
摘 要:隨著大數據時代的來臨,大數據正在以快速有效處理海量數據的技術影響著各行各業,其中大數據的環境下高性能計算模型及關鍵技術的研究能夠有效地提高海量大數據的索引和處理速度,因此,文章主要針對大數據環境下高性能計算模型及關鍵技術進行了詳細探究和討論。
關鍵詞:大數據環境:高性能計算模型:關鍵技術
中圖分類號:TP3 文獻標志碼:A 文章編號:2095-2945(2017)25-0041-02
大數據時代已經來臨,大數據(big data)是指無法在一定時間范圍內用常規軟件捕捉和處理的數據集合,需要新型處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率以及多樣化的信息資產。大數據具有5V的特點,分別是Volume(大量)、Velocity(高速)、Variety(多樣)、Value(低價值密度)以及Veracity(真實性)。
1 大數據環境下高性能計算模型
1.1 數據活化理論
數據活化理論方面的研究實際上最早起始于上個世紀初葉,現如今,隨著全球信息科學和計算機科學的持續高速發展,數據活化理論已經成為了大數據環境下高性能計算模型中被廣泛應用并投入使用的理論。尤其在隨著全球現代化的高速發展的趨勢,數據活化理論在大數據環境下高性能計算模型中日益顯示出其重要的地位,雖然現如今,在全球經濟高速發展的背景下,各種各樣的基于大數據環境下的高性能計算模型理論層出不窮,例如:走鵑——RoadRuner存儲系統理論、藍色基因Blue Gene/L存儲系統、元數據管理理論、分布式多級緩存管理理論、分布式數據布局理論等,但數據活化理論的地位卻依舊無法撼動[1]。
1.2 數據多態組織索引
在大數據環境下高性能計算模型中,數據多態組織索引是目前最常用的一種索引技術,數據多態組織索引實際上就是基于一種離散目標的索引方式,主要針對的是目標區域內的某一個特定的點集進行搜索,也正是由于數據多態組織索引覆蓋的搜索區域和范圍非常的廣,所以在數據多態組織索引就具有了網絡能耗大且關注點不突出的缺點。但在大數據環境下高性能計算模型中數據多態組織索引由于可以針對一定區域內的移動的目標進行索引,因而具有了其他索引技術所不具備的優勢,在一定范圍內目標被搜索到的概率就會有相對的提高。同時,由于數據多態組織索引對于大數據環境中的數據質量、網絡的連通性、能量的有效性、網絡的容錯性、算法的復雜度、算法的精確度、動態性和兼容性、網絡的可擴展性、執行的復雜程度等各個方面的要求都較低,因而也就成為了大數據環境下高性能計算模型中最實用和方便的一種方式[2]。
1.3 數據處理
針對大數據環境下高性能計算模型的特點,想要保證數據處理的及時性、完整性以及可靠性,就必須加強大數據環境下高性能計算模型中的數據處理技術,通過對大數據環境下高性能計算模型中的所有數據的狀態進行全面的監視。依照不同數據的信息來源的不同,根據不同的實際情況,從而通過數據采集模塊為大數據環境下高性能計算模型的系統提供原始數據,數據源可以是數據的固定信息或者變動信息,也可以是網絡上的數據的信息變化等。當數據提取模塊獲得數據源之后,通過對數據源進行簡單的過濾、數據格式的標準化等處理,并且將處理后的數據存入數據庫當中,這個時候大數據環境下高性能計算模型中的分析模塊就會對數據庫中的數據進行深入分析和分類,從而根據不同的協議建立數據倉庫,通過對數據的挖掘從而發現基本的時間變化規則,最終提交給大數據環境下高性能計算模型中的數據處理系統生成模塊,對大數據環境下高性能計算模型中可能出現的一切數據進行全面的監測,一旦監測到索引的數據,就會進行提示,并重復以上步驟。大數據環境下高性能計算模型中的數據處理技術在很大程度上,填補了過去傳統動態解決計算模型中數據處理問題上的不足,為大數據環境下高性能計算模型數據處理的構建提供了有力的方法和手段。
2 大數據環境下高性能計算模型關鍵技術研究
2.1 基于分布式內存計算的并行二路空間連接算法
基于分布式內存計算的并行二路空間連接算法使大數據環境下高性能計算模型中一項較為常用的算法,最早是由J. Kennedy和R. C. Eberhart等開發的。基于分布式內存計算的并行二路空間連接算法具有自組織性強以及并行二路空間連接速度快等特點。但由于基于分布式內存計算的并行二路空間連接算法,主要是通過隨機解出以迭代的方式尋找出目標的方式,雖然收斂速度、參數選取、收斂性等許多方面都具有一定的優勢,但是由于基于分布式內存計算的并行二路空間連接算法的缺點是,比較容易陷入局部的搜尋最優解,而基于分布式內存計算的并行二路空間連接算法的全面搜索的能力實際上比較的差。因而,基于分布式內存計算的并行二路空間連接算法經常是通過分為三種狀態,分別是活躍、預休眠以及休眠狀態,對三種狀態之間的相互切換,可以很好的實現調度策略,可在很大程度上實現對監測范圍內進行有效地索引,從而最大限度的延長大數據環境下高性能計算模型生存周期的目的。基于分布式內存計算的并行二路空間連接算法能夠在很大程度上有效的保證數據通過索引模塊對數據的索引,從而為大數據環境下高性能計算模型提供更高的可靠性,非常有效的避免了大數據環境下高性能計算模型中可能出現的盲區或者是索引數據冗余等情況的出現。而基于分布式內存計算的并行二路空間連接算法實際上是對于數據索引和處理模式進行并行的索引和處理方式,索引通過模式索引后的數據,必須要與索引之前的原模式等價,雖然這會在很大程度上有效的避免過多數據搜索冗余的情況,并且能夠通過減少索引目標的能量消耗,非常有效和全面的提高索引的利用率。但基于分布式內存計算的并行二路空間連接算法實際上將每個不同的數據,都看作是在一定維度搜索范圍中的一個數據,并在搜索范圍內以一定的并行速度進行搜索,這就必然使得在數據處理某些優化的問題時,往往會出現過早收斂的情況,所以基于分布式內存計算的并行二路空間連接算法在一定程度上還需要進一步的優化[3]。endprint
2.2 基于分布式內存計算的并行多路空間連接算法
基于分布式內存計算的并行多路空間連接算法由于通過采用并行多路的空間連接方式,因此在面對海量的大數據的情況下,能夠比基于分布式內存計算的并行二路空間連接算法有更大的優化,但毫無疑問,基于分布式內存計算的并行多路空間連接算法比基于分布式內存計算的并行二路空間連接算法在能源消耗的問題上更加嚴重,如何能夠通過降低能源的消耗,從而實現延長大數據環境下高性能計算模型的壽命,這已經成為了當前基于分布式內存計算的并行多路空間連接算法需要考慮的重要課題。一般來說,基于分布式內存計算的并行多路空間連接算法多是通過充分考慮到了所有數據范圍內可能出現的能量消耗的均衡性,以數據的位置信息為依據的層次進行的一種拓撲控制算法,從而根據目標數據的感知半徑,將目標范圍分別劃分為等大小的多個網格,并通過讓數據索引模塊盡量處于休眠的狀態,保證每個網格中只有簇頭數據保持活躍。當進入索引狀態時候,基于分布式內存計算的并行多路空間連接算法就會通過一個數據代替另一個數據進行替換的方式,從而可以得知某一個數據點,以及其他數據點的精確位置,從而實現兩個相鄰的網格內的數據,或者所有網格內的數據索引和處理的方式,在這種情況下,所有的數據在網格當中都相當于是等價的存在,通過等價數據的確定,可以提高單簇的索引面積和單跳的索引面積,在很大程度上,有效的避免了個別簇頭數據因其過多參與到數據的替換過程中而消耗能量的方式。可以說這是目前,基于分布式內存計算的并行多路空間連接算法能夠減少能源消耗,延長大數據環境下高性能計算模型唯一方法[4]。
3 結束語
大數據的環境下高性能計算模型及關鍵技術的研究因其能夠不斷提升對海量數據的采集、處理、傳輸、存儲的方式和方法,在索引和處理的過程中有效的保證數據的完整性和及時性,避免大數據環境下數據索引、采集、處理等過程中可能出現的各種數據丟失或數據溢出等情況的發生,因此,關于大數據環境下,高性能計算模型及關鍵技術的研究具有非常重要的積極意義。
參考文獻:
[1]李國杰,程學旗.大數據研究:未來科技及經濟社會發展的重大戰略領域——大數據的研究現狀與科學思考機[J].中國科學院院刊,
2015,27(6):647-657.
[2]陳國良,毛 ,蔡嘩.高性能計算及其相關新興技術[J].深圳大學學報(理工版),2014(11):124-125.
[3]陳國良,孫廣中,徐玄,等.并行計算的一體化研究現狀與發展趨勢[J].科學通報,2016(3):1143-1147.
[4]沈盛或,劉哲,張平倉,等.一種適用于云計算可擴展高分辨率遙感影像存儲組織結構[J].長江科學院院報,2014,31(12):107-112.endprint