鄭艷飛 荊培強 丁敏
摘要
伴隨著我國信息技術和地觀測技術的快速發展,空間大數據的指數呈現出快速的增長,其地理位置信息服務業逐漸成為人們平時生活中的必須。空間數據管理是地理服務的核心所在,它的性能好壞是能夠直接影響到地理信息的服務能力的。
【關鍵詞】Spark 空間大數據 實時查詢 框架特點
隨著我國地理信息服務從專業化逐漸轉向大眾服務和云計算服務中,我國地理信息計算的實時性查詢和分析的要求也逐漸提高?,F目前,我國實時地理信息服務主要是存在兩個方面的性能問題;第一是傳統空間索引方法大多都是基于磁盤的相關特性來進行設計的,在進行空間大數據實時查詢分析過程中需要通過多次的訪問,在一定程度上是會造成實時效果不佳。第二是磁盤性能的問題,在某種程度上是會直接造成其無法高效率的存儲持續增加的大量空間數據,很難去支持高并發用戶的實時查詢等。在內存計算技術當中能夠為實時地理服務提供一種解決辦法,那就是充分利用集群搞西寧花鞥的云計算特性以及相關內存計算的性能,在某種層面上是能夠充分的讓傳統的地理信息服務技術得到相關的優化,讓Spark的空間大數據實時查詢分析能夠有所改善。
1 Spark簡述
Spark是專門為大規模的數據處理所涉及出的快速通用計算引擎。Sark是國外AMP實驗室所開發出來的類似于HadoopMapReduce,通用并行的機構框架。當Spark出現時,其所具有Hadoop MapReduce的所有優點特質。但是Spark不同于HadoopMapReduce是一點就是在job中間所輸出的相關結果是可以充分的保存在計算機內存當中的。
2 HDFS與MapReduce結構原理
在大數據當中,結構化數據是最為常見的一種,但是更多的則是大量的半結構化數據和非結構化數據。根據數據儲存空間大的問題,在一般處理的思想之上首先想到的一般都是分布式儲存。然而分布式儲存系統,是將大數據分散在各個儲存獨立設備上。
3 Spark的相關特點
3.1 快速
在面向磁盤的MapReduce受限于磁盤讀寫性能以及網絡性能的相關約束,在進行處理迭代計算,交互式數據查詢以及實時計算等各方面都不算是高效的。但是這些卻在數據挖掘,圖計算等相關應用范圍當中是較為常見的。我們針對上述不足問題,充分將大數據儲存在內存當中并且給予內存在進行計算是有個有效解決這個問題的方法。Spark是面向內存的大數據處理計算引擎,在一定程度上這也會讓Spark能夠為多個不同數據提供實時查詢分析的功能,其適用的范圍是需要進行多次操作并且要根據實際的特定數據集的應用場景來進行確定的。
3.2 簡潔容易使用
在使用MapReduce開發應用程序期間,用戶通常所關注的重點和難點都是將一個需求的作業分拆成為map和Reduce這兩部分。因為MapReduce當中僅是為大數據處理提供了相應的兩個操作,第一是Map,第二是Reduce.所以在系統開發工作人員中其需要解決的難題就是怎樣去將數據處理的業務邏輯進行科學合理的封裝在這兩個類型當中。
3.3 通用
當前Spark相對于最初的大數據生態系統MapReduce與Hadoop,在Spark中其不論是在性能還是在策劃方案的統一上,都是有著巨大的優勢。Spark的框架包括了很多個緊密集成的相關組件。如圖三所示。在位于底層的是Apache core,在某種程度上其能夠去實現Spark的作業調度,容錯和內存管理以及交互等諸多功能,并且其能夠針對彈性分布式數據提供較為豐富的操作。
3.4 多種的運行模式
Spark是能夠支持多種運行模式的;其具有本地local運行模式和分布式運行模式。Spark的集群底層資源是可以充分的借助于外部的框架進行相關管理的。現目前在spark和yam提供相對穩定的支持方式。
4 Spark和MapReduce
Spark和MapReduce都是數據處理層的兩大核心。下面我們通過對這兩者進行容錯,性能和應用場景上的具體分析。
容錯分析:在執行過程中出現失敗時,MapReduce是會從失敗位置進行任務的繼續執行,因為其是依賴在硬盤驅動器上的。反之,Spark若是在執行期間出現失敗時,它就會從頭開始執行,在一定程度上MapReduce是會比Spark在執行任務上節約了很多的時間。
性能分析:MapReduce是通過MAP和Reduce這兩個過程來操作磁盤中數據的處理。而Spark是在內存中處理數據的。在這個層面中Spark是要優于MapReduce的。但是,每當數據量較為龐大時,很難去全部對數據進行讀入內存時,那么MapReduce就會比Spark有優勢。
應用場景分析:Spark是可以應用在很多的大數據實時查詢和迭代分析場景的。而MapReduce一般都是要進行理縣計算處理,計算有些已經存在的數據進行分析。
5 結語
隨著現代化網絡的快速發展,我們進入到了數據時代,對于大量的數據分析技術也是層出不窮。在基于計算引擎空間大數據實時查詢分析中,通過將Spark充分的加入空間大數據實時查詢中,來解決在大數據和高發用戶背景下空間數據管理的相關問題。在一定程度上能夠讓實時查詢系統在實際運用中能夠更優化,從而增強數據的實時性,讓其在大數據時代下能夠發揮出自身的優越性。
參考文獻
[1]龔燦,盧軍.基于Spark的實時情境推薦系統關鍵技術研究[J].電子測試,2016(Z1):48-50.
[2]云惟英,茍宇,王京,等.基于SparkStreaming的實時流數據處理模型化研究與實現[J].測繪與空間地理信息,2017,40(z1).