文/陜西省測繪檔案資料館 施小溪
大數據處理技術在測繪地理信息檔案管理中的應用
文/陜西省測繪檔案資料館 施小溪
隨著測繪技術的不斷進步以及地理信息服務的社會化應用不斷深入,測繪地理信息數據急劇增長,在對這些數據進行檔案管理的時候存在著很大的難度。而隨著計算機技術的逐漸成熟,大數據處理技術被運用在其中。本文就常見的幾種大數據處理技術進行簡要介紹,在此基礎上詳細闡述其在測繪地理信息檔案管理中的具體運用。
大數據處理;地理信息檔案;管理運用
最近幾年,大數據對我國的科學技術、經濟發展以及社會發展等方面造成了很大的影響。大數據處理技術存在的優勢使其在各個領域中被廣泛運用,其中存在的數據儲存以及分析等方面的問題也逐漸突顯。在對測繪地理信息檔案進行管理的同時,也面臨了檔案內容多以及維護成本高的情況。而使用大數據處理技術正好能有效地解決這些問題。
(一)HDFS文件管理系統。在大數據的發展背景下,尤其是將Hadoop作為核心的非結構文檔分布式儲存文件系統的運用,它能夠為檔案管理實施出有效的解決方式。它基本上存在以下幾個特點:其一是運用成本低,能夠布置在比較低廉的硬件上,在系統中的擴容成本比較低,在實施的時候比較簡單便捷。其二是能夠支持高吞吐量以及高并發訪問運用程序的數據,而且可以使用在超大數據集群中,并且可以訪問并發量比較大的文件管理中。其三是具有很強的擴張性。使用MapPeduce實行分布式運算,在計算機集簇進行配置數據并且進行運算任務,這些集簇能夠便捷地擴展至數以千計的節點中。所以HDFS可以解決檔案管理中文檔無法進行集中儲存的問題。除此之外,其中還支持了文檔、音像以及圖片等相關的格式,并且在HDFS數據庫的基礎上,包含了HIVE與Impala相關的結構化數據庫,可以進行查詢以及更新工作。
(二)云存儲。所謂云存儲,是在云計算上延展出來的新概念,是一種新的網絡儲存技術,經過集群運用、網絡技術或者是HDFS等相關的功能把網絡中多種種類的儲存設備經過應用軟件集合在一起進行協調工作,一起對外進行數據儲存與業務訪問的系統。總而言之,云存儲是把儲存資源放置在云上提供人們儲存和提取的一種新技術。
(三)知識圖譜。作為知識圖譜,其是一種建設在圖數據基礎上的結構,其根本是語義網絡經由節點與邊構成。知識圖譜中,節點能夠表現實際世界中存在實體,每個條邊是實體和實體間的關系。知識圖譜是對關系進行具體呈現的方式。它是將全部不同類型的信息連接在一起獲得關系網絡。知識圖譜能夠在關系的立場上對問題進行分析,在知識圖譜被逐漸運用廣泛的情況下,很多公司都把其運用在文檔管理中,可以有效管理文檔間關系,并且對文檔知識點進行獲取,為后期的文檔管理提供支持。
(一)建設測繪地理信息檔案資源大數據處理平臺。測繪地理信息檔案資源中包含了大地測量,航空、航天攝影測量,工程測量等相關的成果檔案。除去地理坐標信息成果以外,還包含了大量技術文檔、文本、航片以及各種視頻信息等相關的非結構化數據。特別是歷史檔案資源,這種資源形成的年代比較遠,信息化程度比較低,這樣就必定會存在著大量的非結構化數據。且目前大數據中心建設及數據共建共享戰略實施,對地理信息檔案進行管理的時候,會面臨著多源異構檔案數據,其可以使用大數據處理技術構建地理信息檔案數據處理平臺。其首先使用HadoopHDFS建設檔案管理群,因為這個系統對單一節點硬件資源要求低,在初級階段中可以使用檔案中存在的硬件資源建設成50到100節點的檔案管理集群,這個群中全部的節點一起工作對數據的儲存與計算進行負責。在后續工作中可以依據檔案管理的實際要求,隨時實行節點擴展,以此符合逐漸增長的檔案數據在儲存空間與計算方面的要求。之后再使用Hbase數據工程將大量半結構化以及非結構化數據實行處理,產生結構化的數據,之后存放在Hadoop數據庫中,設置HIve數據倉庫,將結構化數據管理入庫。經過Hive、Hbase進行共同運用,以此達到結構化和非結構兩種地理信息進行大量數據共同處理的目的。這樣就構成了一個處在Hadoop、HDFS以及Hive等功能基礎上的完整性地理信息檔案大數據處理平臺。
(二)對測繪地理信息檔案資源數據進行深入挖掘。目前三維激光掃描、多傳感器集成移動測繪等技術的廣泛應用,數據獲取手段多樣化,相關檔案資源數據逐漸增多,再加上多年積累的歷史數據檔案,構成了大量的檔案資源。若要在其中挖掘出知識財富,單純依靠人工方式是沒有辦法完成的,要使用相關的技術來進行,因此大數據處理技術就是最好的選擇。在大數據處理中,數據分析是其中的核心,怎樣運用數據挖掘與知識發現將大數據實行分析,是大數據時代知識發展的關鍵方向,也是檔案管理部門進行服務的關鍵方式。使用相關的技術對館藏中的大量多源異構數據進行清洗、收取以及集成等構成一種方便分析的模式,之后載入文件系統數據倉庫中,構建一個完整測繪地理信息檔案大數據處理平臺之后,將數據實行挖掘與知識發現的條件已經具備。最后再結合知識圖譜,使用ES搜索引擎對數據進行了解,提升搜索質量,為用戶提供更加精準的信息。
大數據存在的優勢使其在信息檔案管理中被充分使用,對大量非結構數據處理存在很大的優勢。在HDFS基礎上對數據集中存放進行處理,使用Hadoop建設測繪地理信息檔案資源大數據處理平臺等相關的工作,以此提升測繪地理信息檔案管理工作的質量。
[1]胡瑛.大數據處理技術在地理信息檔案管理中的應用[J].測繪通報,2016,39(9):56-58.