范理信,黨 琦,魯 釗
(1.湖北省地圖院,湖北 武漢 430074)
國家地理信息公共服務平臺公眾版——“天地圖”,是中國區域內基礎地理信息數據資源最全面的互聯網地圖服務網站。天地圖·湖北作為天地圖的省級節點,是天地圖的重要組成部分,提供湖北省最新最全面的基礎地理數據和地理信息公眾服務。隨著湖北省數據的不斷增多,如何使數據有更好的查詢效率和容錯性,以及如何深入挖掘這些數據的價值十分重要。本文結合大數據時代的相關技術知識,闡述在大數據時代下天地圖·湖北的發展。
大數據是指涉及資料量規模過大,無法透過目前的主流軟件工具,在合理時間內達到擷取、管理、處理,并整理成為幫助企業經營決策更積極目的的資訊[1]。大數據有數據量大(Volume)、速度快(Velocity)、種類多(Variety)等特點。
數據量大:通常以GB為單位,甚至大量TB、PB、ZB級的數據。2016年全球數據量已達到6萬億GB,預計2020年全球數據量將達到40 ZB。
速度快:產生速度快,目前只需2 d就能創造出自文明誕生以來到2003年全球所產生的數據總量。
種類多:數據來源和類型繁多,結構化數據和文檔、圖片、視頻等非結構化數據并存。
大數據已經開始逐漸滲入到人們社會生活的各個層面,包括地理信息(GIS)領域。在GIS領域中,“智慧城市”、導航衛星數據、高光譜分辨率的衛星圖像等各種數據的不斷產生,如何存儲并充分利用這些大數據是地理信息研究的一個方向。
國家地理信息公共服務平臺公眾版——“天地圖”,是“數字中國”的重要組成部分,是中國區域內基礎地理信息數據資源最全的互聯網地圖服務網站。加快“天地圖”的建設,對提供公共服務、推動信息化進程、繁榮地理信息產業、維護國家安全意義重大。
“天地圖·湖北”作為國家“天地圖”主節點的省級節點,其建設目的是綜合利用湖北省全省基礎地理信息數據、專題數據集、多源多分辨率影像數據,為社會公眾提供一站式、便捷的地理信息服務,發揮測繪成果在湖北省國民經濟中的作用。
天地圖·湖北目前主要使用空間數據庫的方式存儲數據。空間數據庫是為適應空間數據的特殊性而出現的專用數據庫,用于存儲空間數據所特有的位置和屬性數據。
在天地圖·湖北架構體系中,使用空間數據庫管理、存儲復雜的空間信息數據。在處理空間信息時,需要大量的數據存儲和高效的計算資源。在大數據時代下,隨著天地圖·湖北矢量、影像、專題、地名地址、文檔視頻、圖片等非結構化數據不斷更新,不斷增多的數據造成查詢效率不斷降低。所需要的存儲空間不斷增多,導致傳統的空間數據庫存儲方式讀寫效率低下,可擴展性差。傳統的數據管理已經不能滿足日益劇增的數據量,為提高查詢效率,必須對天地圖·湖北數據存儲模型進行升級。
天地圖·湖北數據包含基礎地理信息數據,如矢量數據、影像數據、地理實體數據、地名地址數據、專題數據、文檔視頻、圖片等多種類型數據。其中,基礎地理信息數據擁有湖北省全省范圍的1∶500、1∶1 000、1∶2 000、1∶10 000 DLG和0.5 m DOM數據,且富含比較全面的專題POI數據,包括社會、經濟、人文、交通、行政、旅游等信息,現勢性較好。
天地圖·湖北中的數據主要用于查詢,而對于隱含、非顯見的數據挖掘分析能力較弱。在大數據時代,不斷發展數據挖掘分析算法、技術,為研究探索數據的潛在價值提供有力的支撐。天地圖·湖北在有數據支持作為基礎的情況下,如何從數據中發現價值創造價值,是天地圖·湖北發展的一個方向。
在大數據時代,對于傳統空間數據庫的各種問題,可使用大數據的相關技術來解決,如Hadoop和NoSQL數據庫。
Hadoop是目前使用最廣泛的云計算技術之一,主要包括HDFS分布式文件系統和Map Reduce批處理框架。HDFS全名是Hadoop Distributed File System,即Hadoop分布式文件系統,主要用于以流式數據存儲超大文件[2]。在HDFS集群上數據以分塊的形式存儲,即文件分成若干個數據塊,每個數據塊64 M。數據塊使用多備份機制。默認情況下在HDFS 集群的3個不同的服務器,保存一個相同的數據塊。如圖1所示為數據塊X在HDFS上的存儲模型,數據塊X有3份備份存儲在HDFS集群的各個節點上。

圖1 數據塊在HDFS上的存儲模型
對于天地圖·湖北數據而言,其具有數據量大、種類繁多等特點,非常適合使用HDFS存儲。以天地圖·湖北瓦片數據為例,將天地圖·湖北發布服務的多個瓦片數據聚合在一起,形成一個大的文件,以分塊的方式存儲在HDFS上。用戶在瀏覽地圖查詢瓦片時,根據HDFS的調度可查詢任一數據塊副本所在節點的數據塊,從而更加高效、方便、安全地查詢,使天地圖·湖北具有高可靠性、高可擴展性、高吞吐率等特點。
NoSQL全名Not Only SQL,是關系型數據庫之外的一種數據庫——非關系型數據庫,有別于傳統的以表的形式存儲數據,分為key-value存儲、文檔數據庫和圖數據庫3類[3],適合存儲非結構化數據,具有高可靠性、高可擴展性等特性,主要包括HBase、MongoDB、Cassandra、Redis等數據庫。
NoSQL數據庫適合存儲小文件,通過使用NoSQL數據庫存儲天地圖·湖北數據,可以將天地圖·湖北發布服務的瓦片數據、圖片文檔數據、屬性數據等存儲于NoSQL數據庫。
以HBase這款key-value存儲的NoSQL為例,本文設計一個表名為TiandituHubeiHBase的表,將瓦片數據存儲在TiandituHubeiHBase表中(如表1)。

表1 TiandituHubeiHBase表結構
在該表中,行鍵Rowkey是由地圖服務名、級別、行、列組合而成,列族定義為image,列限定符定義為空,瓦片數據以二進制數組形式存儲在單元值中。
將行鍵定義為組合鍵形式, HBase根據行鍵排序,將相同地圖服務的瓦片數據匹配在一起。在同一個服務中,將相同級別的排列在一起。依此類推,當用戶訪問獲取同一服務或是同一級別、同一行、同一列上的多張瓦片地圖數據時,HBase定位到某一位置后,順序掃描表即可,不需隨機訪問獲取數據,可提高瓦片數據查詢讀取的效率。
將HBase表的列限定符設計為null,因為HBase通過行鍵、列族、列限定符和時間戳四元組定位一個單元值。在網絡傳輸速率一定時,如果列族占用更小,則傳輸數據的時間消耗越少,查詢速度越快。瓦片數據查詢無需使用列限定符,可以將其設置為空,提高查詢HBase表中瓦片數據的性能。
此外,還有多部文獻介紹大數據數據存儲模型。文獻[4]使用HadoopMapFile文件封裝瓦片存儲在HDFS上;文獻[5]使用HBase提出一種新的行鍵設計方法,將坐標數據轉化為一維字符串,在行鍵設計的基礎上設計一種新的適合存儲空間數據的方式。
在大數據時代下,數據挖掘分析算法與技術不斷出現,利用大數據技術手段挖掘分析數據,提取有用信息,獲得數據的價值,正在成為企業發展的必由之路。
大數據來源的多樣性,造成無價值內容多,需要在數據入庫之前對數據進行清洗等操作,以減少誤差、降低冗余,提高數據準確性,再入庫分析。數據挖掘分析流程如圖2所示。

圖2 數據挖掘分析流程
數據挖掘分析是獲取數據價值最重要的步驟。近年來,以MapReduce等技術為代表的挖掘與分析技術日趨成熟。MapReduce是一種處理海量數據的并行編程模型和計算框架,用于對大規模數據集的并行計算。它是把大規模數據集的操作,分發給一個主節點管理下的各分節點共同完成,然后通過整合各分節點的中間結果,得到最終結果[6]。
天地圖·湖北中,包括各種導航數據、專題數據等。為了提取、分析天地圖·湖北的有用信息,可使用MapReduce對數據進行挖掘統計分析。
以天地圖·湖北中的湖北省貧困人口POI專題數據為例,由于數據量大,使用傳統的分析工具效率不高。結合目前最新的大數據技術,使用MapReduce對數據進行分析,可得出湖北省內各市、縣、鄉、鎮、區的貧困人口總數,如表2所示。

表2 天地圖·湖北貧困人口表結構
以天地圖·湖北中的湖北省貧困人口POI專題數據為數據源,首先經Map操作,將相同的RegionId進行合并處理;其次通過Reduce,根據MapReduce計算框架的原理,相同的RegionId會分配到同一Reduce節點進行處理。由于貧困人口數據表ID的唯一性,所以只需要計算RegionId相同的ID的數量,就可以得到某一地區貧困人口的總數。經過Map和Reduce兩個步驟,最終將結果輸出到HDFS上保存。MapReduce操作流程如圖3所示。

圖3 MapReduce操作流程
此外,還有多部文獻介紹空間大數據的挖掘與分析。文獻[7]基于Shark/Spark設計一個分布式空間數據分析框架;文獻[8]闡述空間數據挖掘的算法,并探討空間數據挖掘未來的發展趨勢。
[1] 林媛媛,林川,何德.淺談大數據時代下的GIS發展[J].江西測繪,2013,97(3):15-16
[2] Whte Tom. Hadoop: The Definitive Guide [M]. O’Reilly Media Inc, 2009
[3] 申德榮,于戈,王習特,等.支持大數據管理的NoSQL系統研究綜述[J].軟件學報,2013(8):1 786-1 803
[4] 萬波,黨琦,楊林.基于HDFS管理MapGIS K9瓦片地圖集的研究與實現[J].計算機應用與軟件,2013,30(12):232-235
[5] 丁琛.基于HBase的空間數據分布式存儲和并行查詢算法研究[D].南京:南京師范大學,2014
[6] 劉鵬.實戰Hadoop——開啟通向云計算的捷徑[M].北京:電子工業出版社, 2011
[7] 溫馨,羅侃,陳榮國.基于Shark/Spark的分布式空間數據分析框架[J].地球信息科學學報, 2015, 17(4):401-407
[8] 馬宏斌,王柯,馬團學.大數據時代的空間數據挖掘綜述[J].測繪與空間地理信息,2014,37(7):19-22