胡 瑛
(浙江省第二測繪院,浙江 杭州 310012)
大數據處理技術在地理信息檔案管理中的應用
胡 瑛
(浙江省第二測繪院,浙江 杭州 310012)
分析了當前地理信息檔案管理的現狀及面臨的問題,介紹了HDFS文件管理系統、云存儲、Elastic Search檢索、非結構化數據庫、知識圖譜5種大數據處理技術,并對其在省級地理信息檔案資源大數據處理平臺構建、地理信息檔案數據挖掘與知識發現兩方面的應用進行了論述。
大數據;地理信息檔案;地理信息檔案管理;大數據處理技術;大數據處理平臺構建;數據挖掘與知識發現
近年來,大數據已對國家科學技術、經濟發展、社會進步等各方面產生了巨大的影響[1]。發達國家十分重視大數據技術,美國于2012年發布了《大數據的研究和發展計劃》,英國、澳大利亞、日本、韓國分別于2013年發布了《英國數據能力發展戰略規劃》《公共服務大數據戰略》《創建最尖端IT國家宣言》《第五次國家信息化基本計劃》。而中國也在“十三五”規劃中明確指出“實施國家大數據戰略,推進數據資源開放共享”。在世界各國大數據戰略背景下,大數據在社會各個領域都得到了廣泛的應用,隨之帶來的數據存儲、數據分析和檢索等方面的問題也日益突出。在地理信息檔案管理工作中,同樣面臨著檔案存儲內容日益增多、維護成本逐年上漲、信息檢索低效耗時等問題。
目前在地理信息領域,檔案的類型有傳統的文字檔案,但更多的是非結構化地理地圖信息(三維地圖、遙感影像和規劃圖紙等)。如何有效管理這些結構復雜的文檔,是一直困擾著地理信息檔案管理工作者的實際問題。隨著大數據處理技術的發展,包括HDFS、云存儲、知識圖譜等在內的新興大數據處理技術的出現,為非結構化文檔的高效管理利用提供了切實有效的工具。
目前地理信息檔案管理多集中于國家企事業測繪單位,主要由專門的資料檔案管理部門進行專項管理。隨著地理信息產業的迅猛發展,以及數字城市、智慧城市的建設,越來越多與地理空間位置有關的文檔納入到檔案管理中來。地理信息行業檔案管理主要面臨以下幾個問題:一是數據量大。現階段檔案管理主要采取紙質文件存檔和電子文檔保存相結合的方式,筆者所在單位現階段已存檔的部分省內地理信息相關文檔約400 TB,且每日以100 GB的速度增長,如何有效存儲這些文檔,并根據需求進行有效擴展,是目前急需解決的問題。二是文檔數據結構復雜。地理信息數據既包括結構化數據(如地理空間坐標信息、道路基本信息等),也包括大量的非結構化數據(如道路采集影像、規劃圖紙、三維模型等),數據檢索耗時長、難度大。三是數據安全性低。由于數據量龐大、格式復雜,無法統一集中存儲,造成數據分散管理,數據安全無法保障,且存在“數據孤島”。這些問題一直困擾著地理信息數據檔案管理工作者[3]。而各類大數據處理技術的出現,讓這些問題的解決成為可能。
大數據時代,特別是以Hadoop為核心的非結構化文檔分布式存儲文件系統的推出,為檔案管理提出了一個切實有效的解放方案。Hadoop HDFS(Hadoop distributed file system)由Apache基金會開發,具有以下特性:
1) 應用成本低。可部署在低廉的硬件上,在系統擴容方面成本低,實施方便。
2) 支持高吞吐量、高并發訪問應用程序的數據,適用于具有超大數據集,且訪問并發量大的文件管理程序。
3) 可靠、高效。Hadoop對文檔進行分布存儲,提高了檔案管理系統的可靠性。
4) 具有良好的擴展性。使用MapReduce進行分布式計算,在可用的計算機集簇間分配數據并完成計算任務,這些集簇可以方便地擴展到數以千計的節點中。因此HDFS能夠有效解決檔案管理中文檔無法集中大量存儲的問題。
5) 支持包括文檔、音像、圖片等傳統文件格式,同時基于HDFS的數據庫,包括HIVE和Impala等結構化數據庫,支持查詢、更新等功能。構建基于HDFS的檔案管理系統,實現海量、多結構的檔案文件集中、高效、安全存儲,為地理信息檔案的應用提供有效保障。
云存儲是云計算(cloud computing)概念上延伸和發展出來的一個新概念,是一種新興的網絡存儲技術,指通過集群應用、網絡技術或HDFS等功能,將網絡中大量的各種不同類型的存儲設備通過應用軟件集合起來協同工作,共同對外提供數據存儲和業務訪問的一個系統。簡單來說,云存儲就是將儲存資源放到云上供人們存取的一種新興技術。
Elastic Search(ES)采用Java開發,基于Restful Web接口,支持分布式多用戶全文搜索,是當前流行的企業級搜索引擎。地理信息文檔管理工作中,最為困難的是文檔檢索。ES具有零配置、快速搜索等特點,能夠應用于HDFS和傳統Java應用,并支持并發訪問,它集合了主流的ICTCLAS、庖丁解牛、Lucene分詞等工具,支持中文文檔的分詞檢索,可以較好地實現地理信息檔案的快速檢索。
目前檔案管理的文件主要為非結構化文檔,數據包括且不限于文檔、音頻、圖譜和影像等類型,而傳統的主流數據庫(如Oracle、DB2和MySQL等)無法對這些非結構化數據進行有效的存儲和應用。采用數據庫對文檔內容進行存儲并支持內容分析,現有的主要方式是采用基于key-value的非結構數據庫,其中Mongo DB應用最為廣泛。
知識圖譜是一種基于圖的數據結構,本質上是語義網絡,由節點(Point)和邊(Edge)組成。在知識圖譜里,每個節點表示現實世界中存在的實體,每條邊為實體與實體之間的關系。知識圖譜是關系的最有效表示方式。通俗地講,知識圖譜就是把所有不同種類的信息(heterogeneous information)連接在一起而得到的一個關系網絡。知識圖譜提供了從關系的角度去分析問題的能力。隨著知識圖譜的應用日益普及,越來越多的公司將其應用到文檔管理中,知識圖譜能夠有效地管理文檔間的關聯關系和抽取文檔中的知識點,為后續的文檔管理提供支持。
地理信息檔案管理中最核心的任務是數據的管理存儲與信息挖掘,而大數據處理技術在這兩方面的應用將引導檔案管理工作從實體管理向知識管理進行轉變。
地理信息檔案資源主要包括大地測量成果、工程測量成果、航測測繪成果、地理信息數據庫成果、導航地理信息成果、地圖制圖成果、地理國情普查測繪成果、海洋地理信息成果及其他地理信息成果檔案。除了坐標成果信息等結構化數據之外,還包括大量的技術文檔、文本、圖片、XML、HTML、各類表格、音視頻信息等非結構化數據,尤其是歷史地理信息檔案資源。這些地理信息資源生成年代久遠,信息化程度較低,必然會存在大量非結構化數據。因此對地理信息檔案資源管理工作中面對的大量多源異構檔案數據,可考慮應用大數據處理技術構建省級地理信息檔案資源大數據處理平臺。
首先利用Hadoop HDFS構建檔案管理集群,由于Hadoop HDFS對單一節點硬件資源要求較低,初期可利用檔案館內現有的硬件資源構建成50~100節點的檔案管理集群,而集群中所有節點協同工作來負責數據的存儲和計算,后期可根據檔案管理需要,隨時進行節點擴展,以滿足日益增長的檔案數據對存儲空間和計算性能的彈性需求。其次利用Hbase數據工廠對大量半結構化、非結構化數據進行處理,生成結構化數據,再存儲到Hadoop的數據庫中。然后布設Hive數據倉庫,對結構化數據進行管理入庫。通過Hive、Hbase的聯合使用,實現結構化與非結構化兩類地理信息檔案數據的集群式存儲與管理。最后利用MapReduce進行分布式計算,通過Hadoop集群中的并行計算來實現大量數據的同步處理,由此形成一個基于Hadoop框架,包括文件系統(HDFS)、數據庫(Hive、Hbase)、數據處理(MapReduce)等功能的完整的地理信息檔案大數據處理平臺。
近年來,隨著地理信息數據獲取手段的發展,筆者所在單位的地理信息檔案資源數據日益增長,加之歷年來積累的地理信息數據檔案,形成了海量地理信息檔案資源,要挖掘出其中蘊藏著的寶貴知識財富,光靠人工是無法完成的,必須借助技術,而大數據處理技術恰恰是一個最佳的選擇。
數據分析是整個大數據處理的核心,如何充分有效地利用數據挖掘和知識發現對大數據進行開發分析,是大數據時代知識服務深入發展的重要方向,也是檔案管理部門服務創新的關鍵途徑。筆者對館藏大量多源異構數據進行清洗、抽取、集成,轉換數據為易于分析的形式并載入文件系統、數據倉庫或分布式處理模型,搭建起一個完整的地理信息檔案大數據處理平臺后,對數據進行挖掘和知識發現的條件就已具備。結合知識圖譜,利用ES全文搜索引擎實現對數據的語義理解,提高搜索質量,為用戶找出更加準確的信息,作出更全面的總結并提供更有深度的相關信息。
地理信息檔案資源中含有豐富的隱藏信息。通過地理信息檔案資源的數據挖掘,提取有用的相關資料,對有相同或近似的地理信息檔案查詢可以進行關聯性的提取和推薦,如在某區域(某縣)提取應急地理信息檔案時,可以同時推薦其相關的人口統計專題信息、地質災害專題信息;結合地理空間可視化和本體語義分析等工具,當有一個與地理信息相關的查詢需求提出時,能自動從地理信息檔案資源中獲取相關聯的地理信息檔案資源,進行地理信息大數據的空間或非空間運算、分析,乃至數據挖掘。如在基于知識圖譜的地理信息檔案管理系統中查詢景寧縣近5年內農業用地變化情況時,系統將查詢近5年來地理國情普查數據,并結合最新的基礎地理信息數據,對所有與農業用地(如水田、旱地等)相關的基礎地理信息圖層進行疊置分析,結合最新的遙感數據,對分析結果進行矯正,最后自動選用制圖模板,動態地生成農業用地變化情況返回給用戶,進而可發現一些隱藏的知識(如景寧產茶區的茶葉種植品種呈現逐年多樣化趨勢)。
與非空間數據挖掘的方法相類似,地理信息檔案數據挖掘的技術主要包括:地理信息檔案數據預處理技術,如地理信息數據的選取、過濾、降維,以及地理信息檔案區域分割等;地理信息檔案空間特征和空間模式提取技術,如地理信息檔案分類、地理信息檔案規則提取、地理信息預測和地理信息檔案聚類等,既包括有針對地理信息檔案監督學習也包含地理信息檔案無監督學習。
如對基于航空、航天遙感影像相關地理信息檔案的分類技術流程主要為4步:
1) 構建航空、航天遙感影像相關地理信息檔案表達模型,對已進行類標記的航空、航天遙感影像相關地理信息檔案樣本數據進行特征提取,并建立每個樣本影像的空間關系和屬性描述。
2) 對航空、航天遙感影像相關地理信息檔案樣本數據集進行基于空間或非空間的訓練和學習,得到具有相當分類支持度和確信度的分類表達模型,若有必要則增加約束關系。
3) 對分類模型進行評估,先取更精準的分類表達模型。
4) 根據最優或次優分類表達模型對未分類的歷史或新輸入的航空、航天遙感影像數據集進行自動分類處理。
該步驟適合處理其他近似的地理信息檔案數據。
因此,數據挖掘和知識發現使基于大數據處理的地理信息檔案資源管理更加智能化。
綜上所述,大數據技術在處理海量、非結構化數據上有著傳統文件系統和數據庫無法比擬的優勢。采用基于HDFS的大數據處理技術可實現地理信息數據的集中安全存儲,通過搭建基于Hadoop省級地理信息檔案資源大數據處理平臺,可實現地理信息數據的云存儲和云應用。基于ES檢索、知識圖譜和非結構化數據等技術,可解決檔案管理工作中數據快速檢索速度慢、數據可用性差、檔案對業務發展支撐力度不夠等問題,提升檔案管理工作效率,而結合數據挖掘和知識發現技術,可大幅提升地理信息檔案資源管理的智能性,實現檔案管理工作從實體管理向知識管理的轉變。
[1] 百度百科.大數據[EB/OL].[2016-06-20].http:∥baike.baidu.com/subview/6954399/13647476.htm?fr=Aladdin.
[2] KITCHIN R.The Data Revolution:Big Data,Open Data,Data Infrastructures and Their Consequences[M].London:Sage,2014.
[3] 閻曉峰. 大數據與檔案資源開發利用[J]. 中國檔案,2015(11): 16-19.
[4] 金舒平,翟永. 國家測繪成果檔案存儲與服務設施項目初步設計[R].北京:國家測繪地理信息局,2013:75-76.
[5] 李德仁,錢新林.淺論自發地理信息的數據管理[J].武漢大學學報(信息科學版),2010,35(4):379-383.
ApplicationofBigDataProcessingTechnologyinGeographicInformationFileManagement
HU Ying
胡瑛.大數據處理技術在地理信息檔案管理中的應用[J].測繪通報,2016(9):112-114.
10.13474/j.cnki.11-2246.2016.0307.
P208
B
0494-0911(2016)09-0112-03
2016-06-18
胡 瑛(1962—),女,工程師,主要從事測繪檔案數據管理工作。E-mail:zjhzwhw@163.com