吳媛媛
山西省測(cè)繪地理信息院 山西 太原 030001
作為一種高科技的綜合決策技術(shù),GIS在各個(gè)重要領(lǐng)域得到了廣泛而成功的研究和應(yīng)用。它不僅直接推動(dòng)社會(huì)資源、環(huán)境和管理現(xiàn)代化規(guī)劃的完成,而且是城市管理現(xiàn)代化、環(huán)境災(zāi)害防治和軍事戰(zhàn)略行動(dòng)指揮的最重要技術(shù)手段,為世界社會(huì)的發(fā)展進(jìn)步做出了許多積極而重大的貢獻(xiàn)。
受當(dāng)時(shí)國(guó)內(nèi)外數(shù)據(jù)傳輸、文件存儲(chǔ)和處理技術(shù)應(yīng)用的各種因素限制,在國(guó)外各種GIS應(yīng)用軟件的早期開發(fā)中,圖形化RDBMS系統(tǒng)主要用于獨(dú)立管理數(shù)據(jù)庫(kù),或者簡(jiǎn)單地采用數(shù)據(jù)庫(kù)文件管理和圖形RDBMS系統(tǒng)集成的文件管理集成模式,方便文件數(shù)據(jù)的管理[1]。例如,國(guó)內(nèi)著名的GIS文件管理集成軟件GEOSTAR直接采用與后者集成的文件數(shù)據(jù)管理模式,其屬性數(shù)據(jù)部分仍主要采用RDBMS管理模式,圖形、影響和DEM的功能均由文件系統(tǒng)管理,因此已成功開發(fā)和實(shí)施。然而,基于GIS領(lǐng)域固有的海量空間數(shù)據(jù)存儲(chǔ)和對(duì)海量空間數(shù)據(jù)特征分析、海量數(shù)據(jù)處理和快速智能響應(yīng)的強(qiáng)烈需求,這就決定了目前以關(guān)系數(shù)據(jù)庫(kù)存儲(chǔ)為典型代表的大量傳統(tǒng)數(shù)據(jù)的存儲(chǔ)方法,以及以大規(guī)模統(tǒng)計(jì)理論和大規(guī)模數(shù)據(jù)挖掘算法為主要代表手段的大規(guī)模傳統(tǒng)數(shù)據(jù)處理方法和技術(shù),顯然已經(jīng)不能有效地滿足我國(guó)技術(shù)發(fā)展的需要當(dāng)代GIS海量數(shù)據(jù)存儲(chǔ)應(yīng)用與分析處理領(lǐng)域。大數(shù)據(jù)時(shí)代的出現(xiàn),給中國(guó)地理信息系統(tǒng)帶來(lái)了新時(shí)代的深刻變革。
地理信息系統(tǒng)(Geographic information system)簡(jiǎn)稱智能地理信息系統(tǒng),也被一些人直接稱為現(xiàn)代自動(dòng)地球科學(xué)信息系統(tǒng)(automatic geoscience information system,簡(jiǎn)稱GIS)。是指對(duì)各類地學(xué)空間信息資源進(jìn)行實(shí)時(shí)、自動(dòng)的計(jì)算機(jī)智能綜合分析、提取、查詢和智能計(jì)算處理的自動(dòng)化系統(tǒng)。它是一種直接用于輸入、存儲(chǔ)、查詢的方法,是一種分析、計(jì)算地理信息并實(shí)時(shí)顯示各種空間地理數(shù)據(jù)的新型綜合計(jì)算機(jī)系統(tǒng)[2]。它是一種新的現(xiàn)代數(shù)字信息技術(shù),可以隨時(shí)隨地使用智能移動(dòng)平板電腦終端,準(zhǔn)確、快速地進(jìn)行空間地理資源的快速定位和跟蹤定位,以及地理數(shù)據(jù)的動(dòng)態(tài)智能處理和分析,最終以各種數(shù)字圖形符號(hào)組合或數(shù)據(jù)符號(hào)組合的數(shù)字形式直接實(shí)現(xiàn)各種地面空間信息的準(zhǔn)確表達(dá)和顯示。由于GIS在地質(zhì)調(diào)查和交通信息網(wǎng)絡(luò)建設(shè)方面的優(yōu)勢(shì),它也可以廣泛應(yīng)用于道路規(guī)劃和交通信息網(wǎng)絡(luò)建設(shè),同時(shí),也成為目前國(guó)內(nèi)城市地形綜合測(cè)繪應(yīng)用工程系統(tǒng)中最重要的應(yīng)用基礎(chǔ)技術(shù)平臺(tái)和應(yīng)用支撐。其應(yīng)用技術(shù)及其運(yùn)行演變過(guò)程可簡(jiǎn)單概括如下:①對(duì)數(shù)據(jù)庫(kù)的空間信息內(nèi)容進(jìn)行有效的收集和管理,定期進(jìn)行整理或輸出,最終將數(shù)據(jù)庫(kù)中收集和記錄的數(shù)據(jù)信息轉(zhuǎn)化為具有實(shí)用價(jià)值的空間數(shù)據(jù)庫(kù)內(nèi)容。信息管理的實(shí)施過(guò)程必須具有高度的數(shù)據(jù)空間動(dòng)態(tài)性。②GIS系統(tǒng)的基礎(chǔ)研究對(duì)象應(yīng)該是地理圖形學(xué)。采用合理可行的地理模型系統(tǒng)進(jìn)行圖形分析,并提出相應(yīng)的系統(tǒng)決策,使其成為具有較高決策價(jià)值的三維綜合信息系統(tǒng)。③數(shù)據(jù)處理的全過(guò)程模擬由具有自動(dòng)數(shù)據(jù)處理控制的主機(jī)提供。通過(guò)主機(jī)獨(dú)有的計(jì)算軟件和全過(guò)程仿真,對(duì)海量地理數(shù)據(jù)信息進(jìn)行動(dòng)態(tài)管理,逐步實(shí)現(xiàn)各種地理資源數(shù)據(jù)的綜合分析和管理。
所謂的海量地理數(shù)據(jù),是指數(shù)據(jù)資源快速高效流動(dòng)的能力,以及數(shù)據(jù)系統(tǒng)的動(dòng)態(tài)性、地理數(shù)據(jù)類型的多樣性、大數(shù)據(jù)模型的高速實(shí)時(shí)性、高價(jià)值性、低密度分布和高復(fù)雜性分布的特點(diǎn)。現(xiàn)階段,我國(guó)數(shù)據(jù)市場(chǎng)對(duì)海量地理信息系統(tǒng)的建設(shè)提出了一系列迫切需求,特別是在3個(gè)方面:海量空間數(shù)據(jù)信息存儲(chǔ)的爆炸性增長(zhǎng)、數(shù)據(jù)處理和響應(yīng)速度的日益加快、數(shù)據(jù)內(nèi)容描述方法的逐步多樣化,這些新的要求也對(duì)大數(shù)據(jù)在海量地理信息系統(tǒng)領(lǐng)域的應(yīng)用提出了一些嚴(yán)格的要求。
雖然數(shù)字地理信息系統(tǒng)產(chǎn)品在實(shí)際業(yè)務(wù)應(yīng)用和實(shí)施過(guò)程中,可以通過(guò)多個(gè)通信渠道,同時(shí)對(duì)海量地理空間數(shù)據(jù)資源進(jìn)行高效的集中統(tǒng)一處理,但在高效組織、數(shù)據(jù)傳輸、數(shù)據(jù)傳輸、數(shù)據(jù)傳輸?shù)燃夹g(shù)的應(yīng)用上仍存在明顯的不足。特別是在應(yīng)用新的數(shù)據(jù)處理技術(shù)時(shí),非結(jié)構(gòu)化存儲(chǔ)的海量空間數(shù)據(jù)處理與傳統(tǒng)SQL等新的數(shù)據(jù)處理技術(shù)方法也存在某種形式的內(nèi)在矛盾和邏輯沖突,在一定程度上削弱和影響了海量空間數(shù)據(jù)信息的有效處理手段和應(yīng)用效果,阻礙和制約了大數(shù)據(jù)及其增值新產(chǎn)品技術(shù)的實(shí)際生產(chǎn)和使用進(jìn)度,也是制約我國(guó)地理信息系統(tǒng)市場(chǎng)化發(fā)展的主要原因。
隨著科學(xué)技術(shù)的飛速發(fā)展,計(jì)算機(jī)技術(shù)近年來(lái)得到了迅速發(fā)展和成熟。特別是硬盤價(jià)格逐年下降,大數(shù)據(jù)的存儲(chǔ)和使用成本逐漸降低。未來(lái)幾年,大數(shù)據(jù)信息的存取和存儲(chǔ)將更加方便,存儲(chǔ)容量有望不斷增加。這也充分展示了未來(lái)中國(guó)大數(shù)據(jù)技術(shù)的快速發(fā)展方向和重大進(jìn)步。然而,隨著未來(lái)客觀物理世界模型的不斷深入發(fā)展、探索和技術(shù)變化,GIS需要在實(shí)時(shí)導(dǎo)航和決策輔助等多個(gè)方面考慮實(shí)時(shí)應(yīng)用。
GIS及其應(yīng)用領(lǐng)域中其他一些重要的基礎(chǔ)數(shù)據(jù)和信息關(guān)系,它們的擴(kuò)展程度和應(yīng)用速度可以確保它們?cè)诂F(xiàn)代大數(shù)據(jù)應(yīng)用技術(shù)平臺(tái)提供的強(qiáng)大技術(shù)支持的環(huán)境條件下得到快速擴(kuò)展和進(jìn)一步完善[3]。目前,在企業(yè)開發(fā)和應(yīng)用的數(shù)據(jù)庫(kù)處理系統(tǒng)中,仍然會(huì)有許多新型的數(shù)據(jù)庫(kù)信息關(guān)系類型。通過(guò)這些增強(qiáng)和優(yōu)化的硬件系統(tǒng),我們將能夠在一定程度上有效地?cái)U(kuò)展數(shù)據(jù)庫(kù)。但是,由于需要投入大量研發(fā)資金來(lái)優(yōu)化計(jì)算機(jī)設(shè)備,以及數(shù)據(jù)庫(kù)從物理空間擴(kuò)展到服務(wù)器級(jí),整個(gè)系統(tǒng)的運(yùn)行和環(huán)境性能、數(shù)據(jù)庫(kù)容量的變化等都可能在同一時(shí)間內(nèi)發(fā)生變化,因此,在擴(kuò)展這些非結(jié)構(gòu)化數(shù)據(jù)庫(kù)信息程序時(shí),我們可能還會(huì)遇到不適合直接使用的數(shù)據(jù)庫(kù)信息的分割或擴(kuò)展,需要對(duì)其進(jìn)行相應(yīng)的修改和程序。這可能涉及集成部分鏈路信息的程序,導(dǎo)致工作量增加,以及非標(biāo)準(zhǔn)化信息數(shù)據(jù)庫(kù)擴(kuò)展帶來(lái)的程序冗余效應(yīng),將進(jìn)一步導(dǎo)致信息數(shù)據(jù)擴(kuò)展的困難和統(tǒng)一性要求的相對(duì)增加,從而大大減少和擴(kuò)展分散在現(xiàn)有GIS網(wǎng)絡(luò)中的各類信息數(shù)據(jù)庫(kù),實(shí)現(xiàn)數(shù)據(jù)庫(kù)的可擴(kuò)展管理和各類海量信息數(shù)據(jù)的高度可擴(kuò)展處理。
由于地理信息數(shù)據(jù)來(lái)源豐富多樣,在大數(shù)據(jù)時(shí)代有必要對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,以減少一些數(shù)據(jù)或應(yīng)用于其他領(lǐng)域的數(shù)據(jù)。一般來(lái)說(shuō),數(shù)據(jù)處理標(biāo)準(zhǔn)化應(yīng)用的工作模式之一主要是通過(guò)數(shù)據(jù)的轉(zhuǎn)換和操作以及相關(guān)的人工分析和整理,以盡可能保證數(shù)據(jù)處理的科學(xué)統(tǒng)一。在計(jì)算機(jī)技術(shù)的不斷發(fā)展和演變中,如果其數(shù)據(jù)類型多樣,很容易導(dǎo)致其開發(fā)過(guò)程中積累的大量數(shù)據(jù)信息與原有的傳統(tǒng)結(jié)構(gòu)化數(shù)據(jù)信息之間出現(xiàn)大量不一致,這將對(duì)計(jì)算機(jī)地理信息系統(tǒng)的應(yīng)用產(chǎn)生各種不利影響。如果要有效地處理這個(gè)問(wèn)題,必須使用各種原始的非結(jié)構(gòu)化數(shù)據(jù)來(lái)存儲(chǔ)其數(shù)據(jù),或者結(jié)合各種新業(yè)務(wù)系統(tǒng)中業(yè)務(wù)的特殊性,可以存儲(chǔ)各種不同的數(shù)據(jù)源,這就要求數(shù)據(jù)庫(kù)支持各種類型的數(shù)據(jù)存儲(chǔ)方法。
在大數(shù)據(jù)信息化時(shí)代的要求下,我國(guó)逐步探索和完善了數(shù)字地理信息數(shù)據(jù)庫(kù)的實(shí)際應(yīng)用,并將特定地理資源信息與計(jì)算機(jī)大數(shù)據(jù)系統(tǒng)整合,從而最終實(shí)現(xiàn)地理信息數(shù)據(jù)與采集到的信息之間最有效的綜合利用,使地理專業(yè)人員能夠更及時(shí)、更有效地掌握各種相關(guān)數(shù)據(jù)和信息,進(jìn)而實(shí)現(xiàn)計(jì)算機(jī)對(duì)數(shù)據(jù)信息的及時(shí)、有效的查詢和分析。通過(guò)對(duì)地理信息的科學(xué)分析和應(yīng)用,捕捉中國(guó)人口地理特別是人力資源和自然資源綜合開發(fā)利用的海量大數(shù)據(jù),需要進(jìn)行實(shí)時(shí)更新的地理數(shù)據(jù)信息,將這些人類數(shù)據(jù)與相關(guān)的實(shí)際人口數(shù)據(jù)相連接,然后根據(jù)科學(xué)預(yù)測(cè)進(jìn)行詳細(xì)規(guī)劃。
4.5.1 大數(shù)據(jù)交互處理模式。大數(shù)據(jù)實(shí)時(shí)交互信息處理與共享是指計(jì)算機(jī)基于其所服務(wù)的人機(jī)自動(dòng)交換平臺(tái),對(duì)實(shí)時(shí)采集和調(diào)整的相關(guān)數(shù)據(jù)信息進(jìn)行處理,并將這些處理信息和結(jié)果信息以實(shí)時(shí)交互共享的方式自動(dòng)傳輸給最終用戶。目前,我國(guó)現(xiàn)有的商用分布式大數(shù)據(jù)實(shí)時(shí)交互處理計(jì)算系統(tǒng)主要由Dremel系統(tǒng)和spark系統(tǒng)組成。所謂的spark系統(tǒng)是指一個(gè)高效的分布式計(jì)算系統(tǒng)。該系統(tǒng)的處理性能遠(yuǎn)高于一般Hadoop系統(tǒng)的實(shí)時(shí)數(shù)據(jù)處理和效率。它還有一個(gè)性能優(yōu)異的API。最重要的特點(diǎn)是,盡管Spark的代碼格式也變得清晰簡(jiǎn)潔,但如果整個(gè)Hadoop平臺(tái)想要完全表達(dá)相同數(shù)量的功能代碼,它至少需要支付代碼長(zhǎng)度的10倍甚至100倍以上。同時(shí),Dremel還可以以第二個(gè)點(diǎn)為單位,支持Pb級(jí)以上海量數(shù)據(jù)的快速處理,并使用多達(dá)數(shù)千萬(wàn)個(gè)大型數(shù)據(jù)集群共同建立和完成。
4.5.2 大數(shù)據(jù)列存儲(chǔ)。Dremel系統(tǒng)的主要優(yōu)點(diǎn)是可以通過(guò)哈希數(shù)據(jù)存儲(chǔ)有效地保護(hù)所有相關(guān)數(shù)據(jù)信息。其優(yōu)點(diǎn)是在數(shù)據(jù)信息分析、整理和存儲(chǔ)過(guò)程中,只在必要時(shí)存儲(chǔ)和處理一些關(guān)鍵數(shù)據(jù)信息[4]。這種操作模式可以大大有效地減少占用系統(tǒng)磁盤存儲(chǔ)空間和系統(tǒng)CPU緩存的數(shù)據(jù)訪問(wèn)量。同時(shí),在數(shù)據(jù)庫(kù)的實(shí)際業(yè)務(wù)應(yīng)用和推廣過(guò)程中,我們也可以看到,數(shù)據(jù)庫(kù)Dremel技術(shù)可以與傳統(tǒng)的Web搜索和DBMS數(shù)據(jù)庫(kù)技術(shù)有機(jī)結(jié)合。依托傳統(tǒng)Web搜索技術(shù)中嵌入的數(shù)據(jù)庫(kù)“查詢樹”的新功能,我們可以在數(shù)據(jù)查詢和搜索網(wǎng)絡(luò)中直接有效地劃分各種大型數(shù)據(jù)庫(kù),其數(shù)據(jù)的科學(xué)分布直接傳輸?shù)矫總€(gè)數(shù)據(jù)批節(jié)點(diǎn)數(shù)據(jù)庫(kù),從而進(jìn)一步提高數(shù)據(jù)批查詢和處理的效率和簡(jiǎn)單性。例如,基于HBase架構(gòu)的嵌套式數(shù)據(jù)分布式存儲(chǔ)系統(tǒng)是基于HBase的原始數(shù)據(jù)分布式存儲(chǔ)技術(shù)架構(gòu),充分發(fā)揮了其可用性強(qiáng)、可擴(kuò)展性好的優(yōu)勢(shì)。當(dāng)使用HMASTE統(tǒng)一管理數(shù)據(jù)存儲(chǔ)和系統(tǒng)節(jié)點(diǎn)數(shù)據(jù)時(shí),也意味著我們可以進(jìn)一步考慮使用HReGon服務(wù)器作為存儲(chǔ)數(shù)據(jù)載體,以統(tǒng)一管理系統(tǒng)中每個(gè)子數(shù)據(jù)存儲(chǔ)系統(tǒng)節(jié)點(diǎn)的數(shù)據(jù)存儲(chǔ)和安全性[5]。同時(shí),我們將進(jìn)一步優(yōu)化系統(tǒng)原有存儲(chǔ)數(shù)據(jù)載體的陣列數(shù)據(jù)的存儲(chǔ)和文件格式,基于這種新的嵌套格式構(gòu)建下一組數(shù)據(jù)。這種基于Dremel體系結(jié)構(gòu)的新型嵌套數(shù)據(jù)存儲(chǔ)和文件格式也可以有效地實(shí)現(xiàn)數(shù)據(jù)文件持久化和處理這兩個(gè)最終應(yīng)用目的。另一方面,在基于HBase數(shù)據(jù)庫(kù)技術(shù)的嵌套式數(shù)據(jù)存儲(chǔ)系統(tǒng)中,數(shù)據(jù)讀、寫、存儲(chǔ)功能塊和數(shù)據(jù)讀、存儲(chǔ)功能模塊中也有許多優(yōu)秀的數(shù)據(jù)讀、寫、存儲(chǔ)和查詢功能,因此在數(shù)據(jù)讀寫存儲(chǔ)功能模塊的系統(tǒng)設(shè)計(jì)中,可以充分發(fā)揮數(shù)據(jù)信息的讀寫和查詢信息處理功能,顯示出一些明顯的優(yōu)勢(shì)。事實(shí)上,這種交互式的數(shù)據(jù)處理和存儲(chǔ)方法也可以用來(lái)優(yōu)化和實(shí)現(xiàn)數(shù)據(jù)查詢和存儲(chǔ)功能,以及數(shù)據(jù)的數(shù)據(jù)分區(qū)和存儲(chǔ)功能,從整體上提高海量數(shù)據(jù)的處理效率。
在地理信息大數(shù)據(jù)集成的過(guò)程中,它經(jīng)歷了許多技術(shù)改進(jìn)。在快速發(fā)展的過(guò)程中,測(cè)繪技術(shù)為市場(chǎng)提供了豐富準(zhǔn)確的地理信息,極大地促進(jìn)了市場(chǎng)的發(fā)展和商業(yè)運(yùn)作。在地理信息大數(shù)據(jù)逐步普及應(yīng)用的過(guò)程中,測(cè)繪企業(yè)將面臨更大的挑戰(zhàn),更多地依賴測(cè)繪技術(shù)的開發(fā)和應(yīng)用。因此,測(cè)繪技術(shù)和測(cè)繪企業(yè)將實(shí)現(xiàn)巨大的變革。