趙 寧,宋國偉,張小玉,李維宇
(武威市自然資源局,甘肅 武威 733000)
隨著計算機科學,遙感技術,導航產業的迅速發展,地理信息系統(GIS)已不僅僅作為一種信息處理的基礎平臺存在,而是成為社會公共衛生醫療、社會安全服務、減災防害等眾多產業研究和實施的基礎。從應用于生產生活開始,GIS數據質量以及不確定性問題就引起了廣泛的關注[1]。目前,GIS研究和應用領域越來越寬泛,使用的多源、多維、多時相、多尺度數據量也越來越大,應用GIS分析產生結果的可靠性成為衡量GIS可用性、決策性的主要指標。對于GIS分析的可靠性目前尚未有公認的定義,一些學者結合工程學、生命科學等學科對其進行了補充,如史文中等[2]、胡圣武等[3]。文章從GIS分析結果可靠性研究的內容體系出發,結合具體案例分析了可靠性的影響因素,并初步探析了研究分析結果可靠性的方法。
根據史文中等[2]對空間分析的可靠性初探,以及其他一些學者,如張朋吉[4]、孫方飛等[5]對GIS分析方法和數據可靠性的探究,結合《Accuracy 2012》國際會議提出的空間不確定性及精度評估問題的研究內容以及近年來國內外對于不確定性的研究,文章初步探究提出GIS分析結果可靠性研究內容體系(見表1)。

表1 GIS分析結果可靠性研究內容體系
通過GIS分析可靠性的定義以及GIS分析結果可靠性的研究內容可知,影響可靠性的因素主要有四個,這四個因素又可以歸納為三類:基本影響因子、交互影響因子、不可控影響因子。其中,交互影響因子對結果可靠性的影響最為顯著,且可控性也最差。
基本影響因子包含數據和方法兩個方面。數據作為GIS分析的基礎,對結果的重要性顯而易見。一般,數據對于分析結果的影響主要發生在數據產生和數據處理兩個過程中。數據產生是一切分析結果的開始,而所有數據產生過程均會不可避免地出現數據誤差,這些帶有誤差的數據,如傳感器拍攝到云量覆蓋較多的遙感影像、使用精度不高的GPS控制網采集的點集、矢量化后未添加屬性信息的矢量文件等,都會嚴重影響結果的可靠性。數據處理實際是一個降低數據誤差的過程,如對影像進行去云處理、對點集進行誤差處理、對矢量化文件的邏輯錯誤進行糾正處理等都或多或少提高了數據的可靠性,然而在處理過程中也存在很大的不確定性,如處理算法的準確性和適用性。方法是GIS分析的核心,盡管空間分析中的基本方法體系逐漸成熟,但當前空間分析面對的問題通常需要結合幾種基本方法或空間建模才能解決,這就極大增加了空間分析的不確定性,如進行居民點潛力測算[6]時,修正系數的計算、指標權重的確定以及數據標準化的方法都會影響測算結果。盡管基本因子會嚴重影響結果的可靠性,但事實上,這些影響因素絕大多數存在一定的可控性,并能將其影響力度減到理想狀態。
一般而言,可以通過多種方法獲取某一地理分析結果,由于不同的方法有不同的側重點,因此對于同一數據,可以產生多個分析結果。若多個分析結果較為接近,則結果的可靠性較高或者較低(結果與客觀事實相悖);若多個分析結果各不相同或可劃分為幾類,此時結果的可靠性就難以評估。
以文獻為例,Andreas等[7]使用三種方法(物質平衡線轉移、厚度變化參數化、冰川物質平衡模擬)模擬瑞士阿爾卑斯山冰川的未來變化趨勢,盡管最后得出一致的結論,即冰川處于消融狀態,但三種模型測算出的冰川變化面積和變化范圍仍有較大差別,此時,很難判定哪種模型計算出的冰川變化面積以及變化范圍更加準確,間接反映出分析得到的結果在一定置信水平下可靠度不確定。
使用同一種方法不同數據分析GIS問題導致結果的可靠性不確定是影響結果可靠性的主要部分。分析方法本身存在一定的局限性,對于同一種方法,可能只對某一特定空間、時間上的數據有較強的適用性,或適用于某一類型、某一數據源的數據。由于GIS面對的分析問題是海量的,不可能針對每一個問題建立一種分析方法或模型,因此GIS分析結果的可靠性受到影響是不可避免的。
以文獻為例,姚曉軍等[8]提出一種冰川中流線自動提取方法,該方法主要包含提取冰川最高、最低點,歐式分配冰川輪廓線兩個主要步驟。在第一步驟中,使用了不同數據源的DEM(SRTM V4.1和ASTER GDEM V1.0),提取的最高、最低點出現了差異,增加了結果的不確定性。在第二步驟中,考慮到不同地區冰川特點不一,對冰川進行了分類,微修提取方法,不同類冰川采用不同的提取方法,保證了最終結果的可靠性。
盡管上文分析了影響GIS分析結果可靠性的客觀因素,然而對可靠性認知的不同也會或多或少地增加結果的不確定性。不同的主體從不同的角度來看GIS分析的結果可靠性會有不同的理解。從研究者的角度看,可靠性就是最大程度上與客觀現實保持一致,能幫助探究所分析客觀現象的規律,這較符合GIS分析可靠性的內容。然而,從用戶的角度看,可靠性就是滿足客戶需求、服務于應用決策或結果實用,此時,GIS分析過程中使用的數據和方法滿足要求即可,無需過分關注其是否與客觀現實存在矛盾。事實上,GIS面對更多、更廣泛的主體是用戶,這就產生了一種不可控的可靠性影響因素。
數據是GIS分析結果主要的影響因素之一,對其可靠性研究可參考現有的數據質量控制標準,如美國數字制圖標準國家委員會(NCDCDS)制定的數字制圖數據標準[2]。對分析方法的可靠性研究目前還沒有參考依據,這將是GIS可靠性分析的一個研究趨勢。
盡管胡圣武等[3]用梯度模型研究了GIS的可靠性,但效果不理想,且不能表達出GIS分析結果的可靠度。熵是信息論中的基本概念,是用以度量信息源不確定性的唯一量,對結果的不確定性度量有較好的效果,許多學者將其與信息論結合以度量GIS的不確定性,如李艷麗[9]、李大軍等[10]。GIS分析結果的可靠性是建立在不確定性基礎之上的。為此,可以引用熵理論度量結果的可靠性,將影響結果可靠性的基本影響因子、交互影響因子、不可控影響因子作為樣本計算樣本的信息熵,由最大熵方法確定樣本分布概率,再根據此概率分布計算結果可靠度。
文章結合一些學者的研究成果對GIS分析結果可靠性做了初步的探究,系統地提出了GIS分析結果可靠性研究的主要內容,并分析得出對結果可靠性的影響主要有基本因子、交互因子、不可控因子三個要素。對結果可靠性的度量進行一定探索,提出結合熵理論研究結果可靠性這一設想。GIS分析結果可靠性是一個龐大而復雜的問題,對其具體詳實的研究仍然是GIS可靠性研究的研究趨勢,如何計算度量將是下一步研究的主要內容。