楊林鴿,魏峰遠
(河南理工大學 測繪與國土信息工程學院,河南焦作454000)
貝葉斯網絡下的GIS空間數據不確定性管理模型
楊林鴿,魏峰遠
(河南理工大學 測繪與國土信息工程學院,河南焦作454000)
通過分析GIS空間數據各種不確定性模型,提出了基于貝葉斯網絡的GIS空間數據誤差分析模型,論述了貝葉斯網絡的基礎理論及貝葉斯網絡建模方法,為使用GIS空間數據庫的用戶提供了更可靠、更快捷的分析方法。
貝葉斯網絡;GIS空間數據;不確定性管理

GIS產品的質量歸根到底是采集到的空間數據的質量。因此,和其他產品一樣,缺少數據質量衡量指標的GIS將無法得到用戶的信任,GIS用戶也無法得到更好的決策支持。現在GIS越來越多地用于決策支持和不同目的的數據集成,如果沒有適當的數據質量評價,將給用戶帶來一定的經濟損失,甚至引起國家重大決策的失誤。GIS數據質量問題的研究對評價GIS產品質量、確定數據錄入的質量標準、改善數據處理方法、減少開發的盲目性、方便用戶對數據的選擇、實現數據共享和互操作性等都有著深遠的影響。
點要素是GIS中描述空間要素的最基本的元素,它是構成線和面的基礎,在GIS中,一個點元通常是通過野外實地測量,地圖數字化手段得到,然后由這些不同來源和不同精度點整合成數據庫,形成元數據,再經過GIS空間分析形成最終用戶需要的產品,其基本過程如圖1所示[1]。

圖1 GIS操作和管理不確定性的基本過程
在整個管理過程中,數據生成階段會產生原始的測量誤差;在建立和管理數據庫階段需要整合不同來源和不同精度的數據形成元數據,由元數據組成數據庫;在分析階段,不確定性通過GIS模型傳播;同時整合其他類型的地理空間數據,在顯示成果階段,GIS產品的不確定性就被可視化,最后用戶就查詢和使用這些不確定性信息。
2.1 貝葉斯網絡的方法
最初人們采用概率推理的方法來解決不確定性問題,但對于許多復雜的實際問題來說,單純的概率推理是難以處理的。Pearl[2]于1986年提出一種簡單而有效的貝葉斯網絡(BayesNetwork)來解決這類問題,有時也稱為置信網絡。它主要研究不確定性知識表達和推理的方法,貝葉斯網絡是基于概率分析、圖論的一種不確定知識的表達和推理的模型。從直觀上講,貝葉斯網絡表現為一個賦值的復雜因果關系網絡圖,網絡中的每一個節點表示一個不確定變量,不確定變量可以是連續的,也可以是離散的,各變量之間的弧表示節點之間的條件概率分布。貝葉斯網絡是一種定性判斷和定量計算相結合的方法,能有效地進行多變量聯合評估[3]。
2.2 貝葉斯網絡模型
貝葉斯網絡的建模是對所包含的定性知識和定量知識進行結構上的描述,為下一步推理提供依據。從原始數據中構造 Bayes網絡模型,實際上是對原始數據進行數據挖掘;先找出最符合原始數據的定性的網絡圖關系,然后根據網絡圖中的因果關系,計算節點間的條件概率[4]。
在貝葉斯網絡中,節點之間的最基本結構有3種:順序、分支和匯聚[5],如圖2所示。

圖2 貝葉斯網絡的3種基本結構
順序結構的概率為:P(A,B,C)=PC(C|A)P(A|B) P(B);分支結構的概率為:P(A,B,C)=P(C|B,A) P(B|A)=P(C|B,A)P(B|A)P(A);匯聚結構的概率為:P(A,B,C)=P(C)P(B)P(A|B,C)。
數據的不確定性可以認為是數據“真實值”不能被肯定的程度,即信息源沒有完全表達的程度。應該說,它不但包含了誤差的所有要素,還包括了非常復雜并難以觀察的要素,由于空間數據對客觀世界的描述經過了抽象化、離散化,只是對真實世界的近似和概括,所以數據不確定性和數據誤差無時不在。GIS中對空間數據的不確定性討論是為了消除或弱化不確定性并探討它們對GIS分析結論的影響。GIS不確定的形式表現為5種[6]:位置不確定性、屬性不確定性、現時性、邏輯一致性和完整性。不是所有的不確定性都是這5種形式的單一表現,有的是以5種形式中的幾種來表現。
下面以GIS中簡單的越野機動性(CCM)為例來說明貝葉斯網絡應用于不確定性的管理。基于地形地貌(傾斜度、土壤類型、土壤濕度和植被)數據和CCM算法來預測一個交通工具通過某一地區的速度,現存的CCM算法沒有考慮到不確定性的估計,貝葉斯網絡模型提供了一個計算與 CCM值有關的不確定性的預測。我們知道測量的地形數據存在一定的誤差,那么通過這些數據預測得到的CCM速度也有一定的誤差,這個誤差取決于地形的誤差和GIS模型的誤差,有時很小的誤差也會導致最后預測出現很大的誤差。
正如上面所討論的,貝葉斯網絡是一個帶結點和弧的圖形,結點代表不確定性變量,這里它們代表地形變量和CCM速度。每一個結點有一個相同的專有的結點,例如,代表植被類型的結點與植被類在數據庫中的狀態一致,注意到最上面一行不確定變量組成的結點代表著數據庫中地面上一個特殊點的信息,這些變量在數據庫中是不確定的,第二行變量代表不同的不確定的變量組,實際的地形情況是未知的。結點之間的弧代表著它們之間的聯系,并用這些變量之間的條件概率來定義,例如,如果我們知道真實的地形變量的值,那么我們可以得到地形變量在數據庫中的值的一些信息,并用數據庫變量和實際地形的變量之間的弧代表這種關系。
貝葉斯網絡模型,也代表一個數學模型和一個統計模型,一個貝葉斯網絡模型代表網絡中所有變量的聯合概率分布,在這里是:
P(DV,DT,DM,DS,TV,TT,TM,TS,SS,CCM)
在貝葉斯網絡中,這個分布定義了一個10個變量的概率,如圖3所示。通常這是一個十分復雜的分布。貝葉斯網絡定義變量之間的條件獨立性,僅考慮與該變量相關的有限變量,從而使復雜的問題變得簡單,定義每個結點的父結點的條件概率分布:
2.3 元素概率的計算


圖3 CCM不確定性傳播模型

1)本文只對貝葉斯網絡在GIS空間數據不確定性管理模型方面做了定性的分析,還不能用明確的數學公式做定量的分析。
2)由于GIS空間數據管理模型只有和其他GIS模型結合應用才能對該模型做出不確定性估計,因此要想應用,需開發相關的算法和程序。
3)通過貝葉斯網絡誤差傳播算法提供的誤差信息,效率也是一個問題,事實上,對于一個大型的復雜的模型,應用貝葉斯模型算法比較昂貴,在GIS應用中,對整個數據庫都要進行貝葉斯算法估計,這對于簡單的模型來說不是問題,但是對于一些更復雜的模型就比較昂貴且效率低。
1)通過貝葉斯網絡模型進行不確定性估計,在實際GIS產品中是可用的模塊,相對于一些沒有進行不確定性評估的GIS應用產品,對加入貝葉斯算法的產品,做出的決策可靠性更高。
2)貝葉斯網絡模型并不局限于連續的變量、可導函數或正態分布,對GIS產品中的大部分數據都可以應用。
3)對于以前不完整的或根本沒有的信息利用專家意見進行整合,也可以做出更準確地預測,對所有數據都適用。
[1] 龔健雅.地理信息系統基礎[M].北京:科學出版社,2001
[2] PEARL.J.Fusion,Propagation and Strutting in Belief Networks [J].Artificial Intelligence,1986,29:241-288
[3] 胡玉勝,涂序彥.基于貝葉斯網絡的不確定性知識的推理方法[J].計算機集成制造系統,2001(7):65-68
[4] 張連文,郭海鵬.貝葉斯網絡引論[M].北京:科學出版社,2006
[5] Balaram Das,Representing Uncertainties Using Bayesian Networks[z].[s.1.]:DSTO Electronics and Surveillance Research Laboratory,2001
[6] 劉大杰,劉春.GIS空間數據不確定性與質量控制的研究現狀[J].測繪工程,2001(10):6-10
[7] 呂文紅,吳祈宗,郭銀景.基于D-S證據理論的群決策專家意見集結方法[J].運籌與管理,2005(4):10-14
GIS Spatial Data Uncertainty Management Model Based on Bayesian Network
by YANG Linge
By analyzing a variety of GIS spatial data uncertainty model,this paper proposed a GIS spatial data error analysis model based on Bayesian network,discussed the basic theory and modeling method of Bayesian networks.It provided more reliable and efficient methods of analysis for users when we use GIS spatial database.
Bayesian network,GIS spatial data,uncertainty management
2011-05-10
項目來源:河南省自然科學基金資助項目(0811055700)。
P208
B
1672-4623(2012)02-0059-02
楊林鴿,碩士,研究方向為空間數據的不確定性。