高勝國+翁海騰+朱忠禮
摘要:貝葉斯最大熵方法(bayesian maximum entropy,簡稱BME)是現代時空地統計學的重要組成部分。該方法采用統計學中的貝葉斯理論和信息論中熵的概念來認識和處理時空變量,可以將所研究時空要素的軟數據和硬數據系統合理地綜合到對該要素的空間估計和分析制圖過程中。本文首先結構化梳理貝葉斯最大熵方法的原理,對理論較深奧、公式較復雜的貝葉斯最大熵方法及該方法的特點加以概括,同時歸納與總結貝葉斯最大熵方法在地球科學領域內多個方向的應用研究進展,最后對該方法及其應用作總結與展望。經國內外學者多年的研究和實踐,貝葉斯最大熵方法已被證明在地球科學領域有著更廣闊的應用前景。
關鍵詞:貝葉斯最大熵;地統計學;時空估計;軟數據;硬數據
中圖分類號: S127;S11+9 文獻標志碼: A 文章編號:1002-1302(2017)18-0011-06
收稿日期:2016-04-19
基金項目:國家自然科學基金(編號:91125002、41531174)。
作者簡介:高勝國(1986—),男,山西忻州人,博士,講師,研究方向為定量遙感、農業統計遙感。E-mail:cugbgaoshengguo@126.com。
通信作者:朱忠禮,博士,副教授,研究方向為遙感水文。E-mail:zhuzl@bnu.edu.cn。 貝葉斯最大熵(Bayesian maximum entropy,簡稱BME)方法是現代時空地統計學的重要組成部分。地表自然生態系統是一個組成要素多樣、復雜的綜合系統,加上自然環境歷史演化變遷以及人類活動的影響,地表各要素在時空分布上呈現既有隨機性又有結構性的特點,鑒于此,對地表時空要素的時空分布、變異性、相關性以及依賴性的定量描述和研究相當困難。傳統的解決辦法是將地理要素空間上劃分為時空上較為均一的區域或層區,在一定程度上描述地表要素的空間分布以及變異情況。以變異函數和克里金估計為代表的傳統地統計學的出現,將區域化變量理論引入到地表要素空間變異性研究中并加以豐富和完善,使之定量化,從而大大推動了地表要素空間變異這一研究進展。地統計學被證明是研究地表要素空間分布特征及其變異規律最有效的方法之一。傳統地統計學主要處理空間變異,然而地表要素是時空動態的,它的許多屬性在發生空間變化的同時也隨著時間發生變異,在空間變異基礎上引入時間變異的分析能更準確描述地表要素的變異特征;同時,地表要素的互相關聯性使地表某種要素的觀測數據對其他相關要素有一定的指示作用,這種相關要素觀測提供的輔助信息同樣是描述目標地表要素時空變異性的重要信息來源。貝葉斯最大熵方法采用了統計學中的貝葉斯理論和信息論中熵的概念來認識和處理時空變量,是現代時空地統計學的重要組成部分[1],它不同于傳統的地統計學線性空間估計方法(普通克里金、協克里金、回歸克里金等),屬于以非線性理論為基礎的時空估計范疇,對時空數據的分析以及不確定性數據(軟數據)的使用成為其最大特點和優勢,近20年來被逐漸應用到大氣、土壤、環境、公共衛生等多個研究領域,近年來國內也有多位學者開始了對BME的相關研究。
1 貝葉斯最大熵
貝葉斯最大熵時空估計方法是1990年前后被提出的[2-4],并逐漸被廣泛應用在地球科學領域。該方法涉及到認識論、時空隨機場、概率統計等學科知識,與傳統空間分析、制圖方法相比,最大特點是可以將所研究要素的精確觀測數據(硬數據)、不確定性數據(軟數據)和其他來源的相關信息系統合理地綜合到對該要素的空間估計和分析制圖過程中。
從認識論的角度來說,綜合的知識和信息越多,對想象或過程的認知就越真實、越準確。BME可以將廣義知識(general knowledge,用G表示)和特定知識(specific knowledge,用S表示)同時綜合到目標要素的空間分析過程中。廣義知識可以是統計規律(統計矩)、相關定律、科學原理等。特定知識包括特定點位上的測量數據,如實測點數據、面數據、時間序列數據等。在貝葉斯理論框架下,廣義知識屬于先驗信息,特定知識是所研究要素新的觀測數據和信息來源,基于貝葉斯理論根據先驗的概率密度函數(probability density function,簡稱pdf)估計地理空間要素的后驗概率密度分布及后驗概率。目前在BME應用的多數研究中,廣義知識通常是一些統計矩,最常用的是均值、方差和協方差,特定知識包括軟數據和硬數據。
BME方法在邏輯上可以分為3個相互關聯的階段:(1)先驗階段。通過信息期望(熵函數)的最大化,將從已有的統計知識中得到的先驗概率考慮到空間估計中;(2)中間階段。整理特定知識(硬數據和軟數據)并且將其轉化成一種便于融入后期數據分析中的數學表達形式(比如概率分布形式);(3)后驗階段。通過貝葉斯條件概率的形式表達待估計變量的后驗概率,通過后驗概率的最大化得到空間變量的估計。因此,BME方法在使自然現象的時空分析和制圖過程滿足信息量豐富的同時,又滿足邏輯上的說服力更是合情合理,信息量豐富體現在先驗階段大量的先驗知識,而邏輯上的說服力體現在后驗階段根據具體知識得到的后驗概率[1]。
1.1 先驗階段
BME方法的此階段是基于最大熵原理,在此階段通常只使用廣義知識(G)。
1.1.1 信息熵與概率 認知論中有這樣的一個邏輯規則:如果某個命題越模糊越籠統,那么這個命題就包括了越多可能發生的事件,這個命題就有更大的可能性成立,然而關于命題的信息量卻是少的;相反,如果越多可能發生的事件被排除了,也就是關于命題的信息量多了,而這個命題發生的可能性就小了[1]。也就是說一個信息量豐富的科學事件更不容易發生,因為它多了許多限制因素。在BME的先驗階段也作了這樣的假設:廣義知識所提供的信息量和地圖真實形態出現的可能性之間是存在反比的關系,據此我們可以把包含在時空隨機變量xmap的pdf 中的知識表達為信息量的形式。關于信息量和可能性之間有很多種表達方式,在BME中應用Shannon的信息量原則[5],根據給定的廣義知識G,包含在xmap中的信息量表示為下式:endprint
infoG[xmap]=-lg lgfG(xmap)。
(1)
式(1)同時表示隨機變量xmap的不確定性:概率越大,xmap的不確定性越小,同樣由xmap的pdf 提供的信息量也越少。信息量的期望可以表示為下式:
infoG[xmap]=-∫d χmapfG(xmap)lgfG(xmap)lgfG(xmap)。
(2)
根據可使用的廣義知識構建1個關于自然要素空間實現的概率模型。由廣義知識提供并且引用到模型中的自然要素地圖的信息量可以由式(2)來表達,此公式稱為熵函數(entropy function)。BME名稱縮寫中的第3個字母“E”就是指這里的信息熵函數。
1.1.2 廣義知識的數學表達 在自然科學中很多數據和理論都具有時空自相關特性和概率依賴性。所以將廣義知識用數學的方式表達為相關自然變量的概率函數或是概率運算是非常有意義的。假設廣義知識包含了一系列函數Gα(α=0,1,…,NC):
G ∶ hα(pmap)=Gα[xmap,pmap;fG]。
(3)
式(3)中:等號左邊表示時空變量一系列的統計期望;等號右邊是基于廣義知識相關的時空隨機變量xmap、時空坐標pmap和廣義知識相對應的概率密度函數的表達式。hα可以通過很多種途徑來構建。式(3)適用于各種類型的廣義知識:各階統計矩、經驗關系、物理公式或是其他科學理論。在許多時空統計學中,物理知識、經驗關系等可以轉化為一系列的統計矩:
hα(pmap)=gα(xmap),α=0,1,…,Nc
gα(xmap)=∫d χmapgα(χmap)fG(χmap;pmap)。
(4)
式中:gα是χmap的一系列的已知函數。關于gα的選擇有一些數學上和物理上的規則。一般g0=1,那么gα(xmap)=1是標準化系數。并且在gα(α>0)確定了之后,公式左邊對應的統計期望hα必須直接從試驗數據計算得到或從其他來源的廣義知識(物理知識或經驗圖表)中推理得到。
目前應用最多的廣義知識就是實測數據的統計矩,那么假設平均值為xi、方差為xi-xi、三階矩為(xi-xi)3、協方差為(xi-xi)(xi′-xi′)在點pi,i=1,…,m,k處是已知的,則式(4)中對應的gα可以表達為1+(m+1)(m+6)/2種形式,具體可參考Christakos的方法[1]。
1.1.3 基于廣義知識的聯合概率密度函數的獲取 BME方法的先驗階段主要目標是根據廣義知識獲取自然要素空間分布的先驗概率密度函數,也就是在式(2)中的fG。這個基于廣義知識得到的pdf將應用到下階段的BME分析中。這里要計算先驗概率密度分布函數需要借助拉格朗日乘數法[6]:
目標函數:
M=∫d χmapΦ[χ,fG(χ)];
(5)
限制條件:
hα=∫d χφα[χ,fG(χ)],α=0,1,…,Nc;
(6)
歐拉-拉格朗日方程:
ΦfG+∑Ncα=0μαφαfG=0。
(7)
在歐拉-拉格朗日方程中,μα是拉格朗日乘子,通過聯立限制條件和拉格朗日方程可以得到μα以及fG,進而得到目標函數的最大值。
在BME分析中,Φ[χ,fG(χ)]=-fG(χ)lgfG(χ)lgfG(χ),φα[χ,fG(χ)]=gα(χ)fG(χ)。這樣利用拉格朗日乘數法,以廣義知識[式(4)]為限制條件,通過最大化infoG[xmap][式(2)]可以求得先驗pdf fG(xmap)。根據Christakos的方法[1]可以知道先驗概率的表達形式:
fG(xmap;pmap)=Z-1exp exp{γG[xmap;pmap]}。
(8)
這里γG[xmap;pmap]=∑Ncα=1μα(pmap)gα(xmap);lgZ=-μ0。
根據式(8),廣義知識方程組[式(4)]可以寫為下式:
hα(pmap)=∫d χmapgα(xmap)exp exp{μ0+γG[xmap;pmap]},α=0,1,…,Nc。
(9)
求解式(9)可以獲取式(8)中的μα。
1.2 中間階段
在現實世界中,對事物或現象的進一步認識和分析可以獲取更多更確定的信息。BME分析中間階段的主要工作是收集和整理所有可能的特定知識,并且把這些特定知識以一種定量的形式來表達,便于融合到BME分析的后階段中。這里特定知識(S)包括硬數據和軟數據,它們來源于實地觀測或對歷史數據的計算分析。
1.2.1 硬數據 硬數據是在試驗中根據試驗目的利用儀器觀測到的數據,這些數據在BME分析中被認為是足夠精確的,或者它們的誤差小到可以忽略。假設在時空域中在mh個點進行觀測,則產生的硬數據:
S ∶ χhard=(χ1,…,χhard)。
(10)
在BME的實際應用中,部分硬數據可以涉及2個方面的用途,一方面是在先驗階段通過對已有硬數據的分析可以得到一些廣義知識(統計矩),另一方面是在后驗階段估計后驗概率密度分布時用到[1]。
1.2.2 軟數據 從認識學的角度來說,我們對某一事物的認識并不完全是靠一些確定的數據或是一些確定的事實,同樣也包括一些不完全定量或定性的知識,比如專家的觀點、經驗、直覺,問卷調查以及有明顯誤差的觀測數據等。這些知識對認識事物(制圖或空間估計)是有用的,但知識本身卻具有不確定性。在BME分析中可以把這些具有不確定性的數據以軟數據的形式引入。假設在有特定數據的時空點χm中除去有硬數據的點,其他為軟數據,則軟數據可以表示為下式:endprint
S ∶ χsoft=(χmh+1,…,χm)。
(11)
為便于軟數據參與BME分析,軟數據同樣需要用數學的形式表示,在貝葉斯最大熵中幾種常用的概率形式表達的軟數據如表1所示。
為軟數據發展專用的數學表達模型在BME應用中還是一個剛出現的研究主題。Lee研究的目標是改進軟數據模型來更好地描述環境衛生領域相關數據的不確定性,并將此軟數據集成到BME制圖的過程中來提高實際應用過程中的制圖精度[7]。在此研究中共涉及3種不確定性類型,包括測量誤差,一級變量、二級變量的經驗關系誤差,以及觀測尺度誤差,針對每種誤差所提出的軟數據模型都進行模擬和實際案例研究的檢驗,研究結果表明,所發展的軟數據模型可以很有效地利用到環境和公共衛生領域的研究中,進而可以結合多源數據得到所研究變量更豐富的時空分布信息。
1.3 后驗階段
在時空統計學的認知理論框架下,只剩下最后1個問題需要在后驗階段解決,那就是如何將先驗階段的廣義知識[或fG(xmap)]和中間階段的特定知識(S)綜合考慮到制圖或是空間估計過程中。即在后驗階段,新的概率密度函數是和知識總體相關的,相關公式:
probK[χk]=p′∈[0,1]。
(16)
式(16)表示在給定總體知識k=G∪S的情況下χk實現的概率是p′。有很多方法可以實現這個過程,在BME分析中應用貝葉斯全概率公式來實現:
probK[χk]=A-1probG[χmap(S)]。
(17)
式中:A=probG[χdata(S)],為標準化系數。
根據Christakos的方法[1],在先驗階段γG算子綜合了廣義知識,那么在后驗階段定義γS綜合了先驗階段的γG算子和特定知識(S):
fK(χk)=A-1γS[γG,S,χmap,pk]。
(18)
式中:k=G∪S。
在所有的軟數據形式里,區間形式的軟數據最常用,而且在本研究中也采用了區間軟數據,所以根據Christakos的研究[1],區間軟數據形式的γG算子可以表示為下式:
γS[χmap,pk]=Z-1∫Idχsoftexpdχsoftexp{γG[xmap;pmap]}。
(19)
所以結合式(19),后驗概率密度函數可以表示為下式:
fK(χk)=(AZ)-1∫Idχsoftexpdχsoftexp[∑Ncα=1μα(pmap)gα(xmap)]。
(20)
式中:I是考慮軟數據區間的并集,比如χsoft=(x4,x5,x6),則I=I4∪I5∪I6。
得到后驗概率密度分布,等于知道了所有可能的估計值,在BME分析中常用2種估計值模式,一種是BME Mode模式,這種模式下用后驗概率密度函數fK(χk)取最大值時對應的點值作為最終估計值:
χkfK(χk)|χk=χ^k=0。
(21)
另一種模式是BME Mean,在這種估計模式下,估計點取值為
xk|K=∫fK(χk)χkdχk。
(22)
可以發現,這種估計模式是根據已有數據的非線性運算得到的,而且這種估計保證了均方根誤差最小。
1.4 不確定性表達
地統計學的一個重要特點是在得到估計結論的同時可以對估計結論的不確定性有一個定量的描述。在一些自然變量的統計描述或估計的過程中,不確定性是一個不可回避的問題,同樣在基于pdf進行估計的BME方法中,對估計結果作出相應的精度評價也顯得尤為重要。
在BME估計方法中,任何一點的估計都是在分析后驗pdf的基礎上進行的,而估計的精度也同樣依賴于后驗pdf的形狀。對BME Mode來說,不確定性就是對概率最大值周圍待估變量值的離散程度的度量。在一般的pdf具有單極值的情況下,BME估計的精度可以通過求取每個估計點的標準方差(standard deviation)來評價:
σx(pk)=StDev[fK(χk)]。
(23)
式(23)反映空間估計精度,也可以表達為
σx(pk)={[X(pk)-χ^(pk)]2}1/2=[∫dχk(χk-χ^k)2fK(χk)]1/2。
(24)
此處χ^k=χ^k,mode=χ^k,mean,這里的期望是關于后驗概率密度函數的期望,而不是算數平均值。根據數字模擬的結果表明,BME分析中的σx(pk)可以很出色地估計實際的空間估計精度[1]。在根據式(24)估計的不確定性基礎上,可以定義相應的置信區間。例如,對于一個高斯(Gauss)分布的概率密度函數(pdf),在95%的置信水平下X(pk)處在區間χk±1.96σx(pk)內。
空間估計的精度(誤差)也可以通過驗證數據來估計,往往由于用于空間估計的樣本數據本來就有限,并且獲取每個樣本數據需要付出很高的代價,在統計相關的分析中通常利用交叉驗證(cross-validation)的方法來檢驗空間估計的精度。交叉驗證即在多次空間估計中依次留出樣本數據中的一個或多個數據不參與空間統計,然后利用每次不參與統計的樣本點的觀測值和估計值來獲取空間估計精度的評價。
2 貝葉斯最大熵應用進展
貝葉斯最大熵在20世紀90年代初被提出之后,不斷完善,在2000年前后開始應用在地球科學的多個領域中。由于該方法在時空分析過程中具有可有效地綜合利用多源數據的能力,尤其是對不確定性數據(誤差較大測量數據、專家知識、經驗以及統計規律等)的有效利用,這種方法從最初的土壤學、公共衛生等領域被拓展應用到地球科學系統的多個領域,并和地統計學一樣成為統計學中一個重要分支,近年來國內也開始有多位學者對BME進行研究。endprint
2.1 貝葉斯最大熵在土壤學中的應用
土壤學中的地表參數較多,空間分布變化強烈,僅用觀測數據很難精確估測區域土壤變量。在20世紀80年代,有學者就將地統計學引入土壤學中進行地表參數的空間制圖,并取得一定的成果。關于時空統計學的應用,Douaik等在 25 hm2 的區域進行土壤鹽漬度的研究中,共獲取區域中413個點的樣本數據,其中20個點位通過傳統的實驗室分析土壤樣本來確定鹽漬度,精度較高并以此作為硬數據[8-9]。其他點通過傳感器實地測量土壤電導率估計土壤鹽漬度,由于數據誤差較大,將其作為軟數據,在空間分析的過程中使用了間隔軟數據和概率軟數據2種不同軟數據的BME方法,同時采用20個硬數據和將軟數據中間值作為硬數據的2種普通克里金方法。交叉驗證的結果表明,BME的2種方法均可以精確地估計區域土壤鹽漬度,利用軟數據硬化的普通克里金方法來估計區域土壤鹽漬度是失敗的。Dimitri通過數據模擬的方法模擬了單變量的土壤黏土含量的空間估計和多變量的土壤質地(沙土、壤土、黏土)的空間估計,估計方法是BME和簡單克里金方法,結果表明,引入軟數據的BME方法要比只用硬數據的簡單克里金方法的估計結果更精確,尤其在細節方面BME所反映的信息量更多,并且指出隨著總數據中軟數據的增多,所占比例增大,BME方法所得的空間估計的可信度更高,充分說明了引入軟數據的必要性[10]。Gao等提出用融合衛星傳感器(advanced spaceborne thermal emission and reflection radiometer,簡稱ASTER)數據反演的地表溫度的BME方法對稀疏土壤水分觀測站點進行空間估計研究[11]。在稀疏植被覆蓋條件下,基于地表溫度和土壤水分的反比關系,將土壤水分與地表溫度建立線性回歸關系,將地表溫度輔助數據表達為服從t分布的土壤水分軟數據,并融合到土壤水分空間估計中。結果表明,與傳統普通克里金、協克里金、回歸克里金方法相比,BME方法在空間估計中融入ASTER地表溫度輔助數據后,所得到的土壤水分空間分布精度更高。
2.2 在大氣污染研究中的應用
近年來環境問題,特別是大氣污染問題越來越受到社會公眾的關注。然而由于大氣中氣體的非平穩性、流動性,使精確估測大氣污染物的空間分布變得尤為困難,而BME可以有效利用不同來源、不同精度的軟數據,使空間制圖成為可能。Christako等利用 BME 方法研究了北卡羅來納州粒徑在 10 μm 以下的可吸入顆粒物(particulate matter with particle size below 10 micron,簡稱PM10)的聚集狀態,表明在站點觀測數據基礎上,引入軟數據(專家經驗)估計州內區域PM10的時空分布會明顯提高估計精度,估計結果也更有意義,這也說明BME較其他空間估計方法在綜合考慮多源數據(確定的和不確定的數據)方面的優勢[12]。Christakos等根據美國加州范圍內11年的站點PM10觀測數據,采用時空統計學方法分析了加州范圍內PM10的分布和變化特點[13]。結果表明,BME方法在研究PM10時空特征分析中非常有價值,并且得到較為精確的PM10空間分布信息。這也是在利用BME進行PM10空間分布研究中,首次嘗試將所有站點觀測數據當作軟數據使用。同時,這為證明BME方法可以服務于實際污染物分布評價以及制圖邁出了重要的一步。Yu等在美國卡羅萊納地區分析不同時間尺度PM10和對流層臭氧時空分布對人類慢性疾病的影響研究中,采用2種基于BME的時間尺度上推策略估計區域PM10和臭氧的時空分布[14]。策略一是先聚合后BME,策略二是先BME后聚合。將結果與普通克里金法相比表明,加入軟數據的BME可以有效地提高污染物時空估計的精度。交叉驗證的結果表明,在時間多尺度的污染物空間分布估計中,2種策略都可以得到較為合理的估計結果。Akita等提出移動窗貝葉斯最大熵(moving window Bayesian maximum entropy,簡稱MWBME)方法對2003年美國空氣中細顆粒物(PM2.5)含量進行估計研究[15]。其中移動窗法考慮到PM2.5的空間非平穩性,BME方法可以解決在大氣監測系統中數據的不確定性以及數據缺失問題。在預測結果中,空間分布有著明顯的空間格局,MWBME法對大氣中非平穩狀態的污染物有著較好的估測效果。
Chistakos等研究了美國境內對流層臭氧含量分布,報道中主要采用時空統計方法(BME),以美國雨云號衛星(Nimbus satellite)大氣污染測量儀的臭氧觀測數據為硬數據,以大氣對流層頂壓力數據估計的臭氧數據為軟數據,估計了大范圍內對流層的臭氧分布,結果表明,由于該方法中引入了根據次級變量估計的軟數據,在一定程度上消除了由硬數據的多點采樣本身所帶有的誤差,因此BME方法得到了高分辨率下精度更高、信息量更豐富的臭氧分布數據,結果明顯優于傳統的其他統計插值方法[16]。Bogaert等對美國加州范圍內對流層臭氧的時空分布作了相關研究,表明BME方法可以估計出更加科學合理、細節更加豐富的臭氧季節變化圖,而且精度要明顯高于美國國家環境保保局(U.S. Environmental Protection Agency,簡稱EPA)使用的方法[17]。Nazelle等在制定美國加州環境污染標準的研究中,利用 BME 方法綜合利用多源對流層臭氧數據來估計臭氧的時空分布,將多尺度空氣質量模擬平臺(multiscale air quality simulation platform,簡稱MAQSIP)模擬數據(軟數據)的精度考慮到估計的過程中,結果表明,與僅利用觀測數據的傳統統計學方法相比,此方法可以給出加州范圍內更高精度的臭氧分布估計[18]。此外,Adam-Poupart等采用克里金方法、土地利用混合效應回歸(land-use regression,簡稱LUR)法以及整合臭氧實測站點、LUR的貝葉斯最大熵(BME-LUR)方法對加拿大魁北克省的地表臭氧含量進行時空估計研究。最終發現,3種方法的預測結果的R2分別為0.414、0.466、0.653,BME-LUR法較克里金方法和LUR法在時空上能更好地估測大氣污染物。同時還發現,BME-LUR模型是空間外推的較優方法[19]。endprint
2.3 在地面溫度研究中的應用
地球是一個較為恒定的生態系統,任何一個系統參數發生較大的改變,都將影響生物的生存與發展,而地球的表面溫度與人類的活動、生存有著重大的聯系,故有必要監測地球表面溫度的變化,這對人類的可持續發展有著重要決策作用。Lee等在研究鳳凰城市熱島效應中發現,當存在較多缺失或不確定的數據時,利用BME方法可以精確地指示城市熱島效應[20]。同時將結果與空間簡單克里金、時空簡單克里金方法比較發現,BME方法均方根誤差(root mean square error,簡稱RMSE)分別比上述2種方法提高35.28%、12.46%。同時改變軟數據的使用數量時發現,軟數據使用的數量越多,均方根誤差越低。
綜合多種數據源衛星產品是提高海洋表面溫度(sea surface temperature,簡稱SST)精度與空間分辨率的方法之一。Li等在亞印太交匯區(joining area of Asia and Indian-Pacific oceans,簡稱AIPO)海域采用BME方法將中分辨率成像光譜儀(moderate-resolution imaging spectroradiometer,簡稱MODIS)/海洋表面溫度(SST)和AMSR-E(advanced microwave scanning radiometer for EOS)/SST數據進行融合,在不同的分辨率下,提出1種將MODIS/SST和AMSR-E/SST結合在一起的誤差模型。考慮到AMSR-E的空間分辨率較粗,空間數值存在一定的不確定性,通過誤差模型將AMSR-E/SST處理后將其作為軟數據,將MODIS/SST數據作為硬數據,最后通過BME方法產生8 d的平均值以及空間分辨率為4 km連續的海洋表面溫度產品數據。結果表明,均方根誤差為0.653 K,偏差為-0.146 K[21],這為后續海洋表面溫度的研究提供了重要參考。
在上述基礎條件下,Tang等采用不同的衛星傳感器[MODIS、AVHRR(advanced very high resolution radiometer)、AMSR-E、TMI(the tropical rainfall measuring missions microwave imager)]的每日海洋表面溫度數據,結合誤差模型和時空協方差模型,利用BME方法將微波海洋表面溫度數據與AVHRR 10年的海洋表面氣象數據作為軟數據,將紅外海洋表面溫度數據作為硬數據進行時空估計。最后得到空間分辨率為4 km、時間分辨率為24 h的海洋溫度產品,并且將結果與實測數據對比,發現均方根誤差為0.72 K,偏差為015 K[22]。
2.4 在其他方面的應用
在耗水量的研究中,Lee等利用水量分配數據、用戶水費賬單、土地利用類型和灌溉定額系數等數據研究了區域耗水量的分布,結果表明,現代統計學中的 BME 方法在制圖過程中融合軟數據有效合理的方法,與沒有利用軟數據的傳統制圖方法相比,此方法明顯提高了制圖的精度,這為進一步研究耗水量影響因子提供了有意義的數據[23]。
在災害預測中,李明陽等以 2004—2008年紫金山國家森林公園風景林 96 個松材線蟲病疫點定點觀測數據為主要信息源,以與松材線蟲危害程度相關的6個生態環境因子作為輔助信息源,采用BME方法對松材線蟲危害程度進行了時空分析,結果表明,借助于地理信息系統(geographic information system,簡稱GIS)平臺和 BME 方法及少量的定點觀測數據,可以對松材線蟲的危害程度進行時空預測,這為森林重大有害生物的入侵預防與控制工作提供了科學依據[24]。
在地下水位的研究中,Bogaert等在 BME 基礎上提出了更一般化的基于貝葉斯數據融合的空間估計方法,并且考慮了融合過程中數據的冗余[25]。Fasbender等將BME方法應用到了比利時代勒河流域地下水位的估計過程中,在空間樣本點數據(鉆井)的基礎上有效地融合了流域內河流網的數據,流域地下水位的估計精度有了很大的提高[26]。
在多源遙感產品融合的研究中,李愛華進行了基于BME方法的多源定量遙感產品融合研究,研究中嘗試了稀疏站點葉面積指數(leaf area index,簡稱LAI)和陸地資源衛星專題制圖儀(landsat thematic mapper,簡稱Landsat TM)反演的LAI融合,以及相同時空尺度的MODIS LAI 和 CYCLOPES LAI 產品的融合[27]。結果表明,得益于 BME 方法可以綜合考慮不確定性數據進行成圖,這種方法為改進遙感產品存在的時空不連續、精度不夠及質量不穩定等問題提供了一種可行的解決方法。
3 總結與展望
作為現代時空統計學重要組成部分的BME方法,經過國內外研究者多年的開發和實踐,已被證明是一個理論上較為成熟、能應用到實際研究中的優秀時空地統計學方法,這給地表要素時空變異性分析和制圖研究注入了新的活力。
在BME方法中,基于信息量和地圖真實形態出現的可能性之間存在1個反比關系的假設,利用Shannon信息量原則將廣義知識表達為自然要素空間實現的1個概率模型,這樣有效利用了統計規律(統計矩)、相關定律、科學原理、專家經驗等知識;基于貝葉斯理論,將先驗階段的廣義知識和以概率密度分布形式表達的軟硬數據邏輯合理、公式推理明確地融合到一起,保證了目標要素在時空分析及制圖過程中信息量的豐富。在提出BME概念之后仍被不斷改進、完善與延伸。目前在土壤特性空間分布及制圖、大氣污染物(PM2.5,PM10)時空分布估測、表面溫度的空間估計、公共衛生等領域已經有了較深入的應用。
與傳統地統計學的空間估計方法相比,BME方法的特點或優勢主要體現在以下幾方面:BME法所得到的估計值是最優無偏估計值,如果軟數據考慮在估計的過程中,BME法的估計過程是非線性的,而克里金估計值是線性估計過程中的最優估計,且只能利用硬數據;以區間或是概率密度形式表達的軟數據或其他的物理規律可以很容易融合到 BME 時空估計過程中,傳統克里金估計只是BME方法的一種特例;BME 估計過程中可以在每個估計點得到1個非高斯分布的概率密度分布(pdf),對pdf的形狀不會有任何限制,據此容易計算得到多種估計指標(均值、方差、置信區間等)。而克里金估計只可以得到估計方差,BME法能估計得到每個待估計點連續的后驗概率密度函數,根據應用目的可以容易計算得到相應的統計信息,因為在每個待估計點,后驗概率密度函數只需要計算1次,這可以極大地減小BME法的計算量[10]。endprint
當然,貝葉斯最大熵方法本身也存在一定的局限性或者亟待解決的問題。比如應用此方法的前提需要有足夠的先驗知識,并且先驗知識在先驗階段需要以一定的數學表達形式出現。另外,作為時空統計學方法,對空間維、時間維數據的尺度統籌顯得尤為重要,但目前時空變異函數模型的發展還沒有很好地解決此問題,時空變異函數模型的研究也成為目前該領域的研究熱點。
隨著遙感技術的發展,尤其是定量遙感對地表要素時空特征的不斷探索[28-29],可以彌補地表傳統點觀測模式數據源的不足,為BME方法在地球科學領域的研究和推廣提供更多時空軟數據源,這使BME方法有更加充足的空間來發揮優勢;另外,依托BME法可以綜合利用相關的多源知識和信息的優勢,可以基于BME法進行地表要素時空多源數據融合以及升降尺度的研究,并且已有相關研究取得初步進展[30]。隨著國內外學者的不斷探索,BME方法在未來地球科學領域會有更廣泛的應用前景。
參考文獻:
[1]Christakos G. Modern spatiotemporal geostatistics[M]. New York:Oxford University Press,2000.
[2]Christakos G. A bayesian/maximum-entropy view to the spatial estimation problem[J]. Mathematical Geology,1990,22(7):763-777.
[3]Christakos G. Some applications of the bayesian,maximum-entropy concept in geostatistics[M]//Maximum entropy and Bayesian methods. Berlin:Springer Netherlands,1991:215-229.
[4]Christakos G. Random field models in earth sciences[M]. San Diego:Academic Press,1992.
[5]Shannon C E. A mathematical theory of communication[J]. Bell System Technical Journal,1948,27(3):379-423.
[6]Ewing G M. Calculus of variations with applications[M]. New York:W. W. Norton Company,1969,62-65.
[7]Lee S J. Models of soft data in geostatistics and their application in environmental and health mapping[D]. North Carolina:University of North Carolina at Chapel Hill,2005.
[8]Douaik A,van Meirvenne M,Tóth T,et al. Space-time mapping of soil salinity using probabilistic bayesian maximum entropy[J]. Stochastic Environmental Research and Risk Assessment,2004,18(4):219-227.
[9]Douaik A,van Meirvenne M,Tóth T. Soil salinity mapping using spatio-temporal kriging and bayesian maximum entropy with interval soft data[J]. Geoderma,2005,128(3):234-248.
[10]DOr D. Spatial prediction of soil properties,the bayesian maximum entropy approach[D]. Louvain-la-Neuve:Université Catholique De Louvain,2003.
[11]Gao S G,Zhu Z L,Liu S M,et al. Estimating the spatial distribution of soil moisture based on bayesian maximum entropy method with auxiliary data from remote sensing [J]. International Journal of Applied Earth Observation and Geoinformation,2014,32(10):54-66.
[12]Christakos G,Serre M L. BME analysis of spatiotemporal particulate matter distributions in North Carolina[J]. Atmospheric Environment,2000,34(20):3393-3406.
[13]Christakos G,Serre M L,Kovitz J L. BME representation of particulate matter distributions in the state of California on the basis of uncertain measurements[J]. Journal of Geophysical Research:Atmospheres,2001,106(D9):9717-9731.endprint
[14]Yu H L,Chen J C,Christakos G,et al. BME estimation of residential exposure to ambient PM10 and ozone at multiple time scales[J]. Environmental Health Perspectives,2009,117(4):537-544.
[15]Akita Y,Chen J C,Serre M L. The moving-window Bayesian maximum entropy framework:estimation of PM2.5 yearly average concentration across the contiguous United States[J]. Journal of Exposure Science and Environmental Epidemiology,2012,22(5):496-501.
[16]Christakos G,Kolovos A,Serre M L,et al. Total ozone mapping by integrating databases from remote sensing instruments and empirical models[J]. IEEE Transactions on Geoscience and Remote Sensing,2004,42(5):991-1008.
[17]Bogaert P,Christakos G,Jerrett M,et al. Spatiotemporal modelling of ozone distribution in the State of California[J]. Atmospheric Environment,2009,43(15):2471-2480.
[18]Nazelle A,Arunachalam S,Serre M L. Bayesian maximum entropy integration of ozone observations and model predictions:an application for attainment demonstration in North Carolina[J]. Environmental Science and Technology,2010,44(15):5707-5713.
[19]Adam-Poupart A,Brand A,Fournier M,et al. Spatiotemporal modeling of ozone levels in Quebec (Canada):a comparison of kriging,land-use regression (LUR),and combined bayesian maximum entropy-LUR approaches[J]. Environmental Health Perspectives,2014,122(9):970-976.
[20]Lee S J,Balling R,Gober P. Bayesian maximum entropy mapping and the soft data problem in urban climate research[J]. Annals of the Association of American Geographers,2008,98(2):309-322.
[21]Li A,Bo Y C,Zhu Y X,et al. Blending multi-resolution satellite sea surface temperature (SST) products using bayesian maximum entropy method[J]. Remote Sensing of Environment,2013,135:52-63.
[22]Tang S L,Yang X F,Dong D,et al. Merging daily sea surface temperature data from multiple satellites using a bayesian maximum entropy method[J]. Frontiers of Earth Science,2015,9(4):722-731.
[23]Lee S J,Wentz E A. Applying bayesian maximum entropy to extrapolating local-scale water consumption in Maricopa County,Arizona[J]. Water Resources Research,2008,44(1):1-13.
[24]李明陽,張曉利,劉 方,等. 基于貝葉斯最大熵模型的紫金山松材線蟲危害程度時空分析[J]. 西北農林科技大學學報(自然科學版),2012,40(7):99-105.
[25]Bogaert P,Fasbender D. Bayesian data fusion in a spatial prediction context:a general formulation[J]. Stochastic Environmental Research and Risk Assessment,2007,21(6):695-709.
[26]Fasbender D,Peeters L,Bogaert P,et al. Bayesian data fusion applied to water table spatial mapping[J]. Water Resources Research,2008,44(12):1-9..
[27]李愛華. 基于貝葉斯最大熵方法的多源定量遙感產品融合研究[D]. 北京:北京師范大學,2011.
[28]弓永利. 基于微波遙感的裸露地表土壤鹽分含量的反演[J].江蘇農業科學,2015,43(11):442-444.
[29]湯 斌,王福民,周柳萍,等. 基于地級市的區域水稻遙感估產與空間化研究[J].江蘇農業科學,2015,43(11):525-528.
[30]高勝國. 融合遙感信息的土壤水分空間估計及升尺度研究[D]. 北京:北京師范大學,2014.于姣妲,殷丹陽,李 瑩,等. 生物炭對土壤磷素循環影響機制研究進展[J]. 江蘇農業科學,2017,45(18):17-21.endprint