廣州市城市規(guī)劃勘測設(shè)計研究院 劉復(fù)
以水利部水文局信息中心在全國范圍內(nèi)的重點監(jiān)測湖庫為研究對象,基于高分一號衛(wèi)星影像提取的水體矢量數(shù)據(jù),引入空間自相關(guān)原理建立多元回歸分析模型擬合湖庫水域面積變化趨勢,建立了湖庫水域面積時空變化規(guī)律的回歸模型。通過南四湖及其周邊湖庫面積變化的相關(guān)性建立了反映目標(biāo)湖庫與周邊湖庫水域面積變化趨勢的多元回歸模型,實現(xiàn)了監(jiān)測頻度較低的湖庫水域面積變化的回歸擬合,試驗結(jié)果表明,此方法可以解決由高分影像條帶性分布導(dǎo)致的條帶間大型湖庫監(jiān)測頻數(shù)較低的情況,并可推廣到任意一組在空間距離較近的湖庫上。
水體時空變化動態(tài)監(jiān)測是遙感應(yīng)用于資源與環(huán)境變化研究的一個熱點方向。及時、準(zhǔn)確地獲得水體變化信息可以為水資源保護、利用和可持續(xù)發(fā)展提供有力的支持,而遙感技術(shù)的快速、高覆蓋度和周期性等特點則使水體動態(tài)變化監(jiān)測成為了可能。我國在衛(wèi)星遙感方面的研制在最近幾年進步速度較快,擁有較高空間分辨率的高分衛(wèi)星影像已投入民用,用于水體提取和分析效果較好,接下來也有望將成為國內(nèi)水資源分析與監(jiān)測的主要數(shù)據(jù)來源。
本課題的實驗數(shù)據(jù)為通過高分影像提取的全國重點監(jiān)測湖庫矢量文件,時間來源為2017 年,以旬為組織形式共計36 期。高分影像能以較高精度快速捕獲地物的變化信息,但生產(chǎn)過程中尚有幾點問題存在。
(1)高分衛(wèi)星對地觀測時,其影像呈明顯的條帶型分布,在這種不均勻的覆蓋條件下,同一區(qū)域內(nèi)各湖庫的監(jiān)測頻數(shù)可能有較大分異。同時,影像邊緣有可能正好將一個完整湖庫切成兩個部分,這對于水利部門重點關(guān)心的大型湖泊而言司空見慣,導(dǎo)致某些大型湖庫的記錄數(shù)少于其周邊小型湖庫。(2)為保證水體提取的準(zhǔn)確度,只選用云量小于10%的影像。我國幅員遼闊,氣候條件千差萬別,北方地區(qū)日照較充足,而南方地區(qū)大部分時間濕熱多雨,故北方湖庫被監(jiān)測到的次數(shù)明顯多于南方,另外同一湖庫夏季(6 ~9 月)的記錄數(shù)也會遠(yuǎn)少于其他諸月。
故本實驗解決的問題是,應(yīng)用地理空間自相關(guān)和多元回歸分析原理,建立實驗區(qū)內(nèi)大型湖泊與其周圍的中小型湖庫的時空面積變化關(guān)系,通過周邊湖庫的面積變化推測出所選大型湖泊的面積變化趨勢,以解決水利部門的監(jiān)測需求。
2.1.1 多元回歸分析原理
多元回歸分析是指通過回歸方程,建立一個因變量和其他一個或多個自變量之間線性或非線性數(shù)學(xué)模型數(shù)量關(guān)系式,并利用樣本數(shù)據(jù)進行分析的統(tǒng)計分析方法。

誤差的平方寫成矩陣形式如式(2)所示:

求導(dǎo)后展開并化簡如式(3)所示:

然而,當(dāng)回歸模型中的自變量之間存在較高線性相關(guān)關(guān)系時,最小二乘回歸建立的模型將可能產(chǎn)生較大的失真現(xiàn)象。本實驗所選用的數(shù)據(jù)為水域面積變化數(shù)據(jù),正是基于同一空間范圍內(nèi)水域面積變化大致相關(guān)這一結(jié)論進行分析,所以此處需要采用嶺回歸分析法對多元回歸模型進行改良。通過放棄最小二乘法的無偏性,以損失部分信息、降低精度為代價獲得回歸系數(shù)更為符合實際、更可靠的回歸方法,這種方法對病態(tài)數(shù)據(jù)的擬合要強于最小二乘法。嶺回歸通過引入正則改正項來避免過擬合,在原先的B 的最小二乘估計中加一個小擾動λI,解決了原先無法求廣義逆的情況,使得問題穩(wěn)定并得以求解,如式(4)所示:

2.1.2 R 語言
R 是專門面向統(tǒng)計分析與制圖的語言,其本身集成了大量統(tǒng)計計算模型與繪圖包,具有高度可拓展性,其本身包含高效的數(shù)據(jù)存取與處理機制、完備的計算操作符集合、大量統(tǒng)一的數(shù)據(jù)分析中間件以及支持多種顯示環(huán)境的制圖圖形工具。同時,R 語言是一種簡單高效的編程語言,包含條件語句、循環(huán),遞歸函數(shù)以及輸入輸出機制。
本實驗的總體技術(shù)路線圖如圖1 所示。

圖1 總體技術(shù)路線圖Fig.1 Overall technical roadmap
本實驗選擇南四湖(微山湖、昭陽湖、獨山湖和南陽湖)湖區(qū)作為研究對象。選擇其周邊云龍湖水庫、崔賀莊水庫、西葦水庫、馬河水庫、戶主水庫、巖馬水庫、石嘴子水庫、書房水庫、周村水庫、雙河水庫、會寶嶺水庫合計11 個水庫于2017 年全年的監(jiān)測記錄作為多元回歸分析的自變量。相對于其他大型湖泊而言,這一地區(qū)的監(jiān)測記錄較為豐富,各湖全年記錄除南四湖本身外均超過20 條,符合本實驗的應(yīng)用場景。實驗區(qū)湖庫空間分布如圖2 所示。

圖2 實驗區(qū)湖庫空間分布圖Fig.2 Spatial distribution of lakes and reservoirs in the experimental area
實驗采用嶺回歸的分析方法,每做完一步回歸,都需檢驗各個自變量的顯著性,剔除不顯著的變量后重新進行回歸分析,直至全部自變量均顯著為止,此時的模型自變量之間擾動程度最小,模型最優(yōu)。
回歸模型結(jié)果如下所示。


從圖中第一列為模型基本參數(shù),其中Intercept 為截距,其他11 項為各個湖庫的系數(shù),另外最后一列為顯著性檢驗情況,下方顯示了模型的其他參數(shù),包括嶺參數(shù)λ 為0.1958722、模型自由度2.949、方差2.39 和殘差3.508。由結(jié)果可見,部分湖庫的參數(shù)為負(fù)值,這說明在此模型內(nèi)對應(yīng)的自變量與因變量呈現(xiàn)負(fù)相關(guān),無法通過顯著性檢驗結(jié)果,故接下來需剔除未通過檢驗的變量并重新進行嶺回歸分析。此迭代工作直至全部自變量呈現(xiàn)顯著為止。多次迭代后模型最終只保留x、x兩個變量,其具體參數(shù)如下所示。

可見模型自由度降為1.943,方差降為1.89,殘差降為1.997,所有變量均通過假設(shè)性檢驗。故可得因變量與自變量的回歸方程如式(5)所示:

x
、x
分別對應(yīng)云龍湖水庫和西葦水庫,只要這兩個湖庫有對應(yīng)旬的記錄,即可通過此方程即可求得南四湖的同一時段的水域面積。在本例中,南四湖記錄缺失且云龍湖水庫和西葦水庫均有記錄的情況共有6 旬,可補齊6 個記錄,其全年記錄情況如表1 所示,單位為平方千米。其中黑色字代表南四湖原有記錄,紅色字代表通過多元回歸模型求得的記錄,灰色字NaN 代表缺失值。
本章實驗的目的是研究由周邊的湖庫水域面積的變化趨勢預(yù)測指定湖庫的水域面積變化趨勢的方法,實驗從水域面積空間自相關(guān)出發(fā),最終用嶺回歸的方法求解了南四湖與其周邊湖庫水域面積變化的多元回歸方程。在進行回歸分析時,由于需要避免自變量間相關(guān)性較強導(dǎo)致模型擬合精度下降的問題,需要在回歸過程中進行迭代剔除自變量的計算,故最先輸入的11 個周邊湖庫最終只有上述2 個被計入回歸方程。從空間分布上看,南四湖呈西北-東南向條帶型分布,這兩個湖庫分別位于南四湖湖區(qū)的北部與南部,空間距離較遠(yuǎn),所以兩者分別與南四湖湖區(qū)的北部與南部呈現(xiàn)較強的空間相關(guān),符合構(gòu)造多元回歸方程的條件和本實驗的應(yīng)用場景。
從表1 看,南四湖17 年全年原有記錄16 條,回歸方程的應(yīng)用可以再增添6 條記錄,使總數(shù)達(dá)到22 條。另外,南四湖、云龍湖水庫和西葦水庫均有記錄的旬?dāng)?shù)為10 旬,故可通過回歸方程計算其原有記錄與預(yù)測記錄的差異情況,如表2 所示。

表1 按回歸方程求得的南四湖面積表(km2)Tab.1 Area of Nansi Lake calculated by regression equation (km2)

表2 南四湖面積原值與預(yù)測值比較(km2)Tab.2 Comparison between original value and predicted value of Nansi Lake area (km2)
其中原值序列平均值722.1959,方差32174.67。預(yù)測值序列平均值718.2069,方差32951.16,從數(shù)據(jù)上看無較大差異,且已知進行回歸分析時各個自變量均已通過顯著性檢驗,故可認(rèn)為該回歸方程能較好地預(yù)測出南四湖的面積變化情況,符合實驗的目標(biāo)。
此方法是針對預(yù)先提取好的、以旬為序的水體矢量進行變化趨勢預(yù)測的一種實驗方法,如前所述,由于云量問題,本實驗的數(shù)據(jù)記錄大多集中在冬春季節(jié),每年7 ~10 月記錄奇缺。在實驗數(shù)據(jù)源不改變的情況下,該方法對每年冬春季的數(shù)據(jù)有較佳的擬合效果,在夏季則很難有發(fā)揮空間,后續(xù)可以通過應(yīng)用微波遙感的影像補充夏季的水體提取記錄,實現(xiàn)此方法的完整應(yīng)用。
本方法也可以應(yīng)用于解決由高分影像條帶性分布導(dǎo)致的條帶間湖庫監(jiān)測頻數(shù)較低的情況,并可推廣到任意一組在空間距離較近的湖庫上,只需保證自變量記錄數(shù)較充足即可。
本章從監(jiān)測結(jié)果產(chǎn)生的具體問題入手,應(yīng)用地理空間自相關(guān)原理,以南四湖為例,基于多元回歸分析的嶺回歸方法,由大型湖庫周邊的小型湖庫水域面積的變化情況求解反映此大型湖庫的水域面積變化趨勢的多元回歸方程,保證了模型的最優(yōu)化。此方法只需保證自變量記錄數(shù)較充足即可計算記錄相對較少的因變量,可幫助水利部門掌握記錄數(shù)不足的重點監(jiān)測湖庫的水域面積變化情況。
引用
[1] 李景剛,李紀(jì)人,黃詩峰.近10年來洞庭湖區(qū)水面面積變化遙感監(jiān)測分析[J].中國水利水電科學(xué)研究院學(xué)報,2010,8(3):201-207.
[2] 成晨,傅文學(xué),胡召玲.基于遙感技術(shù)的近30年中亞地區(qū)主要湖泊變化[J].國土資源遙感,2015,27(1):146-152.