徐 陽,徐良驥,張 坤,王明達,吳劍飛
(1.安徽理工大學 空間信息與測繪工程學院;2.深部煤礦采動響應與災害防控國家重點實驗室;3.安徽理工大學 礦區(qū)環(huán)境與災害協(xié)同監(jiān)測煤炭行業(yè)工程研究中心,安徽 淮南 232001)
兩淮礦區(qū)是我國重要的煤炭基地,地下潛水位高,加之多煤層重復開采,導致地表大面積沉陷積水。據(jù)統(tǒng)計,淮南采煤沉陷區(qū)面積已超過200km2,沉陷水域面積達到110km2[1]。為合理開發(fā)利用采煤沉陷水域水資源,需要對沉陷區(qū)水深進行精準勘測,從而獲得采煤沉陷水域水資源量。
相較于以往實地測量的方法,遙感反演可以快速高效地獲取大面積水域的水深信息[2]。利用遙感數(shù)據(jù)反演水深方面的研究和應用始于上世紀70年代,Tanis等構建了水質較清水體反射率較高的單波段理想水體深度反演模型[3];Tripathi等利用IRS-1DLISS-III衛(wèi)星遙感資料構建基于最小二乘法的經驗反演模型,并引入濁度影響因子對印度Kakinada海灣地區(qū)的水下地形進行了精確地反演[4];張鷹等利用Landsat-7 ETM+遙感影像構建動量BP人工神經網絡水深反演模型,對長江口北港河道上段水深進行了準確的研究[5];王艷姣構建了基于波段組合的水深反演模型,實現(xiàn)了對有懸浮泥沙的水體深度的準確反演[6];鄧軍通過分析水深值和水體反射率的關系建立了多元回歸反演模型,以徐州九里坍塌湖為實驗對象,驗證其精度明顯優(yōu)于單因子反演模型[7];彭蘇萍等使用相關系數(shù)最大的TM4波段建立水深值與像元反射率的回歸模型,將水深兩米作為閾值應用于淮南潘一礦的沉陷水域得到了較為精確的結果[8]。
遙感反演是快速獲取大面積水域水深數(shù)據(jù)的理想手段,學界在建立和優(yōu)化不同環(huán)境條件下水深反演模型方面做了大量研究。但是建模數(shù)據(jù)集的劃分對模型精度影響很大,這方面還需要深入研究。本文采用隨機樣本集劃分法和SPXY樣本集劃分法劃分樣本數(shù)據(jù)集,建立水深反演模型,對淮南礦區(qū)謝橋煤礦采煤沉陷水域水深進行了反演。
淮南礦業(yè)(集團)謝橋煤礦位于安徽省潁上縣東北部,距潁上縣城約20km,井田東西走向長11.4km,南北寬4.5km,面積約為50km2。全井田劃分兩個水平,第一水平-610m,第二水平-900m。研究區(qū)內年均降雨量約為1040mm。沉陷水域豐水期的最大水深為15.38m,平均水深為2.10~8.40m;沉陷水域枯水期的最大水深為14.50m,枯水期平均水深為1.50~7.50m[9]。
2.2.1 隨機樣本數(shù)據(jù)集劃分法(RS)
該方法是最簡單的樣本數(shù)據(jù)的劃分方法,其基本思想就是根據(jù)建模組與檢驗的分配比例,隨機選取一定數(shù)量的樣本作為檢驗組,其余樣本作為建模組[10]。該方法操作簡便,無需進行任何計算,易于實現(xiàn),是廣泛用到的一種劃分方法。但是由于數(shù)據(jù)集選取的隨機性使得該方法的缺點也極為明顯,當樣本過少時無法確定所選樣本的代表性,從而令擬合模型達不到理想的精度要求[11]。
2.2.2 光譜—理化值共生距離法(SPXY)
SPXY算法是一種基于統(tǒng)計基礎的樣本劃分方法,因其在覆蓋多維向量空間上的有效性,所以能夠顯著地提高所建立模型的預測精度[12]。該算法的基礎是KS(Kennard-Stone)算法,KS算法考慮選取光譜差異最大的樣本,計算待選樣本與已選樣本之間的最大歐氏距離依次選取足夠數(shù)量的樣本[13]。但是使用KS算法進行樣本數(shù)據(jù)集劃分時只考慮光譜特征變量(x)忽略了待測目標(y)對數(shù)據(jù)選取的影響,于是Galvao等人提出了兼顧光譜信息與理化目標值的SPXY算法[14]。SPXY在計算樣本間距離時會同時考慮x變量和y變量上的歐氏距離,其距離計算公式如下:

式中J表示光譜中的波段數(shù)。xp(j)和xq(j)分別表示p,q兩個樣本在第J個波段上光譜反射率的值,N為樣本的總數(shù)。dx(p,q)代表兩個樣本在x空間(光譜特征空間)的歐氏距離。

式中yp和yq分別表示樣本待描述的理化特征值(本文為水深),為兩個樣本在y空間(水深特征空間)的歐氏距離。
同時考慮x和y空間,該算法計算公式用dxy(p,q)代替了KS算法中的dx(p,q),并且為了確保樣本數(shù)據(jù)在x和y空間上的權重相同,用dx(p,q)和dy(p,q)分別除以樣本空間的最大值得到標準化后的距離公式如下:
式中dxy(p,q)為示考慮兩個空間的歐氏距離,和分別表示p與q兩個樣本在x和y空間歐氏距離的最大值。
SPXY算法選擇樣本的步驟如下:
假設樣本總數(shù)為N,需從中選取M組樣本。
(1)計算所有待選樣本兩兩之間的歐氏距離dxy(p,q),選取距離最大的兩個樣本記為M1,M2。
(2)計算剩余N-2個樣本與兩個已選樣本之間距離。
(3)選取剩余樣本與已選樣本的最小值min(dxy(p,M1),dxy(p,M2))作為待選組。
(4)從待選組中選取與已選樣本的距離最大的樣本作為M3。
(5)重復上述步驟,直至選出M組樣本。
為了確定經SPXY算法劃分樣本數(shù)據(jù)集后的水深反演模型的預測精度,引入決定系數(shù)(Coefficient of Determination),均方根誤差(Root-meansquare error,RMSE),以及平均絕對誤差(Meanabsolute error,MAE)三個反映模型擬合效果的指標對水深反演模型進行精度評價[15,16]。

沉陷區(qū)水深反演的原理在于,根據(jù)光在水中傳播的衰減性質建立波段值與實測水深值之間的線性或非線性的擬合模型[17,18]。
2.4.1 單波段模型
單波段模型的提出是基于Bouguer定理,在水體的衰減系數(shù)以及底質的反射率為常量的理想條件下,傳感器接收的輻射量隨著水深的增加以指數(shù)形式衰減[19],即:


式中:IZ與I0分別表示光在水深Z處和水體表面的輻射亮度;α為水體中的輻射衰減系數(shù);RE表示傳感器接收到的輻射亮度;k是由太陽輻射和大氣水體折射等因素影響的綜合因子;Rb為底質反射率值;RW為深水區(qū)輻射亮度。
由上式變形可得水深表達式:


根據(jù)影像波段值與實測水深值進行線性擬合可獲得待定系數(shù)a、b的值。
2.4.2 多波段模型
多波段模型是為了破除單波段模型只適用于水質較清、底質單一且水深較淺水域的局限性,由Paredes等于1983年提出的,理論上不受水深和底質的影響,提高了反演模型的適應性[20]。
根據(jù)單波段模型推導過程可得多波段模型公式如下:

2.4.3 神經網絡模型
神經網絡通過已有的訓練集來“學習”以達到預期效果,因其在非線性擬合中具有較好的逼近能力,被廣泛應用于水深的遙感反演[21]。在進行反演是一般采用三層神經網絡即:輸入層、輸出層、隱含層,來表示光譜反射率值與水深的非線性映射關系。神經網絡模型如圖1所示。

圖1 神經網絡模型示意圖
神經網絡模型的訓練過程包含誤差的逆向傳播和輸入信息的正向傳播,當輸出結果與期望結果誤差小于閾值或訓練次數(shù)達到既定上限,學習完成。
課題組于2018年使用智能測深無人船對該水域進行了實地觀測,研究區(qū)域由于多年煤礦開采沉陷積水面積較大,由于矸石堆積淋濾水以及生活污水匯入積水區(qū)使得該區(qū)域水質相對較差,為水深反演帶來一些阻礙。故選取合適的590個實測數(shù)據(jù),作為反演基礎。
本文選取2018年9月份Sentinel-2B高分辨率多光譜影像作為反演影像。該影像涵蓋13個不同的波段,幅寬可達290km。
獲取遙感數(shù)據(jù)時會受到大氣、光照等多種因素的影響,因此在進行實驗前需要對獲取的數(shù)據(jù)進行一定的預處理。此次預處理步驟主要包括:輻射定標、大氣校正、坐標配準等。最后將遙感數(shù)據(jù)與水深實測點的坐標進行匹配,進而獲得水深實測點對應遙感影像各波段的輻射亮度值。
遙感光譜的各個波段均能與水深建立相關的反演模型,但多光譜乃至高光譜數(shù)據(jù)量較大,全部建立模型再比較反演精度耗時太長,因此在建立模型前對各個波段與水深的相關性進行分析可大大簡化模型建立的過程。通過分析可知Sentinel-2B影像波段2、3、4、8反射率的值與水深的相關性較高,因此選用這四種波段進行模型的構建。四種波段反射率與水深的相關性如表1所示。

表1 波段反射率與水深相關系數(shù)
分別采用隨機樣本數(shù)據(jù)集劃分法和SPXY樣本數(shù)據(jù)集劃分法將通過像元坐標法對各點光譜數(shù)據(jù)集提取后不同深度的590個水深樣數(shù)據(jù)集劃分為5:1的建模組和檢驗組,然后建立基于不同樣本數(shù)據(jù)集劃分方法的線性擬合模型和神經網絡預測模型,并計算每種模型在檢驗組中的水深反演精度,結果如表2所示。從表2中可以知道,經過SPXY方法進行樣本數(shù)據(jù)集劃分以后的模型對沉陷區(qū)水深反演的精度明顯高于基于隨機樣本數(shù)據(jù)集劃分的模型。其中兩種線性擬合模型的R2分別提高了0.008和0.022,單波段線性擬合模型的RMSE和MAE分別降低了0.02m和0.043m,多波段線性擬合模型的RMSE和MAE降低了0.019m與0.024m;神經網絡模型的精度提高較為明顯其R2提高了0.05,與此同時RMSE和MAE分別降低了0.097m和0.065m。由此可知多波段線性擬合模型和神經網絡預測模型在淮南礦區(qū)沉陷水域水深遙感反演的應用中有著較好的反演能力。為更好的體現(xiàn)每種算法的反演精度,將檢驗組的實測水深值作為橫坐標反演水深值作為縱坐標,繪制出該反演模型的散點圖,圖3為基于不同樣本數(shù)據(jù)集劃分方法的線性擬合模型和神經網絡預測模型的散點圖。從圖3中可以看出,多波段線性擬合模型和神經網絡模型的點大多分布與y=x這條線上或在其周圍,離散程度較小,擬合效果良好,表明反演的水深值與實測的水深值相差較小,反演效果較好;相比之下,單波段線性擬合模型的散點圖離散程度較大,尤其是在深水區(qū),偏離較為明顯,擬合精度不高??梢酝茰y,單波段模型不適用于兩淮礦區(qū)沉陷積水區(qū)水深反演。

圖3 水深實測值與反演值比較

表2 水深反演模型精度驗證參數(shù)
對比RS樣本數(shù)據(jù)集劃分法與SPXY樣本數(shù)據(jù)集劃分法的三種不同模型的散點圖可以看出,基于SPXY建立的三種反演模型其擬合線的斜率明顯增大,在散點圖上表現(xiàn)為擬合線更趨向于y=x這條線。說明經過SPXY進行數(shù)據(jù)集劃分,模型的反演能力有所提升。其中單波段線性擬合模型在深水區(qū)的離散程度也明顯變小說明,該方法對深水區(qū)反演效果較差的問題也有的一定的改進。
為了進一步分析SPXY樣本數(shù)據(jù)集劃分法在不同水深的情況下對模型的優(yōu)化程度,故將檢驗組劃分為0-3m、3-6m、6-9m三個區(qū)域,計算三個水深范圍內的RMSE,以此驗證精度。經計算得出水深分段后各模型RMSE如表3所示。

表3 不同水深模型反演精度對比
由表3可知,經SPXY算法優(yōu)化后在多數(shù)情況下反演效果較隨機樣本數(shù)據(jù)集法好,其中單波段線性擬合模型在0-3m的淺水區(qū)反演效果較差,分析其原因是由于較淺水域受水產養(yǎng)殖、水體富營養(yǎng)化等因素影響,單個波段在此區(qū)域內有較大的衰減系數(shù);隨著水體深度增大,在6-9m范圍內懸浮泥沙較多,水體混濁,因此各反演模型均難以取得較好的反演效果。鑒于沉陷水域深水區(qū)占少數(shù),整體精度依然較為理想。綜合考慮,認為基于SPXY樣本劃分的神經網絡模型能夠對兩淮礦區(qū)沉陷水域水深進行較為精確的反演。
本文利用Sentinel-2B多光譜影像,選取相關性較高的波段,分別使用隨機樣本數(shù)據(jù)集劃分法和SPXY樣本數(shù)據(jù)集劃分法通過單波段線性擬合、多波段線性擬合與神經網絡模型三種方法建立水深值與波段反射率之間的擬合關系,開展淮南礦區(qū)沉陷水域水深反演研究,對比隨機樣本數(shù)據(jù)集劃分與SPXY樣本數(shù)據(jù)集劃分得到模型的反演精度,得到結論如下:
(1)多波段線性擬合和神經網絡模型在淮南礦區(qū)沉陷水域水深反演應用中效果較好(隨機樣本數(shù)據(jù)集劃分法與SPXY樣本數(shù)據(jù)集劃分法的RMSE基本都在1m以下),單波段線性擬合反演效果不理想(SPXY與隨機樣本數(shù)據(jù)集劃分法的RMSE分別為1.455m和1.475m)。
(2)沉陷水域積水較深地區(qū)(6-9m),水深反演的精度較差,分析其原因是由于水中懸浮泥沙較多,濃度,粒徑也有較大差異,使得光譜反射率產生了較大的影響,導致水體的輻射衰減異常改變,導致水深反演精度降低。
(3)基于SPXY樣本數(shù)據(jù)集劃分法對建模樣本進行選擇后建立的遙感水深反演模型相對于基于隨機樣本數(shù)據(jù)集劃分法建立的模型的R2、RMSR、MAE均有明顯的改進,其中神經網絡模型的改進效果最為明顯,其R2提高了0.05,RMSE和MAE分別降低了0.097m和0.065m。