羅信,閆奇奇,宋思涵,杜泓達,蘭志璽,龍穎波
(長江大學地球科學學院,湖北 武漢 430100)
辮狀河道在河流沉積體系中分布廣泛,多發育在山區或河流上游的辮狀河段、辮狀河與三角洲的結合處,以及沖積扇上。辮狀河道信息是研究辮狀河沉積特征,識別沉積環境重要信息,對其幾何特征的識別和表征對河流沉積體系現代沉積研究具有重要意義。
近年來,隨著各類遙感圖像數據和遙感解譯軟件工具易得性和應用性的提高,遙感監測被廣泛應用于各種地物的提取,其中用于水體信息提取遙感方法不斷推陳出新。沈占鋒等提出采用高斯歸一化水體指數GNDWI 提取河流水體的模型,使得指數能夠更大程度上保證河流提取的連續性,并通過DEM的輔助實現了其他干擾信息的去除。丁鳳在對水體及其背景地物進行光譜特征分析的基礎上,結合水體在近紅外和中紅外波段均具有強吸收性這一典型特征,提出了一種新型的水體指數NWI。曹子榮采用SVM 監督分類方法進行地表水體提取試驗,證明了SVM 方法在同質性較好地表區域進行分類的適用性。陳云等用基于影像多種特征的CART決策樹分類方法進行地物分類,結論是分類精度較高,尤其較好地提取了圍網養殖區和建設用地。那曉東等以三江平原東北部沼澤濕地為例,利用分類回歸樹算法進行分類提取,發現分類精度較最大似然監督分類方法有明顯提高,是內陸淡水沼澤濕地信息提取的有效手段。
基于影像分類的方法與基于指數計算的方法都有一定的缺點。單一地使用現有的水體提取方法均會混淆一部分地物。使用基于影像的提取的方法,基本可以提取出水體,但仍有小部分的河灘歸為水體,且一小部分水體被誤分為其他地物,尤其對辮狀河道這種形態復雜的水體提取存在明顯的局限性。決策樹分類方法充分利用了空間輔助信息,對影像的多個特征變量進行選擇性組合,識別繁多而有效的信息,從而實現對未知數據的分類、預測和挖掘,具有分類精度高,速度快的優點。因此,本文基于CART 的自動決策樹分類法,以勒拿河入海口的過渡帶為例,利用Landsat 8數據源,進行辮狀河道的提取方法研究。
研究區位于俄羅斯的薩哈共和國布倫斯基區的勒拿河入海口的過渡帶。該區域夏季短暫,每年冰封期長達八個月,具體地理位置為71°0′58.50″~73°22′54.98″N,124°2′49.10″~131°44′29.39″E(圖1)。勒拿河河床上以砂為主,礫石含量較低,屬于砂質辮狀河,它水道和心灘壩較礫質辮狀河穩定,河漫灘寬7~15km,其上遍布湖沼,多河汊,航道變化無常,水深常在16~20m,彎曲度低,小于1.5,分叉系數大于1,對其進行河道水體提取存在一定的難度。

圖1 研究區原始影像圖
本文選取的數據是2018 年6 月28 日Landsat 8 OLI_TIRS的衛星獲取到的研究區域遙感影像數據,影像數據來源于中國科學院計算機網絡信息中心開發建設的“地理空間數據云”(http://www.gscloud.cn/search),該數據已經經過幾何校正和地形校正,因此僅需對下載的數據以ENVI 作為圖像預處理軟件進行輻射校正、大氣校正、圖像裁剪處理。圖2顯示的是研究區域主要地物的波譜曲線,可以發現在波段5(近紅外波段)中,水體與其他類型地物的光譜曲線存在的明顯差別,因此在使用自動決策樹提取水體前,根據研究區地物在近紅外波段的特點進行特征數據集的構建,提高水體提取的精確度。

圖2 研究區主要地物光譜曲線圖
Mcfeeters.S.K 提出的歸一化差異水體指數(NDWI)通過利用水體在不同波段的吸收反射特性進行比值計算,可達到抑制植被信息,增強水體信息的目的。水體在綠波段反射率高,在近紅波段反射率低而植被恰好相反(圖2),基于此將綠波段和近紅外波段的差與和進行比值運算,增強了水體的特征,公式如下:

其中,Green 表示綠波段;NIR 表示近紅外波段。在Landsat8 OLI影像中,分別為2,4波段。
本文采用基于CART的自動決策樹分類法對影像對象進行分類,主要包括生成決策樹樹與決策樹剪枝兩個步驟。首先基于訓練數據集,遞歸構建二叉決策樹;然后用驗證數據集對生成的樹進行剪枝,并選擇最優子樹,以損失函數最小作為剪枝的標準。其中CART分類樹的剪枝過程中損失的度量采用基尼系數,其定義如下:

其中,(/)是訓練樣本集中隨機抽取的某樣本當其測試變量值為時屬于類的概率;n()為訓練樣本中測試變量值為時,屬于第類的樣本個數;()為訓練樣本中該測試變量值為的樣本個數;為類別個數。由于每次分割都只將樣本集劃分為兩個子集,因此最終生成的決策樹是一個二叉樹。
在進行決策樹分類時,合適的波段組合有利于提高分類精度。為了進一步提高水體的分類精度,對預處理后的研究影像分別進行NDWI 水體指數法和ISODATA分類的操作,其中NDWI方法可突出水體的基本信息,ISODATA 分類法則對波段信息進行聚類,將兩種方法的結果影像與原始影像進行組合,構建特征數據集。在組合形成的特征數據集上進行訓練樣本的選取,建立分類規則。實驗中主要是通過目視方法來確定地物的特征種類,在分析了研究區域的主要地物類型后,確定了沙地、裸地、植被、水體、草地五種主要地物。在ENVI 5.3軟件中,利用CART 擴展工具對研究區進行分類,最后選擇分類后的水體,將分類結果轉換為矢量文件輸出。具體實驗流程如圖3所示。

圖3 總體分類流程圖
通過波段組合的方法,將預處理后影像的數據、NDWI 指數數據、ISODATA 分類數據進行波段組合,合并成9個波段的特征數據集,用于本文決策樹分類。圖4中(a),(b),(c)和(d)分別是原始影像、NDWI指數數據、ISODATA 分類數據和合成數據的顯示效果。其中特征數據集的影像中灰色代表了植被,顏色越深表示植被越茂盛,淺色部分代表沙地,黑色部分代表水體。由于研究區域位于勒拿河入海口附近,可以推斷高亮部分的沙地大部分屬于泥沙沉積物。

圖4
CART 決策樹分類是一種典型的監督分類算法,因此訓練樣本的選擇直接影響分類的效果。將研究區分為沙地、裸地、植被、水體、草地5 類地物,在此分類體系下,選擇297 個樣本點作為訓練對象,其中,沙地、裸地、植被、水體、草地的樣本數分別為58、63、53、60、63 個。沙地的樣本來自河流沖刷的泥沙沉積,裸地主要是凍土和解凍的植被稀少區域,植被以灌木叢、林地為主,水域是勒拿河的主干和支流部分等,草地是覆蓋在土地上苔原或者植被區。訓練樣本點也將會作為對比算法(最大似然分類)的樣本,以便于精度分析。
本文方法分類結果和最大似然分類結果如圖5(a)和圖5(b)所示。總體上這兩種方法的分類結果都能夠提取主要的地物類別,尤其對水體主河道的提取效果較好,但是最大似然分類對河流中存在的浮冰、融雪不能很好地分辨,部分浮冰和融雪識別分為沙地,其導致在辮狀河道中存在較多的碎屑物,相比而言本文方法識別的河道更加連續。

圖5 分類結果
采用混淆矩陣對分類結果分別進行精度評價,結果如表1 所示。本文分類精度為96.53%,Kappa 系數為0.9558,水體生產精度達到99.47%,水體用戶精度達到了99.80%;最大似然分類的總體分類精度為93.54%,Kappa 系數為0.9180,生產精度為97.55%,用戶精度為99.36%。相較于最大似然分類法,本文方法表現出了更好的分類精度,總體分類精度是最大似然分類的1.03倍,Kappa 系數是最大似然分類的1.02倍,水體生產精度是最大似然分類的1.04 倍;同時最大似然分類的水體錯分誤差是本文方法的2.56倍,水體漏分誤差是本文誤差的4.22倍。可見本文提出的結合NDWI指數與ISODATA 分類的特征數據集進行CART 決策樹分類的方法是一種更加精確的水體提取方法。

表1 混淆矩陣精度評價
本文針對遙感影像中的辮狀河道識別問題進行了多信息融合的CART決策樹分類研究。在landsat 8原有七個波段上添加NDWI 水體指數和ISODATA 分類數據兩個波段,組合成具有九個波段的特征數據集。基于此,構建CART 決策樹模型對俄羅斯勒拿河部分辮狀河道進行提取。結果表明,相較于最大似然分類法,本文方法表現出了更好的分類精度,其中總體分類精度、水體生產精度和Kappa 系數分別是最大似然分類的1.03 倍、1.02 倍和1.04 倍;同時,最大似然分類的水體錯分誤差和水體漏分誤差是本文決策樹分類的2.56 倍和4.22 倍。說明構建特征數據集后的CART 決策樹分類對辮狀多分叉河道水體的提取具有較好的效果。