劉東杰
(蘭州大學資源環境學院,甘肅 蘭州 730000)
遙感影像分類是近年來遙感衛星影像應用的研究熱點之一[1,2],對于進一步開展土地利用/覆被信息調查、分析土地利用類型變化具有重要意義。最早人們通過目視解譯作為分類方式進行提取,但其嚴重依賴判讀人員的先驗知識,易受個人差異影響,且時效性差[3]。隨著技術的不斷進步,計算機視覺領域的圖像分割技術逐漸被應用于遙感影像的分類識別中。圖像分割是一種通過紋理、灰度與空間幾何等不同特征對圖像不同區域進行分割,并增強同一區域內特征一致性的技術[4],根據影像的最小處理單元可以分為基于像元的分類和基于對象的分類兩種方法。
基于對象的圖像分析 (Object-Based Image Analysis,OBIA),是一種高效、可靠的自動化圖像分割分類技術,能夠通過紋理、形狀、大小等特征在目標圖像中生成包含多個像素的矢量對象。目前已有大量學者針對面向對象進行了相關應用研究[5,6]。其基本原理為通過多尺度影像分割,生成內部有較小差異的同質目標[7]。與基于像元的傳統分類方法相比,OBIA 可以充分利用不同對象間幾何信息、結構信息與光譜信息的差異進行信息提取,克服基于像元分類中常見的椒鹽現象[2],從而在中高分辨率影像上取得更好的分類結果。
機器學習技術通過多年來的不斷發展,已經成為了人工智能領域的重要研究方向,并廣泛應用于信號處理、模式識別、大數據分析等多個領域。傳統的機器學習研究方向主要包括隨機森林[8]、人工神經網絡[9]等。結合面向對象與機器學習對遙感影像進行信息提取有助于提升分類效果,提取到更有價值的地物信息。本文將結合貝葉斯網絡、J48決策樹與隨機森林對比三種方法在landsat-8 衛星影像上的分類效果。
選擇landsat-8 OLI 衛星影像作為本文使用的數據,裁剪其中1024*1024 的區域作為目標研究區。多光譜波段空間分辨率為30 米,成像時間為2017 年7 月26 日10 點56 分13 秒,影像的中心坐標為30°18' 7.16'' N 113°50' 22.17''E。本文使用的Landsat 8 影像采用WGS84橢球體模型,UTM投影分帶號為49,整體云量小于3%,整體質量較高,如圖1。

圖1 目標研究區
研究區坐落于為湖北省洪湖市與嘉魚縣交界地區,海拔在23 至28 米之間,以南部較高,北部較低的特點形成自東南向西北緩慢傾斜的地勢。境內河道交錯密集,布滿大小不一的湖泊,境內主要地物類型有耕地、河流、森林、公路、湖泊、裸地、城鎮居民地等。為了消除研究區影像中大氣散射導致的輻射誤差,對數據依次進行輻射定標、FLAASH 大氣校正以完成預處理。
貝葉斯網絡[10]本質上是一種有向無環圖,包含多個代表變量的節點,并利用不同節點間連接的有向邊表示節點之間的相互關系,可以很好地表達抽象、模糊的信息,在對概率性事件或不確定性較大事件的分析上有十分廣闊的應用前景。可以通過使用概率測度權重描述不同數據之間的相關性來處理帶有噪聲的數據,同時,其本身也具有多元知識圖解可視化表達的分析能力,易于按照信息的相關關系進行融合,有助于先驗知識和概率的結合[11]。
決策樹是一種貪心算法,基本原理是從根節點開始自頂向下結合樣本集遍歷每個非葉結點以決定決策屬性。而J48決策樹是1993 年在ID3 算法的基礎上進行改進提出的一種更高效的算法。分類規則直觀可靠、易于理解,主要通過信息增益率進行屬性選擇,通過篩選信息增量最大的特征值作為子節點,確定最佳分裂的指標。相比于之前的ID3 算法,其通過剪枝減少過擬合概率,并具有處理連續屬性值或含有缺失屬性樣本的能力[12]。
隨機森林[13]作為一種改進的決策樹算法,在樣本和屬性兩個方面都具有一定的隨機性,常用于處理分類、回歸問題。算法利用bootsrap 技術隨機有放回地抽取多個樣本,并根據每組取得的樣本建立決策樹,隨機組合以得到隨機森林,最后通過投票概率得到最優分類結果。每一棵樹個體的分類能力以及各樹之間的相關性都與整體算法誤差息息相關,可通過改變不同剪枝方式或修改樹的數量來對分類精度進行優化。目前隨機森林已廣泛應用于土地覆被分類[14]、農業[15]、林業[16]等眾多領域。
使用多尺度分割算法進行面向對象提取,將目標影像分割成具有高內部同質性,高外部異質性的影像對象。多尺度分割包含三個重要的影響參數:尺度因子(scale)、形狀因子(shape)和緊湊度因子(compactness)。形狀因子越高,圖像分割效果越整齊,緊湊度因子越低,地物分割效果越細碎。同時考慮采用不一致評價法對多尺度分割參數進行優化,結合歐幾里得距離與尺度特征的關系對影像參數進行最終的確定。
樣本類型及解譯標志如表1 所示,暫時將道路歸為building 類中;水田與魚塘也都暫時歸入到Farmland-wet 類中。根據研究區地理特征、自然狀況,結合Google Earth 高分影像應用目視解譯的方法選取研究區訓練樣本,經面向對象分割后研究區一共得到11539 個對象。選取其中每一類不少于50 塊的七類對象集作為訓練樣本,并為后續工作建立分類規則。

表1 樣本解譯標志對照
特征選擇利用樣本集內部信息,從待選特征集合中篩選一個最優特征子集,從而達到降低特征空間維數,提高分類器實際分類性能的作用。 以 WEKA 自帶的ReliefFAttributeEval 作為屬性評測算法,結合光譜、幾何、紋理等特征集合進行特征優選,選取特征類型見表2。最后將多尺度分割結果結合優選特征屬性利用貝葉斯網絡、J48 決策樹與隨機森林進行分類。

表2 候選特征集
尺度因子閾值范圍設為30-100,通過多組實驗對比發現,尺度30 和50 出現了明顯過分割,很多地物類型分的過小過細;而尺度80 和100 的分割結果又有著欠分割狀況,綜合來看在60 尺度下分割結果與實際地物擬合程度最高。在目視解譯的基礎上,通過不一致性評價法結合ED2 與尺度因子的相互關系綜合考慮,對多尺度分割參數進行優選,最終將shape 值設為0.1,compactness 值設為0.5,得到的多尺度分割局部影像見圖2。

圖2 多尺度分割后的局部影像(底圖為假彩色合成影像)
如表3 所示,取計算結果中相關性排名前八的特征作為輸入特征,分別為:歸一化植被指數(NDVI)、近紅外波段(Mean Layer 5)、歸一化差異水體指數(NDWI)、差異環境植被指數(DVI)、比值植被指數(RVI)、標準差(Standard deviation Layer)、紅光波段(Mean Layer 4)與波段間最大差異指數(Max. diff.)。將優選結果結合貝葉斯網絡、J48 決策樹以及隨機森林對目標研究區進行土地覆被分類。

表3 特征優選結果
基于對象的貝葉斯網絡、J48 決策樹與隨機森林算法的分類結果見圖3,貝葉斯網絡與J48 決策樹分類器都將研究區西北部含水量較大的水田標識為湖泊,且對于湖心島以及水稻田的提取效果較差,而針對村莊與水田之間的道路的提取也存在著較為突出的問題。整體來看隨機森林算法優于另外兩種方法,水田與湖泊誤分情況明顯減少,影像中局部道路等細節也較好,但是依然有部分地物(如湖心島中的未開發土地)存在識別誤差。總的來說對于三種分類方法,與實際地物類型相比誤差集中出現在:水田- 湖泊;裸土- 建筑物;旱地- 森林之中;旱地- 裸土中。其中收到季節影響,部分作物正處于收割期或播種期,可能會導致旱地大面積呈裸土狀,從而影響最終的分類效果。

圖3 基于對象的貝葉斯網絡結果(右上)、J48 決策樹結果(左下)與隨機森林分類結果(右下)
由表4 可知,在相同檢驗樣本的條件下,隨機森林算法的整體分類精度為92.54%,Kappa 系數為0.901,誤差主要出現在建筑物、裸土之中,而湖泊、河流整體提取效果較好。相比于貝葉斯分類器與J48 決策樹的分類結果,隨機森林取得了更高的分類精度。

表4 精度評價對比
本文結合了面向對象以及三種不同機器學習算法,基于典型地物訓練樣本進行了覆被分類研究,均取得了不錯的分類效果。其中基于隨機森林的算法相比貝葉斯網絡和J48 決策樹有更好的典型地物識別準確率和更高的Kappa 系數。實驗結果表明結合機器學習與基于對象的遙感影像分類算法可以有效利用不同對象間幾何信息、結構信息與光譜信息進行特征提取,從而達到提升土地覆被分類準確性的目的。分類識別的過程中,三種分類算法都遇到了針對復雜地物類型錯誤識別的問題,比如設置的水田和旱田都遠遠不夠代表研究區內復雜的作物類型,如何有效提升分類精度還需進一步進行討論與研究。