999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于隨機森林的綠洲典型濕地信息提取

2019-06-25 08:57:12丁建麗王敬哲葛翔宇
中國農村水利水電 2019年6期
關鍵詞:分類特征

顧 峰,丁建麗,王敬哲,葛翔宇

(1.新疆大學資源與環境科學學院 智慧城市與環境建模自治區普通高校重點實驗室,烏魯木齊 830046; 2.新疆大學 綠洲生態教育部重點實驗室,烏魯木齊 830046)

濕地在維系區域生態平衡及保護生物多樣性方面具有不可替代的作用[1]。新疆的干旱區濕地多是荒漠生態系統中的物種多樣性中心,不僅能涵養水源,調節局地小氣候,還影響著當地綠洲生態經濟的可持續發展,因此對該地區濕地的提取和分析尤為重要[2]。而塔里木河流域的濕地多依存于各綠洲邊緣且交通不便,利用遙感手段對該地區濕地監測不受交通掣肘且能夠發揮其范圍廣、周期短、效率高、成本低的優點[3]。

早期,利用遙感手段對干旱區濕地的提取多采用目視解譯的方式,不但費時費力且對解譯人員的專業水平有很高的要求[4,5]。20世紀90年代以來,計算機自動分類技術的發展為濕地信息提取提供了諸多新方法,主要包括監督和非監督分類提取,并引入最大似然、分類回歸樹、遺傳算法、神經網絡、支持向量機等大大提高了分類精度和效率[6,7]。但上述分類方法都是以像元為基礎,較少利用影像中的紋理、大小、形狀等信息。Khatami R等人對近15年基于像素的監督分類方法分析,發現加入多時相的遙感影像將分類精度提高了8.0%,而加入紋理信息后的分類精度提高最明顯有12%。支持向量機和隨機森林等機器學習方法取得了相對較高的精度[8]。利用機器學習方法進行濕地信息提取并綜合多種特征變量的優化是今后濕地信息智能化提取的重點和難點之一[9]。

隨機森林是一種公認的、可降低數據維度的集成學習算法,它能根據特征變量對分類結果的影響而對所有參與特征進行重要性重排序和篩選。已有學者使用隨機森林算法聯合NDVI指數與紋理信息對新疆北部Ertix河流域的干旱區濕地進行了信息提取,與其他機器算法相比將水體和耕地的提取精度提高了10%[10]。這表明隨機森林算法較適合于內陸干旱區濕地的提取[11,12],但該研究存在著建模指數單一、特征變量未優選降維、尺度狹小的缺點。考慮到南北疆地區的空間異質性,在干旱區的推廣仍有待考證[13]。

基于此,本文以塔里木盆地北緣的渭干河-庫車河綠洲的干旱區濕地為研究對象,采用多時相Landsat OLI影像數據,構建涵蓋紋理信息、時相信息、光譜及其指數信息的特征變量集和濕地提取方案,使用隨機森林算法在優選特征變量的同時對濕地信息提取,為干旱區農業灌溉規劃提供了參考。

1 數據與方法

1.1 研究區

渭干河-庫車河綠洲(簡稱“渭-庫綠洲”)(圖1)位于新疆南部阿克蘇地區,天山南脈中段塔里木盆地北緣,塔里木河中游。綠洲境內北高南低,平均高程900 m,地理坐標(41°10′~41°38′N、81°26′~83°17′E)。氣溫日較差大,2001-2015年間年平均氣溫10.3~14.4 ℃,最高氣溫41.5 ℃,潛在蒸發量2 420 mm,多年平均降水量為43 mm,蒸降比約54∶1,降水季節性差異很大,多集中于夏季六七月,其他月份降水大幅減少,屬于干旱與極端干旱地區。土壤主要為潮土、草甸土。綠洲境內為主要農作物產區,人工植被以棉花、梨樹、棗樹為主;天然植被以蘆葦(Phragimitesaustralis)、駱駝刺(Allhagisparisifolia)、花花柴(Karelinacaspica)檉柳 (Tamarix chinensis) 等為主。20世紀80年代以來,由于人口增長和大規模開荒種棉,該地區的濕地面積持續減少,渭干河下游的大量沼澤濕地已退化為灌叢地[14]。

圖1 研究區位置Fig.1 Location of the study area 注:A,B為草本沼澤;C為水庫濕地;D為河流濕地;E為塔里木河邊的胡楊林沼澤。

1.2 數據來源及預處理

1.2.1 影像數據

根據研究區衛星數據的影像質量、成像時間,驗證期匹配等信息,選取渭庫(渭干河-庫車河)綠洲貼近塔里木河的3期覆蓋植被生長期的Landsat OLI遙感影像作為干旱區濕地提取與分析的數據源。用于地形校正的DEM數據為來源于中國科學院數據中心30 m分辨率的ASTER GDEM數據。

根據2017年7月和10月的野外實際調查點,共計獲取87個穩定控制點(圖 1)。采用二次多項式對遙感做幾何校正預處理,誤差控制在0.5個像元以內,并統一坐標與投影信息為WGS 84,使用ENVI 5.3軟件對影像做輻射定標和按照FLAASH模型進行大氣校正,利用 DEM 數據在 ENVI 5.3中對坡度、坡向數據進行獲取并進行地形校正得到最后的實驗影像(見表1)。

表1 Landsat OLI獲取時間Tab.1 Acquisition time of Landsat OLI

本文的樣本數據為基于野外現場實測數據和Google Earth高分辨率影像的目視解譯數據。2017年6月和10月,實驗組對渭-庫綠洲進行了詳細的調研,使用高精度GPS對不同濕地分布及其植被類型進行定位、拍照并記錄。隨后,在室內通過Google Earth影像目視解譯了一部分濕地類型,以上兩部分數據分別構成樣本數據和驗證數據用于分類器的建立和精度驗證。

1.2.2 土壤含水量數據

土壤表層含水量(Soil Moisture Content, SMC)對每個采樣點,使用5點采樣法,采集5個10~20 cm 的土層樣本,記錄相應的周邊環境信息。回實驗室后,將土壤樣本置于105 ℃的恒溫烤箱里面,烘干48 h,然后將同一采樣點的土壤水分實測值進行平均,得到該采樣點的真實土壤含水量。

1.2.3 土壤電導率數據

土壤表層電導率(Electrical Conductivity,EC)。每組土樣稱取3 份樣品,每份為0.5 g,將每份樣品置于消煮管中,用去離子水定標至20 mL,將所有消煮管放置在搖床上,震動處理1 h,靜置30 min,采用德國 Wissenschaftlich Technische Werkst?tten 公司生產的Cond 7310電導儀測定,并將3份樣品的電導率求平均,得到該組土樣的電導率。

1.3 分類方法

1.3.1 干旱區濕地分類方案

參照《濕地公約》,結合當地濕地的實際分布情況和近年來國內調查研究的方案[15]。將干旱區濕地分為:河流濕地、湖泊濕地、沼澤濕地和人工濕地4大類,河流濕地、湖泊濕地、林地濕地、灌叢濕地、草本濕地、水庫/坑塘、運河/水渠 7個亞類。但由于在研究區面積大于1 km2的靜水面基本都是人工水庫,因此不將湖泊濕地納入分類方案(見表2)。

1.3.2 特征變量提取

干旱區濕地類型相互交錯,針對研究區地物特點,提取光譜、紋理、指數3種特征變量。光譜特征,將Landsat-8 OLI影像預處理后,得到3景影像7個波段的光譜數據。植被和水體指數特征,提取歸一化植被指數(NDVI)、差值植被指數(DVI)、比值植被指數(RVI)、歸一化水體指數(NDWI)、改進歸一化水體指數(MNDWI)。由于該地區有大面積的鹽漬地且沼澤濕地多為鹽沼,故引入鹽分指數特征,鹽分指數T(SI-T)、鹽分指數(S2)、鹽分指數2(SI2)、鹽分指數3(SI3)、歸一化鹽分指數(NDSI)[16],共10個指數。采用較為成熟的灰度共生矩陣(GLCM)法,將像元壓縮合并成8個灰度級,設定灰度統計參數。

表2 研究區濕地遙感分類體系Tab.2 Remote sensing classification system for the wetlands in study area

對原始影像進行主成分分析之后選取第一主成分(第一個主成分方差占比均大于 0.75)獲取5 個紋理特征方差(variance)、對比度(contrast)、熵(entropy)、角二階矩(Angular second moment)和相關性(correlation)共5個參數[17](見表3)。

表3 Landsat OLI特征集描述Tab.3 Description of the feature set from Landsat OLI

1.3.3 最優特征集提取

隨機森林算法具有效率高、不受噪聲干擾和數據類型限制的優點。該算法核心思路是計算特征變量的重要性(權重)并對權重數值進行重排序,后再根據事先設定的閾值來決定特征變量取舍(大于閾值保留、小于閾值舍棄),將保留下的特征變量作為最優特征集(見表4)。

表4 實驗方案信息Tab.4 The information of experimental programs

1.3.4 隨機森林模型

隨機森林模型(RF)是由Breiman(2001年)開發的集成機器學習模型,通過組合大量決策樹來改進決策樹(CART)分類的算法[18]。在隨機森林回歸中[19],通過選擇原始數據集和訓練數據集的隨機樣本(即校準數據集)構建確定性算法中的每棵樹。需要在模型中確定3個參數:N,從原始數據集中抽取的N個集合用于生成回歸樹的數量(默認值為500棵樹);K是從N個訓練集中提取的K個特征變量(默認值是總數據量的66.67%);X是從K個總特征變量中選取的最具分類能力的X個特征參數作為每棵樹的分類節點(X≤K)。

此外,在抽取訓練集X過程中,未被抽部分稱為袋外數據(out-of-bag,OOB),使用此部分數據計算內部誤差(OOB誤差),OOB誤差越小,說明隨機森林模型的分類精度越高。OOB誤差也用作計算特征變量的重要性,將需要計算的一個特征變量改變并保持其他特征變量不變,計算被改變特征變量前、后OOB誤差的差值和百分比,即為判斷該特征變量重要性依據[20]。其評估模型如下:

(1)

基于表3和表4所提出的方案,本文采用德國環境制圖與分析計劃(Environment Mapping and Analysis Program)項目組開發的 EnMAP-BOX 工具進行特征優選及濕地信息提取。

1.3.5 精度評價

混淆矩陣(Confusion Matrix)也被稱作誤差矩陣,在精度評價中,主要通過比較分類結果和實際測得值之間的混淆程度實現精度評價[21]。本文從3景影像上隨機選取各種地類檢驗樣本(每類不少于150個),然后結合Google衛星圖像數據和野外樣點判讀每個樣本的地物類型,計算6種方案的總體精度、Kappa系數、生產者精度和用戶精度,并對各個方案進行評價。

2 結果與討論

上文中方案①~⑤作為對照實驗,不需進行最優特征集的選擇[11],建立前5種方案的目的是探究不同特征變量對濕地信息提取精度的影響。在方案⑤的基礎上,采用隨機森林算法對153個特征變量進行重要性計算并按從大到小的順序排列,再通過分類器對特征變量逐漸累加的濕地信息進行提取,最后選擇分類精度最高的31個特征變量集合構成方案⑥。

2.1 方案特征確定

為了更加直觀清晰地呈現高重要性的特征變量,結合特征變量個數與分類精度和Kappa系數的關系(圖2),本文選取前31個重要性得分較高的特征生成重要性分布圖(圖3)。

圖2 特征變量個數與分類精度和 Kappa 系數關系Tab.2 The relation between the number of characteristic variables and the classification accuracy and the Kappa coefficient

圖3 特征重要性分布Fig.3 The distribution of characteristic importance 注:特征B4_10表示10月份的第4波段(紅波),NDVI_10表示7月份的Normalized Difference Vegetation Index指數,特征B7_10(SD)表示10月份的第7波段的角二階矩,以此類推,表7如此。

統計所有參與分類的153個特征變量的重要性得分發現:不同特征變量的重要性差異顯著,特征變量B7_10的重要性得分最高為 13.17,而SI3_6的重要性得分最低為0.01,幾乎對分類結果無影響。如圖2所示,將分類過程分為前期(前19個特征變量),中期(19~31個特征變量)和后期(31~153個特征變量)。前期(前 19個特征變量)總體精度急速上升,從7個特征變量(單月影像)的36.28%迅速達到83.77%,說明前期單個特征變量的重要性評分高,特征之間相關性小且冗余少;中期(19~31個特征變量)的總體精度提升速度降低,但仍然呈現繼續上升的趨勢,精度從83.77%爬升到90.09%,表明中期加入的特征變量有一定的重疊性,部分指數雖然計算方式不同,但利用了相同的波段;后期(31~153個特征變量),總體精度逐漸下降,而且從87個特征變量之后精度下降更加明顯。可見后期不相關特征持續增加。特征變量的個數不是越多越好,當個數為31個時,總體精度和Kappa系數均達最大值,分別為90.09%和0.882 5,故將前31個特征變量作為方案⑥參與后續精度評價。

2.2 分類精度比較

總體可知(見表5):以多時相光譜特征為基礎的方案①總體精度48.89%,Kappa系數為0.392 4。在多時相光譜特征的基礎上,加入每種的特征變量都會對濕地信息提取的精度有相應提高。如方案②、③、④總體精度均大幅度上升,分別達到90.02%、78.27%和85.72%,Kappa系數分別為0.879 4、0.742 1和0.828 3。而在包含所有特征變量都的方案⑤中,總體精度相比方案②降低了89.82%。特征優選之后的方案⑥,相較于前 5個方案中提取效果最好的方案②而言,總體精度提高了0.07%,Kappa系數提高了0.31%。

表5 分類精度統計Tab.5 The statistics of classification accuracy

注:表中 PA、UA 分別代表各類的生產者精度和用戶精度。

單個類型的生產者精度和用戶精度表明:與植被生理參數相關的特征(植被指數)可提高濕地信息提取的精度。如方案④劃分的草本濕地、灌叢濕地、農田在加入以上此特征之后精度上升。在加入與當地干旱區鹽漬化關系密切的鹽分指數后,如方案③中的鹽漬地信息提取的用戶精度比方案②高3.33%。在加入紋理特征后,所有地類的提取精度都有所上升,這是由于在農田和塔里木河兩岸的天然地類的交界處夾雜著大量鹽漬地、裸地[14]。紋理信息從面向對象的分類角度對研究區地類做了區分,

當所有特征參與分類時,如方案⑤由于信息冗余,不僅導致總體精度降低,還影響了單個地類的精度。采用方案⑥(圖4)中的優選特征進行濕地信息提取時,只保留了對分類起關鍵作用的特征,避免了信息的交叉冗余,精度最佳。

圖4 方案⑥的濕地分布圖Fig.4 Wetland distribution map based on scenario ⑥

為了和現有的分類手段比較,在相同驗證樣點和分類體系下,采用最大似然分類和支持向量機分類,提取研究區的濕地信息,對比采用3 種方法的分類時間,生產者精度、用戶精度、總體精度以及kappa系數。最大似然(Likelihood Classification)是假設每一波段的每一類都呈正態分布,計算給定像元屬于某一訓練樣本的似然度,像元最終被歸并到似然度最大的一類。支持向量機分類(Support Vector Machine ,SVM)是一種建立在統計學習理論(Statistical Learning Theory, STL)基礎上的機器學習方法[8]。SVM可自動尋找那些對分類有較大區分能力的支持向量,由此構造出分類器可使類與類之間的間隔最大化(圖5)。

圖5 方法對比Fig.5 Comparison of methods

由表6和表7可發現,特征優選的隨機森林分類方法在分類效果和分類速度上都處于優勢,雖然分類精度稍遜于支持向量機,但由于參與分類的特征經過機器優選,其分類效率得到大幅提升,而最大似然法雖然分類速度很快,但分類精度較差,對林地沼澤,水庫坑塘,灌渠水溝出現了大量混分的情況。

表6 方法對比Tab.6 Comparison of methods

注:分類過程所采用PC硬件為i7-7700k處理器,16G內存,6G顯存。

表7 分類精度對比Tab.7 Comparison of classification accuracy

注:表中 PA、UA 分別代表各類的生產者精度和用戶精度。

不同類別的特征參與分類時的貢獻度差異明顯。如圖6所示截取了重要性得分較高的前50個特征變量,以每10個特征為一組計算不同類別特征在組內所占的比重。可得:多時相光譜特征、植被指數和水體指數所占比重始終保持穩定且是分類的主要貢獻特征。在30個特征變量之后,紋理特征出現且所占比重逐漸上升。分類效果最佳時的31個特征變量,多時相光譜特征有 17個,植被水體指數特征有10個,鹽分指數特征3個,紋理特征1個,表明:特征變量的合理分配和優選才能取得較高提取精度。紋理特征由于數量較多(105個),單獨加入方案時分類效果較好,但特征優選時,隨機森林算法為即保證分類精度又保證分類效率將其冗余部分剔除。

圖6 特征變量統計圖Fig.6 Statistical graph of feature variables

方案⑥選出的31個特征變量如表8所示,將表8的信息結合野外實地驗證結果得出 10月份是適宜渭干河-庫車河綠洲濕地分類提取的主要時相,主要因為研究區內人類活動頻繁,農作物種植范圍較廣,作物主要以棉花、大棗、玉米為主,10月是棉花、大棗、玉米的成熟期,其生長較為茂盛,植被覆蓋度較大,且10月也是研究區南部的“原生態胡楊林”的葉黃期,不同植被類型在物候期上的差異也使其易于區分[22]。

表8 優選特征分布表Tab.8 Distribution list of optimal feature

將采樣點的坐標信息和實測水、鹽數據對應到方案⑥的濕地分類結果,得到了不同地類下的表層土壤含水量和電導率的分布(表9)。由圖7和圖8可得,分類結果的區分度在實測點上也有較清晰的差異性反映。持水能力:森林沼澤>灌叢沼澤>鹽堿地>草本沼澤>農田>裸地;含鹽度:鹽堿地>裸地>森林沼澤>草本沼澤>灌叢沼澤>農田。參考分類結果(圖4),森林沼澤多位于綠洲的南部,且綠洲地勢北高南低,上游工業廢水、農田排堿以及施用化肥使得綠洲周圍的草本沼澤、森林沼澤含鹽度遠高預期。

表9 采樣點類型 個

圖7 采樣點含水量分布Fig.7 SMC distribution of sampling points

圖8 采樣點電導率分布Fig.8 EC distribution of sampling points

本研究采用的隨機森林提取方法考慮了地物大量的紋理特征,重點探究了不同特征變量對濕地信息提取的影響。但由于數據空間分辨率限制,地物光譜混合影響,分類結果出現了“椒鹽現象”。這種現象在農田、草本濕地較多,對應樣點照片發現該區域的田埂上生長著草本植物。后續將采用更高分辨率的數據,深度結合面向對象的提取方法,建立面向濕地提取的特征庫,以期進一步提高濕地信息提取的精度。

3 結 語

本文基于多時相Landsat OLI遙感數據,選取光譜特征、植被指數、水體指數、鹽分指數和紋理特征確定了6種不同的實驗方案,結合隨機森林算法對塔里木河流域典型綠洲濕地息提取,主要得到以下結論:

(1)在特征數量達到冗余前,所有特征都會對濕地信息提取的精度產生積極影響,相較而言,光譜特征、植被指數和水體指數對提取精度的貢獻更高;鹽分指數、紋理特征的貢獻較低。

(2)基于隨機森林的特征優選算法,能夠綜合考量并優選影響地物分類精度較大的特征信息,在降低特征維度后(特征維數由153降低至31),分類精度和效率仍能保持在較高水平。

(3)特征優選的濕地提取結果從宏觀和微觀上證實了隨機森林算法在干旱區實現濕地信息提取的可行性,對保護當地生態環境和制定科學的水肥管理措施有參考意義。

猜你喜歡
分類特征
抓住特征巧觀察
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
新型冠狀病毒及其流行病學特征認識
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
主站蜘蛛池模板: 欧美色图久久| 国产资源站| 欧美一级99在线观看国产| AV在线天堂进入| 日韩亚洲综合在线| 亚洲欧美日韩中文字幕在线| 亚洲欧洲自拍拍偷午夜色| 国产一区二区人大臿蕉香蕉| 精品国产自在现线看久久| 午夜视频在线观看免费网站| 色亚洲成人| 丝袜久久剧情精品国产| www.日韩三级| 国内熟女少妇一线天| 激情六月丁香婷婷四房播| 成年人视频一区二区| 国产永久免费视频m3u8| 无码丝袜人妻| 国产精品亚洲va在线观看| 狠狠色狠狠综合久久| 国产欧美高清| 99精品国产自在现线观看| 亚洲人成色在线观看| 欧美a级完整在线观看| 天堂在线视频精品| 91娇喘视频| 亚洲妓女综合网995久久| 国产丝袜无码一区二区视频| 国产18页| 无码中文字幕乱码免费2| 亚洲国产日韩欧美在线| 欧美天堂在线| 国产无码制服丝袜| 免费一级成人毛片| 日韩天堂视频| 国产欧美视频在线观看| 五月天天天色| 毛片网站观看| 国产精品99一区不卡| 亚洲一区二区日韩欧美gif| 亚洲69视频| 成年人福利视频| 97视频精品全国在线观看| 欧美.成人.综合在线| 911亚洲精品| 色婷婷在线影院| 777国产精品永久免费观看| 精品一區二區久久久久久久網站| h网址在线观看| a毛片免费在线观看| 日本三区视频| 久久亚洲美女精品国产精品| 国内精品自在自线视频香蕉| 亚洲天堂视频在线播放| 久久精品无码专区免费| 国内精品小视频在线| 成人午夜亚洲影视在线观看| 国产va欧美va在线观看| 国产一级精品毛片基地| a毛片免费观看| 91小视频在线| 亚洲人成影院午夜网站| 伊人精品视频免费在线| 狼友视频国产精品首页| 欧美日韩中文字幕在线| yjizz国产在线视频网| 久久精品亚洲热综合一区二区| 无码人中文字幕| 国产在线欧美| 91人人妻人人做人人爽男同| 毛片大全免费观看| 欧美色视频在线| 欧美第一页在线| 成人精品视频一区二区在线 | 亚洲一欧洲中文字幕在线| 伊人久久大香线蕉成人综合网| 99久久精品免费看国产免费软件 | 99成人在线观看| 99热免费在线| 激情无码字幕综合| 亚洲AV免费一区二区三区| 亚洲精品卡2卡3卡4卡5卡区|