,, ,,2
(1.山東科技大學 測繪科學與工程學院,山東 青島 266590;2.曲阜師范大學 地理與旅游學院,山東 日照 276826)
地表覆被是地球表面各種物質類型及其屬性特征的綜合體[1],其空間分布變化反映了人類社會的經濟活動發展過程。同時地表覆被的變化也會影響地球表面物質和能量的循環過程,繼而對區域及全球的環境與氣候產生重要影響[2]。精準的地表覆被數據對于研究社會經濟發展的健康狀況、指導土地科學利用,以及研究區域乃至全球的生態環境及氣候變化具有重要意義[3-5]。
中國國家基礎地理信息中心2014年推出了 30 m分辨率的全球地表覆蓋遙感數據產品(GlobeLand30),大大提高了全球地表覆蓋產品的空間分辨率,該產品已被廣泛應用于區域經濟分析、區域及全球氣候變化研究中。Shi等[6]在將GlobeLand30數據產品應用于陸面-大氣耦合過程中,反演了全球氣溫和降水的分布特征。Dong等[7]以GlobeLand30產品為參考數據,對MODIS土地覆蓋產品進行了省級尺度的一致性分析與評估。陳軍等[8]利用該數據產品提取地表覆蓋面積,分析了全球城鄉建設用地的空間分布狀況。
隨著該數據產品應用的不斷深入,針對該產品精度驗證的工作正逐步開展。Chen等[9]通過與分辨率相近的地表類型產品的比較,驗證了GlobeLand30數據產品在全球范圍的精度;Brovelli等[10]選取意大利境內的八個研究區,對比分析了GlobeLand30數據產品在意大利地區的相對精度;Manakos等[11]使用希臘境內部分區域的多種地表類型產品,對GlobeLand30產品水體類型的判別精度進行了分析;孟雯等[12]以陜西省為例,利用樣本分層抽樣法評估了該產品的區域精度;黃亞博等[13]利用1∶10萬土地利用數據結合野外考察樣本分析了GlobeLand30產品在河南地區的精度。總結國內外針對GlobeLand30產品的精度驗證工作發現,參考數據多使用與該產品空間分辨率相近的數據產品,受空間分辨率限制,參考數據本身的分類精度無法保障,由此得到GlobeLand30產品的相對精度驗證結果缺乏說服力。另外,現有的GlobeLand30產品的驗證工作多停留在局部尺度下針對特定地類進行,無法描述其總體精度狀況。為全面、可靠評價GlobeLand30的產品精度,本研究使用高分辨率人工識別土地類型產品作為參考數據評價GlobeLand30產品的精度,參考數據使用2 m分辨率的高質量衛星數據,通過人機交互、目視解譯制作而成,結合專家的分類知識與經驗,參考多樣輔助數據,其分類結果具有更高的可靠性,基于以上高分辨率地表類型數據對研究區內GlobeLand30產品的所有類型進行綜合評價,有效解決了GlobeLand30產品精度評價由于參考數據空間分辨率有限以及評價類型單一導致的評價結果缺乏說服力的問題。
考慮到地表類型產品誤判情況主要有草地、林地和耕地三者混分,河流等水體漏判,道路等人造地表的漏判等幾方面,選取兩研究區進行分析,所選研究區地表類型分布全面,且暴露出地表類型產品的誤判情況也十分全面,故選取這兩個案例進行分析評價,能做到比較全面地反映GlobeLand30土地產品精度情況。研究區1位于沿海地區,區域總面積為1 615 km2,地表類型呈多樣性,且區域地塊多以碎斑塊形式分布,這種地表特征易出現地類誤判情況。研究區2位于內陸地區,區域總面積為3 166 km2,境內流域面積10 km2以上的各類河流53條,區域水資源豐富,重點驗證數據產品水體類型的判別精度。
1.2.1 GlobeLand30數據產品
GlobeLand30土地覆被數據集主要使用美國陸地資源衛星(Landsat)TM5、ETM+和中國環境減災衛星(HJ-1)的30 m多光譜影像作為分類影像,采用WGS84坐標系統和UTM投影,覆蓋了南北緯80%的陸地范圍,該產品將地表類型分為耕地、林木、水體、人造地表、草地、灌木地、濕地、苔原、裸地、冰川和永久積雪等10個類別。地表類型分類過程運用基于自動識別的逐類型分層分類與單類型分類相結合的分類方法[13],主要通過各類型地物的不同光譜特征進行自動地類識別,由于地物波譜具有同物異譜和同譜異物現象,判別精度受到一定限制。
1.2.2 高分辨率人工識別土地類型產品
通過人機交互、目視解譯得到2010年的2 m分辨率地表覆蓋影像,其中地類判別過程結合專家經驗,由于可借助的信息較為豐富,如紋理信息、地形地貌特征等,相對自動識別方法,地類判別精度得到大幅提升,是最接近地表實際情況的高分辨率土地類型產品。本研究以2 m分辨率人工識別土地類型產品作為研究參考數據,對GlobeLand30數據產品中的對應地表類型進行精度評價。

圖1 待評價數據與參考數據處理流程圖
GlobeLand30數據產品與參考數據在空間分辨率、投影方式等方面不盡相同,因此要對數據進行預處理,操作流程如圖1所示。
首先,將數據產品統一到相同的坐標系和地理投影下,便于進行空間疊加分析,歸并統一數據產品地類,兩數據產品地物類別存在一對一和一對多的關系;然后以表1為類別轉換參照,將地類進行重分類[14];最終使兩數據產品擁有相同的地表類型體系與投影方式。由于其他用地類型只存在于參考數據分類體系中,且所占的面積比例較小,加之待驗證數據產品中并無可與其相歸并的類別,不再對其進行精度評價。

表1 不同土地覆被分類系統間的類別對應關系
從柵格像元的角度出發,將空間統計、空間一致性和空間混淆三種評價方法相結合,借助多種評價指標,對地表覆被數據和參考數據進行對比分析,得到GlobeLand30產品在面積以及空間位置上的精度情況。
利用逐像元分析方法評價待驗證數據與參考數據的空間相似程度。分別統計不同數據各地類像元數,根據像元數計算各地類覆蓋面積及所占比例,進而分析兩類數據的空間相似程度。另外,本研究以參考數據為基準,引入誤差系數來定量反映待評價數據與參考數據間的差異[15]。

(1)
其中:C為誤差系數,%;Ki為待評價地表數據產品中第i類土地面積,m2;Ni為參考數據中第i類土地面積,m2。計算出的誤差系數越小,表明待評價數據與參考數據越接近,反之,二者之間的誤差越大。
選擇兩種產品各地類的一致性比率Ai(%)與總體一致性比率B(%)來定量分析GlobeLand30產品與參考數據的空間一致性,兩一致性指標計算公式如式(2)~(3)所示。一致性指標數值越大,則待驗證數據與參考數據一致性越高,其對應精度越高,反之越低。

(2)
(3)
其中:Mi與Ni分別為參考數據M與待驗證數據N中第i類土地覆被類別的像元數;Ti為相同位置兩種產品均為類別i的像元數,k為不同類別個數。
一致性評價能定量描述兩種產品類別總體間以及各類地物間的一致性水平,但無法描述產品地類的混淆程度以及空間分布,空間混淆評價可以實現以上信息的獲取。空間混淆評價是進行土地覆蓋數據集精度評價的常用方法,在精度評價中至關重要[16-19]。利用疊加分析的方法,得到兩種地表覆蓋產品在相同位置的覆蓋類型關系,并在對疊加結果匯總分析前提下,建立起GlobeLand30產品與參考數據產品的土地覆被類別混淆矩陣,混淆矩陣中的元素是各地類的像元數,其主對角線上的元素是待評價產品中各地類被正確判別的像元數,即主對角線元素數值越大其對應的分類精度就越高,反之越低。另外,通過混淆矩陣可以得到Kappa系數以及用戶精度與制圖精度等精度評價指標。總體精度反映所有類型中正確分類面積的比例;制圖精度反映某一類型正確分類的面積占待驗證數據中該類型總面積的比例,也就是實際對應某一類別的地表被正確分類的比例;用戶精度反映某一類型正確分類的面積占參考數據該類型總面積的比例;Kappa系數是用來評價待驗證數據地類判別的精度和一致性的綜合指標。以上幾種指標的計算公式如式(4)~(6)所示[20]。

(4)

(5)
(6)
其中:N為總像元數;nii為正確分類像元數;n+i為待評價數據中某一類型像元數;ni+為參考數據中某一類型像元數;r為分類數量。
目視解譯比較結果發現地形起伏地區易發生地類誤判,常出現耕地、林地和草地三種類型混淆現象,為確定地形與類型誤判的關系,本文結合研究區DEM高程數據進行誤差原因分析,研究地形起伏對地表類型分類的影響,重點分析地形起伏區域地表類型誤判情況。
圖2是研究區1不同土地類型的面積對比情況。在參考數據中,研究區1的2010年耕地、林地、人造地表、水體和草地分別占研究區總面積的46.13%、25.38%、17.65%、10.48%和0.35%。在待評價數據中,以上五種地物類型的比例分別為70.66%、8.04%、8.55%、8.05%和4.70%,可以看出,從面積分布來看,二者具有較高的一致性,但不同地物類型分類精度存在較大差異,其中耕地、林地、草地的誤差相對較大,分別為53.16%、68.30%、123.49%,水體判別誤差較低,僅為23.22%。結合以上結論,對該研究區選取典型區域重點分析耕地、林地和草地三者的混分現象。
圖3為研究區2中不同土地類型的面積對比情況。參考數據中,2010年研究區2的土地類型以耕地、林地和人造地表為主,分別占區域總面積的70.51%、10.15%和14.93%,水體和草地較少,所占比例為4.30%和0.12%。通過待驗證數據土地類型與參考數據的對比可以看出,在該研究區內同樣存在不同土地類型誤差相差較大的問題。其中,耕地類型的判別與參考數據最為接近,誤差為22.02%,GlobeLand30產品中人造地表面積略小于參考數據水平;水體和林地類型誤差系數較大,說明待驗證數據水體與林地類型判別精度較差,漏分嚴重。

圖2 研究區1人工識別產品與待評價產品不同類型土地面積對比

圖3 研究區2人工識別產品與待評價產品不同類型土地面積對比
對研究區兩數據產品地表類型逐像元比較,結合總體一致性比率與各地類一致性比率分析,兩研究區數據產品總體一致性比率分別為65.52%和78.87%。兩者不同地類空間一致性差異較大,其中耕地類別判別精度最好,研究區1、2對應的一致性比率分別為76.34%與88.40%,反映大部分耕地被正確分類;水體類型一致性比率分別為67.50%與36.79%;人造地表類型一致性比率分別為57.76%與66.63%;林木類型空間一致性較差,對應一致性比率分別為46.37%與16.69%;草地類型空間一致性極差,一致性比率僅為0.37%和0.49%,即絕大多數草地沒有被正確分類。
在逐像元比較空間一致性基礎上,統計得到兩數據產品地類混淆矩陣,來分析研究區1地類混淆情況,進而評價研究區分類精度。表2為待驗證數據與參考數據所對應的混淆矩陣。可以看出:①耕地類型判別精度最好,制圖精度達97.31%,用戶精度62.80%,即待驗證數據產品中耕地類型像元數較參考數據對應類型像元數略多,說明實際為耕地類型的地表絕大多數被正確分類,但待評價數據中的耕地混有少部分其他地類,這是因為耕地特征明顯,分類時較易辨識。②林木類型制圖精度與用戶精度分別為30.56%和96.07%,體現了林木類型漏判現象嚴重,多判現象較為少見。林木多分布于地形起伏地區,且與草地、耕地等多種植被類型高度混合,自動識別方法主要依靠地物不同光譜特征[21],因此自動識別方法判別林木類型難度較大,漏判現象嚴重。③水體類型的用戶精度與制圖精度均穩定在70%左右,即多判與漏判現象均較常見。這是由于河流、湖泊等水體受季節影響較大,所采用的分類數據時相與人工識別分類數據不一致帶來的誤差[22]。④人造地表類型制圖精度43.01%,用戶精度87.9%,即參考數據中人造地表類型像元較待驗證數據對應類型像元數值更大,說明該類型漏判情況較嚴重,多判情況較少。⑤草地類型制圖精度與用戶精度都非常低,說明草地類型整體判別精度不高。

表2 研究區1地類混淆矩陣
表3為兩產品在研究區2的地類混淆矩陣。可以看出:①耕地類型判別精度較好,制圖精度達98.44%,用戶精度80.22%,大多數耕地被正確識別;②林木類型制圖精度與用戶精度分別為9.13%和96.59%,即待驗證數據產品中林木類型像元較參考數據對應類型像元少,說明林木類型漏判現象嚴重,多判現象少見;③草地類型用戶精度與制圖精度都非常低;④水體類型制圖精度與用戶精度分別為24.02%和78.47%,反映漏判嚴重,多判較少;⑤人造地表類型制圖精度53.24%,用戶精度89.02%,即參考數據人造地表類型像元數遠超過待驗證數據,說明人造地表類型漏判情況嚴重,多判情況較少。研究計劃對區域2重點分析水體類型與人造地表類型精度情況。

表3 研究區2地類混淆矩陣
因研究區分布范圍大且標識性較低,根據地物類型分布全面、相關地類分界明顯以及地類混淆程度大的原則,選取典型區域(1)和典型區域(2)進行評價,如圖4、圖5框內標識區。其中,典型區域(1)為地類呈碎斑塊形式,耕地-林木-草地三種地類混淆明顯的區域;典型區域(2)為有主要河流流經,河網密布,道路縱橫的區域。
圖6與圖7為所選典型區域(1)地類情況。由表4所示該區域混淆矩陣,將參考數據視作與實際地類相符,計算統計各地類像元在待驗證數據中分類情況,得到圖8,其中橫坐標表示待驗證數據中的地類,縱坐標表示待驗證數據各地類像元中地類誤判率。結合得到的Kappa系數以及制圖精度和用戶精度分析,更直觀地反映待驗證數據中各地類的精度情況:①耕地類型制圖精度92.14%,用戶精度44.03%,對應耕地類型漏判情況較少,多判嚴重,參考數據產品中的耕地像元有7.86%被誤判,同時有很多其他地類被誤判為耕地類型;②林木類型制圖精度與用戶精度分別為47.44%和97.58%,漏判嚴重,多判現象較少,其中23.92%林木像元被誤判為耕地,28.30%被誤判為草地,耕地、林木與草地混分現象嚴重;③另外,水體與人造地表判別精度均較低,很大一部分類型混淆出現在與耕地之間;④該區域草地分類問題最為顯著,草地類型制圖精度與用戶精度分別為32.42%和0.65%,精度較低且差距大,體現了該區域草地類型多判與漏判現象嚴重,草地像元有40.23%被誤判為耕地、27.34%被誤判為林木,草地類型分類精度較差。究其原因,主要是草地多以碎斑塊形式存在,分布零星,且與林木、耕地類型混合分布,難以準確判識。

圖4 待驗證數據典型區域(1)示意圖Fig.4 Schematic diagram of typicalarea(1) to be verified

圖5 待驗證數據典型區域(2)示意圖Fig.5 Schematic diagram of typicalarea(2) to be verified

圖6 待驗證數據區域(1)局部圖Fig.6 The local graph of the verifying data area(1)

耕地林木水體人造地表草地耕地 11 1302705121553林木 9 76819 373513311 558水體 1 1158020325164人造地表3 1646101 115440草地 103700083

圖8 典型區域(1)地類誤判情況統計圖
圖9與圖10為所選典型區域(2)地類情況,由表5所示該區域混淆矩陣,計算統計各地類像元在待驗證數據中分類情況,如圖11,結合所得制圖精度和用戶精度分析待驗證數據中各地類精度情況。本區域特點在于林木和人造地表與耕地混淆情況嚴重:①林木類型制圖精度與用戶精度差異極大,分別為2.00%和96.02%,即漏判特別嚴重,多判情況少見,參考數據中的林木像元有92.55%被誤判為耕地,結合該區域DEM影像分析可知,該區域位于地形起伏地帶,林木多以碎斑塊形式零星分布,且與耕地高度混合,使得判別難度增加;②人造地表類型制圖精度與用戶精度分別為36.15%和78.13%,說明漏判嚴重,多判較少,原因主要是該區域人造地表斑塊較小,且多為散布在農田周圍的小型建筑,使得其在混合像元中難以被正確判別;③圖7與圖8對比可見該區域水體主干部分識別效果較好,結合DEM影像得知,這與河谷地區地形低洼有關,細小支流在待驗證數據中多被聚類成耕地,主要原因在于30 m影像分辨率較低,存在大量混合像元,細小支流由于所占面積較小,較難分辨,造成漏分。

圖9 待驗證數據區域(2)局部圖(1)Fig.9 The first local graph of the verifying data area(2)

耕地林木水體人造地表草地耕地 38 501510332312林木 11 19824163137461水體 2 700014 482300人造地表3 0525121 75022草地 290000

圖11 典型區域(2)地類誤判情況統計圖
圖12~13參考數據顯示,選取的典型區域內河網密布,道路縱橫交錯,人造地表類型主要由道路組成,因此對該區域的精度分析主要圍繞人造地表與水體類型展開。對本區域各類像元數統計得知,有80.77%在參考數據中識別為水體的像元被誤判為耕地,存在較大判別誤差,結合圖像可知,細小支流未有被正確識別,被聚類到耕地類別中,影響判別精度。另外,參考數據中識別為人造地表類型的像元有40.93%被誤判為耕地,誤差較大,結合圖像看,該區域散布在耕地附近,以碎斑塊存在的人造地表大多被正確判別,但耕地周邊道路多未被正確判別,使得人造地表類型判別精度較低。

圖12 待驗證數據區域(2)局部圖(2)Fig.12 The second local graph of the verifying data area(2)
本研究運用2 m分辨率人工識別覆被產品對我國推出的30 m分辨率地表覆被產品GlobeLand30進行精度分析與驗證,選取中國兩個典型研究區,運用三種不同評價方法對比分析了兩類土地覆蓋產品,得到如下主要結論:
1) 空間一致性與空間混淆評價結果表明,GlobeLand30產品具有較好總體精度。兩研究區GlobeLand30產品與參考數據的總體一致性都穩定在70%左右,說明待驗證數據能夠較準確地反映實際地物覆被情況。
2) GlobeLand30產品中不同地類判別精度存在較大差異:耕地類型大都能被準確判別,這與耕地光譜特征比較顯著、且以大斑塊存在有關;林木、草地與耕地類型混淆情況多見,林木和草地類型多以碎斑塊形式存在于大范圍耕地內部,且各類型間缺少過渡性,所以林木、草地常被誤判為耕地;人造地表類型存在漏判嚴重的情況,散布在耕地內部的小型建筑與寬度較窄的道路易被歸并為耕地;另外,水體主干部分大都能被準確識別,寬度較窄的支流多被聚類到耕地類型,導致水體類型漏判嚴重。
3) 結合研究區高程數據,林木、草地以及水體等類型的判別精度均受到高程變化的影響。因此,在對各地類進行判別時結合高程分帶數據將有助提高地類判別精度。
本次研究精度評價結果是通過對比分析高空間分辨率的參考數據和低空間分辨率的被驗證數據得到的,需要說明的是,高分辨率人工識別土地類型產品本身也存在一定的誤差。此外,還存在一些不足之處,有待進一步研究:
1) 生產兩數據產品所用影像時相不同。兩數據產品基準年都為2010年,但待評價GlobeLand30數據生產數據時相為2009—2011年,參考高分辨率數據人工識別土地類型產品而所用數據時相跨度更大。數據時相不一致可能會導致待評價數據與參考數據中地表類型不一致現象。
2) 預處理過程可能引入誤差。為統一待評價數據與參考數據產品,對待評價數據與參考數據進行的數據預處理過程可能引入誤差。