孫 政,王 迪,仲格吉
(中國農業科學院農業資源與農業區劃研究所/農業農村部農業遙感重點實驗室,北京 100081)
及時準確地獲取區域內農田地理信息(位置、面積和空間分布等),對作物識別和估產、田間管理、種植結構優化,以及政府部門制定農業政策和經濟計劃具有重要意義[1]。傳統農田地理信息的統計方式是通過行政單元逐級匯總上報或基于農戶抽樣調查獲取,存在耗時、耗力、耗財等缺陷,另外,易受錯報、漏報和空報等主觀因素影響,大區域農作物的種植面積、結構及空間分布信息很難及時準確地獲?。?-3]。自1970年開始,各國開始重視利用遙感技術提取農情信息,遙感具有大范圍監測、成本低、客觀性強、時效性高等優點,已經被廣泛應用于農情監測中,但是實時有效的遙感數據難以立刻獲取,且成本相對較高。
OpenStreetMap(OSM)數據具有時效性強、覆蓋范圍廣且可被免費使用的獨特優勢,與官方數據庫相比,其更新速度更快[4]。將遙感數據、自發地理信息(Volunteered Geographic Information,VGI) 數 據 平 臺( 如 OSM) 和 云 計 算 平 臺( 如 Google Earth Engine,GEE)相結合,能夠為土地覆蓋和土地利用的相關研究提供重要資源。此外,遙感數據和OSM數據結合能為從事土地利用/覆蓋監測與制圖研究的學者提供更具有效的數據信息[5-6]。OSM包含了道路數據和土地利用信息等面要素的組合數據,且與商業數據集相比,OSM是具有高實用價值、高精度且可被用于土地覆蓋/土地利用研究的數據源[4,7-11]。目前,已有學者使用OSM數據對土地覆蓋變化進行研究[12-15]。當前研究仍主要集中在將OSM數據運用于城市建成區提取、道路數據質量評價以及土地覆蓋/土地利用變化監測上,將OSM數據運用到農業中的研究鮮有報道。文章使用OSM數據提取農田地理信息,并對該方法的精度和誤差進行評價,為快速、低成本的農田地理信息提取提供參考。
本研究選取韓國陜川郡為研究區,該地區OSM數據質量較好,是當地重要的農業種植區。陜川郡位于韓國中南部,地處北緯 35°23′~35°50′、東經 127°57′~128°28′之間,圖1展示了陜川郡所處的地理位置??偯娣e983.39 km2,其中山地面積占72.4%。海拔較高的山脈分布在該區域的西北部,中北部則是山脈的分支或盆地,東南部是相對低洼地區。該區域按海拔分類時:100 m以下的面積占總面積22.2%,100~300 m占48.6%,300~500 m 占 18%,500~1 000 m 占 10.8%,1 000 m 以上占 0.3%。該區域屬南部內陸型氣候,冷熱差異十分明顯,多年平均氣溫12.7℃,多年平均降雨1 238.6 mm,60%的年降雨量集中在每年的6—8月期間,每年平均有110 d晴天、90 d多云和77 d降雨。大蒜和圓蔥是陜川郡最重要的蔬菜作物。根據2015年韓國統計資料顯示,大蒜和圓蔥在陜川郡的種植面積分別為743 hm2和1 138 hm2,主要分布在該郡的中部、北部和東部地區。
(1)基礎地理數據
研究使用了韓國的行政區劃數據,包括道(特別市、直轄市)、郡(市、區)兩個等級。該數據主要用于裁剪整個研究區域內的OSM數據。
(2)OSM數據
研究中使用韓國2018年3月14日的OSM數據。包括點、線、面3種類型的矢量數據。實驗中使用了陜川郡的線數據(道路)和面數據(建筑、交通、水體、土地利用、公共服務),圖2展示了裁剪后陜川郡5種類型的OSM數據。

圖1 研究區概況Fig.1 General situations of study region
從遙感圖像中可以看出,研究區域內的主河道處于常年枯竭狀態,在OSM數據類型中不能歸類于水體,屬于空數據集,為提高研究精度,采用人工矢量化方法在遙感圖像中計算這條干枯的河道面積,且此面積不納入精度評價的計算。最終整合的OSM數據包括建筑、水體、交通(包含停車場、加油站、水壩)、公共服務(包含公園、學校、銀行等)、土地利用(去除農田及社區花園后,包含森林、住宅、灌木叢等)5個面圖層。圖3為將這5個圖層合并得到的研究區非農田區域。
(3)遙感影像數據
利用2016年RapidEye(空間分辨率為5 m)影像、研究區5景Bee無人機(Unmanned Aerial Vehicle,UAV)獲取影像(5景影像中前4景的時間為2017年4月27日,第5景影像時間為2017年4月28日),UAV影像空間分辨率為0.08 m。

圖2 韓國陜川郡OSM數據 Fig.2 OSM data of Hapcheon Gun
(4)地面調查數據
結合衛星遙感影像和無人機影像,對當地農田進行實地勘測,并對得到的農田數據進行修正。圖4展示了遙感數據結合地面調查得到的陜川郡耕地數據。
1.3.1 方法概況
由于研究區內OSM數據中城市建成區數據嚴重不足,將影響農田信息的提取精度,圖5為研究技術路線,即通過OSM數據提取研究區的非農田信息,從而得到該區域的農田區域。

圖4 陜川郡耕地數據Fig.4 Farmland data of Hapcheon Gun
1.3.2 閾值設定
實驗中道路密度等級閾值的設定方法為ArcMap軟件中自然間斷點法(Jenks),將所有格網的道路密度劃分為5個等級。該方法能夠使類內方差最小,類間方差最大,能夠將5個等級最大化地區分開來。
1.3.3 城市建成區提取
目前利用道路數據提取城市建成區的方法中大致分為基于街區面積、基于格網(線密度、點密度)以及基于核密度3種方法[16]。3種方法對建成區的提取能力都已經得到證實,本文選取了基于街區面積和基于格網這2種方法對陜川郡的建成區進行提取,并評價使用兩種方法提取陜川郡建成區對農田地理信息提取精度的影響。
(1)基于街區面積的方法。首先將OSM道路數據通過線轉面方法得到街區數據,并計算街區面積。將面積小于街區面積均值和中值的街區判斷為城市建成區,得到基于街區面積均值和中值的城市建成區數據,并將此數據分別與OMS的直接非農田數據和以2 m緩沖區大小的道路緩沖區融合,得到整個區域的非農田區域。最后與陜川郡行政區域交集取反,得到農田區域。

圖5 實驗思路Fig.5 Workflow of research
(2)基于格網的方法。在研究區內分別建立了50 m×50 m 和 100 m×100 m 的格網,計算落在每個格網的道路密度ρ[16],計算方法如下:

式中,L是落在每個格網內的道路長度;S是該格網的面積。去掉道路密度為0的格網,將剩余的格網通過自然間斷點法分級,密度大于間斷點時則將該格網判斷為建成區。將建成區與OSM的直接非農田數據和以2 m道路緩沖區融合,得到了10個不同密度下的陜川郡非農田區域。最后與陜川郡行政區域交集取反,得到農田區域。
本文定義的面積提取率PS和田塊提取Pm率計算方法如下:

式中,Sin是OSM數據提取出來的農田范圍中RapidEye的農田面積;Sall是RapidEye數據中提取的總的農田面積。Min是OSM數據提取出來的農田范圍中RapidEye的田塊的數量;Mall是RapidEye數據中提取的總的田塊數量。
OSM道路數據并沒有詳細到田間小路,而參考數據精細到了每一個田塊,導致田塊之間的道路及空隙無法提取,最終判斷為農田,一定程度上影響了提取精度。本文將參考數據做緩沖區分析,緩沖區大小為10 m,再向內對其進行大小為10 m的緩沖區分析,得到了消除10 m農田間隔后的農田區域。同理還進行了20 m、30 m、40 m大小的緩沖區分析。將消除了農田間隔的數據作物參考數據,并進行了面積匹配率計算,本文定義面積匹配率Pq計算方法如下:

式中,Sin是OSM提取的農田數據與消除農田間隔后的參考數據相交的面積;SOSM是OSM提取的農田面積。
根據不同格網大小和不同道路密度等級提取出來的農田數據與RapidEye影像提取出研究區耕地數據進行對比,得到了不同的精度結果。
在基于街區面積的提取方法中,基于中值方法面積提取率達到89.07%,田塊提取率達到88.70%;基于均值方法面積提取率達到84.21%,田塊提取率達到84.87%。

圖6 道路密度等級和格網大小對精度的影響Fig.6 Effect of road density and grid size on accuracy
可以看出,在基于街區面積的方法中,選取中值作為閾值提取精度明顯優于均值;在基于格網的方法中,面積提取率和田塊提取率總體在80%以上,當使用50 m×50 m的格網時,把道路密度等級大于3的格網判斷為建成區時,提取精度可達到85%以上,能夠基本能滿足使用需求。
本研究使用了遙感影像(衛星和無人機)結合地面調查數據,農田數據精度達到地塊級,而OSM道路數據并沒有達到田塊級,為了評價田塊之間的間隙以及間隙大小對本研究精度的影響,故對農田間隙對方法的精度進行了誤差分析。
表1與表2分別展示了在格網大小為100 m×100 m和50 m×50 m時,消除不同大小的農田間隔后面積匹配率的變化情況??梢钥闯觯娣e匹配率有明顯的升高,最高可以達到19%以上。

表1 100 m×100 m道路格網中農田間隔對面積匹配率的影響Table 1 The influence of the interval of farmland on the area matching rate when the size of the fishing net is 100 m×100 m

表2 50 m×50 m道路格網中農田間隔對面積匹配率的影響Table 2 The influence of the interval of farmland on the area matching rate when the size of the fishing net is 50 m×50 m
由此可見,農田的間隙對精度有一定影響,不同程度地消除農田間隙后,面積匹配率有明顯的提升。
其次,本研究使用的RapidEye數據并非官方公布的標準數據,存在一定誤差,將其作為參考數據會影響到最終的誤差評定。結合谷歌地圖,可見中山地地區的農田比較破碎,參考數據存在農田遺漏的現象,降低了提取精度。
最后,由于部分保密地區的存在,導致OSM數據本身存在一定的誤差及缺失,無法精確到每一個區域,本研究將數據空白區域定義為農田,降低了提取精度。
研究通過對OSM數據的篩選,選取其面數據中能夠直接顯示非農田區域的數據;使用OSM道路數據結合街區面積和格網的方法,設定不同參數分別提取研究區內的建成區;將非農田區域與提取的建成區合并,再與研究區交集取反,得到研究區域內的農田地理信息,并比較設定不同參數時提取精度的變化;最后得到的農田地理信息與RapidEye數據、無人機數據結合地面調查提取的農田數據進行對比,結果顯示對韓國陜川郡的農田面積提取率能夠達到85%以上,證明OSM數據對研究區進行農田地理信息提取存在可能。耕地數據中田塊間隙對面積匹配率的影響較大,可達19%左右。
本文方法能夠簡單快速提取農田信息,結合OSM數據可被免費使用、時效性高的特點,可以有效提高農田地理信息的獲取速度,降低農田地理信息獲取成本,在沒有研究區域土地覆蓋信息的情況下,能夠使用該方法得到土地覆蓋信息,具有一定的參考價值,為農田地理信息獲取提供一個新的思路。
研究中還存在以下不足需要在后續研究中解決。
(1)如何定量選取合適的格網大小來提取建成區有待確定。實驗中格網的大小設置并沒有理論支撐,50 m×50 m和100 m×100 m的格網得到的結果也有一定的差異,如何選取最合適的格網大小來提高農田的提取精度有待研究。
(2)道路密度設置的最佳閾值有待確定。自然間斷點法雖然可以使分成的5個等級最大差異化,但是如何分級并設立合適閾值從而提高提取精度也是接下來需要研究的重點。
(3)實驗中僅使用了韓國陜川郡地區的數據,沒有多個地區的數據進行對比,方法的普適性有待驗證,需要更多地區的實驗數據進行比較,且對于一些OSM數據沒有廣泛使用或OSM數據并未公開允許上傳和下載的地區該方法適用性較差。
(4)沒有使用OSM數據中點數據。點數據中包含了很多信息,可用于農業地理信息專題圖的制作,且點數據可能會影響到農田地理信息的提取精度。