面向遙感影像智能分類的海量樣本數據采集方法

2019-10-28 08:30:32鄭新燕

測繪通報 2019年10期

關鍵詞：分類

程滔，吳蕓，鄭新燕，楊剛，白駒

(1.國家基礎地理信息中心，北京 100830；2.中國地圖出版社，北京 100045)

隨著計算機硬件的發展與計算能力的提升，大數據計算與分析、人工智能、深度學習等先進技術取得了實質性的快速進步[1-2]，并在商品識別、人臉識別、目標檢測、敏感圖識別、人類活動分析等實際應用場景中發揮了重要作用[3]，應用潛力十分巨大。

基于深度學習等技術的遙感影像智能分類是近年來遙感領域研究的熱點[4-6]。這些技術的實質，是通過構建具有很多隱層的機器學習模型和海量的訓練數據來學習更有用的特征，從而提升分類準確性。因此，遙感影像智能分類需要大規模訓練樣本和測試樣本數據，并且樣本數據準確度越高，通過訓練進行識別和分類的精度就越高[7]。這里的樣本數據指遙感影像和遙感影像對應的明確的地物目標組成的一一對應的關系數據組。

地理國情監測重大專項形成的覆蓋全國范圍的高分辨率遙感影像、高精度地表覆蓋分類產品[8]，為遙感影像智能分類海量樣本數據采集提供了豐富、可行的數據資源。基于遙感影像數據與地表覆蓋分類柵格化數據，利用空間位置匹配技術，構建遙感影像與地表覆蓋分類標簽數據對，通過大規模采集，可為遙感影像智能分類提供精確的樣本數據[9-10]。

本文針對遙感影像智能分類對高質量、大規模樣本數據的需求，開展海量樣本數據采集方法研究，解決采集過程中的各項技術難點；同時開發樣本數據自動采集軟件。利用整套方法，完成全國尺度海量樣本數據的采集，并基于多個不同區域的采集過程與樣本數據成果，對方法的實用性、運算性能進行評估。

1 數據源

1.1 高分辨率遙感影像

地理國情監測使用的遙感影像數據空間分辨率標準為全國優于2.5 m、重點區域優于1 m，以資源三號測繪衛星獲取的影像為主，其他國產高分辨率遙感影像(包括高分一號、高分二號、北京二號、天繪一號等)及商業衛星遙感影像(包括WorldView-1/2、GeoEye、QuickBird、pléiade-1A/1B、SPOT 6/7等)進行補充，部分地區根據需要開展航空攝影、無人機航空攝影獲取影像。原始影像各波段位深為16 bit，分幅數字正射影像各波段位深為8 bit[11]。

地理國情監測的標準時點為6月30日，這種多源遙感影像協同滿足地理國情監測需求的現狀，使得遙感影像呈現傳感器類型多樣性、分辨率多樣性、時相多樣性的特點。這一特點也豐富了海量樣本數據成果的內容，有利于智能分類兼顧更多的數據特征。

1.2 高精度地表覆蓋分類產品

地理國情監測地表覆蓋分類產品包含種植土地、林草覆蓋、房屋建筑(區)、鐵路與道路、構筑物、人工堆掘地、荒漠與裸露地、水域8個一級類、46個二級類、86個三級類，類型劃分以地物自然屬性為主要依據[12]，均是基于資源三號、高分二號、WorldView-1/2等高分辨率遙感影像采集，全國范圍全覆蓋、無縫隙，采集指標基本要求是最小圖斑對應的地面實地面積為400 m2。該產品為各部門掌握地表自然資源、生態環境及人類活動基本情況提供了高精度的地表覆蓋數據基礎。

地理國情監測地表覆蓋分類產品格式為矢量空間格式，全國范圍圖斑數量達到數億個。在開展樣本數據采集時，以縣級行政區劃為單元，對矢量數據進行了柵格化處理，柵格化粒度為1 m×1 m。采用面積最大法確定各柵格所代表的地表覆蓋類型，即柵格范圍區域內，各類型中面積占比最大的類型作為該柵格的分類類型。地表覆蓋分類產品的分類代碼最大為4位數字，因此柵格化結果位深定義為16 bit。

2 研究方法

全國尺度海量樣本數據采集數據量巨大，因此，以縣級行政區劃為單元進行采集，最終聚合形成全國尺度海量樣本數據集。基于數據源特征分析，海量樣本數據采集需要研究解決縣域采集數量權重設置、坐標投影轉換、柵格灰度重采樣、無效樣本數據過濾、地表覆蓋分類碼映射、樣本數據命名標識、特定地表覆蓋類型樣本數據采集等關鍵技術問題，實現海量樣本數據采集的自動化、批量化，提升采集效率。海量樣本數據采集技術流程如圖1所示。

2.1 縣域采集數量權重設置

每個縣級行政區劃樣本采集數量采用面積因子進行自動分配，根據縣域面積與全國縣平均面積的大小關系、全國尺度需要采集的樣本數據總數量，并考慮采集過程中存在無效樣本塊的因素，分配合理的采集數量。

2.2 坐標投影轉換

地理國情監測地表覆蓋柵格數據坐標為CGCS2000，分幅數字正射影像坐標為CGCS2000坐標系下的高斯-克呂格投影坐標。基于位置匹配技術的樣本數據采集是由采集的有效的地表覆蓋柵格影像塊的中心點大地坐標，計算對應的分幅數字正射影像的圖幅號，檢索分幅數字正射影像數據文件，最后進行采集。

因此，在創建輸出的數字正射影像塊時，坐標、行列數與地表覆蓋柵格影像塊保持一致；獲取到地表覆蓋柵格影像塊的中心點大地坐標后，對輸出的數字正射影像塊進行各像素循環，利用高斯正算算法進行坐標投影轉換，從分幅數字正射影像中重采樣各像素灰度值。

2.3 柵格灰度重采樣

地理國情監測地表覆蓋柵格數據分辨率統一為1 m，分幅數字正射影像分辨率包括0.5、1、2 m 3種形式[11]。對于0.5、2 m的分幅數字正射影像，在輸出數字正射影像塊時，分辨率需要重采樣至1 m。

針對分幅數字正射影像存在3種分辨率的情況，在創建輸出的數字正射影像塊時，坐標、行列數與地表覆蓋柵格影像塊保持一致；對輸出的數字正射影像塊進行各像素循環，利用雙線性內插算法從分幅數字正射影像中重采樣各像素灰度值。

2.4 無效樣本數據過濾

2.4.1 數字正射影像無效影像塊過濾

采集數字正射影像塊時，進行灰度值統計判斷，統計像素灰度值為(0,0,0)，即各波段像素灰度值均為0的像素數目。該數目大于影像塊像素總數目10%時，將該影像塊判定為無效影像塊，不進行采集。

在采集過程中，存在另外一種情況，即地表覆蓋柵格影像塊有效，但數字正射影像塊無效。對于有效的地表覆蓋柵格影像塊，在采集數字正射影像塊時，由于數字正射影像按標準分幅組織，可能剛好處于分幅數字正射影像的邊緣，因此存在0值區，即數字正射影像塊無效的情況。這種地表覆蓋柵格影像塊不滿幅或數字正射影像塊不滿幅的影像塊組合均應刪除，以保證樣本數據成果的有效性。

2.4.2 地表覆蓋柵格無效影像塊過濾

采集地表覆蓋柵格影像塊時，進行灰度值判斷，只要存在像素灰度值為0的情況，則說明該影像塊存在無值區，不進行采集。

2.5 地表覆蓋分類碼映射

為便于樣本數據應用，并減少數據量，地表覆蓋柵格影像塊與數字正射影像塊均輸出為8 bit。由于原始地表覆蓋柵格數據為16 bit，因此，需要將其自動轉換為8 bit。

轉換方法為：創建TXT文本格式的索引文件，索引值為16 bit分類碼和對應的8 bit分類碼值，針對采集的地表覆蓋柵格影像塊，根據其原始16 bit分類碼，映射得到其8 bit分類碼，并作為輸出結果值。

2.6 樣本數據命名標識

采集的地表覆蓋柵格影像塊與數字正射影像塊均輸出為JPG格式，不帶空間坐標。數據命名標識規則為：地表覆蓋柵格影像塊和對應的數字正射影像塊文件命名標識一致，由38位字符組成，包含縣級行政區劃代碼、數字正射影像波段數、原始遙感影像獲取時間、采集的樣本塊中心點經度坐標、采集的樣本塊中心點緯度坐標(用度分秒表示，精度至0.001″)5項信息。具體為：第1—6位字符為6位縣級行政區劃代碼(反映樣本數據的空間地域)；第7位字符為數字正射影像波段數；第8—15位字符為原始遙感影像獲取時間(從分幅數字正射影像元數據中獲取)；第16—25位字符為采集的樣本塊中心點經度坐標；第26—34位字符為采集的樣本塊中心點緯度坐標；第35—38位字符為文件后綴名.jpg。例如：1301013201609190980202333360202333.jpg。

從分幅數字正射影像元數據中獲取原始遙感影像獲取時間時，分為3種情況：①航空攝影影像數據，讀取“航攝時間”字段，只有年、月6位字符，第8—15位字符用“0”補齊至8位，如20160900。②衛星影像數據，首選讀取“多光譜衛星影像獲取時間”字段，有年、月、日8位字符，如20160919；如果該字段值為空，則讀取“全色衛星影像獲取時間”字段，有年、月、日8位字符，如20160919。③如果讀取這3個字段，獲取的值均為空，則第8—15位字符用“0”補齊至8位。

2.7 特定地表覆蓋類型樣本數據采集

樣本數據大規模位置匹配采集是以縣級行政區劃為單元，以地表覆蓋柵格數據為主線，通過規則格網劃分進行的，那么采集結果就可能出現部分地表覆蓋類型采集的樣本數目較多、部分地表覆蓋類型采集出的樣本數目較少甚至沒有的情況。同時，部分地表覆蓋類型需要采集到純凈的單一地表覆蓋類型的樣本數據。

針對這種需求，本文采用的方法具體如下：自定義一個TXT文本格式的采集參數文件，將相關信息錄入TXT文本文件中，包括批采集數量、特定地表覆蓋類型樣本數據的分類代碼、采集的樣本塊中心點經度坐標、采集的樣本塊中心點緯度坐標、樣本塊列數、樣本塊行數，各列之間用tab鍵或空格分開。通過讀取采集參數文件，實現相應樣本數據的采集，即可滿足這種特定需求。

3 軟件研發

面向遙感影像智能分類的海量樣本數據規模巨大，目前商業軟件難以滿足采集效率需求。針對這一現狀，本文自主研發了柵格空間數據大規模位置匹配采集軟件——LCARasterTile，根據地理國情監測高分辨率遙感影像及高精度地表覆蓋分類產品的數據管理方式、數據量等特點，按照全國各縣面積大小，設置合理的采集參數，利用空間位置匹配技術實現全國尺度海量樣本數據采集，提高數據采集效率，滿足面向遙感影像智能分類的海量樣本數據需要。

3.1 軟件特點

LCARasterTile軟件是在Visual Studio 2010集成開發環境中，利用Microsoft Visual C++語言實現的。開發過程中，調用了GDAL(geospatial data abstraction library)開源柵格空間數據轉換庫[13]。

LCARasterTile軟件操作簡便，實現了大規模柵格空間數據的自動化、批量化位置匹配采集，提高了數據采集效率，保證了樣本數據集產品質量，并節約了人力、物力成本。

軟件主要具有以下幾個特點：①軟件支持大數據的輸入、讀取與處理；②軟件可根據遙感影像智能分類對樣本影像塊尺寸需求，設置不同的采集尺寸；③軟件能夠實現無效樣本數據的自動過濾；④針對特定地表覆蓋類型樣本數據采集需求，軟件可進行特定模式采集；⑤軟件具有批處理功能，數據處理效率高；⑥軟件界面友好，操作簡便。

3.2 軟件輸入

軟件輸入數據包括3項：

(1)地理國情監測地表覆蓋柵格數據。數據文件采用IMG(后綴名為“.img”)格式，經緯度坐標；多個數據文件存儲在同一個文件夾中，便于進行批處理操作。

(2)數字正射影像數據。數據文件采用非壓縮的TIFF格式(后綴名為“.tif”)，高斯-克呂格投影坐標；影像坐標信息文件采用TIFF WORLD文檔格式(后綴名為“.tfw”)；數據文件與影像坐標信息文件的文件命名標識一致；多個數據文件存儲在同一個文件夾中，便于進行批處理操作。

(3)采集參數數據。在進行特定地表覆蓋類型樣本數據采集時，還需要輸入TXT格式采集參數數據；記錄內容包括：批采集數量、特定地表覆蓋類型樣本數據的分類代碼、采集的樣本塊中心點經度坐標、采集的樣本塊中心點緯度坐標、樣本塊列數、樣本塊行數。在進行大規模采集時，采集參數只需輸入采集尺寸，默認值為1023，即采集列數、采集行數均為1023個像素。

3.3 軟件輸出

軟件輸出成果為位置匹配的遙感影像數據與分類標簽數據組成的樣本數據對，均為JPG格式，兩者命名標識一致，存儲在不同的路徑下，并一一對應。

4 結果與分析

利用本文方法，基于LCARasterTile軟件，以縣級行政區劃為單元，實現了全國尺度海量樣本數據采集。考慮面積、形狀等因素，本文選取湖北省武漢市5個縣級行政區劃作為樣例區，利用其成果，對整套方法的實用性及軟件運算性能進行評估。

樣例區包括武漢市漢南區、蔡甸區、江夏區、黃陂區、新洲區。

采集到的單個位置匹配的遙感影像數據與分類標簽數據組成的樣本數據對如圖2所示，幅面大小為1023 m×1023 m。其中，圖2(a)為遙感影像數據(即數字正射影像影像塊)，圖2(b)為分類標簽數據(即地表覆蓋柵格影像塊)，其像素灰度值代表對應的地表覆蓋分類碼。

各縣級行政區劃樣本數據采集統計信息見表1，通過采用單個大數據分塊、整體數據分批循環處理算法，進行合理的內存分配，解決了數據運行效率與計算性能問題[14]。表1為單臺計算機、單線程數據計算效率，在采集過程中，計算機內存占用為300～520 MB(計算機為Windows 7 64位操作系統，32 GB內存，1.9 GHz處理器)。

表1 樣本數據采集統計信息

從表1可以看出，縣域面積、形狀各不同，采集到的樣本數據數目、密度存在一定差異。根據表1，采用單臺計算機、單線程，全國尺度采集300萬量級的樣本數據對，需要66 d；如果采用5臺計算機、多線程采集，5 d可完成采集，能夠滿足全國尺度采集效率需求。

5 結論

(1)本文構建了面向遙感影像智能分類的海量樣本數據采集方法、采集軟件一整套技術體系，解決了海量樣本數據采集中的技術問題。自主研發的LCARasterTile軟件，滿足了樣本數據大規模采集與特定地表覆蓋類型采集需求，保證了海量樣本數據質量，提升了采集效率。

(2)本文將地理國情監測高分辨率遙感影像及高精度地表覆蓋分類產品作為數據源，構建了位置匹配的遙感影像數據與分類標簽數據組成的樣本數據對，解決了目前高精度且具有標注信息的樣本數據不足的問題。

(3)本文利用提出的一整套方法，實現了全國尺度海量樣本數據采集，滿足了遙感影像智能分類對高質量、大規模樣本數據的需求，具有實際意義。采集的全國尺度海量樣本數據已應用于遙感影像智能分類研究中，并取得了一定的成果，后續將進一步拓展應用范圍。