張寶安,高小龍,金仔燕,馬蘭花
(甘肅省地圖院,甘肅 蘭州 730000)
目前,各省衛星中心均可獲取到大量時相新、覆蓋范圍廣和更新頻次高的國產衛星影像,包括資源三號、高分一號、高分二號和高分七號等,僅甘肅省每年覆蓋省域的國產衛星影像就多達6000多景,如何對海量遙感影像進行快速精確識別迫在眉睫。現有自動解譯方法較人工目視解譯已有了一定進步,但受限于精度和效率,依然無法工程化應用,如全國國土三調90%以上還是依靠人工目視解譯。為了進一步滿足自然資源自動化、智能化管理需求,有必要在深度學習框架下對山水林田湖草沙等自然資源要素進行遙感智能解譯。而成功訓練一個解譯精度高且泛化能力強的深度神經網絡,需要建立樣例尺寸多樣、樣例類別豐富、類別差異明確、樣例數據多、類間數量平衡的樣本庫,以及一個集成算法模型的業務化軟件系統[1]。
樣本數據集方面,網絡上已經有很多公開的深度學習樣本數據集可供使用。其中,EuroSAT是土地利用和土地覆蓋分類數據集,包括10個類別,共有27 000張圖像[2];BigEarthNet是土地覆蓋分類數據集,包括19個類別,共有590 326張圖像,涵蓋歐洲10個國家;西北工業大學發布的HRSC2016是用于輪船檢測的專題數據集,包含4個大類19個小類,共有2976張圖像,分辨率為0.4~2.0 m;Gaofen Image Dataset是土地利用和土地覆蓋分類數據集,來源于150景高分二號影像,涵蓋中國60個城市,覆蓋面積超過50 000 km2;武漢大學發布的LuoJiaSET,對當前73個開源樣本數據集進行統一處理[3]。文獻[4]對2001—2020年發布的124個遙感影像樣本庫進行了歸納和綜述,并從元數據、分辨率、算法模型和應用領域進行了分析。這些樣本數據集均可以用于深度學習遙感解譯,但還存在一些問題:①分類體系不統一,樣本類型不足,導致相同地類采集指標不同而無法擴充樣本庫;②樣本數量少,分布不均勻,導致泛化能力弱;③公開樣本集樣本純凈度不高;④樣本無空間信息。現有的遙感影像解譯樣本分類體系和樣本數據集,既無法完整反映甘肅省復雜的地理環境,也不能完全涵蓋甘肅省自然資源地表要素。
業務化軟件方面,吉威數源的SmartRS、航天宏圖的PIE-AI、阿里巴巴達摩院的AIEarth和商湯的SenseEarth都實現了深度學習智能解譯全流程,提供目標檢測、要素提取、影像分類、變化檢測等服務,但受限于自然資源業務化規則,還無法被應用于調查監測和基礎測繪更新等一線生產中。相關算法模型均已嵌入系統中,用戶無法參與改進。模型庫標準化程度不夠,不同行業領域的數據模型不能共享互通[5]。
本文以多年度遙感影像和地理國情數據為主要數據源,在制定甘肅省自然資源地表典型要素遙感解譯樣本分類體系的基礎上,建設甘肅首個顧及全省地形地貌分區的多尺度遙感解譯樣本庫,研究建立自動化、分布式多源遙感信息解譯系統。
首先按照已有分類體系,構建符合甘肅省情的遙感解譯分類體系;其次根據地理特點、地物類型和樣本數量選取樣本標注區域;然后基于遙感影像及對應的歷史數據采集樣本,自動構建樣本數據集;最后利用地物分類和變化檢測模型進行智能解譯和變化發現,形成“樣本-模型-知識”的樣本庫建設方法。方法流程如圖1所示。

圖1 遙感解譯樣本庫建設流程
甘肅省內擁有高山地、山地、平川、河谷、沙漠和戈壁等多種地貌,針對現有分類體系不能有效涵蓋甘肅省地表要素問題,需要重新對已有內容與指標進行歸類或拆分。分類體系要與當前自然資源管理要求相適宜,滿足生態文明建設和國土空間規劃的要求,采用開放框架,注意樣本類型全面性,對于可能出現的新地類,都能納入相應分類體系中。
綜合考慮國產衛星數據地物識別能力及多種土地分類標準,如《地理國情普查內容與指標》(GDPJ01—2013)、《基礎性地理國情監測內容與指標》(CH/T9029—2019)、《基礎測繪DLG要素分類分層與編碼》《土地利用現狀分類》(GB/T21010—2017)和《國土空間調查、規劃、用途管制用地用海分類指南》[6]。基于深度學習的地物類型劃分既要結合遙感數據源的光譜紋理信息,又要考慮其通用性及與其他土地分類體系之間的轉換能力[7]。相比而言,地理國情普查和監測數據采集原則為“所見即所得”,因此以地理國情普查和監測分類標準為依據,結合遙感影像的特征和地物要素的可識別性,將同種類別合并,并單獨劃分可區分的重要類別,形成適用于遙感自動解譯的分類體系,包括全要素樣本、單要素樣本和地表變化樣本,并對每類地物定義分類標準及紋理特征。
(1)全要素樣本:對不同分類體系在遙感影像上顯示相同紋理的地類進行合并,刪除地類內部要素復雜的圖斑,如地理國情普查中構筑物一級類中的碾壓踩踏地表,按照定義在其范圍內包括多種要素,因此不適宜當作樣本。經過整理后,全要素樣本包括10大類:耕地、園地、林地、草地、房屋建筑區、路面、硬化地表、動(推)土、荒漠裸露地表和水面,該樣本數據集主要用于土地利用分類。
(2)單要素樣本:以地理國情普查和監測分類為參考,按照業務需求,將獨立房屋建筑、露天體育場、堤壩、公路、水體、溫室大棚、光伏用地、水渠和冰川積雪等為單要素樣本,該樣本數據集主要用于專題要素提取。
(3)地表變化樣本:地表變化分為兩類,一類是通用變化檢測,即不定性,只表示變化范圍;另一類是定性變化檢測,包括新增/滅失耕地、新增/滅失建筑、新增/滅失路面、新增/滅失推填土、新增/滅失林草地、新增/滅失園地等。
甘肅地域遼闊、東西跨度大,相同地物在不同區域形態差異較大,擁有不同的地表特征,如河西走廊區的旱地多位于平地,地塊規整集中,而隴中、隴東和隴南的旱地多位于山地,地塊不規則且零散,因此不同區域之間的樣本混合學習會導致模型訓練效果差[8]。針對此問題,引入地理地貌分區概念,通過對甘肅現有地貌分區進行分析,沿用并適當調整國土三調中的地貌區劃分方法,將甘肅省共分為5部分,分別是河西走廊區、隴中黃土丘陵區、隴東黃土旱塬區、甘南高原區和隴南秦巴山區。因此在省域的大尺度樣本庫的基礎上,以5大地貌分區分別構建中尺度樣本數據集。綜合考慮每個地貌分區的地域特點和地表覆蓋類型,選擇具有代表性的縣區作為樣本采集區域,即該縣區訓練的模型在同地貌分區的其他縣區也適用。如果條件允許,也可在每個縣區采集樣本,樣本數量達到訓練要求后構建小尺度樣本數據集。每個樣本選取區域應具有地物多樣性,即最大程度涵蓋自然資源典型要素,不同類別要素之間應存在明顯的差異。
基于歷史成果數據制作樣本采集成果,包括樣本影像數據、矢量數據,通過自動化裁切方法制作樣本瓦片成果,包括影像瓦片、標簽瓦片,且記錄樣本知識特征,入庫后形成多類型、多屬性、多尺度的甘肅省遙感解譯樣本庫。
(1)樣本采集成果。地物分類和提取模型訓練需要大量的、種類豐富的樣本,應最大限度利用已有數據[9]。首先將不同分類體系的測繪成果按照編碼對照統一歸入新的遙感解譯分類體系中,且在樣本采集時也按照三級類采集,通過編碼對照將二級類或三級類歸入全要素樣本和單要素樣本中,新增要素可增加編碼按需擴展入庫。然后進行交互式采集,樣本采集原則包括:最大最小范圍原則,最大指影像范圍內的樣本要完整,即要保持完整邊界,最小指樣本內部特征唯一,無雜質干擾;“寧無不錯”原則,刪除影像質量不好、對樣本識別和可分性帶來干擾的影像區域;“所見即所得”原則,即如實反映客觀情況。
地表變化樣本采集時,要求前后影像分辨率接近,空間坐標系一致,影像上相同地物位置完全套合。基于地類變化監測數據,保留可用于制作變化檢測樣本的數據,若無地類變化監測數據,通過兩期影像上的比較,找到符合要求的變化范圍明顯的區域,如建筑滅失、道路拓寬等,將變化區域和未變化區域分別采用像素級別標注[10]。
(2)樣本瓦片成果。影像數據和采集數據按照規范組織好后,通過分布式自動裁剪程序制作瓦片樣本,包括影像瓦片、標簽瓦片及瓦片元數據。深度學習不同的算法滿足圖片大小的要求,且還考慮邊緣特征、局部特征和整體特征等,樣例盡可能體現地物的全部特征。樣本切片尺寸大小根據數據情況自定義,主要有1024×1024、512×512、256×256像素。同時,可通過設置重疊度和旋轉角度擴充樣本數量。
(3)樣本知識特征。樣本元數據主要記錄樣本知識特征,按照3個維度描述:①按樣本類型(全要素、單要素、地表變化樣本等);②按影像屬性(數據源、成像時間、傳感器、空間分辨率等);③按樣本空間尺度(大尺度-省域、中尺度-地貌分區和小尺度-縣域),實現樣本特征多維信息組織與存儲[11]。
1.4.1 顧及多層次的要素智能解譯方法
顧及多層次要素智能解譯方法的思路是在訓練端多模型解譯時,首先對總體樣本集進行特征抽取,然后根據抽取的特征進行聚類,分別對N個樣本子集進行訓練,得到N個模型。解譯端待解譯的影像,首先通過特征提取選擇與子模型中相似的若干模型,然后使用若干個模型進行解譯,加權得到解譯結果。針對每個模型,采用遙感影像智能解譯模型的層次認知方法,實現遙感影像從數據到場景級別的智能解譯。
基于深度卷積網絡的高分辨率遙感影像層次認知方法主要包括3部分:像素級語義分割、目標級語義分割,以及場景約束級語義分割。像素級語義分割綜合考慮尺度、感受視野、先驗知識融合及網絡所占GPU顯存等方面因素,實現語義分割任務“端對端”優化;目標級語義分割側重研究遙感影像中的目標特征不變融入語義分割框架,實現對旋轉不變因素的抵抗;場景約束級語義分割主要目的是融入大范圍的場景信息,提高遙感影像語義分割結果的可靠性[12]。
1.4.2 語義信息增強的變化檢測技術
語義信息增強的變化檢測思路為:首先采用面向對象進行變化檢測,然后基于全卷積孿生拼接網絡結構(FCSCN)提取變化圖斑,將兩種方法融合使得變化信息提取的同時具有較高的查全率和查準率。
(1)基于語義信息的面向對象變化檢測。首先采用面向對象的變化檢測方法對兩期影像進行分割,獲取分割對象的語義信息和上下文特征;然后通過最大類間方差得到二值化變化置信度圖;最后輸出變化圖斑。影像分割使用超像素代替像素進行分析,使最后得到的變化圖斑更符合實際地物的輪廓。
(2)基于FCSCN端對端變化信息提取。對稱編碼-解碼的拼接網絡結構(FCSCN)由全卷積神經網絡(FCN)和孿生神經網絡(Siam)組成,基于變化檢測樣本進行模型訓練,直接提取兩期影像的變化信息,從而實現端到端的變化檢測。在編碼操作時,基于權值共享的孿生神經網絡,分層逐步提取兩期變化影像特征。在解碼操作時,將當前的特征與對應的編碼特征融合,采用上采樣技術分層逐步解碼,在上述編碼與解碼雙重耦合作用下,得到變化圖斑。
在上述方法基礎上,建立甘肅省遙感解譯樣本庫平臺,包括樣本管理與智能解譯兩個分系統。樣本管理系統可對多類型、多屬性、多尺度樣本數據進行集成管理與動態維護,智能解譯系統可以實現大范圍遙感影像高精度解譯與變化檢測。系統總體構架如圖2所示。

圖2 甘肅省遙感解譯樣本庫平臺總體架構
應用平臺架構包括基礎設施層、數據存儲層、數據服務層和應用層4個層次。
(1)基礎設施層: 軟件環境部署分布式網絡環境、分布式文件系統、分布式數據庫和關系數據庫等軟件環境。硬件設備采用數據中心云操作系統并配備高性能GPU計算資源。針對遙感智能解譯算法的多核并行任務調度需求,研發了CPU+GPU異構多核混合并行調度方法,采取了使邏輯控制、串行運算的任務優先調度CPU計算節點、計算密集型大規模并發任務優先調度GPU計算的方法,極大提高了計算資源的綜合使用效率。
(2)數據存儲層:提供數據的存儲、擴展與維護能力。樣本數據存儲于分布式數據庫HBase中,數據標簽功能采用ElasticSearch搜索服務器,元數據存儲在關系數據庫postgreSQL中。
(3)數據服務層:支持導入公開遙感樣本數據集,支持樣本的多維語義查詢,通過傳感器、時間、空間位置、地物類型和空間分辨率進行檢索。在樣本數據服務中,系統通過歸納總結不同影像各地類的光譜、紋理、形狀、拓撲等屬性特征,設定、配置有關特征規則與調整參數,實現智能解譯與變化檢測過程的簡易化操作[13]。
(4)應用層:搭建Web端樣本庫平臺,提供樣本的錄入、校驗、多維語義查詢、數據獲取、可視化、樣本分析與應用功能服務[14]。
基于云上物理資源和邏輯資源的樣本管理與智能解譯系統,在5大地貌區選擇18縣區作為樣本采集區域,在每個樣本采集區域采集全要素、單要素和變化檢測樣本。經過裁切后,全要素樣本有270.5萬個,單要素樣本有20.4萬個,變化檢測樣本有8.1萬個。基于樣本制作-模型訓練-智能解譯-質量評估的遙感智能解譯流程開展不同尺度的工程化應用,在大尺度省域范圍上開展了省級基礎測繪更新;在中尺度區域范圍上開展了城市國土空間監測;在小尺度縣域范圍上開展了非農化監測。
2023年甘肅省省級基礎測繪已從覆蓋生產轉變到要素變化更新,而首要任務是發現哪里有變化。首先基于樣本庫的單要素解譯對建筑物、道路、水體和光伏發電裝置進行自動提取,然后套合已有DLG,通過空間分析技術判別變化范圍,重點關注城鎮區域、道路兩側、河道附近等人類活動頻繁地區。選取平涼、慶陽、天水、隴南4市州為研究區,變化發現圖斑分布如圖3所示,對比目視解譯結果,大部分變化范圍都可以提取。然后通過定量方法對解譯結果進行精度評價(見表1)。其中,定量精度評價采用查全率和查準率表示(A代表人工解譯結果,B代表智能解譯結果)。可以看出,重點要素自動提取查全率達97%,查準率達90%。

表1 定量精度評價(%)

圖3 變化發現圖斑分布


通過利用多尺度融合全卷積神經網絡的建筑物和道路提取方法,在2022年城市國土空間監測項目中,選取永昌縣作為試驗區,數據源為高分二號影像,提取了城區內房屋建筑[15],且對路網進行更新[16],后處理時通過規則化算法對結果進行了修正,永昌縣城區房屋建筑和路網自動提取結果如圖4—圖5所示。

圖4 永昌縣房屋建筑提取結果

圖5 永昌縣路網提取結果
“非農化”主要表現為耕地變林地、建設用地、水面、道路、推填土等。選擇古浪縣泗水鎮為試驗區,在甘肅省遙感解譯樣本庫中篩選達到高精度模型訓練要求的“非農化”樣本數據集,通過構建的耕地“非農化”樣本體系和樣本庫訓練所得的深度學習模型[17],選取2015和2023年0.8 m遙感影像,自動識別耕地發生變化的疑似“非農”圖斑,共356個;通過目視解譯和外業檢核兩種方式,對自動識別出的“非農”圖斑進行精度驗證,選用查全率和查準率定量評價精度,計算得到精度評價結果(見表2)。可以看出,基于目視解譯方法的查準率為74.4%,查全率95.7%;基于外業核查方法的查準率為77.8%,全率為93.3%。

表2 基于目視解譯和外業核查點精度評價
本文圍繞甘肅省自然資源地表要素樣本的類別細分,建立了適于甘肅特色的典型要素遙感解譯樣本分類體系,并以此為基礎,分步、分層建設甘肅首個地表典型要素遙感解譯樣本庫,樣本數量達300萬個以上,時相為2013—2023年,樣本空間分辨率為0.1~2.0 m。樣本庫涵蓋甘肅地表各類型地物,樣本類型精細,具有較高的類內多樣性和較低的類間可分離性,并可根據業務需要進行統一和擴展。樣本基于不同地貌分區均勻選取樣本制作區域,更能符合甘肅省地物遙感解譯的需求。在樣本和算法上均不同程度地考慮了空間位置、分辨率、傳感器、季節特征等圖像差異,使得模型泛化性更強。
樣本庫平臺集成了顧及多層次的要素智能解譯模型和語義信息增強的變化檢測模型,還提供了其他模型、算法接口,實現數據、模型和算法開源生態。依據甘肅本省地方和業務特色,將樣本規則建立與業務適配模式融合,推進了技術轉化工程的應用。下一步將不斷擴充樣本,為相關科研院所提供高質量樣本服務,同時在自然資源管理工作中發揮支撐作用。