王 南,錢雨卉,魏維軒
(1. 南京工業大學建筑學院,江蘇 南京 211800;2. 上海濟致建筑規劃設計有限公司,上海 200040)
“增加生態碳匯”的自然調節是實現雙碳目標的主要途徑,但在碳匯測算中往往以林木生長量為主[1],忽視了作為城市重要綠色基礎設施的公園綠地中植被的碳匯功能[2]。與較為成熟的林木碳匯測算相比,城市公園綠地植被的碳匯測算與評估理論、方法、模型、實踐相對匱乏,尤其表現在公園植被識別方面,但先進設備的組合使用與智能算法的深度優化或可為公園植被的識別與后續的碳匯測算、種植設計等提供有力的數理依據,快速響應雙碳政策,發揮城市公園綠地生態效能。
公園植被的識別與傳統的林地識別方法有較大差異。林地植被往往是單一種或以成熟喬木林為主,成組團化,邊界清晰、要素明確、植被識別相對簡單[3],而公園綠地中的植被常常大小不一,種植種類多、分布復雜、界面多樣,故需借助更為準確的模型以實現高精度識別。
現有識別方法中,現場測量法精度較高但工作量大,設計圖紙測量法工作量小,但因植物實際的生長范圍變化和勘察技術限制導致誤差較大,均不能較好地評估各類植物的生長狀態,降低了精確度,進而影響了后續碳匯測算的可靠性[4]。
自1970年代起,隨著多光譜遙感技術和無人機與高精度相機等設備的出現,通過研究SPOT和TM的多光譜圖像各波段的相關性及最佳波段組合[5],多光譜圖像逐漸應用于地質災害管理、礦產資源、城市建設等領域,并向精細農業[6]、環境評價、數字城市等新興行業應用轉移。近年來,無人機多光譜遙感影像開始應用于農業檢測[7]和植被生態識別[8],結合植被覆蓋指數對植被威脅區域進行預警,融合框架、算法以生成具有高空間質量的多光譜圖像[9],但考慮到公園植被的復雜性與動態性,在公園植被識別中的應用較少。
多光譜遙感獲得的圖像需經數據格式轉換和針對性分析后才可為植被識別所用,主要包括基于人工設計的人工描述子分類算法和基于深度學習的圖像分類算法,后者更能夠排除差異、適應干擾。自2006年深度置信網絡提出以來[10],卷積神經網絡的圖像識別功能已可逐漸實現多光譜遙感的影像分割[11]。
但在這些場景識別中常采用的多路卷積神經網絡,僅從近紅外圖像和三通道彩色圖像多通道輸入識別[12],對城市公園植被識別的場景適用性不強。因此,基于雙重注意力機制,針對不同通道所代表特征的重要性程度和不同局部區域的顯著性程度處理遙感圖像[13],或可成為高精度識別城市公園植被的新路徑。
綠化植被相對于公園內其他非植物要素具備較好的多光譜識別優勢,通常采用NDVI 指數進行分析,但NDVI 對土壤背景的變化較為敏感,對公園非植物識別存在客觀偏差,故采用更為穩定的GNDVI指數對多波段數據進行整合,構建用于輔助三通道可見光圖像識別的GNDVI圖像。
式中,NIR 為840 nm 近紅外波段;GREEN 為555 nm綠色波段。
卷積神經網絡的注意力機制能夠讓網絡內神經元專注于指定特征屬性,有指向性地進行網絡參數優化,而雙重注意力的卷積神經網絡結構具備了自適應地集成局部特征和全局依賴的能力,更適應三通道彩色圖像中多光譜和廣域空間的兩方位信息。
在通道注意力和空間注意力2 個模塊中:通道注意力模塊強調圖層之間信息關聯性,對于特征的每一個通道都使用專門的檢測器進行分析,之后通過池化或通道壓縮方案綜合所有通道的信息,既實現了通道信息的獨立化提取,又保證通道關聯性不丟失。空間注意力模塊在強調了卷積核局部內空間關系的基礎卷積神經網絡基礎上,提出了范圍更廣的空間感知方案,在每一層圖像空間范圍內進行自卷積和點乘,計算空間內每個像素與其他像素的相關性,讓神經網絡認識到重點特征位置,提高卷積層內關注點的表現力,抑制不必要的特征。
模型將2 個模塊并行組合,在對基礎特征網絡提取的特征以向量模式重構后,注意力機制為不同向量和空間的像素賦予不同的注意力權重,利用神經網絡的自我學習能力分析信息關聯性。對多光譜以及三通道可見光圖像的識別任務,雙重注意力神經網絡既強調了多光譜圖像的光譜信息,又降低了廣域信息分析的難度,提高了特征差異性(圖1)。

圖1 雙重注意力網絡高精度識別城市公園植被的技術路徑
網絡結構分為三部分(圖2):圖像融合網絡、雙重注意力網絡以及特征解碼網絡。整體結構按編解碼結構設計,自頂向下編碼器塊對輸入特征圖譜進行提取,而自底向上的解碼器將輸入特征優化,生成符合訓練要求的分割解譯結果。考慮到圖像的多尺度特性,本網絡利用特征提取基礎網絡本身帶有的層次性語義特征,借助特征金字塔網(feature pyramid network)分離并優化基礎特征,構建特征金字塔。通過側向連接方式融合編、解碼器的特征,利用頂層抽象語義特征和底層的高分辨率細節特征,實現語義分割結果精細化。

圖2 神經網絡整體結構圖
4.1.1 圖像融合網絡
圖像融合網絡的作用是對多光譜圖像生成的GNVDI 圖像,以及可見光圖像基礎特征的提取與融合。早期融合(early fusion)數據模塊是在2個圖像基于通道進行融合后,將特征輸入基礎特征網絡;特征融合(feature fusion)數據模塊是在基礎網絡后,對提取的基礎特征進行融合。
4.1.2 雙重注意力網絡
由基礎特征網絡ResNet 塊提取的輸出FiO,無論是來自早期融合模塊或特征融合模塊,都被輸入到一個雙重注意模塊(dual attention module)內。多個注意力模塊形成單側鏈接鏈路,搭建多尺度特征金字塔,實現編碼器特征與解碼器特征的跳層連接(skip connection)。每個雙重注意模塊由空間注意力模塊和一個通道注意力模塊組成(圖3)。

圖3 雙重注意力網絡結構圖
4.1.3 特征解碼網絡
位置注意力模塊將所有像素位置納入分析過程,通過特征的加權和來選擇性地聚合每個位置的特征。無論距離如何,類似的特征都將彼此相關。通道注意力模塊通過整合所有通道映射之間的相關特征來選擇性地強調存在相互依賴關系的通道映射。最后,2 個注意力模塊的輸出被相加后經過數個3×3的卷積神經層處理,生成該層級的解碼器對應的輸入特征:
不同層級的注意力特征首先經過1×1 的卷積改變特征圖的通道數,之后通過上采樣改變特征圖空間大小,與底層特征相加融合并卷積整理。此過程重復操作,實現自下向上的特征融合,如此操作可以逐步改進特征表示,優化分割結果:
之后獲得每一層級的輸出,經過一個1×1×C的卷積層和softmax激活函數層,獲得每一類目標在該像素出現的概率圖Pi,該概率圖與輸入的原始標注大小相同,其中C為需要區分的目標類別數,i為特征層級。
基于監督學習方案進行模型的訓練為實現多尺度損失獲取,每一級融合后的解碼特征圖與目標標注圖GTi進行對比,構建多尺度損失函數,其中GTi為經過下采樣處理的標注產品。目標函數Q(Pi,GTi)構造為如下所示:
式中,pi,n為第i層特征中,第n種目標的概率;GTi,n為進行下采樣后該位置標注是否已標注為第n類,GTi,n=1;L為基礎網絡包含的卷積塊總數;N為總類別數。
在訓練過程中,使用Adam 函數進行目標函數優化,算法學習率采用余弦退火(cosine annealing)進行更新,初始學習率為1e-5,權值下降設定為5e-4,共迭代訓練60000 次,批量為4。
考慮到樣本不平衡問題,使用加權交叉熵思想優化損失函數,即對于不同目標使用不同的損失權重。對于小數目樣本如喬木,提高其權重,加強它對損失函數的貢獻;對于大數目的樣本,比如環境背景(包括周圍環境和裁剪中的黑色像素)減少其對損失函數的貢獻。優化損失函數如下,主要在正樣本上進行加權處理:
式中,w為自適應權重參數,根據每張訓練圖中對應類別的像素比例計算而得;wn中n為不同的類別。
上海泡泡公園位于上海市奉賢區,占地約20 hm2,是植被覆蓋豐富的城市公共綠地。針對19.25 hm2的核心區域,于2021年5、6、7 月開展了無人機可見光與多光譜航測,篩選出最優天氣下的成像數據。采集范圍為450、555、660、720、750、840 nm 6個波段,巡航高度為100 m,航測后圖像數據拼合精度為2.54 cm。本研究航測選取精度要求:①遙測區域無云層陰影影響且光照條件充足;②喬木樹冠邊界清晰,常綠與落葉喬木區分明顯;③灌木與地被空間分界明顯且可區分類型,如木本、草本、成片灌木與獨立灌木等。
實驗圖像包括多光譜GNDVI 圖像和三通道可見光圖像2 種,尺寸均為10486×7328 px,重點關注喬木(tree)、灌木(bush)、地被(grass)3類要素。使用標準化標注軟件Lableme 對于原始圖像進行標注,未標注目標被統一歸為背景要素(background),如圖4所示。

圖4 采集圖像
評估與驗證過程在數據集的構建方面與傳統實驗不同。首先,從原圖中隨機切割了2 個互不重疊的1500×1500 px 圖像切片作為測試集的一部分;之后,在排除以上圖片切片的基礎上,進行有重疊的512×512 px的圖像切割。考慮到最終識別準確性評估必須模擬真實圖像,重疊部分的切片融合過程一并納入訓練樣本。切割后圖像切片按比例進行劃分,保證全部訓練集、驗證集、測試集的比例為8∶1∶1。為提高訓練數據多樣性,使用縮放、旋轉、顏色偏移、高斯噪聲加噪等方式對生成的切片以及對應標注圖像進行數據增廣。
使用Precision(P),Recall(R)和F1-score 綜合評定模型性能,Precison 代表模型能否準確區分類別的能力,Recall代表模型能否找到關注目標的能力:
式中,TP為預測到目標且預測類別正確的像素數量;FN 為預測到是背景但實際是目標的像素數量;FP 為預測到是目標但實際是背景的像素數量,計算后得到性能評估表(表1)。

表1 模型性能評估表/%
相對于僅使用可見光影像,由于缺失材質等信息,P、R、F1在僅使用GNDVI時表現均不佳,但在區分背景和目標上有較好表現,而雙入網絡(double in network)性能明顯優于單入網路(single in network)。如喬木,早期融合相對僅可見光影像輸入的方案精度提高了5.09%,相對僅多光譜GDVI 融合提高了21.15%;而特征融合更是在此基礎上更加提升,相對單可見光獲得了5.44%的提升。可視化和數字化結果均印證了2 種圖像結合輸入網絡的效果更佳,而在特征層面融合效果較圖像層面直接融合效果更好,其應用達到了91.8%的公園植被高精度識別。
在實驗中,將融合與僅使用可見光圖像在相同的編解碼網絡中進行消融實驗比對,實驗結果表明,單純使用可見光圖像盡管可以實現多類別植被目標的分離工作,但是其效果相對于融合后結果存在明顯差異。尤其是喬木類的結果,其R以11.83%的差異遠低于平均水平,這就導致了大量的喬木樣本缺失。對于灌木,其P則以8.95%低于平均水平,該類樣本易被錯誤分類為其他類別。
以上數據可證明僅使用可見光圖像存在檢測的局限性。相對來說,在融合方案中(以feature fusion 為例)喬木R的平均偏差比例改善為7.57%,灌木P的平均偏差改善為4.32%,在單一指標上有了明顯提升。在綜合評定指標F1上,喬木、灌木、地被3類別分別實現了5.60%、3.37%、2.89%的數據提升,整體上提升了3.49%。重點關注到,喬木檢測在信息融合后有明顯提升,可以合理推測近紅外光譜和綠色光譜互信息的加入改善了網絡識別植被的能力并提高了網絡對類別間差異信息的響應,迫使網絡更好地挖掘了紅藍光譜的信息。
為了驗證GNDVI信息本身就提供了較可見光圖像更多的信息量,也進行了類似以上的實驗。實驗結果是否定的,從總體試驗結果看僅GNDVI圖像作為輸入的結果反而比僅可見光圖像作為輸入的結果差2.37%,對于僅GNDVI 圖像結果均差于可見光圖像的原因不難分析,主要是GNDVI圖像僅包含綠色和近紅外兩部分的光譜信息,其初始信息量遠低于包含三光譜信息的可見光圖像,尤其對于樹木,綠色光譜的相似性使得樹木難以區分于周圍植被。但是,對于灌木和地被類的內部性能提升,推測GNDVI信息可以將網絡關注力置于大面積覆蓋的灌木和地被區分上。
在雙碳政策的引導下,城市公園綠地的各類植被的碳匯研究愈發重要,其評估的關鍵點在于公園植被的高精度識別,以提升碳匯能力、促進節能減排、改善人居環境。通過DJI M300RTK 航測無人機與MS600Pro機載多光譜相機的設備組合可實現可見光與多光譜影像的航測獲取,結合雙重注意卷積神經網絡學習可實現高精度識別的模型構建,優化了傳統遙感航片在像素模糊、邊界不清、識別效率低下的問題。在上海泡泡公園的模型訓練與實驗評估表明,通過早期融合和特征融合的組合模型方案,喬木、灌木、草本識別度分別可達88.6%、92.0%和92.6%,綜合識別度可達91.8%,為后續碳匯測算、植被評估提供了有力的科學技術支撐。