摘要:為解決無(wú)人機(jī)影像中建筑物輪廓提取的技術(shù)難點(diǎn),文章提出一種基于深度學(xué)習(xí)的建筑物輪廓提取方法。通過(guò)結(jié)合高分辨率無(wú)人機(jī)影像數(shù)據(jù),應(yīng)用U-Net、Mask R-CNN及DeepLabV3+等深度學(xué)習(xí)模型,對(duì)輪廓提取的邊界精度、召回率及綜合性能進(jìn)行全面對(duì)比分析。實(shí)驗(yàn)結(jié)果顯示,DeepLabV3+的F1分?jǐn)?shù)在不同時(shí)間段均超過(guò)92%,顯著優(yōu)于Canny邊緣檢測(cè)方法(最高76.2%) 。DeepLabV3+在復(fù)雜場(chǎng)景中的邊界清晰度和抗干擾能力表現(xiàn)尤為突出。本研究結(jié)果表明,深度學(xué)習(xí)方法,尤其是DeepLabV3+,可為城市規(guī)劃和建筑監(jiān)測(cè)提供更高效、可靠的建筑物輪廓提取方案。
關(guān)鍵詞:無(wú)人機(jī)影像;建筑物輪廓提?。簧疃葘W(xué)習(xí);語(yǔ)義分割
中圖分類號(hào):TP391" "文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2025)21-0098-03
開放科學(xué)(資源服務(wù)) 標(biāo)識(shí)碼(OSID)
隨著無(wú)人機(jī)遙感技術(shù)的迅速發(fā)展,其在建筑物信息提取中的應(yīng)用逐漸受到重視。建筑物輪廓的精準(zhǔn)提取在城市規(guī)劃、災(zāi)害評(píng)估以及三維建模等領(lǐng)域具有重要意義[1]。無(wú)人機(jī)影像在建筑物輪廓提取中的應(yīng)用因其在城市規(guī)劃、災(zāi)害評(píng)估及三維建模等領(lǐng)域的重要性而日益受到關(guān)注。無(wú)人機(jī)影像的復(fù)雜性(如光照變化、視角干擾) 使得傳統(tǒng)影像處理方法難以滿足高精度要求。
1 無(wú)人機(jī)影像建筑物輪廓提取概況
1.1 無(wú)人機(jī)影像特點(diǎn)
無(wú)人機(jī)影像因其高分辨率和多視角特點(diǎn),在建筑物輪廓提取中表現(xiàn)出極大的技術(shù)優(yōu)勢(shì)[2]。高分辨率影像能夠捕捉建筑物的微小細(xì)節(jié),例如墻體邊緣、屋頂結(jié)構(gòu)等,為輪廓提取提供了精準(zhǔn)的邊界信息;多視角影像通過(guò)不同角度的覆蓋,有助于重建建筑物的三維結(jié)構(gòu),準(zhǔn)確還原其復(fù)雜的幾何形態(tài)。無(wú)人機(jī)獲取數(shù)據(jù)方便靈活,不受地形及環(huán)境的制約,可對(duì)各種應(yīng)用場(chǎng)景做出快速反應(yīng),其低成本特性也使其適于作為建筑物輪廓提取與監(jiān)測(cè)項(xiàng)目的數(shù)據(jù)源。
1.2 深度學(xué)習(xí)技術(shù)在影像處理中的優(yōu)勢(shì)
深度學(xué)習(xí)技術(shù)為無(wú)人機(jī)影像處理提供了革命性的手段,其核心優(yōu)勢(shì)在于能夠自動(dòng)提取和分類圖像中的復(fù)雜特征[3]。傳統(tǒng)影像處理技術(shù)通常依賴人工設(shè)計(jì)特征,如邊緣檢測(cè)或顏色閾值,但這些方法在復(fù)雜場(chǎng)景中難以捕捉圖像的深層信息。深度學(xué)習(xí)模型(如卷積神經(jīng)網(wǎng)絡(luò)CNN) 通過(guò)多層網(wǎng)絡(luò)結(jié)構(gòu)自動(dòng)學(xué)習(xí)圖像中的高維特征,不僅能提取局部邊緣和紋理信息,還能通過(guò)特征層的疊加捕獲全局上下文信息。這種自動(dòng)學(xué)習(xí)方式能夠動(dòng)態(tài)適應(yīng)不同場(chǎng)景和數(shù)據(jù)分布,比人工設(shè)計(jì)特征更靈活、更精準(zhǔn)。
2 主要挑戰(zhàn)及應(yīng)對(duì)措施
2.1 主要挑戰(zhàn)
無(wú)人機(jī)影像建筑物輪廓提取面臨一系列技術(shù)挑戰(zhàn)。無(wú)人機(jī)影像通常存在光照、陰影以及視角變化等復(fù)雜因素,對(duì)深度學(xué)習(xí)模型的泛化能力提出了更高要求。無(wú)人機(jī)采集的影像數(shù)據(jù)量巨大,數(shù)據(jù)質(zhì)量參差不齊,這對(duì)模型的訓(xùn)練和預(yù)測(cè)提出了挑戰(zhàn)[4]。無(wú)人機(jī)影像建筑物輪廓提取面臨諸多技術(shù)挑戰(zhàn):深度學(xué)習(xí)模型對(duì)高質(zhì)量、標(biāo)注完善的大規(guī)模數(shù)據(jù)集有較強(qiáng)依賴性,而數(shù)據(jù)獲取與標(biāo)注的成本較高。建筑物輪廓的復(fù)雜性和多樣性,例如不同建筑類型的材質(zhì)、形狀,以及環(huán)境遮擋和視角變化的影響,進(jìn)一步增加了提取任務(wù)的難度。
2.2 關(guān)鍵應(yīng)對(duì)措施
考慮無(wú)人機(jī)影像復(fù)雜性和深度學(xué)習(xí)模型要求,可采用一系列優(yōu)化措施。數(shù)據(jù)增強(qiáng)技術(shù)對(duì)于解決數(shù)據(jù)缺乏多樣性問(wèn)題具有重要意義,它通過(guò)圖像的旋轉(zhuǎn)、裁剪和噪聲添加來(lái)增強(qiáng)模型魯棒性[5]。影像預(yù)處理技術(shù)(例如圖像降噪、畸變校正等) 可以改善數(shù)據(jù)質(zhì)量,為后續(xù)模型訓(xùn)練提供高質(zhì)量輸入。采用多尺度深度學(xué)習(xí)模型(如U-Net或FPN) ,能夠在不同尺度下提取影像特征,有效提升邊緣細(xì)節(jié)的提取精度。
3 基于深度學(xué)習(xí)的建筑物輪廓提取方法
3.1 數(shù)據(jù)預(yù)處理及仿真模型構(gòu)建
影像數(shù)據(jù)的預(yù)處理是提升深度學(xué)習(xí)在無(wú)人機(jī)影像建筑物輪廓提取中表現(xiàn)的關(guān)鍵步驟,主要包括數(shù)據(jù)清洗、增強(qiáng)和分割。高分辨率無(wú)人機(jī)影像的采集結(jié)合了人工標(biāo)注的建筑物輪廓數(shù)據(jù)與開源數(shù)據(jù)集(如INRIA Aerial Image Dataset、DeepGlobe數(shù)據(jù)集) ,通過(guò)制定嚴(yán)格的標(biāo)注標(biāo)準(zhǔn)和質(zhì)量控制措施(如多輪標(biāo)注一致性檢查) 確保數(shù)據(jù)多樣性和標(biāo)注準(zhǔn)確性。為增強(qiáng)模型的適用性,構(gòu)建了仿真場(chǎng)景用于數(shù)據(jù)擴(kuò)展,仿真場(chǎng)景的構(gòu)建包括密集建筑、單體建筑和復(fù)雜地形場(chǎng)景,具體通過(guò)調(diào)整影像分辨率、添加噪聲和模擬不同光照條件實(shí)現(xiàn)多樣化效果。利用影像特征提取模型對(duì)建筑物形狀、邊緣和紋理特征進(jìn)行初步標(biāo)記,為深度學(xué)習(xí)模型提供高質(zhì)量的輸入數(shù)據(jù)。本研究選取了建筑物輪廓提取的四個(gè)關(guān)鍵指標(biāo):邊界精度(Boundary Accuracy, BA) 、召回率(Recall, R) 、提取效率(Efficiency, E) 和綜合性能(F1 Score, F1) ,作為模型性能評(píng)價(jià)的核心標(biāo)準(zhǔn)。
3.2 深度學(xué)習(xí)模型及參數(shù)選擇
為提取無(wú)人機(jī)影像中的建筑物輪廓,本研究選取了以下深度學(xué)習(xí)模型進(jìn)行適用性分析。U-Net適用于小樣本數(shù)據(jù)集,具有強(qiáng)大的像素級(jí)預(yù)測(cè)能力。Mask R-CNN能夠在目標(biāo)檢測(cè)與實(shí)例分割中表現(xiàn)優(yōu)異,適合復(fù)雜場(chǎng)景中的輪廓提取。DeepLabV3+支持多尺度特征提取,對(duì)建筑物復(fù)雜邊界有較高的適應(yīng)能力。模型的超參數(shù)選擇直接影響輪廓提取效果。本研究針對(duì)學(xué)習(xí)率、卷積核大小、網(wǎng)絡(luò)深度等參數(shù)進(jìn)行了優(yōu)化,損失函數(shù)(Loss Function) 如下。
[L=-1Ni=1Nyilogyi+1-yilog1-yi]" (1)
式(1) 中[yi]為真實(shí)標(biāo)簽,[yi]為模型預(yù)測(cè)值,N為樣本總數(shù)。優(yōu)化算法(Optimizer) 如下。
[θt+1=θt-η?θL]" (2)
式(2) 中[η]為學(xué)習(xí)率[,?θL]為損失函數(shù)的梯度。卷積操作(Convolution) 如下。
[Oi,j=m=1Mn=1NIi+m-1,j+n-1?Km,n]" (3)
式(3) 中I為輸入特征圖,K為卷積核,O為輸出特征圖。評(píng)價(jià)指標(biāo)(F1 Score) 如下。
[F1=2?Precision?RecallPrecision+Recall]" (4)
為提取無(wú)人機(jī)影像中的建筑物輪廓,本研究在模型訓(xùn)練過(guò)程中設(shè)置了具體的參數(shù)和優(yōu)化策略,以確保最佳性能。訓(xùn)練使用的批量大小(batch size) 設(shè)置為16,訓(xùn)練輪數(shù)(epoch) 為50,優(yōu)化器選用Adam,并結(jié)合余弦退火學(xué)習(xí)率調(diào)整策略,將初始學(xué)習(xí)率設(shè)置為0.001。針對(duì)不同模型的特性,對(duì)卷積核大小和網(wǎng)絡(luò)深度分別優(yōu)化,例如在U-Net中選擇3×3的卷積核以平衡計(jì)算效率和特征提取能力,而在DeepLabV3+中則采用空洞卷積以增強(qiáng)多尺度特征捕獲能力。此外,為防止過(guò)擬合,訓(xùn)練過(guò)程中引入了Dropout(比例為0.5) 和L2正則化,并在數(shù)據(jù)增強(qiáng)時(shí)增加了隨機(jī)旋轉(zhuǎn)、翻轉(zhuǎn)和噪聲注入等操作,從而進(jìn)一步提升模型的泛化能力和魯棒性。
3.3 技術(shù)階段劃分
整個(gè)建筑物輪廓提取過(guò)程可以劃分為以下三個(gè)技術(shù)階段:①數(shù)據(jù)準(zhǔn)備階段:結(jié)合人工標(biāo)注與開源數(shù)據(jù)集,進(jìn)行數(shù)據(jù)集劃分(訓(xùn)練集、驗(yàn)證集、測(cè)試集比例為7∶2∶1) 。通過(guò)數(shù)據(jù)增強(qiáng)技術(shù)(如翻轉(zhuǎn)、旋轉(zhuǎn)、色彩調(diào)整) 增加樣本多樣性,并清洗噪聲數(shù)據(jù)以提高模型泛化能力。②模型訓(xùn)練階段:在深度學(xué)習(xí)框架下搭建網(wǎng)絡(luò)模型,利用隨機(jī)梯度下降法(SGD) 或Adam優(yōu)化器進(jìn)行參數(shù)優(yōu)化。通過(guò)設(shè)置學(xué)習(xí)率衰減策略(如余弦退火學(xué)習(xí)率) 提升收斂效率。③測(cè)試與驗(yàn)證階段:通過(guò)測(cè)試集驗(yàn)證模型的泛化能力,重點(diǎn)分析模型在不同場(chǎng)景下的提取精度、邊界清晰度及抗干擾能力。
3.4 仿真實(shí)驗(yàn)與實(shí)驗(yàn)分析
通過(guò)數(shù)值模擬對(duì)比密集建筑群和單體建筑的提取效果,實(shí)驗(yàn)分析了模型在不同場(chǎng)景下的性能。提取效果與傳統(tǒng)方法(如Canny邊緣檢測(cè)) 進(jìn)行對(duì)比,具體結(jié)果如表1所示。
由實(shí)驗(yàn)結(jié)果可以看出,深度學(xué)習(xí)模型在邊界精度、召回率及綜合性能方面均顯著優(yōu)于傳統(tǒng)方法,特別是DeepLabV3+在復(fù)雜場(chǎng)景下表現(xiàn)最佳,證明其在無(wú)人機(jī)影像建筑物輪廓提取中的適用性和穩(wěn)定性。
4 關(guān)鍵深度學(xué)習(xí)技術(shù)
4.1 圖像分割技術(shù)
圖像分割技術(shù)是建筑物輪廓提取的關(guān)鍵手段,其核心在于對(duì)影像中的每個(gè)像素進(jìn)行分類,從而區(qū)分建筑物與背景區(qū)域。在深度學(xué)習(xí)語(yǔ)義分割模型中,DeepLab系列網(wǎng)絡(luò)(如DeepLabV3+) 因其優(yōu)越的設(shè)計(jì)而得到廣泛應(yīng)用。DeepLabV3+引入了空洞卷積(Atrous Convolution) 技術(shù),其通過(guò)在卷積核之間插入空洞,可以在不增加計(jì)算量的情況下擴(kuò)大感受野,從而捕獲更加全局的上下文信息。這一機(jī)制特別適合處理高分辨率影像中的大尺度建筑物特征,例如提取城市中的大型建筑群邊界。
DeepLabV3+還具備聯(lián)合建模全局與局部特征的能力,這使其在處理復(fù)雜背景和遮擋情況下表現(xiàn)尤為突出。例如面對(duì)被樹木、廣告牌或其他建筑物部分遮擋的場(chǎng)景,DeepLabV3+能夠通過(guò)全局特征建?;謴?fù)建筑物的大致輪廓,同時(shí)利用局部特征增強(qiáng)細(xì)節(jié)還原精度。具體案例中,DeepLabV3+被成功應(yīng)用于災(zāi)后評(píng)估任務(wù),通過(guò)無(wú)人機(jī)影像快速提取被毀建筑的輪廓,幫助救援人員定位受災(zāi)區(qū)域。在智慧城市建設(shè)中,DeepLabV3+被用于精確分割城市影像中的建筑物形狀,為三維城市建模提供高質(zhì)量數(shù)據(jù)。
4.2 邊緣檢測(cè)技術(shù)
邊緣檢測(cè)技術(shù)是提升建筑物輪廓提取精度的重要補(bǔ)充方法,特別是在處理影像邊界模糊或光照不均勻的情況下表現(xiàn)出色?;谏疃葘W(xué)習(xí)的邊緣檢測(cè)網(wǎng)絡(luò)(如HED, Holistically-Nested Edge Detection) 能夠通過(guò)多層次的特征學(xué)習(xí),提取出更加清晰和完整的邊緣信息。HED網(wǎng)絡(luò)采用多尺度邊緣特征融合策略,有效提升了細(xì)節(jié)邊界的提取能力,適合建筑物輪廓的精準(zhǔn)提取任務(wù)。將邊緣檢測(cè)與圖像分割技術(shù)相結(jié)合,可以進(jìn)一步提高輪廓提取的邊界清晰度,顯著減少過(guò)分割或欠分割現(xiàn)象,從而提升建筑物輪廓提取的整體表現(xiàn)。
5 實(shí)驗(yàn)效果分析與性能評(píng)估
5.1 實(shí)驗(yàn)結(jié)果與現(xiàn)場(chǎng)數(shù)據(jù)對(duì)比
為驗(yàn)證深度學(xué)習(xí)模型在無(wú)人機(jī)影像建筑物輪廓提取中的有效性,我們?cè)趯?shí)際場(chǎng)景中選取了某城市區(qū)域的無(wú)人機(jī)影像數(shù)據(jù),并與人工標(biāo)注的建筑物輪廓進(jìn)行對(duì)比分析。本實(shí)驗(yàn)使用了U-Net、Mask R-CNN、DeepLabV3+和傳統(tǒng)的Canny邊緣檢測(cè)方法,分別從邊界精度(BA) 、召回率(R) 、提取效率(E) 和綜合性能(F1) 四個(gè)指標(biāo)進(jìn)行評(píng)估。為進(jìn)一步分析模型的穩(wěn)定性,記錄了不同時(shí)間段內(nèi)(早上、正午、傍晚) 的檢測(cè)數(shù)據(jù),具體如表2所示。
從結(jié)果來(lái)看,DeepLabV3+在所有時(shí)間段中的邊界精度、召回率和綜合性能指標(biāo)均優(yōu)于其他方法,而傳統(tǒng)的Canny邊緣檢測(cè)方法在所有指標(biāo)上均顯著低于深度學(xué)習(xí)模型。這表明,深度學(xué)習(xí)模型能夠更好地適應(yīng)無(wú)人機(jī)影像的復(fù)雜場(chǎng)景變化,并在邊界提取和細(xì)節(jié)還原上具有顯著優(yōu)勢(shì)。
5.2 模型實(shí)施效果評(píng)價(jià)
通過(guò)對(duì)上述實(shí)驗(yàn)數(shù)據(jù)的分析可知,深度學(xué)習(xí)模型在無(wú)人機(jī)影像建筑物輪廓提取中的自動(dòng)化能力顯著提升。DeepLabV3+的整體性能(F1分?jǐn)?shù)) 在早晨、中午和傍晚三個(gè)時(shí)段分別為92.7%、93.2%和92.2%,展現(xiàn)了在不同光照條件下的良好適應(yīng)性和穩(wěn)定表現(xiàn)。相比之下傳統(tǒng)的Canny邊緣檢測(cè)方法綜合性能較低,僅在最佳光照條件的正午達(dá)到76.2%,在其他時(shí)間段表現(xiàn)更為欠佳,難以滿足高精度需求。深度學(xué)習(xí)模型的優(yōu)異表現(xiàn)得益于其多尺度特征提取和對(duì)光照變化的魯棒性,而傳統(tǒng)方法對(duì)光照和陰影變化敏感,難以應(yīng)對(duì)復(fù)雜場(chǎng)景。
6 案例分析
在某城市中心的高密度建筑區(qū)域,選取了覆蓋面積約2平方公里的無(wú)人機(jī)影像數(shù)據(jù)作為研究對(duì)象。該區(qū)域建筑物分布復(fù)雜,包含多種類型的建筑物,例如高層住宅樓、商業(yè)建筑和小型平房,同時(shí)存在大量相鄰建筑和遮擋現(xiàn)象(如樹木、廣告牌等) ,增加了建筑物輪廓提取的難度。數(shù)據(jù)采集使用一臺(tái)配備高分辨率傳感器(分辨率為5cm/像素) 的無(wú)人機(jī),通過(guò)多視角飛行軌跡覆蓋目標(biāo)區(qū)域,影像獲取高度為100m,傾斜角度為30°,以確保捕捉到建筑物的全方位細(xì)節(jié)。影像采集后,對(duì)數(shù)據(jù)進(jìn)行了噪聲過(guò)濾和幾何校正,并結(jié)合人工標(biāo)注創(chuàng)建了高質(zhì)量的訓(xùn)練數(shù)據(jù)集,涵蓋了密集建筑區(qū)域的多種特征。
在模型訓(xùn)練中,選用DeepLabV3+網(wǎng)絡(luò)進(jìn)行建筑物輪廓提取。訓(xùn)練參數(shù)包括:batch size為16,學(xué)習(xí)率初始值為0.001并采用余弦退火策略,訓(xùn)練輪數(shù)為50,優(yōu)化器使用Adam。數(shù)據(jù)增強(qiáng)技術(shù)(如隨機(jī)旋轉(zhuǎn)、翻轉(zhuǎn)和光照調(diào)整) 被廣泛應(yīng)用,以提高模型的泛化能力。實(shí)驗(yàn)中,DeepLabV3+的邊界精度達(dá)到94.2%,召回率為90.8%,顯著優(yōu)于傳統(tǒng)Canny邊緣檢測(cè)方法的78.5%和74.3%。特別是在密集建筑物區(qū)域,DeepLabV3+成功提取了相鄰建筑物的獨(dú)立輪廓,有效解決了輪廓交疊和模糊的問(wèn)題。實(shí)驗(yàn)結(jié)果表明,DeepLabV3+具備較強(qiáng)的邊緣清晰度還原能力,能夠?yàn)槌鞘幸?guī)劃和空間分析提供高精度的建筑物輪廓數(shù)據(jù)支撐。
7 結(jié)論
本研究提出了一種基于深度學(xué)習(xí)的無(wú)人機(jī)影像建筑物輪廓提取方法,并對(duì)其進(jìn)行了全面的測(cè)試和性能評(píng)估。實(shí)驗(yàn)結(jié)果顯示,DeepLabV3+在邊界精度(最高94.8%) 、召回率(最高91.5%) 及綜合性能(最高93.2%) 方面表現(xiàn)最優(yōu),特別是在城市高密度建筑區(qū)域和復(fù)雜場(chǎng)景中展現(xiàn)出顯著優(yōu)勢(shì),為無(wú)人機(jī)影像的建筑物輪廓提取提供了一種高效、可靠的技術(shù)方案。盡管研究證明了深度學(xué)習(xí)模型的優(yōu)越性,但仍存在一些局限性,例如對(duì)大規(guī)模標(biāo)注數(shù)據(jù)的依賴和在極端光照條件下性能的進(jìn)一步優(yōu)化空間。未來(lái)的研究方向包括探索更高效的自監(jiān)督學(xué)習(xí)方法以減少對(duì)標(biāo)注數(shù)據(jù)的依賴,以及結(jié)合多時(shí)相影像或LiDAR數(shù)據(jù)進(jìn)一步提升模型的魯棒性,為更廣泛的應(yīng)用場(chǎng)景提供支持。
參考文獻(xiàn):
[1] 段倫豪.高分辨率遙感影像建筑物輪廓矢量提取[D].武漢:武漢大學(xué),2021.
[2] 劉法濤.基于深度學(xué)習(xí)的無(wú)人機(jī)遙感影像建筑物輪廓提取[D].長(zhǎng)春:長(zhǎng)春工程學(xué)院,2022.
[3] 蔡香玉.基于無(wú)人機(jī)傾斜攝影場(chǎng)景建模的建筑物單體化方法[D].南京:南京師范大學(xué),2018.
[4] 安文.無(wú)人機(jī)遙感影像建筑物提取算法研究[D].鄭州:解放軍信息工程大學(xué),2011.
[5] 左仲偉.高分辨率遙感影像建筑物輪廓提取方法研究[D].北京:北京建筑大學(xué),2024.
【通聯(lián)編輯:梁書】