李秀麗?裴瑤瑤



摘要:針對建筑裂縫識別精度差和泛化性弱的問題,提出一種基于圖像識別的建筑裂縫自動識別技術。該技術融合了注意力機制和U-Net架構,即AU-Net,能夠有效學習不同尺度特征間的相互關系,從而顯著提升裂縫識別的精度和泛化性。在三個建筑裂縫識別的數據集上進行測試,結果表明,相較于全卷積網絡和標準的U-Net模型,AU-Net的平均F1分數提升9.4%,平均交并比提升7.2%。因此,本研究有助于及時預防建筑的結構性故障,提升建筑安全性。
關鍵詞:建筑裂縫;自動識別;安全性
一、前言
隨著城市化進程的推進,建筑物的安全性與耐久性成為重點問題之一。在建筑物的生命周期中,裂縫的出現往往預示著潛在的結構問題,及時檢測建筑物對于預防災害、保障人民生命財產安全具有至關重要的作用[1]。然而,傳統的裂縫檢測方法大多依賴于人工視覺檢查,不僅效率低下,而且容易受到檢測人員主觀經驗的影響,導致檢測結果的精度較差。此外,人工檢測通常伴隨著高昂的勞動力成本和時間成本,在高空或危險環境中工作更增加了檢測人員的安全風險?;趫D像識別的建筑裂縫自動識別技術,以其高效、準確的特點,被視為提升建筑裂縫檢測水平的有力工具。本研究以混凝土材質的居民建筑和道路為研究對象,提出了一種基于深度學習的建筑裂縫自動識別技術。該技術構建了一種融合注意力機制和U-Net架構的神經網絡模型,即AU-Net,不僅能夠捕捉圖像的細微特征,還能處理分析不同尺寸和形態的裂縫。實驗表明,AU-Net與現有的全卷積網絡和U-Net模型相比,識別精度均有顯著提升。因此,本研究可以有效提高裂縫檢測的自動化水平,對于維護建筑的健康狀態有重要意義。
二、裂縫識別技術的研究現狀
(一)基于特征提取的方法
基于特征提取的方法應用傳統的數字圖像處理技術,對裂縫圖像進行預處理和特征提取,通過分析處理后的結果以確定裂縫的位置和屬性。傳統的數字圖像處理檢測技術主要依賴于圖像分割,包括基于閾值的方法、邊緣檢測算子(如Sobel,Canny等)、基于圖論的分割方法,以及基于能量泛函的分割方法。例如,快速哈爾變換被驗證了在裂縫識別的精確性上有著出色的表現。此外,數學形態學的方法也被用于圖像增強,與閾值分割相結合,進一步提升對裂縫的識別能力[2]。
(二)基于深度學習的方法
與傳統方法相比,基于深度學習的方法利用其深層神經網絡結構自動提取圖像中的復雜特征。這些深度特征提取器能夠識別圖像中難以直接捕捉的裂縫邊緣、寬度、位置和亮度等細節[3]。計算機視覺領域的進步推動了基于深度神經網絡的圖像處理方案在實際應用中的發展。例如,深度學習算法被用于隧道襯砌裂縫的自動識別,多尺度深度卷積特征融合用于提升裂縫特征的提取效率,有監督的學習方法調整樣本比例以處理數據不平衡問題。此外,通過在U-Net模型中加入殘差連接,可以增強特征提取的能力,實驗證明這種方法的準確率超過了傳統的U-Net模型和其他深度學習模型[4]。
三、基于圖像識別的建筑裂縫自動識別技術
(一)AU-Net網絡架構
在本研究中,提出了一種基于圖像識別的建筑裂縫自動識別技術。該技術采用了融合注意力機制的改進U-Net網絡架構,即 AU-Net。如圖1所示,AU-Net的核心是編碼器—解碼器結構。編碼器部分融合了殘差卷積層和基于注意力機制的Transformer層,這種結合充分利用了卷積操作在提取豐富的細節和語義信息方面的能力。同時,通過Transformer層引入的全局自注意力機制,捕獲特征間長距離的依賴關系,以實現全局特征信息的整合,為識別過程提供了更全面的上下文支持。
解碼器部分通過級聯的上采樣操作將抽象的高級特征映射回原始的分辨率。這一過程包括四個階段,每個階段都包含一個2倍上采樣操作、一個3×3卷積層以及一個ReLU激活層。此外,解碼器在每個上采樣步驟中都引入了長跳躍連接,將編碼器各層提取的高分辨率特征圖與相應上采樣層的特征圖進行精確融合。這種設計使得解碼路徑能夠更加精細地恢復淺層細節特征,提高了裂縫識別的精確度。
(二)殘差卷積模塊
在本研究中,對U-Net模型的編碼器部分進行了改進,即采用由兩個殘差單元組成的殘差卷積模塊來替代每一步的下采樣操作。第一個殘差單元的設計旨在通過兩次不同配置的卷積操作來增強特征的提取能力。首先使用步長為2的3×3卷積核實現下采樣,并捕獲更抽象的特征。隨后采用步長為1的3×3卷積核,以保持特征圖的細節信息。在建筑裂縫識別的應用中,這種設計有助于更有效地提取裂縫特征,并在下采樣過程中減少細節的丟失,這對于復雜、細微的裂縫尤為重要。該過程可以表示為:
F=σ(conv3×3?(conv3×3?(X) )+conv1×1?(X) ) (1)
X為第一個殘差單元的輸入,conv3×3為3×3卷積核,conv1×1為1×1卷積核,σ為激活函數。第二個殘差單元的目的是在不改變特征圖分辨率和通道數的前提下進行特征融合。因此,采用兩個步長均為1的3×3卷積核來維持特征圖的空間分辨率,同時防止模型的過擬合,提高泛化能力。該過程可以表示為:
(F=σ(conv3×3(conv3×3(X) )+X) (2)
X為第二個殘差單元的輸入,conv3×3為3×3卷積核,σ為激活函數。
(三)注意力模塊
為了在建筑裂縫識別中取得更好的效果,在編碼器設計的最后引入了基于Transformer的注意力模塊,以彌補傳統卷積編碼方式在提取空間細節時可能丟失上下文信息的問題。自注意力機制有助于捕捉圖像中的長距離依賴,從而提高對建筑裂縫特征的識別能力,并減少分割圖中裂縫的斷裂或冗余情況。設輸入的特征圖X∈RH×W×C,注意力特征提取的過程如下:
第一,進行圖像序列化。將輸入設置為二維的小塊,設每個塊尺寸為P×P,得到序列化的塊向量xp∈RN×(P2?C),N=H×W/P2為塊的數量。
第二,執行嵌入操作。通過可訓練的線性映射將圖像塊序列映射到潛在空間,該過程表示為:
z0=[xp1E;xp2E;…;xpNE] (3)
E∈R(P2?C)×D代表線性映射矩陣,xpi代表第i個塊向量。
第三,添加位置信息,引入可學習的位置編碼,該過程表示為:
z0=z0+Epos (4)
Epos∈RN×D代表位置編碼。
最后,基于注意力機制提取特征,這里采用標準的Transformer結構,每個Transformer層由兩個標準化塊、一個多頭自注意力模塊和一個多層感知機模塊構成。第l個Transformer層的計算表達為:
zl'=MSA (LN(zl-1) )+zl-1 (5)
zl=MLP (LN(zl' ))+zl' (6)
LN表示標準化層,“MSA”表示多頭子注意力模塊,“MLP”表示多層感知機模塊,zl-1表示第l個Transformer層的輸入,zl表示第l個Transformer層的特征輸出。這種結構的設計特別適用于建筑裂縫識別任務,有助于增強模型對裂縫的連續性和整體性的理解,進而提高分割效果的準確性和一致性。
(四)損失函數
在建筑裂縫識別的應用中,裂縫像素通常與背景像素的數量差異巨大。針對這種不平衡的正負樣本分布,使用Dice損失函數。Dice損失的計算公式如下:
DiceLoss=1----2∑i=1N pigi+?
∑i=1N pi2+∑i=1N gi2+? (7)
pi代表預測值,gi代表真實值,N是像素點的總數,?是平滑因子,用以防止分母為0。對于Dice損失函數相對于某個像素點pj的梯度計算,公式表示為:
(8)
可以觀察到,當pj或gj的值很小時,由于分母中包含平方項,計算結果將會變得非常小,造成梯度異常放大,意味著Dice損失對于裂縫這類小尺寸目標的分類錯誤異常敏感,使得模型即使對裂縫的少量像素點預測錯誤也會產生較大損失。利用這一特性,Dice損失能夠促使模型更精確地預測細小裂縫。
四、實驗及結果分析
(一)實驗環境
為了驗證所提出的AU-Net建筑裂縫自動識別技術的有效性,本研究在多個數據集上進行了一系列對比實驗。實驗所用的操作系統為Ubuntu 18.04,深度學習框架為PyTorch。此外,使用NVIDIA Geforce RTX 3080顯卡對所有模型進行訓練和測試。
(二)數據集
實驗數據主要來源于混凝土的居民建筑和道路裂縫場景[5],包括:1.自行采集的居民建筑裂縫數據集,該數據集由600張224×224分辨率的裂縫圖像組成。2.CrackForestDataset(CFD)數據集,包含118張分辨率約為480×320像素的城市混凝土道路裂縫圖片。3.CrackLS315數據集,采用線陣相機技術采集的315張道路裂縫圖片。本實驗將每個數據集隨機分為訓練集、驗證集和測試集三部分,比例為70%、15%和15%。確保訓練和評估階段廣泛覆蓋各種情況,保證模型性能評估的公平性。
(三)基線模型
為了準確評估AU-Net建筑裂縫自動識別技術的性能,選取了FCN8和標準的U-Net模型作為基線模型。FCN8模型是全卷積網絡的一種變體,將圖像中的每個像素分類。具體地,FCN8是一種通過將預訓練的卷積神經網絡進行改造,移除全連接層,利用反卷積對多尺度特征進行上采樣和融合,從而實現對每個像素進行像素級別的語義分割;標準的U-Net模型是一種為醫學圖像分割設計的網絡結構,具備優秀的特征提取和上下文信息融合能力。U-Net則采用了對稱的編碼器-解碼器結構,編碼器逐層提取不同尺度的特征表示,解碼器逐層對特征進行上采樣和重建,同時通過大量的跳級連接融合不同尺度的特征信息,使其在醫學圖像分割等任務中表現出色。
(四)評價指標
F1分數和平均交并比(mean Intersection over Union,mIoU)是本實驗的兩個主要評價指標,用于綜合評估模型性能。F1分數是精確率和召回率的調和平均數,提供了一個單一指標來評價模型對正樣本的識別能力。mIoU衡量預測區域與真實區域的重疊程度,是分類正確的像素與分類錯誤及未分類的像素之間的比例,能夠直觀反映出模型的分割效果。
(五)結果及分析
經測試,實驗結果如表1所示。結果表明,在自采集居民建筑數據集上,AU-Net模型相比FCN8和U-Net分別在F1分數上提高了大約15.2%和6.5%,在mIoU上提高了大約11.1%和2.9%。對于CFD數據集,AU-Net分別比FCN8和U-Net在F1分數上提升了約6.2%和3.6%,在mIoU上提高了約5.9%和4.1%。在CrackLS315數據集上,AU-Net相較于FCN8和U-Net的F1分數分別提升了6.7%和3.3%,mIoU分別提升了4.7%和2.0%??傮w而言,AU-Net在三個數據集上的平均F1分數提升為9.4%,平均mIoU提升為7.2%。因此,AU-Net能夠更有效地融合多尺度特征并準確捕捉裂縫的細微結構,從而提高裂縫檢測的精度和魯棒性。
五、結語
本研究提出了一種融合記憶力機制與U-Net架構的深度學習模型以自動化識別建筑裂縫。該模型能夠有效捕捉和分析不同尺寸、形態的裂縫細微特征,實驗結果顯示出顯著的精度提升。本研究提升了建筑裂縫檢測自動化水平、檢測的準確性和操作的安全性,對于確保建筑物的耐久性和預防潛在災害具有重要意義。未來工作將著力于模型的進一步優化,拓展其在實際應用中的泛化能力,為建筑物的長期安全監測提供強有力的技術支持。因此, AU-Net 的編碼器融合殘差卷積和Transformer自注意力層,能夠更好地捕獲局部細節和全局長范圍依賴關系,有助于更準確地識別出曲折、斷裂的裂縫結構;解碼器采用級聯上采樣操作,能夠逐步恢復高分辨率的特征圖,使預測結果與原始圖像分辨率一致,從而保留更多細節信息,從而提高裂縫檢測的精度和魯棒性。
參考文獻
[1]陳紅彬,李華北.土木結構物裂縫識別檢測的自動化研究[J].中州建設,2011(18):68-69.
[2]張娟,沙愛民,高懷鋼,等.基于數字圖像處理的路面裂縫自動識別與評價系統[J].長安大學學報:自然科學版,2004,24(02):18-22.
[3]李良福,馬衛飛,李麗,等.基于深度學習的橋梁裂縫檢測算法研究[J].自動化學報,2019,45(09):1727-1742.
[4]惠冰,李遠見.基于改進U型神經網絡的路面裂縫檢測方法[J].交通信息與安全,2023,41(01):105-114.
[5]苗翔宇,劉華軍.基于金字塔特征和級聯注意力的路面裂縫檢測[J].計算機與數字工程,2023,51(03):629-634.
作者單位:河南測繪職業學院
責任編輯:張津平、尚丹