楊勇,史肖蒙
(1.貴州大學,貴州 貴陽 550025;2.貴州城市職業學院,貴州 貴陽 550025)
橋梁進行定期的檢查和維護是橋梁安全運行的必要條件,是保障國民經濟的重要措施,其工作量日夜劇增, 而傳統的橋梁檢測技術存在著效率低、檢測盲區、受工人主觀因素影響等問題且存在安全隱患。改進檢測方法,應用無人機、機器人、人工智能等技術實現橋梁智能化、批量的高效率地檢測具有十分重要的意義。
計算機視覺技術主要有三大主流的研究方向,分別是圖像分類、目標檢測、圖像分割。圖像分類是將圖像分成多個類別,如分成裂縫圖像、剝落圖像、露筋圖像等;目標檢測是要將圖像中的病害目標與在圖像中的位置區域標識出來,圖像分割是只保留病害目標的區域,刪除背景像素的技術,效果見圖1 所示。
通過無人機、機器人等智能設備采集橋梁表觀圖像,利用計算機視覺技術對圖像進行分類、目標檢測,從而智能識別出存在橋梁表觀病害的圖像,以達到自動化的檢測橋梁表觀病害的目的是當下學者研究的熱門問題。王桂平[1]等人提出遷移VGG16 網絡模型結構及全部卷積層參數,在結構末尾添加病害分類的全連接層來實現病害圖像的分類;以YOLO 目標檢測算法模型為基礎,改進YOLO 模型結構[2-4]、提出新模型結構來實現橋梁表觀病害的目標檢測。
上述研究中對于病害圖像分類均是以單標簽的圖像進行,即一張圖像中只識別單一的病害,但實際采集的一張橋梁表觀圖像中,往往存在多標簽的病害,即一張病害圖像中存在多個類別的病害;對于目標檢測的研究未對圖像進行預分類,因采集的圖像數量一般非常多,且存在病害的圖像只有少數,若將所有圖像都進行病害目標檢測,大量的背景(無病害)圖像必然會對檢測形成極大的干擾。本文主要基于計算機視覺技術下的圖像分類技術,建立橋梁表觀多標簽病害圖像數據集,利用主流的VGG、ResNet、DensNet 等網絡進行多標簽病害的分類,過濾出存在病害的圖像,為后續的病害目標檢測、分割量化奠定基礎。
首先,多標簽圖像分類不同于多類別的分類問題,多標簽分類是對每個樣本每張圖像分配一組病害標簽集,每個樣本的所有標簽不是互斥的;而多類別分類是假設每張圖像僅有病害標簽集中的一個病害標簽。其次,多便簽圖像分類也不同于多輸出分類的問題,多輸出的分類問題,雖然處理的也是每張圖像中有多個標簽的分類問題,其往往預測的是每張圖像的固定數量的標簽。
近年來,神經網絡強大的非線性表征能力使深度學習在圖像分類任務中的可行性、提取圖像特征的能力大幅度增加,研究出了許多多標簽圖像分類的解決方案。
有學者設計了多個模型,直接將多標簽分類看成多個二分類進行圖像分類,該算法未考慮標簽中的相關性,如露筋與銹蝕往往是一并存在的;Wei[5]等提出對每張圖片提取含有標簽信息的候選區域,然后將每個候選區域輸入CNN 進行分類訓練,最后融合所有候選區域的分類結果,從而得到多個標簽信息完整的圖片;Jiang Wang[6]等提出了CNN-RNN 網絡結構,利用CNN 提取相應的語義特征,建立標簽之間的相關性,完成分類訓練,該算法考慮了每個圖像中的標簽的相關性;TN Kipf[7]通過構建數據集中標簽共現的概率,完成GCN 模型的構建,發掘目前類別之間的相關性,并聯合CNN進行訓練,完成最終的分類任務。
本文是基于弱監督學習的方法,對每張圖像是否病害目標建立Multi-Hot 向量標簽。該方法的主要思想是將復雜的多標簽分類問題轉化為單標簽分類,因而可以利用遷移學習等技術來訓練,達到多標簽分類的目的。
多標簽網絡模型的思想是設X=Rd:表示d 維的輸入空間;Y={y1,y2,...,ym}:表示帶有m 個可能的標簽空間;D={(xi,yi)|1 ≤ i ≤ m}:訓練集,m 表示訓練集的大小,上標表示樣本序數,xi∈ X,是一個d 維向量,yiY,是Y 的一個標簽子集。模型的任務就是學習一個多標簽集的分類器函數F(xi),使F(xi)→yi。
本文是利用計算機視覺下的圖像分類的主流模型VGG、ResNet、ResNeXt、DensNet、SENet 進行修改結構末尾的分類層進行遷移學習,并對比各網絡模型的差異,選出最適合橋梁表觀病害圖像分類的網絡。
本文研究采用公開的數據集COncrete DEfect BRidge IMage Dataset[8],該數據集是由Martin Mundt 等人收集的混凝土橋梁多標簽缺陷圖像,包含有六個相互不排斥的類別:鋼筋混凝土表面的裂縫(Crack)、脫落(spallation)、露筋(exposed bars)、風化(efflorescence)、腐蝕(corrosion stain)合計5 個類別的病害和無缺陷(Background)圖像。為提高模型的泛化能力,訓練過程中會采用隨機旋轉、裁剪、翻轉、隨機噪聲等數據增強技術。
多標簽的圖像分類較為復雜,其評價標準也與多分類的圖像任務不同,其大致分為三大類,分別是基于樣本的評價、基于標簽的評價、整體評價,具體指標包含準確率(Accuracy)、精確率(Precision)、召回率(Recall)、F1 值、漢明損失(hamming_loss)、平均精度(Average Precision)等。
本文選取了ResNet50、ResNeXt50、ResNest50、SE_ResNeXt101、DenseNet121 共5 個主流的圖像分類模型進行遷移學習,訓練120 個epoch,計算了在測試集上的相關指標見表1 所示。mAP 表示各病害識別平均精度的均值,是以精確率(Precision)為縱軸,召回率(Recall)為橫軸繪制曲線下的面積,它不受人為主觀設置的閾值的影響,更加綜合評價模型的性能,從表1 的結果中看出SE_ResNeXt101、ResNeXt50 模型的mAP 值分別為93%、90%,為對比的5 個模型中最好的兩個模型,驗證了模型中的分類聚合變換和注意力機制對橋梁表觀病害圖像的分類識別有較強的適用性。

表1 各實驗模型測試性能對比
選取mAP 值最高的SE_ResNeXt101 模型,繪制其在測試集的各個病害類別的P-R 曲線如圖2 所示,該曲線與坐標軸圍成的面積及AP 值,其中露筋的AP 值最高為97%、腐蝕的AP 值最低也有88%,說明該模型對于橋梁表觀病害圖像的識別有很好的效果,能在實際的檢測工作中應用。
圖3 的混淆矩陣統計了SE_ResNeXt101 模型在測試集上的各個類別病害檢測情況,如裂縫總目標有150個,召回138 個,漏檢12 個,召回率92%;模型預測裂縫總數162 個,正確的138 個,誤檢24 個,精確率85%,其他類別也有較好的檢測效果。
本文對比了ResNet50、ResNeXt50、ResNest50、SE_ResNeXt101、DenseNet121 共5 個主流的圖像分類模型在橋梁表觀圖像上識別分類病害的性能,其SE_ResNeXt101 網絡模型mAP 值為93%,具有較好的檢測性能,能夠有效地過濾出存在病害的圖像,踢出無缺陷圖像的干擾,為后續進一步精確檢測研究奠定了基礎,對實際的檢測工作也有參考價值。