趙欣欣,錢勝勝,劉曉光
(1.中國鐵道科學研究院 鐵道建筑研究所,北京 100081;2.中國鐵道科學研究院 高速鐵路軌道技術國家重點實驗室,北京 100081;3.中國科學院 自動化研究所,北京 100190)
高強螺栓連接是橋梁等大型鋼結構設施的主要連接方式之一。我國鐵路橋梁高強螺栓用鋼從40B,發展至20MnTiB和35VB,推廣使用至今,40多年工程實踐表明,兩種材質的高強螺栓均能滿足使用要求[1]。近年來,受多種因素影響,高強螺栓延遲斷裂偶有發生[2-3]。通過分析11座存在高栓延遲斷裂病害的鐵路橋梁,發現累計螺栓斷裂數量超過50套的有3座,大于10套少于50套的有3座,少于10套的有5座。總體來說斷裂比例極低,雖然暫時不足以引起節點連接失效,但如不及時發現和補充新螺栓,誘發連接失效的風險會逐步累積。以某大橋為例,300余萬套高強螺栓分布在大橋各個角落,發生延遲斷裂脫落的僅數百套,通過橋梁維護人員定期尋查、采用望遠鏡目視發現高強螺栓缺失,不僅耗費緊張的養護人力,還浪費有限的檢查時間,亟需研發自動化的高強螺栓缺失識別方法。目前通過機器視覺的圖像識別方法在很多領域得到應用,是一個不錯的選擇。
當前,國內外的圖像檢測和分類識別方法可分為傳統和深度學習兩類。傳統方法主要使用手工構建、選擇針對目標的特征,然后進行圖像檢測識別分析。文獻[4-5]對訓練樣本中的每張圖像提取特征向量,然后再進行場景圖像分類識別。文獻[6]利用數學形態學4個基本操作算子腐蝕、膨脹、開運算和閉運算以及Top-hat等操作來完成線狀橋梁目標區域的檢測和識別。文獻[7]采用改進Canny算子和小波變換的結合方法進行橋梁圖像的檢測識別分析。傳統算法的圖像特征提取與分類識別分2步進行,需要手工構建、選擇目標特征,不但人的工作量大,而且在面臨復雜陌生問題時,往往無法設計出足夠抽象、深刻的特征,大多是針對諸如梯度、顏色、紋理等某一方面的淺層特征,使得傳統算法具有一定局限性。近年來,越來越多基于卷積神經網絡以及其他深度學習模型的方法被用于特定圖像的分類識別[8]。Liu等[9]將深度卷積神經網絡(CNN)應用在圖像分割中,取得了較好的效果。Cha等[10]采用深度卷積網絡對混凝土裂縫識別進行研究,結合滑動窗口方法可以檢測任意大小的圖像,并與Canny、Sobel 兩種邊緣識別算子進行比較,驗證了深度學習在混凝土裂縫識別上的優勢。黃宏偉等[11]提出基于深度學習的盾構隧道滲漏水病害圖像識別方法,與傳統圖像識別算法相比,在錯檢率和運行效率上都有很大提高。經典深度學習網絡算法雖然極大提高了圖像分類識別的準確率和效率,但是直接用于解決橋梁螺栓缺失識別仍有不足。一是由于傳統卷積神經網絡采用權重共享降低參數總量,忽略了橋梁螺栓圖像數據集上不同區域具有不同的影響力;二是由于橋梁圖像數據集的不平衡特性,使用經典網路很難在數據集上收斂。通過機器視覺實現橋梁場景中高強螺栓缺失的高效精準識別,仍然存在圖片區域差異性較大、缺少完備的高強螺栓缺失專業數據集等諸多問題。
本文針對鐵路橋梁高強螺栓缺失場景特征,基于附加混合注意力子網絡卷積神經網絡,進行鐵路橋梁高強螺栓缺失圖像識別方法研究。
鐵路橋梁高強螺栓缺失圖像識別主要包括專業數據集構建和基于附加混合注意力子網絡卷積神經網絡圖像識別2部分,如圖1所示。

圖1 鐵路橋梁高強螺栓缺失圖像識別框架
1.1.1 基礎數據集
選取某座鐵路橋梁作為目標,采用相機、手機等常規移動設備拍攝橋梁各部位。為便于確保本文提出的高強螺栓缺失圖像識別方法的有效性,選取螺栓和支座2類場景。為保證數據的多樣性,在不同角度、焦距和光照等條件下,對某一具體場景目標區域拍攝多幅圖像。人工篩選有效圖像并對每一幅圖像標注其屬于支座或螺栓缺失場景,部分場景圖像如圖2所示。為使本文方法具有普遍性,初步構建的橋梁螺栓缺失場景基礎數據集中,螺栓缺失和支座場景的數據比例嚴重失衡,其中螺栓缺失場景信息4 205條,支座場景信息393條。

圖2 構建的數據集圖像樣本示例
1.1.2 數據增強和均衡
為進一步增加訓練數據的多樣性,采用數據增強和均衡采樣的方法對不平衡的基礎數據集進行擴充,以便獲得適合識別網絡的平衡數據集。
首先將所有圖像的短邊縮放至分辨率為224像素,長邊同比例縮放。從縮放之后的圖片中,隨機裁剪224像素×244像素大小的區域。然后對裁剪之后的圖像,進行隨機水平翻轉、顏色變化、仿射變換操作,以增加訓練集圖像片的多樣性。
基礎數據集中的螺栓缺失場景與支座場景數據數量之比超過10∶1,這種嚴重不平衡會導致,即使識別主網絡把全部圖片識別為螺栓缺失,仍有超過90%的測試準確率,但顯然其不具備任何泛化性。為解決這一問題,在算法實現時使用了數據均衡提升識別網絡的泛化性能。首先對所有圖像按類別進行排序,隨后在每批次進行迭代前,按照順序同時重疊選擇2個類別的圖像,以保證2個類別圖像的數據集數目相等。這樣就保證了訓練時的每迭代批次內數據分布是均衡的,此外,由于每張圖像在輸入網絡訓練前都進行了隨機增強操作,也保證了任意2個批次的圖像是不完全相同的,因此,總體可以認為訓練時識別網絡處理的數據類別近似均衡。
典型深度學習的圖像卷積神經網絡識別首先通過卷積神經網絡提取輸入圖片的特征,隨后根據提取圖像的特征與輸入圖象對應的標簽利用Softmax損失函數計算訓練誤差,經學習最終得到較好的網絡進行圖像識別。
如果有m個訓練圖像,第i個圖像經過卷積神經網絡提取的特征向量為fi,其對應的真實標簽為yi,則識別誤差δ為
(1)
式中:a和b為Softmax層的權重矩陣和偏置向量;j為類別索引;ayi和aj分別為Softmax層權重矩陣中對應yi和類別索引ji的向量;byi和bj為Softmax層偏置向量中對應yi和類別索引ji的元素。
由式(1)知,δ主要取決于fi,a和b,而fi由特征提取卷積神經網絡決定,a和b由訓練數據的分布決定。若要獲取高效的鐵路橋梁高強螺栓缺失圖像識別網絡,需要1個輕量級的卷積神經網絡和較強表現能力的fi,以及合理的訓練數據分布。
本文的卷積神經網絡沒有采用在ImageNet[7]數據集上被證明有效的公開識別CNN模型,主要原因是,一方面對于AlexNet[12]和ResNet[13]等高精度網絡來說,CNN模型參數量較大,保存的模型文件會占用大量存儲空間且運行速度較慢;另一方面,近年來一些輕量級CNN模型被廣泛提出,雖然這么模型可以大幅度降低CNN的參數量,但由于其都采用了分離卷積操作,導致其在CPU上的模型推斷速度提升并沒有在GPU上明顯。本文設計的圖像識別卷積神經網絡結構與文獻[11]中常用的不帶分支的扁平化深層卷積神經網絡類似,包含卷積核分別為3×3×64,3×3×128,3×3×256,3×3×512和3×3×512共5個卷積層和5個最大值池化層以及維數分別為512和2的2個全連接層。輸入圖像初始數據,經過卷積層對輸入圖像進行非線性特征的提取,經過池化層在保留主要特征同時,進行空間維度降維,全連接層對卷積層和池化層的輸出進行不同特性的線性加權,最后輸出2個特征值分別代表輸入圖像的識別結果,如圖3所示。

圖3 圖像識別卷積神經網絡架構
為提高網絡的識別精度,在上述卷積神經網絡(簡稱主網絡)上附加混合注意力子網絡,包括通道注意力子網絡和空間注意力子網絡。通道注意力子網絡能夠自適應地對不同圖片的不同通道的語義特征賦予不同權重;空間注意力子網絡解決卷積操作的全局共享造成的區域不敏感問題,高效地學習出區域影響權重因子。
1)通道注意力子網絡
深層卷積神經網絡的高層特征圖的每個通道都代表著輸入圖片的不同語義信息,對于橋梁螺栓缺失場景分類識別來說,卷積神經網絡最后一個最大值池化層的輸出的不同通道語義信息,經過全連接層的融合可以獲得最終用于場景識別的深度特征。識別卷積神經網絡一旦訓練完成所有參數不變,意味著對于任何輸入圖像的不同語義信息最終識別所占的權重不變,這顯然不符合人類感知。例如,對于某些圖像顏色信息占識別主導地位,而對于另一些圖像可能紋理信息占主導地位。為解決這一問題,受到ImageNet2017識別冠軍網絡SENet的啟發,提出一種通道注意力子網絡。該子網絡由卷積計算、空間維度降維與注意力因子映射3種運算構成,并列附加在原卷積神經網絡的每層卷積層上,如圖4所示。該子網絡可以自適應地對不同輸入圖像的不同通道語義特征賦予不同權重,進而提高識別卷積神經網絡的自適應性。
假設w,h和c分別表示輸入圖像的寬、高和通道數,圖像在原卷積神經網絡的第i層輸入的特征值為Xi(wihici),經過原卷積神經網絡第i層卷積計算得到的輸出為Yi(wihici),經過通道注意力子網絡的卷積計算、全局平均池化和注意力因子映射得到注意力因子矩陣Fi。
經原卷積神經網絡第i層卷積計算和通道注意力子網絡運算后得到的輸出為
(2)
2)空間注意力子網絡
圖5為1張機器視覺的橋梁螺栓群場景圖像,對于人類而言,圖5僅有部分區域所對應的視覺內容對最終的識別結果起主導作用。若將圖像均勻分割為16個網格,則區域2,3,6,9,10和13的特征在最終的場景識別計算時應具有較大權重。然而,由于卷積操作所固有的全局共享特性,對整幅圖像的任意區域的操作完全相同。如果可以自適應的根據輸入圖像的不同區域賦予不同權重,將會進一步提高鐵路橋梁螺栓缺失場景識別準確率。

圖5 圖像不同空間區域對場景識別影響
為解決上述問題,提出1種空間注意力子網絡。該子網絡也是由卷積計算、空間維度降維和注意力因子映射3種運算構成,附加在通道注意力子網絡的卷積神經網絡上構成附加通道和空間混合注意力子網絡的圖像識別卷積神經網絡,其架構如圖6所示。該子網絡對原始圖像的不同區域施加不同的影響因子,進而可以自適應地根據輸入圖像的視覺內容對不同區域賦予不同權重,進一步提高場景識別準確率。

圖6 附加通道和空間混合注意力子網絡的圖像識別卷積神經網絡架構
原始圖像的初始特征值X(whc)經過空間注意力子網絡的4層卷積計算、4層池化和注意力因子映射得到空間注意力因子矩陣Hi。其與經附加了通道注意力子網絡的卷積神經網絡最后一層卷積計算的輸出融合得到的輸出為
(3)
根據最新卷積神經網絡可視化的研究結果[14]可知,主干網絡的輸出特征圖的每個元素都對應原始圖像的1塊區域(即感受域),因此對于網絡高層特征圖的每個位置施加不同的權重等價于對原始圖像的不同區域施加不同的影響因子。分支網絡的每層操作類型應于原神經網絡一致,可以保證語義對應的一致性。
為提升圖像識別網絡的訓練收斂速度和準確性,采用遷移學習的方式訓練圖像識別卷積神經網絡。首先將卷積神經網絡的最后一層全連接層的維數設置為1 000個,在ImageNet[15]數據集上進行訓練。將訓練完成后的參數作為附加通道和空間混合注意力子網絡的識別網絡所有層的初始化參數,再采用構建的橋梁螺栓缺失場景數據集繼續進行2次識別訓練,最終得到鐵路橋梁高強螺栓缺失圖像識別網絡參數。該識別網絡即可進行螺栓缺失圖像識別。
為驗證算法有效性,鐵路橋梁高強螺栓缺失數據集的所有圖像按照70%,10%和20%的比例劃分訓練集、驗證集和測試集。訓練時采用Adam自適應優化算法,該優化算法存儲了先前平方梯度的指數衰減平均值,而且保持了先前梯度的指數衰減平均值,能計算每個參數的自適應學習率,當損失函數值在驗證集上達到最小值時認為完成訓練。所有試驗結果均以測試集準確率作為評價指標,與目前常用的VGG深層卷積神經網絡圖像識別方法的識別準確率進行對比,試驗結果見表1。

表1 不同識別網絡的試驗結果比較
對比表1中方法1和方法2的結果可知,使用本文的主網絡,雖然訓練集的準確率下降了1.7%,但是測試集的準確率上升了3.5%,表明本文的識別主網絡相對于VGG16具有減輕過擬合的效果。此外,本文的主網絡僅有60 M左右,而VGG16有250 M左右,說明本文主網絡輕量且高效。
識別網絡先在ImageNet上進行預訓練,獲取訓練參數再使用橋梁螺栓缺失專業數據集進行微調,對比表1中方法2和方法3的結果可知,遷移學習后,識別準確率由92.1%提升為93.5%。
為評估本文提出的訓練數據增強中的類別平衡策略對識別主網絡泛化性能的影響,比較了數據增強和均衡對于不同訓練圖像識別網絡的效果,從表1中的方法3和方法4的測試集結果對比來看,識別準確率增加了0.6%。
對比表1中方法4和方法5的識別結果,可知附加通道注意力子網絡后,準確率有了進一步提升。當附加通道和空間混合注意力子網絡之后,其識別準確率(對應表1中方法6)表現最優,達到94.9%。
圖7給出了是否附加混合注意力子網絡時橋梁螺栓缺失場景圖像識別結果對比,顏色的深淺代表空間注意力子網絡認為該區域對識別結果影響的重要程度。由圖7可知,幾乎每個螺栓都被較明顯地識別出,也說明本文所提出混合注意力子網絡的有效性。

圖7 空間注意力子網絡的作用結果
通過1種基于混合注意力子網絡的圖像識別網絡和基于機器視覺的專業數據集,進行鐵路橋梁螺栓缺失圖像識別。首先,使用圖像識別主網絡、通道注意力模型和空間注意力模型3種方式聯合建模,進行端到端的圖像病害場景識別。采用遷移學習的方式訓練圖像分類識別主網絡,提升識別主網絡訓練的收斂速度和準確性。采用通道和空間混合注意力模型,可以自適應地對不同圖片的不同通道的語義特征賦予不同權重,進而提高螺栓缺失圖像識別準確率。然后,構建了1個鐵路橋梁螺栓缺失場景基礎數據集,通過數據增強和均衡解決數據不平衡、多樣性不夠等問題。最后,進行了識別實驗,與常見識別方法相比,準確率提高了4.9%。未來重點研究一方面是將提出的方法擴展到涂層裂化、異常變形等其它橋梁病害識別場景中;另一方面是進一步提升網絡的訓練速度,以更快更好地識別其他橋梁常見病害。