李超齊
(中鐵十八局集團有限公司,天津 300000)
最近兩年,以大數據、人工智能為基礎已成為當下各行各業發展的重要趨勢,人工智能正在加速形成自己的產業鏈。我國作為橋梁大國已有幾千年的發展歷史,擁有規模龐大的橋梁資產[1]。我國橋梁由古至今分為三種基本橋型:連續梁、簡支梁、連續剛構。但隨著技術的進步以及各地區對橋梁需求的不同,又演化出基于三種橋型的幾百種不同類型的橋梁。在此背景下,由于不同類型的橋梁施工工藝不同、建造方法不同,導致維修、養護方法也有所不同。如何能從這些橋梁數據中快速、準確地將不同類型的橋梁進行分類并且充分識別橋梁的振動、變形、應力、裂縫等指標,并進行高水平的運營、管理、維修、養護具有十分重要的意義[2,3]。對比國內外研究發現,國外建筑行業利用人工智能識別圖片的文獻很少,國內建筑行業幾乎沒有。為此,本文利用大數據與人工智能技術以三種基本橋型的圖片數據作為分類與預測對象,通過建立健康橋梁圖像訓練模型,識別橋梁的結構狀態,為橋梁狀態在線評估提供新的思路。
橋梁狀態對于后期運營、管理、維修、養護十分重要,本文選擇的監測指標包括連續梁、簡支梁、連續剛構承受車輛載荷、風載荷后的橋梁變形、位移和振動幅值。Weka圖像數據挖掘平臺是在Java環境下開發的機器學習以及數據挖掘軟件,平臺內嵌套了多個數據挖掘方法,可以實現對圖片數據的預處理、分類、關聯規則、交互式界面可視化等。基于Weka圖像數據挖掘平臺,采用樸素貝葉斯、神經元網絡、簡單邏輯回歸3種方法分別建立橋梁圖像識別模型,選擇其中結構狀態較好的橋梁按照簡支梁、連續梁、連續剛構3種類型進行細分,再按建筑材料分為鋼筋混凝土橋梁、預應力混凝土橋梁。采用機器學習方法對圖像中橋梁變形、振動幅值等參數進行訓練,形成對不同類型橋梁撓度、變形、振動的判別標準。
樸素貝葉斯定理可以表示為[4]:
(1)
其中:X為隱藏節點個數;y為所觀察到的數據。
在實際檢測時,往往采用多種參數及條件(稱為成分xi)來推定事件是否發生。
多層神經網絡也可以用最小二乘法來表示,神經網絡的誤差矩陣為[5]:
(2)
其中:N為節點數;yi為節點i的理想輸出;oi為節點i的實際輸出;ω為權重矩陣。
簡單邏輯回歸分類函數為:
h(x)=hθ(x)=θ0+θ1x1+θ2x2+,….
(3)
其中:θi為回歸系數。
分類函數對應的錯誤估計函數為:
(4)
其中:m為樣本個數;hθ(x(i))為預測值;y(i)為真實值。
本次實驗共有12 000張橋梁圖片數據,將其中的3 500張連續剛構、3 500張連續梁、3 500張簡支梁共10 500張健康狀況的橋梁圖片數據作為訓練集,剩下的1 500張圖片(3種類別橋梁各500張)數據作為測試集,其中有150張圖片(3種類別橋梁各50張)數據存在不同類型的病害。借助Weka 開源平臺下的imagefilter圖片過濾器對圖片訓練集和測試集進行特征值提取,如果Weka 可以找到所有的圖像文件并且沒有其他錯誤,那么將會看到添加到數據集的新屬性均為數字屬性。具體預測步驟如圖1所示。

圖1 預測步驟
樣本數據分類是否成功,主要從準確度、詳細精度和節點錯誤率3個方面比較分析。本文以10 500張健康狀況的橋梁圖片數據作為訓練樣本,1 350張健康狀況的橋梁圖片和150張含有病害的橋梁圖片作為測試樣本。每張圖片為一個單元節點,分別采用樸素貝葉斯分類器、神經元網絡分類器、簡單邏輯回歸分類器對10 500張健康狀況的橋梁圖片進行訓練,然后基于訓練結果再對1 350張健康狀況的橋梁圖片和150張含有病害的橋梁圖片進行識別,需要同時識別出橋梁類型和健康狀況。3種算法樣本識別準確度如表1所示。
由表1可以看出:3種算法的識別效果都不錯,樸素貝葉斯>神經元網絡>簡單邏輯回歸>63%。3種算法準確率的殘差圖如圖2~圖4所示。

表1 3種算法樣本識別準確度
從圖2~圖4可以看出:樸素貝葉斯分類器分類正確的準確率平均值較高,接近75%,其散點比較集中,沒有太大的波動,比較穩定;神經元網絡分類器分類準確率接近70%,其穩定性略遜于樸素貝葉斯網絡分類器;簡單邏輯回歸分類器分類的準確率只有63%,散點分布在各個位置,不集中,其效果差于前兩種分類器。
樣本數據經過Weka平臺十折交叉驗證后,3種分類器的詳細精度分析分別如表2~表4所示。以連續剛構為例,正例比率=連續剛構圖片預測數量/連續剛構圖片真實數量,負例比率=其他類型橋梁識別為連續剛構數量/其他類型橋梁數量。精準度=(識別正確的正例+識別正確的負例)/橋梁圖片樣本數量,查全率=預測正確的正例/(預測正確的正例+預測錯誤的負例),調和平均數是各統計變量倒數的算術平均數的倒數,ROC面積為評價模型優劣的指標,反映各分類器對樣本的排序能力。

圖2 樸素貝葉斯算法殘差圖 圖3 神經元網絡算法殘差圖 圖4 簡單邏輯回歸算法殘差圖

表2 樸素貝葉斯分類器詳細精度
從表2~表4可知:對于正例比率平均權重,樸素貝葉斯>神經元網絡>簡單邏輯回歸;對于負例比率平均權重,簡單邏輯回歸>神經元網絡>樸素貝葉斯;對于精準度平均權重,樸素貝葉斯>神經元網絡>簡單邏輯回歸;對于查全率平均權重,樸素貝葉斯>神經元網絡>簡單邏輯回歸;對于調和平均數平均權重,樸素貝葉斯>神經元網絡>簡單邏輯回歸;對于ROC面積平均權重,樸素貝葉斯>神經元網絡>簡單邏輯回歸??偟膩碚f,樸素貝葉斯分類器的識別效果好于神經元網絡和簡單邏輯回歸。以每張圖片為一個單元節點,3種算法的節點錯誤率比較如表5所示。

表3 神經元網絡分類器詳細精度

表4 簡單邏輯回歸詳細精度
從表5可以看出:在平均絕對誤差中,簡單邏輯回歸>神經元網絡>樸素貝葉斯;在均方根誤差中,神經元網絡>簡單邏輯回歸>樸素貝葉斯;在相對絕對誤差中,簡單邏輯回歸>神經元網絡>樸素貝葉斯;在相對均方根誤差中,神經元網絡>簡單邏輯回歸>樸素貝葉斯。總體來說,樸素貝葉斯分類器的節點錯誤率明顯低于其他兩種分類器,可以得出樸素貝葉斯分類器在控制節點錯誤率方面優于其他兩種分類器。

表5 節點錯誤率比較
三種分類器在連續剛構圖片預測中都具有較好的效果,但樸素貝葉斯分類器和神經元網絡分類器在簡支梁圖片識別中效果要優于簡單邏輯分類器,并且3種分類器都會出現將連續梁識別為簡支梁的情形。樸素貝葉斯分類器和神經元網絡分類器能夠準確識別橋梁變形和振動,但兩種分類器都將其中4張連續梁圖片預測為簡支梁圖片。簡單邏輯分類器能夠準確識別連續剛構橋梁狀態,但對多張簡支梁識別精度較差。
以簡支梁、連續梁、連續剛構3種類型橋梁圖片數據作為樣本,借助于數據挖掘與機器學習軟件Weka和UltraEdit數據編輯軟件,分別采用樸素貝葉斯、神經元網絡、簡單邏輯回歸3種算法進行圖片數據挖掘,建立訓練模型。3種算法都能很好地實現訓練集的訓練和測試集的預測,預測結果準確率都在63%以上。樸素貝葉斯分類器和神經元網絡分類器在準確度和詳細精度上要略高于簡單邏輯回歸分類器。但在節點錯誤率上,樸素貝葉斯分類器要優于神經元網絡分類器和簡單邏輯回歸分類器。樸素貝葉斯分類器和神經元網絡分類器在預測準確度上要高于簡單邏輯回歸??偟膩碚f,相比于其他兩種分類器,樸素貝葉斯分類器的訓練和預測效果是最好的。