機器學習在圖像分析與識別中的應用研究

2024-01-27 04:00:30陳超

中國新技術新產品 2023年24期

陳超

（廣州鐵路職業技術學院，廣東廣州 511300）

智慧軌道交通已經成為現代城市交通管理的常見手段，圖像分析與識別在智慧軌道交通系統中至關重要。然而，圖像數據具有多樣性及交通場景的復雜性，傳統的圖像分析與識別方法存在效率低、準確率低等問題。而機器學習是一種強大、高效的方法與工具，為圖像分析與識別提供了新的思路與方向，可以通過深入處理與分析提取出海量交通場景圖像數據中的高價值信息，進行道路標志檢測與識別、行人檢測與跟蹤以及交通流量統計等。這不僅能顯著提高交通安全性與服務質量，還能有效改善城市交通管理并促進智慧軌道交通系統的發展。

1 案例背景

在智慧軌道交通背景下，機器學習在圖像分析與識別的具體應用之一是道路標志檢測與識別。某市智慧軌道交通系統需要精準檢測與識別道路標志，以實現道路狀況的實時監測，從而為駕駛輔助與交通管理決策提供準確的數據依據。該文為實現準確、高效的道路標志檢測與識別，使用基于U-Net網絡架構與GCDA模塊的道路標志檢測與識別算法，為某市智慧軌道交通系統提供一種可行、有效的解決方案，同時將宏平均指標F1與Top1準確性作為評估模型性能的指標，借助GCDA模塊來提高道路標志檢測與識別的魯棒性與準確性[1]。將該道路標志檢測與識別算法應用于該市智慧軌道交通系統中，該市智慧軌道交通系統可以及時、準確地檢測與識別道路標志，并實時監測道路狀況，如危險警示標志、止/停車標志及限速標志，同時還提供了對應的駕駛輔助功能，包括但不限于危險預警、限速提醒等。另外，道路標志檢測與識別還能夠有效支持交通管理決策，幫助相關部門與管理人員更好地完成違規檢測、交通流量監控等工作。

2 機器學習在圖像分析與識別中的應用

2.1 機器學習算法及模型

2.1.1 監督學習算法

監督學習算法的基本原理是使用給定的輸入樣本及對應標簽來訓練模型并預測未知數據的標簽，其在圖像分析與識別的具體應用中可完成圖像分類與目標檢測等任務。監督學習算法較多，包括但不限于隨機森林、決策樹及支持向量機等。這些算法擁有不同特點與適用范圍，均能通過學習樣本與標簽間的關系來構建有效的分類與監測模型。

2.1.2 無監督學習算法

無監督學習算法旨在發現未標記的數據中隱藏的結構與模式，其在圖像分析與識別的具體應用中可完成圖像分割與特征提取任務。與監督學習算法相比，無監督學習算法不需要事先標注標簽，可以通過學習數據內在結構與本身分布來自動尋找與發現隱藏的模式和規律。無監督學習算法也有很多種，如主成分分析、聚類算法等，這些算法通過聚類或降維處理圖像數據，將相似的特征或像素歸到一起，從而達到圖像分割和特征提取的目的。

2.1.3 深度學習算法

深度學習算法使用多層神經網絡來完成圖像處理和特征提取，其在圖像分析與識別的具體應用中可完成目標檢測、圖像分類與生成等任務。該文采用的是深度卷積神經網絡（CNN）。作為一種特殊類型的神經網絡，CNN由全連接層、池化層以及卷積層等部分組成，并通過權值共享與局部感知視野的方式有效捕捉圖像中的空間特征。由于其具有較強的特征提取能力，因此被廣泛應用于圖像分類與目標檢測等領域[2]。

2.2 數據收集與預處理

2.2.1 數據收集與數據集

為訓練與客觀評估道路標志檢測與識別模型，需要采集含有道路標志的圖像數據，常見的采集方式包括現場拍攝，公共數據集獲取及合成數據集生成等，常用的道路標志公共數據集有BelgiumTS、LISA Traffic Sign Dataset等。該文選用BelgiumTS數據集。該數據集包括多種顏色、類型及形狀的道路標志，可覆蓋各種實際場景。數據集中的每個圖像配備對應的標簽，如類別、位置等。該數據集包括訓練集與測試集，以便進行模型訓練與客觀評估[3]。

2.2.2 數據預處理

檢測與識別道路標志前需要預處理采集的圖像數據，以提高模型的推理效果。主要步驟包括圖像去噪、尺寸調整、圖像增強及數據增強等。其中，圖像去噪是指使用去噪算法或濾波器來去除圖像數據中的干擾與噪聲；尺寸調整是指將圖像調整成統一固定的尺寸，以符合模型輸入的要求，通常借助插值方法來縮放或裁剪圖片；圖像增強是指使用亮度調整、直方圖均衡化及增加對比度等方法來增強圖像特征，以此提高模型檢測和識別道路標志的能力；數據增強是指借助縮放、平移、翻轉及旋轉等操作，得到更多訓練樣本，以增加數據集的數量與多樣性。數據預處理旨在通過統一圖像尺寸、減少噪聲及增強圖像特征來提高模型的泛化能力與魯棒性。

2.3 圖像分析與識別

2.3.1 圖像分類

該文采用分組卷積與雙注意力機制進行圖像分類。其中，分組卷積負責將輸入特征圖劃分為若干個組并完成卷積操作，然后將各組輸出特征圖進行拼接并輸出，以此增加特征的多樣性、減少計算量并提高網絡對輸入圖像的感知范圍，還有助于降低參數量與存儲量，使神經網絡在資源有限的情況下也能進行高效運算[4]。分組卷積原理示意圖如圖1所示。

圖1 分組卷積示意圖

注意力機制在深度學習中有應用廣泛。該文采用2種注意力機制，即空間注意力與通道注意力來處理輸入數據的空間維度與通道維度，以減少冗余信息并提取重要特征。為更好地融合這2種機制，該文引入卷積塊注意力模塊（CBAM），可以有選擇地關注不同空間和通道上的特征，從而更好地完成目標區分。

卷積塊注意力模塊實現思路與步驟如下：1）定義空間注意力模塊，使用卷積層來處理輸入特征圖，得到相應空間注意力圖。2）定義通道注意力模塊，利用全局平均池化層及全連接層來處理輸入特征圖的通道維度，從而得到相應通道注意力圖。3）將通道注意力圖與空間注意力圖相乘后得到加權特征圖，再將加權后的特征圖作為卷積塊注意力模塊的輸出。另外，實現卷積塊注意力模塊的過程中，可以結合實際需求進行優化與調整，并結合數據集的特點與具體任務的復雜程度來選用合適的注意力機制、激活函數以及卷積層，與此同時還可以調整模塊的寬度、深度并添加跳躍連接，進一步提升卷積塊注意力模塊的效果與性能。在圖像分析與識別中引入卷積塊注意力模塊，能夠更好地處理圖像通道信息與空間信息，從而顯著提高模型的準確性與性能。應用該注意力機制有助于高效提取關鍵特征，顯著減少冗余特征，并增強算法對目標區域的感知能力[5]。

此外，有效結合雙重注意力融合網絡（DANet），可同時關注不同空間和通道上的特征，進一步提高模型的性能。該文將GCDA模塊應用于ResNet50的圖像分類算法模塊中，顯著提高網絡在圖像特征方面的敏感度，大幅提升圖像分類的準確性。GCDA模塊的實現思路如下。1）全局上、下文感知。利用自適應平均池化操作，將相應輸入特征圖轉換成全局特征向量，從而捕捉全局上、下文信息。2）雙重注意力機制。使用全連接層、Sigmoid激活函數來處理全局特征，計算出全局上、下文感知權重。該權重可以選擇性地關注不同通道上的特征，從而提升網絡對重要特征的敏感度。3）特征加權。將輸入特征圖與全局上、下文感知權重相乘，獲得加權后的特征圖，如此能使網絡聚焦于感知權重較大的特征，以此有效提高特征的表達能力。

2.3.2 目標檢測

目標檢測是指準確定位和識別圖像數據中感興趣的目標物體。傳統目標檢測方法通常使用手工設計的特征和分類器，隨著深度學習的發展，基于CNN的目標檢測方法取得了較大進展。其中，最具代表性的方法有Fast R-CNN及R-CNN等。這些方法通過生成候選框，并對其進行分類與位置校正。具體而言，上述方法利用卷積神經網絡（CNN）來提取圖像特征，并結合候選框的位置信息確定每個候選框中的物體類別與位置，從而進行高準確率的目標檢測。

2.3.3 圖像分割

圖像分割是將圖像數據劃分為若干具有語義信息的像素或區域的過程。傳統圖像分割方法需要手動選擇特征與參數，效果會受復雜度與圖像質量的限制。但隨著深度學習的發展，基于深度學習的圖像分割方法有了較大突破。該文選用的是U-Net。U-Net基于編碼－解碼結構，網絡結構形狀與字母“U”相似，使用編碼器提取圖像特征，再使用解碼器完成上采樣并生成分割結果。

2.3.4 語義分析

實際語義分包括涉及數據準備、模型編譯、訓練、評估、預測、后續處理以及分割結果評估等一系列步驟。首先，清洗和標注原始數據，得到相應的真實標簽圖像，再將數據集劃分成訓練與驗證集。其次，定義損失函數和優化器，同時編譯U-Net模型。再次，用訓練數據集訓練模型，使用驗證數據集來客觀評估得到的模型，同時使用測試數據集完成模型預測，并得到相應的分割圖像。從次，對預測結果進行平滑邊緣、去噪等后續處理，得到最終的分割結果。最后，客觀評估分割結果，使用像素準確率（PA）、均類別像素準確率（MPA）和平均交并比（MIU）等指標來衡量模型的準確性與性能。

該文使用U-Net網絡來完成圖像語義分割任務，利用一系列的卷積與池化操作來完成特征提取與上采樣，得到像素級別的分割結果。在U-Net網絡中，編碼器部分用于提取圖像數據中的低級特征信息，經過多次卷積與池化操作，持續縮小圖像尺寸。解碼器部分則利用反卷積與上采樣層，將提取的特征信息恢復至原始圖像尺寸，并形成像素級別的分割結果。為充分使用不同層級的特征信息，將跳躍連接引入U-Net網絡中，將編碼器與解碼器中相應層級的特征進行連接，以使神經網絡可以同時使用低級與高級特征，從而提高分割準確性[6]。U-Net網絡結構簡化圖如圖2所示。

圖2 U-Net網絡結構簡化圖

該文使用的U-Net網絡共5層，包括4次下采樣與4次上采樣操作，輸入與輸出圖像為512×512像素。每一次下采樣經過卷積和池化操作后，圖像尺寸會減至一半，而每一次上采樣經過反卷積與上采樣層，圖像尺寸會擴大2倍。與此同時，在下采樣過程中增加2次4×4的最大池化層，分別處于第1層～第3層與第3層～第5層。通過使用U-Net網絡，可以從輸入圖像中高效提取有效特征，并得到像素級別的分割結果，此外，跳躍連接的設計使神經網絡可以充分利用不同層級的特征信息，從而顯著提升分割準確性。

2.4 算法實現與評估

該文基于U-Net網絡架構、GCDA模塊，實現道路標志檢測與識別算法，并利用訓練數據集訓練模型。在評估階段，通過計算得出各性能指標，具體試驗結果評價見表1，圖像分類結果見表2。

表1 U-Net算法的試驗結果評價

表2 圖像分類結果

上述試驗結果表明，該道路標志檢測與識別算法平均準確率高達92%，在智慧軌道交通中具有較好的性能與準確性。上述試驗與評估驗證了該算法在智慧軌道交通場景中具有較好的可行性與有效性，能夠為智慧交通系統提供高效、準確的道路標志信息，可為交通安全控制、駕駛輔助系統及交通管理決策等提供有力的技術支撐。

3 應用效果

某市智慧軌道交通系統應用該道路標志檢測與識別算法一段時間后，取得了顯著應用效果。具體的應用效果如下：在道路狀況監測方面，系統可以準確、有效地檢測與識別道路上的各種標志，包括禁止停車標志、限速標志等，同時還支持駕駛輔助功能，如危險預警等，顯著提高了駕駛安全性。在交通管理決策支持方面，系統能實時監測道路狀況，幫助交通部門自動完成違規檢測與交通流量監控等工作。這些數據又可以作為優化交通流量、制定合理交通管理策略的重要數據依據，大幅提升交通效率。在駕駛輔助功能方面，系統提供了必要的駕駛輔助功能，有效提高了駕駛員對道路狀況的認知，大幅減少了交通事故的發生概率。在數據分析和統計方面，系統自動分析和統計所檢測的道路標志數據，并生成違規統計、交通狀況報告等信息，從而幫助交通部門與相關管理人員更好地完成規劃與決策。

4 結語

綜上所述，基于機器學習，智慧軌道交通系統能夠準確地進行圖像分析與識別，從而提高交通安全性與服務質量。然而，機器學習在現有圖像分析與識別應用中仍存在很多限制與問題，如算法復雜性、計算資源需求以及圖像數據質量/多樣性等。未來，將持續致力于改進、優化機器學習模型與算法，同時不斷探索其他先進信息技術手段，如數據聯合與傳感器融合分析等，以提高算法的效率與準確率，進而提升智慧軌道交通系統的性能。