張晟劍,莫澤文
1.廣州汽車集團股份有限公司汽車工程研究院,廣東廣州 511434;2.中山大學,廣東深圳 518107
自動駕駛是近年來人工智能和機器學習領域的研究熱點之一,對于解決交通擁堵、降低交通事故率、減少能源消耗和提高出行效率具有重要意義[1-2],。隨著自動駕駛技術的飛速發展,道路檢測作為其核心技術之一,受到越來越多的關注。道路檢測的目的是實時準確地識別道路區域,為自動駕駛車輛提供安全可靠的導航信息。近年來,基于遙感圖像的道路檢測技術因其能夠提供大范圍、高分辨率的地表信息,有助于提高道路檢測的準確性和實時性,成為了熱門領域,得到廣泛關注。
然而,由于遙感圖像的特點,如分辨率、光照條件等方面的差異,傳統的道路檢測方法在遙感圖像上的表現并不理想。針對遙感圖像的自動駕駛道路識別問題,本文基于U-Net 提出了一種直方圖均衡化策略,并在Deeplab_v3、FCN 和PSPNet 模型上進行了實驗驗證。
在進行道路檢測之前對遙感圖像進行的一系列處理操作中,遙感圖像預處理起到關鍵作用。具體處理操作主要包括:去噪、輻射校正、幾何校正和圖像增強。去噪主要目的是消除圖像中的噪聲,以減小對道路檢測結果的影響;輻射校正則是通過調整遙感圖像的輻射特性來消除大氣和傳感器的影響,從而使圖像更接近地面真實景物;幾何校正則負責消除圖像的幾何畸變,使得圖像中的各個像素正確對應地面上的位置。
在圖像預處理中,圖像增強是一項關鍵技術,其目的是提高圖像質量和對比度,以便更好地區分道路與其他地物類別。在本研究中,特別關注圖像增強這一環節,尤其是通過直方圖均衡化來改善圖像的視覺效果。直方圖均衡化通過調整圖像的灰度級分布,使得圖像的對比度得到增強,從而使道路與其他地物類別之間的差異更加明顯。這種方法對于克服圖像中的光照不均、陰影等問題具有顯著作用,從而有利于提高道路檢測的準確性和魯棒性。
本文中選擇了3 個基于U-Net 的語義分割模型進行實驗,分別是Deeplab_v3、FCN 和PSPNet。
U-Net[3]是一種用于圖像分割的卷積神經網絡,其結構呈U 形,包含一個編碼器和一個解碼器。編碼器通過卷積和池化操作提取圖像特征,解碼器通過上采樣和卷積操作恢復圖像細節。U-Net 具有較好的分割性能,特別適用于處理小樣本數據。
Deeplab_v3[4]是一種基于深度卷積神經網絡的語義分割模型,采用了空洞卷積和空洞空間金字塔池化(Atrous Spatial Pyramid Pooling,ASPP)模塊來提高分辨率和捕捉多尺度上下文信息。
全卷積網絡(Fully Convolutional Networks,FCN)[5]是一種端到端的語義分割模型,通過將傳統的全連接層替換為卷積層,實現了像素級別的分類任務,具有較好的分割性能和實時性,已廣泛應用于遙感圖像道路檢測等任務。
金字塔場景解析網絡(Pyramid Scene Parsing Network,PSPNet)[6]采用金字塔池化模塊來捕獲不同尺度的上下文信息,并將這些信息與原始特征圖融合,從而提高語義分割的性能。
實驗采用DeepGlobal 道路數據集進行訓練和驗證。該數據集是一個用于遙感圖像道路提取的數據集,它包含6 226 對1 024×1 024 像素的RGB 衛星遙感圖像和標簽,每幅圖像的像素分辨率為0.5 m/pixel/inch。只用了6 194 對圖片,并將80%的圖片作為訓練集,剩余的20%作為驗證集,即訓練集包含4 955張圖片,驗證集包含1 239 張圖片。
為了充分評估各個模型在道路檢測任務上的性能,采用了相同的訓練策略和超參數設置。具體來說,使用了學習率為0.01 的Adam 優化器,并設置了批大小為16,迭代次數為80 000,單卡RTX3090,mmsegmentation1.0.0 算法庫。同時,在訓練過程中采用了數據增強策略,如隨機翻轉、隨機裁剪等,以提高模型的泛化性能。
采用3 種不同的模型U-Net+Deeplab_v3、U-Net+FCN 和U-Net+PSPNet,并嘗試在它們的基礎上引入直方圖均衡化(HE)特征,因此,共有6 種實驗配置。為評估各模型的性能,使用了以下評價指標:
Dice 系數(Dice coefficient)用于衡量分割效果的相似度,范圍在0 到1 之間。計算公式為:
其中,A和B分別表示預測的分割結果和真實的分割標簽。
mDice(mean Dice coefficient)是各類別Dice 系數的平均值,用于綜合評價模型的分割性能,其值范圍從0(最差)到1(最好),它衡量了預測結果與實際標簽之間的相似度。計算公式為:
其中,TP表示正確預測的正例數量;FP表示錯誤預測的正例數量;FN表示錯誤預測的負例數量。
準確率(Accuracy)是用于衡量分類正確性的指標。計算公式為:
mAcc(mean Accuracy)是一個度量分類器性能的指標,用于衡量多個分類問題中各個類別的平均準確率,它有助于在不平衡數據集上更公平地評估分類器性能。計算公式為:
其中,CZ表示在不平衡數據集上評估分類器的總數量。
圖1 為訓練過程中損失值(loss)隨著迭代次數(step)變化的曲線圖。通過曲線圖可以了解不同模型的收斂速度和穩定性。

從圖1 中可以看出,各個模型在訓練過程中的損失值逐漸降低,并逐步趨于穩定,這表明訓練過程是有效的。
基于U-Net 的6 種模型在驗證集上的驗證結果如表1 所示,其中r_Dice 和r_Acc 中的r 代表Road 類別。

表1 6 種模型的驗證結果
根據實驗結果可以得到以下分析:
(1)在不使用直方圖均衡化的情況下,U-Net+Deeplab_v3 模型在mDice 和mAcc 指標上表現最佳,分別為81.92%和78.91%;
(2)使用直方圖均衡化后,HE+U-Net+PSPnet 模型在mDice和mAcc 指標上表現最佳,分別為80.81%和77.02%;
(3)總體來說,不使用直方圖均衡化的U-Net+Deeplab_v3 模型在道路類的Dice 和Acc 指標上表現最好,而使用直方圖均衡化后,HE+U-Net+PSPnet 模型在這兩個指標上表現最佳;
(4)在使用直方圖均衡化的情況下可以觀察到,道路類(road)的Dice 和Acc 指標普遍有所提高,這說明直方圖均衡化能夠改善圖像的對比度,提高分割性能,然而,在背景類(background)的Dice 和Acc 指標上,直方圖均衡化對結果的影響較小,這可能是因為背景類的分割結果已經較好,直方圖均衡化所帶來的改進有限。
驗證結果可視化如圖2 所示。

綜合以上分析,在DeepGlobal 道路數據集上,如果不使用直方圖均衡化,U-Net+Deeplab_v3 模型的表現最佳;而在使用直方圖均衡化的情況下,HE+U-Net+PSPnet 模型的表現最佳。需要注意的是,直方圖均衡化在不同模型之間的適用性可能有差異,因此在實際應用中需要針對具體模型和任務進行調整和優化。
直方圖均衡化操作能夠改善圖像的對比度,提高分割性能,具有一定的實用價值。然而,在不同模型之間,直方圖均衡化策略的適用性存在差異,因此在實際應用中需要針對具體模型和任務進行調整和優化。本文的研究成果為自動駕駛和智能交通領域的道路檢測提供了一種有效的圖像預處理方法。通過對比實驗,證明了直方圖均衡化策略在提高遙感圖像道路檢測性能方面的潛力。
未來將進一步研究直方圖均衡化策略在其他模型、其他數據集以及其他道路檢測任務上的應用,以期為自動駕駛和智能交通領域提供更為全面和有效的解決方案。同時,未來也將探索將直方圖均衡化策略與其他圖像增強技術相結合,以提高模型的泛化能力和實用性。