葉兆元 張亮智 梁海泓 蘇湘鈿 黎志勇


摘要:隨著深度學習技術的發展,自動駕駛汽車對道路信息的檢測變得至關重要。一個全面的檢測系統需要車輛和道路的全方位信息,傳統的道路巡檢方式以及專用設備檢測方式成本高昂,效率低下,嚴重制約了道路的維護和安全。目標檢測和語義分割是實現車輛視覺感知的主要技術,但單一的任務檢測不能滿足復雜道路環境的需要。針對傳統道路異常狀態檢測存在的高成本和低效率問題,提出了一種基于深度學習的智能化檢測方法,構建了包含多種異常狀態的數據集,并采用Faster RCNN目標檢測算法以及半監督策略的生成對抗網絡,實現了對道路異常狀態的自動化檢測和分割。
關鍵詞:CNN;Faster RCNN;RPN;網絡模型結構;VGG-16
中文圖類號:U472.9? 收稿日期:2024-03-25
DOI:1019999/jcnki1004-0226202406035
1 前言
隨著汽車數量的增加和道路負荷的增大,公路出現了各種異常狀態,如路面裂縫、塌陷、坑槽等,嚴重威脅了交通安全并增加了維護成本[1]。傳統的道路異常狀態檢測主要依賴人工方法,但存在一些問題,包括主觀性、低效率、高成本、安全風險以及可能引發交通堵塞等。深度學習通過卷積神經網絡等技術可以從道路圖像中提取更多層次的特征信息,提高了圖像處理的效率和準確性,為道路異常狀態檢測提供了新的途徑。
近年來,研究者將深度學習應用于道路工程的各個方面,包括設計、檢查監測、維護等。這些研究包括使用改進的BP神經網絡算法來提高路面裂縫異常狀態檢測的速度,使用卷積神經網絡(CNN)來檢測道路裂縫異常狀態,并使用深度殘差網絡對不同尺度的特征信息進行融合,以實現裂縫的精細分割。
2 基礎理論分析
在自動駕駛領域,深度學習被廣泛用于解決感知、決策、控制等算法中面臨的難題,以提高自動駕駛系統的智能化水平[2]。卷積神經網絡(CNN)能夠自動地從原始圖像中學習到有用的特征,并且具有良好的魯棒性,能夠處理各種不同形狀和大小的圖像。
循環神經網絡(RNN)也是一種常用的深度學習算法,主要用于處理序列數據,如語音、文本等。RNN通過循環連接的方式實現對序列數據的記憶和傳遞,從而能夠有效地處理時序數據。在自動駕駛領域,RNN可用于處理車輛行駛中的傳感器數據和GPS軌跡等序列數據。
深度置信網絡(DBN)能夠通過逐層貪婪訓練的方式,從復雜繁瑣的原始數據中逐層分離提取出越來越高級的特征。DBN的優點在于其能夠有效地處理高維數據,并且具有較好的特征學習能力。
在自動駕駛領域,深度學習被廣泛應用于感知等算法,實現對道路、車輛、行人等目標的識別和跟蹤。在決策方面,深度學習利用循環神經網絡(RNN)和長短時記憶網絡(LSTM)等算法,對車輛行駛數據和交通流數據進行處理,實現車輛行駛策略的優化和控制。在控制方面,深度學習通過對車輛動力學和機械系統的理解,利用深度強化學習等算法,實現對車輛的精確控制。
3 檢測算法
采用Faster RCNN算法為基礎模型,并對其進行改進。Faster RCNN算法能夠有效地在輸入圖像中定位目標并輸出相應目標類別的概率。改進方向包括特征提取優化,引入多尺度特征金字塔融合策略以提升多尺度目標檢測性能,并解決傳統感興趣區域池化層所導致的目標定位精度問題,采用ROI Align進行替代。Faster RCNN算法為經典的two-stage目標檢測算法,分為兩個階段:首先,通過特征提取骨干網絡生成候選框;然后進行目標類別分類和候選框位置回歸。
31 特征量提取算法
圖片特征信息的提取在目標檢測算法中起著關鍵作用,而Faster RCNN算法選擇VGG-16網絡作為其特征提取的基礎。VGG-16網絡是在AlexNet網絡的基礎上進行更深層次的設計,從而形成的一個深度卷積神經網絡。其卷積特征提取部分由13個卷積層和5個池化層的有序組合構成。
VGG-16網絡的特征提取過程可以概括為以下幾個步驟:a.圖像經過兩次3×3大小的卷積核的卷積操作,然后進行一次最大池化操作,以減小圖像尺寸;b.經過兩次3×3大小的卷積核的卷積運算,然后再次進行最大池化,以繼續壓縮特征圖的尺寸;c.卷積核的數量增加到256,并使用3組卷積核對上一階段的輸出進行卷積操作,然后再次送入最大池化層進行特征圖的進一步壓縮;d.卷積核的數量增加到512,與之前的階段類似,對上一階段的輸出進行卷積操作,然后再次進行最大池化;e.繼續使用512個卷積核進行卷積操作,然后經過一次最大池化,以得到抽象的語義信息特征圖。獲取輸入圖像的抽象語義特征,為Faster RCNN算法提供了強大的圖像特征,有助于檢測和定位圖像中的目標物體。
32 Region Proposal Network
RPN是Faster RCNN的關鍵組成部分之一,其主要任務是接受任意尺寸的輸入圖像,并生成一組矩形框,這些框包含與目標對象相關的概率得分。RPN基于卷積特征圖的滑動窗口操作,利用共享的卷積頂層特征信息,在大小為w×w的特征圖上,RPN對每個像素位置采樣A個初始區域,從而得到W×H/A個候選區域。
RPN將候選區域傳遞給分類器進行篩選。使用交并比(IOU,Intersection over Union)來評估每個候選區域與實際目標的重疊程度。當候選區域與至少一個目標的IOU不低于07時,才被標記為正樣本,表示可能包含目標對象,有效地過濾掉了不包含目標的候選區域。
[Lrpn({pi},{ti})=1NclsiLcls(pi,p?i)=]
[λ1Nregip?iLreg(ti,t?i)]????????????????????? (1)
式中,i為Anchor Boxes的索引;[p?i]為真實值標簽的值;l表示正樣本;0為負樣本;[t?i]是索引為i的Anchor Box的邊界框修正值;[Lcls]為分類損失函數;[Lreg]為邊界框回歸的損失函數,用于衡量預測的邊界框與真實邊界框之間的誤差;[λ]為分類損失函數和邊界框回歸損失函數之間的平衡權重,用于調整它們的相對重要性。通過最小化損失函數,這個方程描述了RPN的訓練過程,是目標檢測中的重要組成部分。
RPN執行邊界框回歸,以修正正樣本的邊界框位置,從而提高目標檢測的精度。RPN根據損失函數進行訓練,該損失函數包括分類損失和邊界框回歸損失。分類損失使用交叉熵損失函數來衡量預測值與真實標簽之間的誤差。邊界框回歸損失用于修正候選區域的位置,以更準確地擬合目標。RPN通過利用卷積特征圖,生成并篩選目標候選區域,從而為目標檢測提供了有效的輸入。通過訓練RPN,可以預測和修正這些候選區域,從而提高了目標檢測的性能。
33 鏈式網絡配比
對于目標分類和邊界框回歸,DF RCN則采用了一種分離的策略,將這兩個任務分別傳輸給全連接結構和卷積結構。全連接結構負責目標分類,而卷積結構則用于目標定位。這種分離的方法旨在實現更準確的目標分類和更精確的目標定位,從而提高目標檢測性能。通過這種策略,DF RCN有效地利用自動學習圖像的特征,改善目標檢測的準確性和靈敏性。
全連接層的作用是將之前提取到的特征進行整合和分類,輸出最終的分類結果。這種結構的設計使卷積神經網絡能夠有效地處理復雜數據,提高分類的準確性和魯棒性。全連接結構包含兩層全連接層,每一層的神經節點數目都為1 024[3-4]。第一層全連接層將ROI Align輸出的7×7×256張量降維到1 024維,而第二層全連接層也有1 024個神經節點,能夠更好地識別復雜的圖像特征和執行分類任務。這種結構設計有助于提高模型的性能,能處理和解決復雜圖像分類問題。
34 算法改進
道路異常檢測場景具有以下特點:a.道路圖像的背景復雜多樣,同時,由于拍攝道路圖片的時間、季節和氣候等自然因素的變化,許多道路異常狀態與圖像背景相似度非常高。這需要模型具備強大的特征提取能力,以有效提取出道路異常的特征。b.由于攝像頭需要保持一定的高度對道路進行拍攝取樣,導致圖像中的道路異常目標相對較小,模型需要具備較高的小目標檢測能力。c.道路圖片樣本的獲取方式多種多樣,不同獲取方式導致樣本在拍攝距離和角度方面存在較大差異。模型需要具備多尺度目標檢測和識別的能力。
為了應對這些挑戰,對Faster RCNN目標檢測算法進行了改進。a.采用了ResNet50網絡作為特征提取的骨干網絡,以提高特征提取性能。b.引入了FPN網絡,將ResNet50的第2至第5個殘差模塊的輸出作為基礎,融合多級尺度的特征信息,增強了輸出特征的空間細節和語義信息。c.為了解決ROI Pooling層可能引入的錨框定位誤差問題,引入了ROI Align模塊,采用雙線性插值方式對錨框進行池化操作。
4 實驗結果分析
本實驗采用Python實現,版本為310,基于PyTorch v181框架。實驗設備為聯想 ThinkStation P350圖形工作站。第一個實驗分別使用Faster R-CNN和Divide Faster R-CNN在相同的設置下訓練,設置batch size為1,訓練步數為200,總共訓練100個周期。第二個實驗吸塵器塵袋數據集上的性能比較:收集吸塵器塵袋數據集1,這個數據集應專注于吸塵器塵袋內部對象的檢測。在相同的設置下,使用Faster R-CNN和Divide Faster R-CNN分別進行訓練。確保batch size為1,訓練步數為200,總共訓練100個周期。第三個實驗用于驗證算法的性能,檢驗增加類別后算法的魯棒性,首先準備原始數據集1。然后,收集擴展數據集2,并將其與原始數據集1合并,形成一個類別更豐富的數據集。實驗中,Divide Faster RCNN采用帶動量的SGD算法,動量為09,學習率為0000 1。輸入圖像的大小在第一個實驗縮放為512×512,而在第二個和第三個實驗中,圖像大小縮放為1 024×1 024。
為了減少計算量,采用瓶頸層方式,先利用1×1卷積將輸入通道數降低,對降低之后的特征圖進行進一步卷積,最后通過1×1卷積將輸出通道數重新升高到預設維度。模型的檢測速度仍然優于Mask RCNN但略遜于Faster RCNN。同時,由于增加了卷積結構,導致模型在訓練過程中loss的下降速度稍微變慢,但下降趨勢基本沒有變化。通過對比實驗前后的性能指標,驗證算法在增加類別后的魯棒性和泛化能力。在所有實驗中,確保Divide Faster R-CNN和Faster R-CNN的其他設置(如學習率、優化器、損失函數等)盡可能保持一致,以便公平比較。在實驗過程中,注意監控訓練過程中的指標(如損失、準確率等),以便及時調整訓練策略。最后,確保收集充足的測試數據來全面評估模型的性能。
5 結語
針對傳統道路異常狀態檢測存在的高成本和低效率問題,提出了一種針對道路異常檢測場景的目標檢測算法,同時提出了一種基于深度學習的智能化檢測方法,構建了包含多種異常狀態的數據集,通過多方面的改進措施,如特征提取優化、多尺度感知、RPN的改進等,并采用Faster RCNN目標檢測算法以及半監督策略的生成對抗網絡,實現了對道路異常狀態的自動化檢測和分割。
該方法有效地應對了這一特殊場景的挑戰,有效降低檢測成本和提高效率,為自動駕駛安全提供更有效的支持。實驗結果證明了算法的有效性和性能優越性。研究結果對于道路異常檢測以及其他特定場景的目標檢測任務具有一定的指導意義,為相關領域的研究提供了有價值的經驗和思路。
參考文獻:
[1]梁泓基于深度學習的道路異常狀態檢測方法研究[D]上海:東華大學,2022
[2]段續庭,周宇康,田大新,等深度學習在自動駕駛領域應用綜述[J]無人系統技術,2021,4(6):1-27
[3]陳國良,龐裕雙基于改進Faster RCNN的微操作空間目標檢測算法[J]傳感器與微系統,2024,43(3):144-147+151
[4]代恒軍基于改進的Faster R-CNN圖像目標檢測方法研究[J]信息技術與信息化,2023(8):91-94
作者簡介:
葉兆元,男,2001年生,本科生,研究方向為自動駕駛算法、無監督學習。
黎志勇(通訊作者),男,1979年生,副教授,博士研究生,研究方向為材料成形、智能算法。
基金項目:國家級大創項目(202213720002,202313720002);省級大創項目(S202313720007)