摘要:傳統的安全駕駛檢測方法在檢測實時性和準確性方面存在明顯不足,無法適應實時性要求較高的駕駛監控場景。為解決這一問題,提出了一種基于單階段多尺度的安全駕駛檢測方法——GSNet(一種創新的安全駕駛檢測方法模型)。GSNet在采用圖像分類方式的基礎上,結合層次化網絡設計理念,同時借助分組下采樣層(grouped downsampling layer,GDS Layer)和特征提取模塊實現高效的特征提取與處理。為驗證所提出方法的有效性,在動作識別常用的HMDB51(Human Motion Database 51)數據集上設計并開展了系列實驗。實驗結果顯示,GSNet在HMDB51數據集上的Top-1準確率達到85.00%,Top-5準確率為97.35%,且延遲僅為5.97 ms,具有優異的準確性和實時性。該模型克服了傳統方法的復雜性,為安全駕駛檢測提供了一種高效的解決方案。
關鍵詞:安全駕駛檢測;GSNet;單階段方法;多尺度檢測
中圖分類號:TP391.4 文獻標識碼:A
0 引言
傳統的安全駕駛檢測方法通常包含兩階段的工作:一是進行人臉檢測;二是基于檢測的人臉進行動作識別。這種檢測方法雖然簡單、直觀,但是面臨著兩大挑戰。首先,由于需要分別執行人臉檢測和動作識別操作,會導致系統的復雜度和計算負擔增加,特別是在實時性要求較高的駕駛場景下,該方法可能無法滿足效率方面的需求;其次,如果人臉檢測失敗或檢測精度不足,會導致后續的動作識別受到嚴重影響,從而降低整個系統的性能。
GSNet(一種創新的安全駕駛檢測方法模型)采用單階段圖像分類方式,通過層次化網絡設計來優化系統的整體性能。其具體結構包括分組下采樣層(grouped downsampling layer,GDS Layer)和多個特征提取模塊(GS block)。GDS Layer通過降低輸入數據的空間維度(寬度和高度),在盡可能保留重要信息的同時,有效減少了計算量。同時,
GS block由上下兩個結構單元組成,這可以進一步增強特征提取的能力和提高處理效率。
經研究,GSNet在檢測精度和處理性能等方面展現出優異性能。在HMDB51(Human Motion Database 51)數據集上,GSNet的Top-1準確率和Top-5準確率分別達到了85.00%、97.35%,且延遲僅為5.97 ms。該模型成功克服了傳統安全駕駛檢測方法復雜度高、檢測效率低等問題,為安全駕駛檢測領域提供了一種更高效的解決方案,尤其適用于現代智能交通系統和自動駕駛技術的相關應用場景。
1 研究工作介紹
GSNet作為一種創新的單階段多尺度的安全駕駛檢測模型,針對傳統方法實時性不足的問題,提出了更高效的解決方案。GSNet結合了圖像分類技術與Swin-Transformer(一種強大的視覺Transformer模型)架構,在單階段內可直接進行特征提取與動作識別,有效減少了計算步驟,顯著提升了系統整體的處理速度與效率。同時,GSNet具備在不同分辨率下進行有效目標檢測的能力。它通過層次化的特征提取,在多個尺度上實現信息融合,從而提升了系統對各種駕駛行為的識別敏感度與檢測能力。
為全面說明GSNet所依賴的關鍵技術,本文將從圖像分類中的深度學習技術、安全駕駛檢測技術及 Swin-Transformer 架構3個方面進行簡要介紹。
1.1 圖像分類中的深度學習技術
隨著深度學習的發展,卷積神經網絡(convolutional neural networks,CNN)在圖像分類領域取得了顯著進展。CNN通常由多個非線性的卷積層和池化層堆疊而成,能夠提升網絡的性能和圖像分類的精度[1]。在安全駕駛檢測領域,CNN在駕駛行為識別、交通標志檢測以及行人檢測等任務中得到了廣泛應用。該方法的優勢在于能夠高效處理大量圖像數據,其能夠直接從圖像中提取相關特征,無須進行過多的預處理操作或人工特征工程。
1.2 安全駕駛檢測技術
傳統的危險駕駛行為數據采集方法主要依賴主觀問卷調研,在問卷中獲取駕駛人發生危險駕駛行為時的駕駛操作、周邊環境及心理狀態等信息[2]。現階段,通過多尺度檢測,安全駕駛檢測系統可以處理不同尺寸和分辨率下的對象,成功提高了其在復雜場景下的檢測表現,這對于各種駕駛行為、障礙物和交通標志的準確識別具有重要意義。
在此基礎上,研究者們進一步提出了基于綜合感知的安全駕駛檢測系統,并結合視覺信息、傳感器實時數據進行綜合分析,通過規范激進型駕駛員的不良駕駛行為,有效提高車輛行駛的安全性[3]。這種方法通過融合多種數據源,能夠更全面地評估駕駛行為,預測潛在風險并及時做出預警,極大地提高了駕駛的安全性與可靠性。
1.3 Swin-Tranformer架構
Swin-Transformer是一種新型網絡架構[4],采用自注意力機制和窗口機制對圖像進行分塊處理,以此捕捉長距離依賴關系并提升計算效率。這一架構體現了圖像處理領域從傳統CNN向Transformer模型演進的趨勢,并在圖像分類、目標檢測和語義分割等任務中展現出優異的性能。
該架構采用基于頻率幅值的視頻幀選取策略,從微表情視頻中篩選出高強度的表情信息幀,并利用自注意力機制和圖卷積網絡(graph convolutional network,GCN)提取多層級特征,從而顯著提升微表情識別能力。在安全駕駛檢測中,
Swin-Transformer通過多尺度特征提取,提高對行人、車輛等目標的識別精度,進而提升圖像處理效率,滿足高實時性要求,適用于復雜的駕駛場景。
2 GSNet模型概述
如圖1所示,GSNet模型采用層次化設計理念,共涵蓋4個階段,每個階段逐步降低輸入特征圖的分辨率。數據在經過Stem層(輸入圖像進入主干網絡前的第一階段處理模塊)處理后,能夠提取出關鍵特征,為后續網絡模塊提供更高層次且信息更豐富的特征表示。
GSNet模型的每個階段由GDS Layer和若干個GS block構成。GDS Layer的主要功能是降低輸入數據的空間維度,同時盡可能保留其中的關鍵信息。GSNet模型通過分組卷積進行下采樣,再通過點卷積實現通道間的混合。隨后,數據依次經過全局平均池化(global average pooling,GAP)、1×1卷積和全連接(fully connected,FC)層。GAP的主要功能是對特征圖進行降維處理,其通過將每個特征圖縮減為一個平均值,使模型適應不同尺寸的輸入;1×1卷積用于在不改變特征圖空間尺寸的情況下調整特征圖的深度;全連接層則負責將特征映射到類別空間,從而輸出最終預測結果。
2.1 Stem
Stem層的具體框架如圖2所示。在GSNet模型框架中,Stem層作為該框架的首層,其主要功能是從輸入數據中提取關鍵特征,進而減少原始數據的冗余信息。在Stem層的網絡結構中,首先利用一個3×3的卷積層進行初步特征提取,隨后借助最大池化層對該圖像特征進行降維處理;其次通過兩個2×2的卷積層進行特征的轉換與增強;最后經過一個3×3的卷積層和一個1×1的卷積層對這些圖像特征進行整合和細化,以形成更高級的特征表示。
2.2 GS block
GS block的具體結構如圖3 所示,它由兩個部分組成且通過Swish激活函數進行連接。
GS block的第一部分由3個組件并聯組成,分別為3×3可分離卷積塊、1×1可分離卷積塊和組歸一化(group normalization,GN)。其中,3×3可分離卷積塊會針對輸入特征圖的每個通道進行卷積操作,再將各通道的卷積結果進行融合,以此提取不同通道上的空間特征;1×1可分離卷積塊主要用于降低特征圖的通道維度,并實現特征之間的線性組合與融合;GN作為一種歸一化方法,能夠對特征進行標準化處理,以提高模型的穩定性和泛化能力,尤其適合小批量樣本訓練。
GS block的第二部分由3×3可分離卷積塊和GN構成。其中,3×3可分離卷積塊能夠顯著減少計算量并優化特征提取效果,而GN則用于降低模型對數據分布變化的敏感性,從而增強模型在不同場景下的魯棒性。
3 模型實驗
3.1 數據集
本次模型實驗采用的動作識別數據集為HMDB51和UCF101(美國佛羅里達大學發布的動作識別數據集,包含101個動作類別)這兩個常見數據集。
HMDB51作為一個廣泛應用的視頻動作識別數據集[5],其主要用途是訓練并評估計算機視覺算法在動作識別任務中的表現。該數據集涵蓋51種人類動作,每個類別約有300個視頻片段。HMDB51的數據來源于互聯網上的視頻網站,這些視頻經過人工標注和切割后,時長一般為2~5 s,以AVI格式進行存儲。每個視頻幀都標注了相應的動作類別,這能夠為基于時間序列的動作識別算法的訓練與評估提供有力支持[6]。
UCF101則包含了從YouTube收集的現實場景視頻,共涵蓋101種動作類別及其對應的13 320個視頻。UCF101是UCF50數據集的擴展,它在UCF50的基礎上增加了更多動作類別,內容也更加多樣化。UCF101收集的視頻內容涵蓋了不同攝像機的運動情況、拍攝視角、物體外觀與姿態、物體尺度、復雜背景及光照條件等多種因素,這能有效提升算法的適應性。
3.2 評估標準
將目標檢測Top-1準確率、Top-5準確率、推理延遲、全類平均正確率(mean average precision,mAP)、每秒幀數(frames per second,FPS)等5項指標作為模型實驗的評估標準。
Top-1準確率指模型在給定數據集上預測出的最高概率類別與實際類別完全一致的比例,即衡量模型在最可能的單一類別上的預測準確性;Top-5準確率則關注模型預測的前5個類別中是否包含實際類別;推理延遲指模型進行推理或預測所需的時間,延遲較低意味著模型能夠迅速響應,這對于自動駕駛和實時監控等應用至關重要;mAP是檢測目標算法性能的常用指標,通過計算每個類別的精確率—召回率(precision-recall)曲線下的面積(average precision,AP),再對所有類別的 AP 求平均,從而全面衡量模型在多類別檢測任務中的整體表現;FPS代表模型每秒能處理的圖像或視頻幀數,其可以衡量目標檢測算法在圖像或視頻數據上的處理速度,較高的FPS意味著算法具備較好的實時處理能力,適用于需要高效處理數據的任務。
3.3 訓練細節
模型實驗共涉及GSNet各規模版本(GSNet_small、GSNet_middle和GSNet_large),以及ResNet34、ResNet50、Res2Net200、ResNeXt101、EfficientNetB0、EfficientNetB1等主流圖像分類模型。所有模型均基于 PyTorch 深度學習框架進行訓練,將配備2臺NVIDIA Tesla V100 圖形處理器(graphics processing unit,GPU)的計算平臺作為訓練環境。訓練時,將epochs(訓練輪次)的數量設置為300,并選用帶動量的隨機梯度下降(stochastic gradient descent,SGD)優化器進行參數優化。為了提高模型的泛化能力,引入了標簽平滑正則化(label smoothing regularization,LSR)方法[7-8],并將交叉熵損失函數的平滑因子設置為0.1,以防止模型對某一類別的置信度過高,進而增強模型在未知數據上的表現能力。模型初始學習率設為0.1,并采用余弦退火調度方法進行學習率的衰減,同時引入權重衰減機制,將權重衰減策略從10-4逐步減少至10-5,以防止過擬合。此外,模型在訓練過程中還使用了自動增強(AutoAugment)技術(一種數據增強技術),通過自動化優化數據增強策略,提升了模型在不同輸入數據下的泛化能力[9]。
3.4 實驗測試
GSNet模型基于Swin-Transformer架構進行構建,并采用層次化的特征表示方法,以此提升圖像處理能力和效率。這種設計使得GSNet能夠高效捕捉圖像中的局部細節和全局上下文,并且在保證較低計算成本的同時,實現較高的準確率。通過對輸入通道數量、輸出通道數量、GS block數量以及深度可分離卷積層數量等參數的靈活調整,GSNet模型在不同應用場景中均實現了準確率與推理延遲之間的平衡。
3.4.1 GSNet不同規模版本測試
GSNet模型設計了3種規模不同的版本,旨在平衡準確率與推理延遲。不同規模下GSNet模型指標如表1所示。GSNet_small 采用較少的通道數和2層深度可分離卷積,其Top-1準確率為81.95%,推理延遲為 1.77 ms;GSNet_middle 通過增加通道數并采用3層深度可分離卷積,使準確率提升至 83.82%,此時推理延遲為 2.52 ms;GSNet_large
采用最大通道配置,并保持 3 層深度可分離卷積,其Top-1準確率達到 85.00%,但推理延遲增至
5.97 ms。
由表1可知,當GSNet模型從小型規模(GSNet_small )向大型規模(GSNet_large)擴展時,其準確率呈現上升趨勢,但推理延遲也相應增加,這表明不同配置的GSNet模型之間存在性能的平衡。
3.4.2 多種模型性能測試
表2對比了不同模型在同一尺度下圖像識別任務中的性能,包括Top-1準確率、Top-5準確率和推理延遲。由表2可知,盡管Res2Net200的推理延遲較高,但其Top-1和Top-5準確率分別達到了85.13%、97.42%,在所有對比模型中綜合表現最佳。GSNet_small和GSNet_middle的表現較為出色,GSNet_large的準確率雖然較高,但推理延遲也較高,約為5.97 ms,處理效率不及部分ResNet模型。
3.4.3 模型增強性能測試
在與其他模型的對比中,GSNet展現出良好的性能。為進一步挖掘其潛力,本文探索了多種增強策略對GSNet性能的提升效果。表3展示了在基準 ResNet 模型上應用不同增強方法的結果,每種方法均能在一定程度上提升模型的性能。進步學習(progress learning)通過逐步增加任務復雜性或調整學習率,使模型更好地適應復雜任務,從而提高模型的準確率。指數移動平均(exponential moving average,EMA)能夠通過平滑參數更新來降低訓練噪聲,進而增強模型的穩定性。同時,AutoAugment能夠有效提高數據多樣性,使模型在面對不同圖像輸入時具備更強的魯棒性。最后,退火權重衰減(annealing weight decay,AWD)通過逐步降低衰減率,有效防止過擬合,并進一步提升模型的泛化能力。
應用這些增強方法能夠提升模型預測準確性,同時增強模型在不同數據環境下的適應性和穩定性。
3.4.4 YOLOACT算法下不同模型的性能測試
除了在圖像分類任務中的優異表現外,GSNet是否適用于下游檢測任務仍需驗證。為此,本文將其嵌入YOLOACT框架,分析了該模型使用YOLOACT算法后在目標檢測場景下的適應性。表4對比了在使用YOLOACT算法進行目標檢測時,ResNet、Swin-Transformer、EfficientNet和GSNet 4種模型的mAP和FPS。通過分析可知,不同模型的mAP與FPS各有差異。其中,GSNet在準確性和處理速度之間實現了較好的平衡,因此成為最佳選擇。
3.4.5 GSNet在駕駛行為檢測中的性能表現
為驗證GSNet在真實駕駛行為識別任務中的實用性,本節進一步測試其在典型駕駛行為檢測中的表現,以評估其實際部署價值。圖4所示混淆矩陣可視化分析了 GSNet 在6種駕駛行為(“吸煙”“打電話”“未系安全帶”“打哈欠”“閉眼”“正視前方”)上的檢測性能。通過計算并展示混淆矩陣,詳細分析了模型在每個類別上的表現:混淆矩陣對角線數值(左上至右下)表示正確預測的數量,非對角線數值則反映誤分類情況。
通過計算可知,GSNet 模型在駕駛行為識別方面表現優異,總體準確率達 86%,誤分類較少,具備較強的魯棒性和穩定性。
4 結語
本文圍繞駕駛行為檢測中對高實時性與高精度的雙重需求,提出了一種基于單階段多尺度的安全駕駛檢測方法——GSNet。通過設計 GDS Layer 實現高效降采樣,引入 GS Block 強化特征提取能力,GSNet 在保持輕量計算結構的同時,提升了對復雜行為的判別能力。
在典型動作識別數據集HMDB51上的實驗表明,GSNet可以達到85.00%的Top-1準確率和97.35%的Top-5準確率,推理延遲僅為5.97 ms,該結果驗證了其在安全駕駛檢測任務中的高效性與可行性。通過對比分析不同規模版本模型的性能、GSNet模型性能的優化測試、結合YOLOACT算法的檢測任務中的適應性測試以及實際駕駛行為識別效果的混淆矩陣分析,進一步證明了GSNet在多種配置下能夠實現精度與速度的良好平衡,具備出色的穩定性,適用于復雜多樣的駕駛場景。未來研究可在模型壓縮、邊緣部署以及多模態融合等方向進一步拓展其應用潛力。
參考文獻
[1] 徐春雨,賈睿. 多尺度融合特征卷積神經網絡的圖像分類算法研究[J]. 無線互聯科技,2024,21(22):73-78.
[2] 徐文翔,王俊驊,傅挺. 基于注意力機制及分層網絡的危險駕駛行為預測方法[J]. 同濟大學學報(自然科學版),2022,50(5):722-730.
[3] 李明俊,張正豪,宋曉琳,等. 基于一種多分類半監督學習算法的駕駛風格分類模型[J]. 湖南大學學報(自然科學版),2020,47(4):10-15.
[4] 譚振江,李明焱,王大東. 基于多尺度特征融合的Swin Transformer滿文識別研究[J]. 吉林師范大學學報(自然科學版),2025,46(1):103-110.
[5] 李艷秋,李勝趙,孫光靈,等. 輕量型Swin Transformer與多尺度特征融合相結合的人臉表情識別方法[J]. 光電工程,2025,52(1):26-40.
[6] 劉良振,楊陽,夏瑩杰,等. 基于增強負例多粒度區分模型的視頻動作識別研究[J]. 通信學報,2024,45(12):28-43.
[7] 陳琨,王安志. 卷積神經網絡的正則化方法綜述[J]. 計算機應用研究,2024,41(4):961-969.
[8] 張永,劉紀奎,柯文龍. 基于并行可分離卷積和標簽平滑正則化的腦電情感識別[J]. 電信科學,2023,39(5):116-128.
[9] 朱莉,宋緒秋,邢鑫,等. 基于改進ResNet34網絡的樹種識別研究[J]. 國外電子測量技術,2022,41(7):119-125.
[10] 郭穎,王永雄,楊慧敏,等. 改進EfficientNet的多視圖特征融合的CIN診斷[J]. 控制工程,2024,31(3):560-566.
[11] 謝鑫. 基于ResNet50的人臉識別模型[J]. 科技資訊,2020,18(35):9-11.
[12] 唐宏偉,丁祥,鄧嘉鑫,等. 基于Res2Net的人臉表情識別方法[J]. 邵陽學院學報(自然科學版),2024,21(2):28-35.
[13] 蔣圣南,陳恩慶,鄭銘耀,等. 基于ResNeXt的人體動作識別[J]. 圖學學報,2020,41(2):277-282.