王富強,龍 濤
(西安明德理工學院信息工程學院,西安 710100)
隨著我國經濟的快速增長,我國機動車擁有量已達到歷史新高。據公安部統計,截至2023年1月11日,我國機動車保有量已達4.17億輛,每年仍以10%左右的速度在快速增長[1]。由此引發越來越多的交通事故,有90%以上事故是由于駕駛員操作不當引起的,其中最突出的就是疲勞駕駛和分心駕駛引起的操作不當。駕駛員疲勞駕駛和分心駕駛導致的交通事故已占交通事故的30%~40%,尤其在高速上,高達40%以上,所以近幾年來疲勞駕駛和分心駕駛已經成為軌道交通安全領域的研究熱點[2]。
當前駕駛員在駕駛習慣中存在著玩手機、打電話、東張西望、喝水、吸煙、疲勞駕駛、和后排乘客聊天等不良駕駛習慣,這些行為都會給安全駕駛構成一定的威脅。在駕駛期間當駕駛員出現上述行為時如果能夠提醒駕駛員以減少駕駛員分心,會減少交通事故發生,保護人民生命財產。
異常駕駛是一種注意力不集中的行為表現,美國汽車協會交通安全基金會(AAAFTS)將異常駕駛定義為駕駛員由于車內或車外發生的事件,導致駕駛員注意力從駕駛任務轉移,對安全完成駕駛任務所需的信息識別較慢的反應。異常駕駛可以分為四種主要類型[3]:視覺干擾、聽覺干擾、認知干擾和生物力學干擾。視覺干擾是指駕駛員在車內或車外觀察其他事件、物體或人時視線的轉移;認知干擾被定義為由于思考其他事情而從駕駛中轉移注意力;聽覺干擾的定義是由于使用手機、與其他乘客交流或使用其他音頻設備而從駕駛中分心。
為了減少交通事故和提高道路安全,人們提出了各種基于計算機視覺的方法。Kaggle 發起了一項名為State farm distracted driver detection的競賽,旨在通過一個儀表盤攝像頭拍攝的圖像,將注意力分散的駕駛行為與安全駕駛區分開來。在本文中主要利用圖像識別技術檢測駕駛員在駕車行駛過程中的不規范行為,以及時提醒駕駛員,減少交通事故的發生。
駕駛員異常檢測基于傳統的檢測方法主要分為基于生理信號的檢測、基于車輛行駛狀態的檢測和基于視覺的檢測三類。基于腦電信號的異常駕駛檢測主要是通過傳感器采集駕駛員生理信號來分析判斷駕駛員是否處于異常駕駛狀態。Li等[4]提出了通過小波變換分析心率變異性來檢測駕駛員是否處于異常駕駛狀態,此方法達到了95%的準確率,但其是一種侵入性檢測方式,對正常駕駛有一定干擾,目前只應用于理論研究。基于車輛行駛狀態的檢測是通過判斷車輛有無偏離車道線、方向盤偏轉角度、車速等來判斷駕駛員是否處于異常駕駛狀態;屈肖蕾等[5]提出通過提取車輛轉向操作特性和車輛狀態特征,運用SVM 算法判斷駕駛員是否處于異常駕駛狀態;Hu 等[6]通過獲取車輛實時速度運用局部設計的神經網絡來判斷駕駛員是否處于異常駕駛狀態,其缺點是該方法受道路環境、駕駛員駕駛經驗等因素影響。基于視覺的檢測是通過攝像頭實時采集駕駛員頭部姿態,從采集的實時視頻中提取幀圖像來檢測駕駛員是否存在喝水、東張西望、抽煙和玩手機等特征來判斷駕駛員是否存在異常駕駛;Yan 等[7]通過對駕駛員手部位置進行監測,來判斷駕駛員是否處于異常駕駛;Ragab 等[8]通過對6 名受試者眼睛狀態、手臂位置、面部表情和面部方向采用AdaBoost、隱馬爾可夫模型、隨機森林和神經網絡進行異常檢測;Eraqi 等[9]提出了遺傳加權的卷積神經網絡進行異常駕駛檢測,達到了90%準確率;Hu 等[3]提出基于信息融合的多列卷積神經網絡異常駕駛檢測,但該方法存在網絡中參數多、時間開銷大且易過擬合等不足。
深度學習概念是由Hinton 等[10]于2006 年提出的,是機器學習中一種基于大量數據學習特征的學習方法,是機器學習的一個新的研究領域。受Hubel和Wiesel對貓視覺皮層電生理研究啟發,提出卷積神經網絡(convolutional neural network,CNN)。
本文主要通過對深度學習中經典的模型-卷積神經網絡進行改進,來檢測駕駛員在駕駛過程中出現的異常駕駛行為,從而達到發出精準警告信息的目的,進而有效地降低交通事故的發生。因此駕駛員違規行為識別研究就變得十分重要且有意義,本文正是基于此做的相關研究。
考慮到普通卷積神經網絡識別率低、魯棒性差,本文提出一種基于信息融合的多列卷積神經網絡模型,如圖1 所示,本模型由三列卷積神經網絡構成,每列卷積神經網絡結構相同,只是卷積核大小不一樣,卷積核大小分別為3×3、5×5、7×7,每列卷積神經網絡由VGG16結構改進而成,結構如圖2所示。

圖1 信息融合多列卷積神經網絡模型

圖2 單列卷積神經網絡結構
每列卷積神經網絡包含10 個層、8 個卷積層、一個全局平均池化層和一個全連接層,它以640×480的RGB 圖像作為輸入,8個卷積層可以分為五個階段來實現,全局平均池化層(global average pooling,GAP)將卷積后的每個卷積特征圖均值,所有的卷積特征圖經過全局平均池化層后輸入全連接層(fully connected,FC),最后通過Softmax 分類器輸出不同駕駛行為的概率。每列卷積神經網絡激活函數采用ReLU,步長設置為2,最大池化(MaxPool)尺寸選為2×2。
實驗數據集采用Kaggle 競賽官方提供的State farm distracted driver detection 駕駛員行為標準數據集(https://www.kaggle.com/),該數據集由102150 張640×480 的RGB 彩色圖片構成,包含有十種駕駛狀態,其中,訓練集提供了22424張圖片,測試集提供了79726張圖片,每種駕駛狀態提供的數據樣本數見表1,每種駕駛狀態如圖3所示。

表1 數據集詳情

圖3 State farm distracted driver detection 數據集十種駕駛狀態
在State farm distracted driver detection 標準數據集上,將本文提出的多列卷積神經網絡與其他算法進行了比較。在該數據集上將圖片大小修改為224×224×3,學習率設置為0.0001。
大量研究者在State farm distracted driver detection 數據集上做了相關研究,都取得了不錯的研究成果,本文主要針對Alexnet、ResNet34和本文提出的融合算法進行了對比實驗,主要從算法的識別準確率和精確率方面進行了對比分析,具體對比結果見表2和表3。

表2 不同算法在State farm distracted driver detection 數據集上的準確率/%

表3 不同算法在State farm distracted driver detection 數據集上的精確率/%
本文提出了一種基于信息融合的多列卷積神經網絡的異常駕駛行為識別方法。該方法首先利用卷積核大小不一樣的卷積神經網絡進行卷積,將每列卷積神經網絡得到的卷積特征進行融合,然后通過全局平均池化層進行特征均值,全連接層將特征均值進行降維,最后利用多分類函數Softmax 輸出不同駕駛行為的概率。相對傳統的卷積神經網絡,本文方法有效減少了參數運算量,避免了全連接層帶來的過擬合問題,提高了分類正確率。