朱玉偉 潘宇馳 鄒劉磊 黃心怡 范洪輝 朱洪錦



摘要:為了解決目前車輛疲勞駕駛檢測線索單一、算力要求高、準確率低、侵入式等問題,基于駕駛人員眼部、嘴部、頭部等部位特征數(shù)據(jù)的采集分析,構建了輕量化的神經(jīng)網(wǎng)絡,設計了非侵入式多視覺特征融合疲勞檢測方法。通過模擬對比實驗和實際場景實驗,證明該檢測方法具有算力要求低、識別精度高、生產成本低等優(yōu)點。
關鍵詞:非侵入式;駕駛狀態(tài);疲勞檢測
中圖分類號:TP391.4文獻標識碼:A文章編號:2095-7394(2021)06-0059-08
疲勞駕駛是造成交通事故的重要原因,因此對駕駛員是否發(fā)生疲勞駕駛的檢測及預警,就成為提高行車安全的重要手段。目前,針對疲勞駕駛的檢測按技術路線可分為,駕駛人員生理信號的讀取、車輛行駛軌跡的分析、駕駛人員駕車姿態(tài)及操作行為的監(jiān)測及基于視覺識別機器學習的疲勞檢測。這些技術路線又大致可以歸納為兩類方法,侵入式檢測和非侵入式檢測。侵入式檢測是指將相關檢測儀器與人體產生物理接觸,以此收集人體反饋出的疲勞狀態(tài)指標,并判斷是否疲勞[1-2]。非侵入式檢測是指通過不與人體接觸的傳感器來讀取被檢測人員的精神狀態(tài)[3-4]。比如,通過攝像機來讀取駕駛人員的眼部閉合、面部表情、頭部姿態(tài)等行為特征[5],利用模式識別、圖像處理、機器視覺、深度神經(jīng)網(wǎng)絡等方法,實現(xiàn)對駕駛人員精神狀態(tài)的實時檢測。
隨著計算機視覺領域深度學習技術的不斷發(fā)展,基于計算機視覺圖像處理的人體疲勞檢測成為目前主流的研究方向。AL-LIBAWY[6]采用頭部姿態(tài)和車輛信息融合,利用粒子群優(yōu)化算法對駕駛員進行疲勞檢測;KIM[7]采用卷積神經(jīng)網(wǎng)絡后直接全連接層輸出的方法,加快了面部特征定位檢測的速度;ZHANG[8]通過獲取臉部特征點、眼睛有效區(qū)域,運用卷積神經(jīng)網(wǎng)疲勞檢測技術,構建了一套針對公交車駕駛人員的疲勞判斷系統(tǒng);趙磊[9]提取了駕駛員眼睛區(qū)域的局部灰度圖像和面部特征點的坐標值,將其輸入深度卷積神經(jīng)網(wǎng)絡,實現(xiàn)了對駕駛員疲勞狀態(tài)的檢測。
基于深度卷積神經(jīng)網(wǎng)絡的檢測方法,為了追求檢測的準確率,網(wǎng)絡模型的深度和復雜度不斷加大加深。模型的過于龐大首先會導致內存不足的問題,其次在低延時要求使用場景中無法做到實時響應,因而與車載疲勞檢測系統(tǒng)要求的實時性相背離。同時,現(xiàn)有大部分解決方案都是憑借單一判斷指標進行檢測識別,容易受客觀環(huán)境條件如環(huán)境光強、CCD部署角度等的影響,造成檢測無法正常運行。為此,本文提出基于輕量化的神經(jīng)網(wǎng)絡模型和融合眼、嘴、頭部姿態(tài)信號的多視覺檢測方法。
1輕量化神經(jīng)網(wǎng)絡
隨著卷積神經(jīng)網(wǎng)絡(CNN)技術的不斷發(fā)展,計算機視覺領域的目標檢測算法得到極大提升,RCNN架構的提出更是大幅提高了目標檢測的精度均值[10-11]。之后,YOLO系列算法[12]、SSD系列算法[13]的提出,進一步提高了目標檢測算法的檢測能力。盡管這些算法在目標檢測方面性能優(yōu)異,但卻較難適用于計算能力、存儲空間、功耗資源等受限的場合。為了提高目標檢測算法在嵌入式平臺、手機終端等資源受限條件下的應用能力,輕量化神經(jīng)網(wǎng)路的概念開始被提出。目前,輕量化神經(jīng)網(wǎng)絡模型的設計主要有兩個方向,即人工設計輕量化模型和對現(xiàn)有的模型進行壓縮。本文采用由CNN模型壓縮所得的輕量化神經(jīng)網(wǎng)絡。
CNN模型壓縮是從壓縮模型參數(shù)的角度降低模型的計算量。HAN[14]提出了剪枝、權值共享和權值量化、哈夫曼編碼三種模型壓縮方法。剪枝指將不必要的網(wǎng)絡權值去除,只保留對網(wǎng)絡重要的權值參數(shù)[15];權值共享指多個神經(jīng)元的連接采用同一個權值,權值量化則是將一個權值由更少的比特數(shù)表示;哈夫曼編碼是指進一步減少權值的冗余。在經(jīng)典的機器學習算法AlexNet和VGG-16上,HAN運用上述模型壓縮方法,在沒有精度損失的情況下,把AlexNet模型參數(shù)壓縮為之前的1/35,把VGG模型參數(shù)壓縮為之前的1/46,并且在網(wǎng)絡速度和網(wǎng)絡能耗方面也得到明顯提升。
傳統(tǒng)的模型壓縮過度依賴算法,設計人員對于模型大小和速度準確率之間的權衡往往需要耗費大量精力。HE[16]提出了模型壓縮策略工具AMC (AutoML for Model Compres),利用強化學習實現(xiàn)了壓縮策略性能更優(yōu)、壓縮比更高、人力調試成本更低的目標;針對壓縮模型精度對每層稀疏性的高度敏感性,提出了通過DDPGagent連續(xù)壓縮比的策略。
1.1問題定義
1.2空間搜索
AMC引擎對于每一層t都定義了11個特征來描述狀態(tài),見式(1):
st:(t,n,c,h,w,s tr ide,k,F(xiàn)LOPs [t],reduced,rest,at-1)(1)
其中:t是層序號,卷積核尺寸是nxcxkxk,輸入特征尺寸是cxw,F(xiàn)LOPs[t]是Lt層的FLOPs ,Reduced 是上一層減少的FLOPs,Rest表示下一層的FLOPs。這些特征全部歸一化為[0,1]。
1.3搜索策略評估
通過限制動作空間即每一卷積層的稀疏率(sparsity ratio),針對latency-critical和quality-critical的應用提出兩種損失函數(shù):對于latency-critical的AI應用,如手機APP、自動駕駛汽車和廣告排名,AMC采用資源受限的壓縮方式(resource-constrained compression),可在最大硬件資源下實現(xiàn)最佳精度[18];對于quality-critical的AI應用,如Google Photos,AMC采用精度保證的壓縮方式(accuracy-guaranteed compression),可在實現(xiàn)最小尺寸模型的同時不損失精度。
2檢測算法實現(xiàn)原理
本文設計的疲勞駕駛檢測系統(tǒng)首先通過攝像頭對車輛駕駛人員進行實時圖像采集,提取人眼睜閉狀態(tài)、嘴部開合狀態(tài)、頭部姿態(tài)、眼球注意方向為線索特征,再進行多線索融合判斷。檢測過程為:由輕量化后的CNN網(wǎng)絡對人體面部特征(眼部、嘴部、頭部)進行定位,基于第三層卷積網(wǎng)絡輸出的5維特征點輸出68維特征點[19],根據(jù)68點位分析進行疲勞程度判斷,引入基于SVM的多視覺融合判斷模型進行多線索結合判斷。
2.1疲勞檢測的原理
2.1.1眼部狀態(tài)判斷
當人體產生生理疲勞時,腦電波會發(fā)生改變,在眼部表現(xiàn)為眨眼時間和眨眼頻率的變化。人在清醒的狀態(tài)下,正常眨眼的間隔為4 s,眨眼時間(從眼睛閉合至完全打開)為0.2 s;而當人體處于疲勞狀態(tài)時,眨眼時間會增加至0.6 s,同時單位時間內眨眼頻率也會增加,因此眨眼時間與眨眼頻率可以表征人體是否為疲勞狀態(tài)。因為采集的圖像為實時視頻,屬于連續(xù)的圖像幀,所以可將眼睛閉合狀態(tài)的連續(xù)幀類比為PERCLOS算法提出的單位時間眼球閉合的百分比概念[20]。本文將該概念定義為fe,見式(2):
其中,Te為神經(jīng)網(wǎng)絡檢測到的閉眼幀數(shù),M為單位時間內的總幀數(shù)。
傳統(tǒng)的人臉檢測方法是先對面部的特征部位進行定位,然后檢測判斷區(qū)域是否發(fā)生改變。本研究在PERCLOS中引入多個面部特征部位的長寬比,只需在計算相關特征點距離比的基礎上進行適當加權處理,即可判斷特征部位的狀態(tài)。該方法不需要使用圖像處理技術,而是通過界標距離的比率Le來確定部位是否閉合。長寬比的提出使檢測難度大大降低,檢測效率顯著提升。
經(jīng)人臉提取與Landmark人眼定位后,得到關于眼部的描述點為12個。在生理非刻意情形下,兩眼動作一般同步對稱,因此只取一只眼睛的6個特征點進行檢測運算即可,運算公式見式(3):
公式中,分子計算垂直視界的距離,分母計算水平視界的距離。因為只有一組水平點,但是有兩組垂直點,因此對分母進行加權處理。當眼睛張開時其縱橫比基本保持穩(wěn)定,但眨眼時兩組的長寬比迅速降至零,如圖1所示。
由圖1可見:眼睛完全張開時,眼睛長寬比會很大,并且隨著時間的推移保持相對恒定;眨眼時,Le值迅速下降到接近零,然后迅速上升。此時,結合fe便可判斷人體處于眨眼、睜眼或閉眼狀態(tài),將數(shù)據(jù)輸入SVM向量機即可判斷是否為疲勞狀態(tài)。
2.1.2嘴部狀態(tài)判斷
為了擺脫單一眼部特征檢測易受干擾及個體生理差異性帶來的檢測不準確問題,引入對嘴部狀態(tài)的檢測。人體常規(guī)嘴部活動過程可以分為普通閉合、正常說話及疲勞感時的哈欠。將前文用于眼部檢測的PERCLOS算法運用在嘴部特征Lm的描述上,以分析嘴部的開合狀態(tài)。嘴部的特征點選擇如圖2所示,特征檢測的計算見式(4):
運用公式(4)對人的嘴部狀態(tài)判斷屬于簡單的二維計算,只需CPU無需采用卷積網(wǎng)絡。由圖2可知,當人體處于正常說話狀態(tài)時,Lm值在0.6~1.0之間,且為長時間持續(xù)狀態(tài);而當出現(xiàn)打哈欠等疲勞行為時,Lm值會急劇上升。由此,可以對人體嘴部的三種狀態(tài)清晰識別,實現(xiàn)了對眼部識別的輔助判斷。
2.1.3頭部姿態(tài)檢測
當人體在坐的體位下如果處于重度疲勞狀態(tài),則往往會出現(xiàn)瞌睡點頭、頭部或身體傾斜等行為。因此,通過對駕駛人員頭部姿態(tài)的檢測也可以判斷其是否發(fā)生疲勞駕駛。駕駛人員頭部姿態(tài)檢測的主要參數(shù)有俯仰角(Pitch,繞X軸旋轉的角度)、偏航角(Yaw,繞Y軸旋轉的角度)、滾轉角(Roll,繞Z軸旋轉的角度),如圖3所示。
本研究引入歐拉角的計算,利用二維圖像將頭部位置映射到三維圖像上,可得到人臉的姿態(tài)。與眼部檢測同理,引入fh概念來判斷駕駛人員是否處于疲勞狀態(tài)。據(jù)相關研究[21]可知,人體頭部正常的滾轉角范圍為-41°~36.3°、偏航角為-75°~75°俯仰角為-60.4°~69.6°。當頭部變動范圍達到理論數(shù)值的75%時開始異常幀數(shù)計數(shù),以此分析頭部姿態(tài)是否異常,進一步判斷駕駛人員是否為疲勞狀態(tài)。
2.2基于SVM的多視覺線索融合檢測模型
基于SVM算法建立多視覺融合疲勞檢測模型,通過分析Le、Lm、fh等數(shù)據(jù),完成對車輛駕駛人員眼部、嘴部、頭部姿態(tài)特征的檢測;當某一特征檢測受阻時,可結合其他特征檢測進行疲勞預警。本文將疲勞指標定義為Fi,其表達見式(5):
其中,pe為單次閉眼時長,pm為單位時間內檢測到的打哈欠次數(shù),ph為單位時間內檢測到的頭部姿態(tài)異常次數(shù)。三個判斷條件相互獨立,其中一項指標達到閾值,即進入疲勞狀態(tài)輸出,系統(tǒng)運行流程見圖4。
3實驗結果與分析
為驗證本文提出的多視覺融合算法的有效性,將開展以下三方面的實驗:將本文提出的特征數(shù)據(jù)量化眼部狀態(tài)的識別效果,與目前常用的基于單一線索運用深度殘差網(wǎng)絡模型的眼部狀態(tài)識別效果進行對比;單一眼部特征判斷與多視覺特征融合判斷的效果對比;通過實際測試對多視覺融合識別模型驗證。
3.1深度殘差網(wǎng)絡與特征數(shù)據(jù)量化的眼部狀態(tài)識別效果比較
以CEW數(shù)據(jù)集[22]中的2 423張人臉圖像為素材,將其中一半進行眼部狀態(tài)人工標注后作為深度殘差網(wǎng)絡識別的訓練集,另一半作為深度殘差網(wǎng)絡識別的驗證集。通過Transfer learning 方式對深度殘差網(wǎng)絡進行訓練得到訓練集準確率曲線圖,見圖5(a);訓練后的深度殘差網(wǎng)絡自主識別的驗證集準確率曲線圖,見圖5(b)。由圖5可知,利用深度殘差網(wǎng)絡進行眼部狀態(tài)識別,在多次迭代后,訓練集和驗證集的識別準確率都保持在95%左右。將CEW數(shù)據(jù)集輸入本文構建的特征數(shù)據(jù)量化模型,所得眼部狀態(tài)識別準確率曲線圖見圖6。與圖5(b)對比可知,在采用特征數(shù)據(jù)量化方法釋放了大量內存消耗的前提下,其眼部狀態(tài)識別準確率仍與深度殘差網(wǎng)絡識別率相當。
3.2單一眼部特征判斷與多視覺特征融合判斷效果的對比
采用YawDD數(shù)據(jù)集[23]為識別效果驗證集。YawDD數(shù)據(jù)集是渥太華大學采集的真實駕駛環(huán)境下不同年齡、種族、性別駕駛人員的車載駕駛視頻數(shù)據(jù)集,詳細記錄了駕駛過程中駕駛人員的正常、疲勞、注意力不集中等狀態(tài)。選取YawDD數(shù)據(jù)集中駕駛人員疲勞狀態(tài)的視頻,分別用單一眼部特征判斷和多視覺特征融合判斷兩種方法進行檢測,檢測結果如圖7所示。圖7中,single_acc表示單線索判斷的準確率曲線,merge_acc表示多視覺特征融合判斷的準確率曲線。由圖可知,單一眼部特征判斷的準確率為78%左右,而多視覺特征融合判斷的準確率為93%左右,明顯高于單一眼部特征判斷法。
3.3多視覺特征融合疲勞檢測實驗
為了驗證本文提出的基于輕量化神經(jīng)網(wǎng)絡的多視覺特征融合判斷的疲勞駕駛檢測方法,采用自然光源下實際車載駕駛測試。測試車型為別克英朗,車載終端硬件平臺為樹莓派4B+CCD攝像頭。選取該嵌入式終端也是為了驗證輕量化后的神經(jīng)網(wǎng)絡是否能夠在低算力的終端設備上良好運行,以提高方案的推廣性。嵌入式終端的安裝如圖8所示。為了更切合實際,選擇清晨6:00、下午14:00、午夜24:00三個疲勞駕駛高發(fā)時間段進行測試。隨機選取5位被測,分別命名為實驗組1~5,其中實驗組5為對照組。檢測方式為除被測5 外其他被測在駕駛過程中做出眨眼、打哈欠、注意力轉移等相關疲勞動作。通過三個時間段測試共得到15組數(shù)據(jù),見表1。
由表1可知,在車載終端應用環(huán)境下,檢測系統(tǒng)對各實驗組駕駛人員疲勞狀態(tài)的檢測準確率保持在80%~100%之間,且對實驗組1~4都做出了及時的預警,對空白對照組5未出現(xiàn)誤報。實驗證明,本文提出的多視覺特征融合駕駛狀態(tài)實時檢測方法有效、可行,相較于現(xiàn)有的其他方法,具有低成本、非侵入、高精度、易推廣的優(yōu)點。針對系統(tǒng)少量漏報和誤報的問題,將在后續(xù)的研究中進一步解決和完善。
參考文獻:
[1]王富強,劉德勝,劉云鵬.基于面部特征的疲勞駕駛檢測技術研究[J].現(xiàn)代計算機,2021(7):121-124.
[2] TUNCER T,DOGAN S,ERTAM F,et al. A dynamic center and multi threshold point based stable feature extraction network for driver fatigue detection utilizing EEG signals[J]. Cognitive Neurodynamics,2021,15(2):223-237.
[3]王博石,吳修誠,胡馨藝,等.基于單通道腦電信號的疲勞檢測系統(tǒng)[J].計算機科學,2020,47(5):225- 229.
[4]李作進,李仁杰,李升波,等.基于方向盤轉角近似熵與復雜度的駕駛人疲勞狀態(tài)識別[J].汽車安全與節(jié)能學報,2016,7(3):279-284.
[5] LI Z J,CHEN L K,PENG J,et al. Automatic detection of driver fatigue using driving operation information for transportation safety[J]. Sensors,2017,17(6):1212.
[6] AL-LIBAWY H,AL-ATABY A,AL-NUAIMY W,et al. Modular design of fatigue detection in naturalistic driving environments[J]. Accident Analysis & Prevention,2018,120:188-194.
[7] KIM W,JUNG W S,CHOI H K. Lightweight driver monitoring system based on multi- task mobilenets[J]. Sensors,2019,19(14):3200.
[8] ZHANG F,SU J J,GENG L,et al. Driver fatigue detection based on eye state recognition[C]//2017 International Conference on Machine Vision and Information Technology (CMVIT),2017:105-110.
[9]趙磊.基于深度學習和面部多源動態(tài)行為融合的駕駛員疲勞檢測方法研究[D].濟南:山東大學,2018.
[10] GIRSHICK R,DONAHUE J,DARRELL T,et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//2014 IEEE Conference on Computer Vision and Pattern Recognition,2014:580-587.
[11] GIRSHICK R. Fast R-CNN[C]//2015 IEEE International Conference on Computer Vision(ICCV),2015:1440-1448.
[12] Redmon J,F(xiàn)arhadi A. YOLOv3:an incremental improvement[EB/OL].(2018-04-08)[2021-08- 12].https://arxiv.org/abs/1804.02767.
[13] SHEN Z Q,LIU Z,LI J G,et al. DSOD:learning deeply supervised object detectors from scratch[C]//2017 IEEEInternational Conference on Computer Vision(ICCV),2017:1937-1945.
[14] HAN S,MAO H,DALLY W J. Deep compression:compressing deep neural networks with pruning,trained quantization and huffman coding[EB/OL].(2016-02-15)[2021-08-11].https://arxiv.org/abs/1510.00149.
[15]朱金銘,邰陽,鄒劉磊,等.基于深度可分離卷積與通道裁剪的YOLOv3改進方法[J].江蘇理工學院學報,2020,26(02):30-38.
[16] HE Y H,LIN J,LIU Z J,et al. AMC:AutoML for model compression and acceleration on mobile devices[C]//Com- puter Vision - ECCV 2018,2018. DOI:10.1007/978-3- 030-01234-2_48.
[17] LI H,KADAV A,DURDANOVIC I,et al. Pruning filters for efficient conv nets[EB/OL].(2017-03- 10)[2021-0812]. http://arxiv.org/abs/1608.08710.
[18] ZOPH B,VASUDEVAN V,SHLENS J,et al. Learning transferable architectures for scalable image recognition [C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition,2018:8697-8710.
[19] ZHANG K P,ZHANG ZP,LI Z F,et al. Joint face detection and alignment using multitask cascaded convolutional networks[J]. IEEE Signal Processing Letters,2016,23(10):1499-1503.
[20] HU S Q,LIN Z Y. Fatigue driving detection based on machine learning and image processing technology[J]. Journal of Physics:Conference Series,2018,1069:012179.
[21] FERRARIO V F,SFORZA C,SERRAO G,et al. Active range of motion of the head and cervical spine:a three-dimensional investigation in healthy young adults[J]. Journal of Orthopaedic Research,2002,20(1):122-129.
[22] SONG F Y,TAN X Y,CHEN S C,et al. A literature survey on robust and efficient eye localization in real- life scenarios[J]. Pattern Recognition,2013,46 (12):31573173.
[23] ABTAHI S,OMIDYEGANEH M,SHIRMOHAMMADI S,et al. YawDD:a yawning detection dataset[C]//Proceedings of the 5th ACM Multimedia Systems Conference on- MMSys14,2014.DOI:10.1145/2557642.2563678.
Research on Non-invasive Fatigue Driving Detection Method Based on
Multi-visual Feature Fusion
ZHU Yuwei1,PAN Yuchi1,ZOU Liulei2,HUANG Xinyi3,F(xiàn)AN Honghui1,ZHU Hongjin1
(1.School of Computer Engineering,Jiangsu University of Technology,Changzhou 213001,China;2. Netease Games,Zen Studio,Guangzhou 510623,China;3. Aptean
Abstract:In order to solve the problems of single clues,high computational power requirements,low accuracy,and intrusiveness for vehicle fatigue driving detection,a lightweight neural network is constructed based on the collection and analysis of driver ,s eye,mouth,head and other feature data,and a non-invasive multi-visual feature fusion fatigue detection method is designed. Through simulation contrast experiment and actual scene experiment,the detection method has the advantages of low computational power requirement,high recognition accuracy and low production cost.
Key words:non-invasive;driving status;fatigue testing