高 珍, 陳 超, 許靖寧, 余榮杰, 宗佳琪
(1. 同濟大學 軟件學院,上海 201804;2. 同濟大學 道路與交通工程教育部重點實驗室,上海 201804)
隨著全世界交通運輸業和城市道路的蓬勃發展,車輛營運數量和駕駛員人數增長迅速,道路交通事故和因車禍傷亡的人數居高不下。疲勞駕駛被認為是引發交通事故的重要原因之一,僅在美國,每年就有約1 500 人喪生于駕駛員疲勞駕駛引起的車禍[1]。其中,營運車輛駕駛員疲勞駕駛引發的事故占比54 %,我國有關部門對營運車輛駕駛人抽樣調查結果顯示:84 %貨運車輛駕駛人日均駕駛時間超過8 h,其中40 %超過12 h,64 %貨運車輛只配備了1名駕駛人,具有巨大的交通事故隱患。因此,對營運車輛駕駛員疲勞駕駛狀態進行檢測、定級并做出相應的預警,對于保障交通運輸安全至關重要。
疲勞的檢測與分析常從駕駛員的面部特征入手,因為面部特征能夠最直觀、最明確地描述身體的疲倦狀態,是目前研究中使用最多的一種方法。駕駛員在疲勞駕駛時,其面部特征可主要表現為抑制自發眨眼、打哈欠、頭部俯仰變化頻率提高等,因此能夠通過眼部、嘴部、頭部的疲勞狀態表征和檢測模型實現疲勞狀態的分類。若駕駛員處于疲勞狀態,各類特征值均會出現顯著上升趨勢,作為對駕駛員疲勞行為的定義,進而實現疲勞檢測或疲勞定級。然而,在真實的營運車輛駕駛環境中,通過車載視覺系統收集的圖像和視頻數據極易受到車內照明條件的變化、圖像或視頻背景、相機位置及拍攝角度或其他因素的影響,出現圖像過曝、駕駛員人臉不清晰或部分遮擋等問題,導致檢測精度降低,嚴重影響模型性能。基于視覺特征進行駕駛員疲勞檢測的方法仍存在一定的局限性,模型投入應用后往往存在召回率大幅降低等問題,急需對算法魯棒性的提高方法進行進一步探索。
本文主要針對營運駕駛員的疲勞檢測開展研究,在真實營運車輛駕駛環境下收集了901 輛車、681 位駕駛員的共1 398 條駕駛片段,其中有456 條片段屬于疲勞駕駛。本文的主要工作及貢獻為:
(1)提出了一種融合卷積神經網絡(convolutional neural network , CNN)和長短時記憶神經網絡(long short-term memory neural network ,LSTM)架構的端到端模型,來提取駕駛員的疲勞時序特征,在工業數據集上取得了0.83的接收者操作特征曲線下面積(area under curve , AUC)性能;
(2)在原始數據集的基礎上,對實際運營環境中因天氣光照的變化或者相機位置等原因可能出現的極端情況進行模擬,分別構建了光照變換、幾何變換及綜合變換三套增強數據集,進行了模型重訓練,在工業數據集上取得了0.90 的AUC 性能,相較原始模型,增強模型的召回率提升了25 %,也有效提升了模型的魯棒性;
(3)使用了一種神經網絡的可視化方法Grad-CAM[18]將本文提出的模型中的CNN模塊進行可視化,對模型在圖像空間的關注區域進行了解讀,通過可視化的方法分析了本文提出的端到端模型相比傳統人臉關鍵點模型的優勢。
目前已有研究中,駕駛員的疲勞檢測主要采用以下三種方法:(1)基于駕駛員生理信號的疲勞檢測,該方法通常使用生理信號測量儀器,獲取被測駕駛員的腦電圖(EEG)、心電圖(ECG)[2]、肌電圖(EMG)[3]、眼電圖(EOG)[4]、心率變異性(HRV)[5]等。其中腦電圖(EEG)和心電圖(ECG)是最常用的方法,分別用于跟蹤駕駛員的大腦活動和心率[2],如Awais等結合使用EEG和ECG兩種模式,將駕駛員的疲勞程度分為了兩個等級[6]。雖然這類方法在疲勞檢測問題上已被證明具有較高的準確性和客觀性,但它們在現實環境中可行度很低。在駕駛員身上連接電極或佩戴相應檢測設備是一種干擾正常駕駛的入侵機制,可能導致駕駛員身體不適,干擾駕駛。(2)基于車輛狀態的疲勞檢測,這種方法通過分析車輛運動學數據進行疲勞檢測,是一種間接的檢測方法。該方法常借助車輛總線和視覺傳感器等設備來監控車速、車輛在道路上的位置和方向盤轉彎角度等[7],并根據上述數據判斷車輛的行駛狀態以及駕駛員的疲勞狀態。然而,從車輛上獲取的實時數據容易受到駕駛員的駕駛習慣和外部環境的影響,因此檢測的準確性與駕駛員和駕駛環境密切相關,難以應用于真實駕駛場景中駕駛員疲勞的檢測或預測中。(3)基于駕駛員面部特征的疲勞檢測,面部特征在當前疲勞檢測研究中最為廣泛使用,Charlotte等的研究表明,在生理信號數據集、車輛狀態數據集、面部特征數據集中,面部特征數據集的表現最佳[8]。面部特征可包括頭部姿態、打哈欠周期、眨眼頻率等。Wang 等[9]提出了一種改進的人臉檢測方法,并基于PERCLOS 指標評估駕駛員的疲勞狀態。Ji 等根據駕駛員的眼睛狀態,瞳孔運動和面部位置來判斷駕駛員的疲勞水平[10]。Nawal 等基于支持向量機(SVM)提取人臉,然后基于循環霍夫變換(CHT)檢測嘴部區域,最后基于打哈欠的特征檢測駕駛員的疲勞狀態[11]。盡管人臉分類準確度已經達到了很高的水平,但精確確定駕駛員是否疲勞仍然是一個挑戰,尤其是在處理視頻數據時[12]。隨著深度學習技術的發展,一些研究提出了融合CNN和LSTM 的LRCN 算法[13]對視頻數據進行分類,能取得更好的視頻分類效果。Wang 等[14]基于LRCN 算法對駕駛員視頻進行了疲勞檢測算法,通過CNN對事先提取出的嘴部和眼部區域提取特征,然后通過DHLSTM網絡進行疲勞判斷。Liu等[7]也設計了一種基于CNN-LSTM 模型檢測駕駛員疲勞的方法,先通過CNN網絡提取駕駛員的眼部和嘴部區域,然后計算眼部閉合特征PERCLOS,統計張嘴及低頭的時間占比特征,聯合方向盤轉角特征一起輸入到LSTM 網絡中進行疲勞判斷。這些方法[7,14]對視頻質量要求高,算法精度依賴于駕駛員眼部和嘴部的準確識別,有的還使用了視頻之外的其他車載數據源。除了算法有待提高之外,目前多數研究是在仿真實驗環境下而非實車中收集駕駛員視頻或圖像數據。即使一些研究在實車上收集數據,也多是選擇光照充足的理想駕駛環境,對相機位置及參數進行了精心設置,實驗獲取的原始數據清晰穩定,能夠精準提取人臉關鍵點數據并計算疲勞特征,模型的評測性能較高。但在真實的營運車輛駕駛環境中,駕駛員圖像質量極易受到天氣及照明條件的變化、車廂背景、相機位置及拍攝角度等諸多因素的影響,視頻畫面存在色彩擾動,或人臉存在過大、過小、不能完全入畫、畫質不清晰等問題,導致模型的疲勞檢測精度大幅降低,如何提高模型魯棒性在現有研究中也未被深入討論。
本文提出了一種基于深度學習算法的端到端駕駛員疲勞檢測模型。該模型以駕駛員面部視頻作為輸入,網絡包含CNN及LSTM兩個主要部分。其中CNN網絡部分被用來從非結構化視頻數據中提取駕駛員面部特征;而LSTM網絡用于學習駕駛員疲勞的時間序列特征,并解決復雜場景中的長期依賴性問題。
此外,和實驗室的理想測試環境相比,實際運營環境會存在由光照、天氣不同而引起的車內光線變化干擾,以及由相機安裝位置及鏡頭角度等不同而引起的圖像幾何變化干擾,本文在原始訓練數據集上采用圖像亮度變換及仿射變換得到增強數據集,然后進行模型重訓練,以進一步提升模型的泛化能力及魯棒性。
2.1.1 單幀視頻特征提取網絡
卷積神經網絡(CNN)是一種前饋神經網絡。在本文使用的端到端模型中,首先從視頻數據中提取單幀圖片作為模型輸入,經過卷積層、池化層和全連接層的處理,得到該視頻幀對應的特征信息,網絡結構如圖1 所示, 圖中Convolution 表示卷積層,Batch Norm 表示批量歸一化層,ReLU 表示線性整流函數即激活函數。將每一幀提取出的特征按照時間排列,即得到了原視頻數據所對應的時序特征。

圖1 CNN模型結構Fig. 1 Structure of CNN model
在設計CNN 部分的結構時,參考了經典的AlexNet[15]圖像分類網絡,并在此基礎上通過對網絡層及卷積核參數等進行優化調整,得到了最終的輕量級CNN 網絡結構。具體來說,在設計的CNN 網絡結構中,共包含4 個層,其中每個層包含卷積層、批處理歸一化層和激活層。且4個層對應的卷積核分別被設置為32、64、128和256,步長均設置為2,每層選用的激活層均為ReLU 函數。經過連續的4 次卷積操作后,一張256×256的RGB圖像將被轉化為一個4×4×256 的三維矢量陣列。然后對這個三維矢量矩陣進行扁平化操作,將其壓縮成長度為4 096的一維矢量數組。最后將這個數組經過一層全連接層,計算得到一個長為256 的一維向量,作為CNN網絡對該幀圖像的特征提取結果。
2.1.2 視頻幀間時間序列特征提取網絡
作為循環神經網絡(RNN)的進化版本,長短時記憶神經網絡(LSTM)能夠進行長短期記憶,并有效地解決長序列訓練中的梯度消失和梯度爆炸問題。在本研究中,將CNN模型提取的特征數據輸入LSTM 網絡。此處的LSTM 網絡主要負責疲勞檢測的分類,最終輸出的是每個駕駛片段是否有疲勞現象的二分類結果。
2.1.3 端到端模型總體框架
本文提出的端到端模型整體結構如圖2 所示。視頻中的每一幀經過前一部分的CNN 提取之后,會得到對應的面部特征,之后將每一幀提取出的特征按照時間排列,轉化為時序數據。本文使用的LSTM 共包含兩層隱藏層,每層隱藏層有256 個維度的特征。在LSTM 網絡之后,緊跟著一個全連接層,用于輸出整個模型最終的疲勞識別結果。

圖2 端到端模型總體框架圖Fig. 2 Overall structure of end-to-end model
2.2.1 車內光線變化模擬
實際運營環境中,車身周圍環境會對車內光線情況產生較大的影響。例如,建筑物或樹木的遮擋可能導致車內光線減弱;太陽光、環境車的車燈,尤其后視鏡的反光等可能導致車內部分區域的光線陡然增強。此外,白天和黑夜車內光線狀況也截然不同。因此,對視頻片段進行車內光線變化的模擬是十分必要且符合真實車輛運行狀況的。
(1) 亮度模擬
亮度一般被定義為一個光源相對于對比光源所輸出的能量大小。一般而言,亮度越高,像素越接近白色;亮度越低,像素越接近黑色。本研究中,首先設置了亮度變換隨機因子fb,原始圖像iori和亮度隨機變化后的圖像ib之間的關系表示為
(2) 飽和度變化
飽和度指顏色的純度或強度,即顏色中的灰色量含量的高低。本研究設置的飽和度變換隨機因子為fs,首先通過計算得到原圖iori對應的灰度圖igray,則原始圖像iori和亮度隨機變化后的圖像is之間的關系表示為
(3) 對比度變化
對比度指數字圖像中各種圖像特征之間存在的顏色或灰度區分的數量。設對比度變換隨機因子為fc,首先通過計算得到原圖imo對應的灰度圖的像素均值Iˉ。則原始圖像imo和亮度隨機變化后的圖像ic之間的關系表示為
(4) 色相變化
色相變化指的是對原圖片的色彩進行相位的變化,具體做法是:首先將原圖片轉換成六角錐體模型(hue saturation value , HSV)格式得到色相H,之后通過色相隨即變換因子fh進行隨機變換,再將新的HSV格式的圖像轉換回原格式,轉化公式為
2.2.2 相機變化模擬
由于車內環境及駕駛員本人體態特征等的差異,即使相機是按照統一的安裝標準進行安裝,也會造成諸如駕駛員距離鏡頭遠近、駕駛員面部在整個視頻中所處位置等不一致的情況。此外,由于車輛顛簸等原因,相機極有可能發生諸如平移、旋轉之類的幾何變換。對于一些模型來說,這種幾何變換可能是致命的,甚至會直接導致模型失效。
在本研究中,主要對相機位置變化等引起的圖像幾何變換進行模擬,包括平移、旋轉和縮放。各個變換對應的隨機因子如表1所示。通過這三類仿射變換,能夠較好地覆蓋上述分析的相機引起的圖像幾何變換情況。

表1 各類變換及對應的隨機因子Tab. 1 Each transformation and corresponding random factors
在訓練端到端模型時使用Adam 優化器進行優化,學習率被設定為0.001,最大訓練周期數約為500,損失函數選取的是分類任務中常用的交叉熵。端到端模型的實現和訓練是基于PyTorch 平臺實現,模型的訓練和評估是在裝有NVIDIA Tesla K40C GPU 和Intel Core i7處理器的工作站上進行,模型參數量為3.168×106,對應的每秒浮點運算次數為17.864×109,每條10 s 時長視頻的平均推斷時間為37 ms,模型具有實時性。
本文的數據來源于某貨運公司的車載視覺系統。通過在真實的出車任務、真實的駕駛環境中錄制營運駕駛員面部視頻,共采集到視頻數據1 398條,視頻時長10 s,分辨率為352×288。采用3 名專家聯合標定的方法將所有視頻人工標定為疲勞、非疲勞兩種類型,其中被標定為疲勞的視頻數據共456條,被標定為非疲勞的視頻數據共942 條。實驗中按照7:1.5:1.5 將視頻數據劃分為訓練集、驗證集和測試集。
隨機采集的視頻數據共涉及681 名駕駛員,年齡分布情況如圖3 所示。其中,90 %的駕駛員年齡集中在35~50歲范圍內,駕駛員的平均年齡為42.5歲。實驗包含的駕駛員人數眾多,車輛型號不一且車內布置各不相同,相機的拍攝角度及位置也有明顯差異。如圖4c,駕駛員著裝沒有統一規定,多位駕駛員存在戴帽子、佩戴眼鏡、甚至墨鏡,疫情期間,駕駛員戴口罩的情況也比較常見。如圖4a和4b,出車時間涉及白天及黑夜,覆蓋了不同的光照情況。在個別視頻中,如圖4d,由于相機的安裝位置不當,還存在駕駛員面部采集不完整的情況,只能看到面部的一部分,比如眼睛或嘴巴。綜上所述,本次研究所使用的數據集涵蓋了真實運營環境中可能出現的大多數情況,具有真實性、多樣性及豐富度。

圖3 駕駛員年齡分布圖Fig. 3 Driver age distribution chart

圖4 數據集中存在問題的樣本的樣例圖Fig. 4 Samples with problems from the dataset
首先,本文在某貨運公司的駕駛員車載視覺數據上訓練了一個端到端基礎模型來識別駕駛員的疲勞狀態,數據隨機劃分為訓練集、驗證集和測試集,模型在210條測試數據上的各項指標如表2所示,模型輸出的分類閾值根據約登指數得到[16],表中各項指標基于混淆矩陣進行計算。實驗結果表明端到端基礎模型在基礎測試集上的AUC 為0.830,準確率達到84.8 %,如表2所示,能夠有效識別營運駕駛員的疲勞狀態。

表2 基礎模型魯棒性評估Tab. 2 Robustness evaluation of base model
車輛運營過程中可能會出現圖像過曝、相機位置旋轉過度等問題,為了充分測試模型的魯棒性,在測試數據集上進行了車內光線變化及相機位置變化的模擬,對基礎模型進行魯棒性評估。魯棒性強的模型在各個測試環境下理應擁有接近的性能;反之,魯棒性弱的模型在一些特殊的測試環境下會有明顯的性能指標下降。因此,使用測試環境改變時Accuracy 和AUC 等指標的下降程度來衡量模型的魯棒性。
從表2 的實驗結果來看,該模型在應對這兩種變化時均有較為顯著的性能下降,表中Accuracy 表示準確率,Recall表示召回率,Precision表示精確率。相比光線變化,相機位置等變化引發的圖像幾何變換對模型性能的影響更為明顯,AUC 下降達到了20 %,說明該模型對圖像幾何變換十分敏感。相對而言,車內光線變化對模型性能影響較小,在引入了車內光線變化模擬的測試集中,AUC相比基礎測試集下降了9.6 %,Precision下降達到了8.7 %。該現象出現的原因可能是實驗中采用的數據多數為黑白圖像,因此圖像亮度變化對原數據的改變較小。最后,測試了綜合車內光線變化和相機相關幾何變化對應的模型性能,從結果可以看出,模型在這種綜合變化下基本完全失效,AUC值已經接近0.5,相比基礎測試集,AUC 下降了37.3 %。實驗結果表明端到端基礎模型的魯棒性較差,在基礎測試集代表的實驗室環境中其AUC為0.83,但是在包含了光線變化及相機位置變化模擬的綜合擴展測試集上,模型基本失效。
在3.2節中,根據基礎模型的魯棒性評估結果,可以推測視車內光線變化及相機位置變化是影響基礎模型魯棒性的重要因素。為了進一步提高模型的泛化能力及魯棒性,隨機選取訓練集的視頻片段,進行兩種變化模擬,分別構建了光照變換、幾何變換及綜合變換三套增強數據集,用于模型重訓練。基于這三套增強數據集訓練出的三個增強模型和基礎模型的性能對比如表3所示。對應的ROC曲線對比圖如圖5所示,這里的AUC是模型在基礎測試數據集上的推斷結果。從結果可知,增強模型相較于基礎模型來說,模型性能均有明顯提升,其中基于綜合變換的增強模型泛化能力提升最為顯著,AUC達到了0.9,相比基礎模型,AUC提升了8.4 %。

表3 三個增強模型和基礎模型的性能對比Tab. 3 Performance comparison between three augmented models and base model

圖5 增強模型的ROC曲線對比Fig. 5 ROC curve comparison of enhanced models
此外,為了檢驗增強模型的魯棒性,本文測試了增強模型在綜合擴展測試集上的性能,如表4所示,模型魯棒性對比如圖6 所示。從實驗結果可以看出,改進后的三個增強模型,在應對光線及相機位置及參數變化時,均體現出了更好的魯棒性。改進前,模型在基礎測試集上AUC為0.83,在綜合擴展測試數據集上AUC 為0.52,性能下降37.3 %;改進后,模型在基礎測試集上AUC 為0.9,在綜合擴展測試數據集上AUC為0.813,性能下降9.7 %,相對改進前,模型的魯棒性有明顯的改善。

表4 基礎模型與增強模型的魯棒性對比Tab. 4 Comparison of robustness between base model and enhanced model

圖6 基于增強數據集改進前后模型魯棒性對比Fig. 6 Comparison of model robustness before and after improvement based on enhanced dataset
由于基于深度學習算法的端到端模型是黑盒模型,為了探究模型是否按照預期捕獲了疲勞的相關特征,使用了一種神經網絡的可視化方法Grad-CAM[17]將本文提出的模型中的CNN模塊進行可視化,結果如圖7所示,圖中高亮部分即為模型的重點關注區域。對于圖7a對應的視頻片段,可以看到模型的關注重點主要有兩塊,分別是眼部和嘴部,說明模型與預期一致地捕捉到了駕駛員眼部閉眼和嘴部張開打哈欠的特征。在圖7b中,雖然由于角度原因眼部特征較難抓到,但是模型成功地抓捕到駕駛員嘴部張開打哈欠的信息,因而成功地完成識別。圖7c 對應的情況和圖7b 相反,由于攝像頭位置問題,沒法完整捕捉駕駛員嘴部信息,因此模型主要通過駕駛員是否閉眼完成判斷。在最后一張圖7d中,可以看到駕駛員在打哈欠的時候做了一個捂嘴的動作,這種動作會導致人臉關鍵點完全捕捉不到,嚴重影響基于關鍵點的模型性能,而端到端模型則能夠對駕駛員打哈欠的手部動作進行較好的捕捉,駕駛員的疲勞狀態被正確識別。模型可視化結果表明,即使在光線不足、駕駛員面部視頻不完整、采集角度不理想等多種復雜的自然駕駛情況下,設計的端到端模型仍然能夠有效捕捉疲勞相關特征,完成駕駛員疲勞狀態的正確識別。

圖7 端到端模型可視化結果Fig. 7 Model visualization results in this paper
現有疲勞評估的研究大多數是基于駕駛員面部關鍵點的提取進行建模。主要分為兩大類,基于關鍵點計算面部統計特征建模或基于關鍵點計算面部時序特征建模。在第一類方法中,研究者[18]通常使用算法檢測臉部的68個或更多關鍵點,根據每幀的眼部及嘴部關鍵點坐標判斷該時刻眼睛及嘴巴是否閉合,也有文獻[19]根據鼻尖及下顎等部位的坐標進行頭部運動情況的判斷,然后在視頻的連續圖像幀上計算特征統計值,最后基于規則進行疲勞狀態的判斷,如連續閉眼3 s 則視為疲勞,或者根據單位時間內眼睛閉合頻率PERCLOS 值[20]進行疲勞判斷,稱這一類算法為面部關鍵點檢測統計模型,他們都是先使用算法檢測面部關鍵點,然后依據關鍵點坐標計算的眼部、嘴部及頭部的統計特征進行疲勞判斷。而第二類方法,研究者認為疲勞是一個連續的狀態,通過面部時序特征進行疲勞判斷會更準確,這類算法[21]通常先檢測面部關鍵點,在每一幀上計算包括眼部閉合、嘴部閉合、頭部傾斜角等在內的面部特征,然后將這些特征按照時間排列,通過RNN/LSTM 等時序網絡判斷疲駕駛員的疲勞狀態,稱這類算法為面部關鍵點檢測時序模型,這類算法往往比第一類算法的精度更高。但是這兩類方法存在兩個較嚴重的問題。首先它們都嚴重依賴于關鍵點檢測算法(如DLIB)的精度,在復雜的營運車輛自然駕駛環境中,由于相機角度位置的不同會導致人臉畫面捕捉不全、或面部被手遮擋、或佩戴墨鏡、口罩等均會引起關鍵點檢測失效,直接造成疲勞評估模型的性能下降;其次這類算法僅檢測面部部分區域進行疲勞判斷,如眼部、嘴部等區域,往往會將駕駛員低頭看手機等分神駕駛誤判為疲勞駕駛。因此要在營運車輛的自然駕駛環境中進行疲勞狀態判斷,必須要提取駕駛員面部甚至頭部更全面和豐富的特征,如面部表情,頻繁抬眼,捂嘴、轉頭、揉眼等肢體動作等,設計的端到端模型對包含駕駛員面部影像的整幀圖像進行高層特征提取,增強了更多特征提取的可能性,能夠有效避免因關鍵點檢測失效而造成的誤判。
將面部關鍵點檢測統計模型和面部關鍵點檢測時序模型應用于本文的實驗數據,與端到端模型性能進行對比,結果見表5。對于關鍵點檢測統計模型的構建,是在視頻幀上基于DLIB 算法提取面部68個關鍵點,在10 s 視頻(幀率為10 幀·s-1,合計100幅視頻幀)上根據嘴部及眼部關鍵點坐標統計計算得到打哈欠次數、單位時間內眼睛閉合頻率(PERCLOS)、嘴巴張開次數、最大閉眼時間和點頭次數,基于這5 個特征訓練隨機森林模型判斷駕駛員是否疲勞,得到DLIB-STATS模型,模型AUC為0.58。而對面部關鍵點檢測時序模型,則是根據關鍵點坐標分別計算每幀的左、右眼縱橫比值、嘴巴縱橫比值作為時序特征輸入到LSTM模型中判斷駕駛員疲勞情況,得到DLIB-LSTM 模型,模型AUC 為0.61。在復雜的營運車輛行車環境下,提出的端到端的模型AUC 為0.9,遠優于這兩種主流的基于面部關鍵點檢測的疲勞評估算法。

表5 模型性能對比Tab. 5 Comparison of model performance
本文基于CNN 和LSTM 網絡構建了端到端的疲勞檢測模型,對包含駕駛員影像的視頻幀進行高層時序特征提取,能夠有效提高自然駕駛環境下營運駕駛員的疲勞檢測精度。為了模擬營運車輛復雜行車環境下的光線變化及相機位置變化,本文對訓練數據集的視頻幀進行了光照和幾何變換,得到了增強數據,進而對模型進行重訓練。實驗結果表明,增強模型的AUC 提升了8.4 %,達到0.9。在包括了光線變化模擬及相機位置變化模擬的綜合擴展測試集上,基礎模型AUC 下降37.2 %,而增強模型AUC 僅下降9.7 %,優化后的模型魯棒性有了明顯提升,有效降低了自然駕駛環境中因光線變化或相機位置移動對模型精度帶來的影響。后期擬采用對抗訓練的方法進一步提升模型的魯棒性。在實驗過程中也發現,車內背景會對模型的識別造成一定的干擾。在未來的工作中,也擬通過添加注意力機制等方法降低駕駛員背景的干擾。另一方面,也將嘗試通過分階段處理先對視頻數據中的無關信息進行過濾,例如通過目標檢測的方法先提取出駕駛員面部區域,再通過深度神經網絡進行疲勞特征提取,以進一步提升營運駕駛員疲勞檢測的準確性。此外,未來在算法實車部署時還需要對算法功耗、可靠性及安全性進行評估及研究。
作者貢獻聲明:
高 珍:實驗方法設計、論文撰寫、審閱與修訂。
陳 超:實驗數據整理、實驗數據分析、論文撰寫。
許靖寧:實驗數據分析、模型構建、論文撰寫。
余榮杰:提供研究資源、實驗方法設計、論文審閱與修訂。
宗佳琪:實驗數據分析、模型構建、論文撰寫。