曹立波 龔溢鵬 楊名海 戴麗華 朱李平 陶強
(1.湖南大學,汽車車身先進設計制造國家重點實驗室,長沙 410082;2.長沙立中汽車設計開發股份有限公司,長沙 410205)
數據顯示,駕駛員注意力分散造成的交通事故占比極大,且逐年增加[1]。同時,兒童因被遺忘在車內造成中暑死亡的事件時有發生[2]。2017年9月,歐洲新車安全評鑒協會(Euro-New Car Assessment Program,E-NCAP)發布了2025 路線圖(Road Map 2025)[3],將駕駛員監測(Driver Monitoring)和兒童存在檢測(Child Presence Detection)分別列為初級安全系統和第三級安全系統。E-NCAP 鼓勵車輛提供駕駛員監控功能和車內乘員遺留檢測功能,并且將對配有這些功能的車輛予以獎勵。
研究人員在分心駕駛方面開展了大量研究,其中針對駕駛員駕駛動作的研究較多,建立了很多分心駕駛動作識別數據集,如東南大學駕駛動作數據集(Southeast University Driving Posture Database)[4]、保險公司分心駕駛監測(State Farm Distracted Driver Detection)數據集[5]、開羅美國大學分心駕駛數據集(American University in Cairo Distracted Driver’s Dataset)[6]、Drive&Act 數據集[7]及多視角、多模式和多光譜駕駛員動作數據集(Multiview, Multimodal and Multispectral Driver Action Dataset,3MDAD)[8]等,極大促進了分心駕駛研究的發展。但是,目前公開的且能夠在真實應用場景中使用的數據集較少。
近年來,針對車內乘員遺留檢測的研究較少,特別是對于車內遺留兒童檢測的研究。Khamil 等[9]使用負載傳感器檢測兒童座椅內是否存在遺留的兒童。Norhuzaini 等[10]在后排座椅上方安裝檢測范圍為37 cm 的熱傳感器進行車內兒童的檢測。現有研究大多使用射頻(Radio Frequency,RF)信號檢測兒童的生命體征,采用視覺方式進行車內乘員遺留檢測的研究相對較少。
本文采集全天候的分心駕駛數據并進行相應處理,利用該數據集對分心駕駛動作進行分析,并使用卷積神經網絡開展測試,同時,針對采集的車內遺留數據,提出一種用于視覺檢測車內成人、兒童及寵物等生命體遺留的檢測方案。針對分心駕駛識別和車內乘員遺留檢測任務,分別對比選擇最佳解決方案在實車上進行測試,并開發用于系統測試的用戶界面。
針對國內現有的用于分心駕駛和車內遺留檢測的數據集較少的情況,本文分別采集了用于分心駕駛和車內遺留檢測的數據形成數據集。數據采集在實車內進行,將試驗車輛布置在不同光照條件下,在駕駛員側車窗范圍內放置綠色幕布,以便后期替換車窗外背景,增強數據的多樣性。使用Stellar 200 3D 相機采集數據,該相機具有RGB 和飛行時間(Time of Flight,ToF)攝像頭模塊,能夠同時采集RGB、紅外(Infrared Radiation,IR)和深度(Depth)數據,并且能夠同時輸出3 種圖像。該相機檢測精度高、體積小、便于安裝、價格低,且能夠實時輸出檢測數據。為了能夠較好地覆蓋整車范圍,本文同時使用2 臺Stellar 200 3D 相機,分別布置在副駕駛員座椅一側A 柱上部和前排座椅上方車頂中心,不影響駕駛與乘坐,如圖1所示。

圖1 攝像頭安裝位置示意
為了更好地模擬車輛駕駛工況,本文分別采集了白天和夜晚的車內人員數據,數據采集頻率為15 Hz,每個相機輸出RGB 圖像(分辨率為640×480)、深度圖像(分辨率為240×180)和紅外圖像(分辨率為240×180),RGB 圖像和深度圖像以8 bit 數據的形式保存,紅外圖像以16 bit 數據的形式保存,從而更好地保存原始的數據特征。8 bit圖像采用視頻錄制的方式,同時保存對應幀的16 bit 圖像數據,使其能夠與8 bit 圖像匹配。2 臺相機并非同步采集數據,本文對所有視頻進行了時間戳上的對齊。
參與數據采集的志愿者包括37 名成人和10 名兒童,其中成人志愿者包括34 名男性和3 名女性。采集的數據包括37名駕駛員的分心駕駛數據、37名成人和10 名兒童的車內乘員數據。為了保證試驗數據的可處理性且便于在更多任務上使用,本文在數據采集前采取在墻上張貼標尺并拍照測量保存的方式對每個志愿者的體型進行測量。
為了保證駕駛動作的多樣性,試驗要求駕駛員按照指定要求分別做出本文所規定的10 種駕駛動作,10 種動作的選擇參照美國汽車協會交通安全基金會提供的分散駕駛員注意力的潛在活動,且被美國交通部的致命事故報告系統數據庫研究所證明。由于駕駛員的駕駛習慣不同,沒有對駕駛員的動作標準進行規定,完全模擬真實的駕駛場景,后排乘員的數據采集同時進行,本文沒有要求乘員做出指定的動作,乘員可以根據各自的乘車習慣進行試驗。
為了更貼近真實駕乘狀況,本文限制了后排乘員的人數。同成人一樣,在車輛后排隨機安排多名兒童,做出任意動作,為保證兒童安全,每次兒童數據采集都安排家長進行監護。
2.3.1 分心駕駛數據
本文對采集到的數據進行逐幀標注,針對每一個類別按照指定的幀數間隔提取圖片,并且將規定之外的動作額外劃分為一個類別。獲得的各類別圖片數量如表1所示。

表1 分心駕駛數據集圖片數量張
本文按照9∶1 的比例劃分訓練集和驗證集,以便后續開展分心駕駛識別試驗,數據集圖片示例如圖2所示。

圖2 分心駕駛數集圖片示例
2.3.2 車內乘員數據
車內乘員數據包括成人和兒童的二維和三維數據。數據采集的攝像頭位置固定,因此圖像的背景不會發生變化。車內乘員數據集的可變量主要為乘員的數量和體型,當前先進的人員識別網絡能夠很好地處理這一變化,同時可以結合深度數據對是否存在乘員進行判斷,從而進行占據物體檢測。此外,采集的車內乘員數據能夠很好地記錄車內乘員的特征,可用于乘員的人臉檢測和人體姿態檢測等。
RGB 圖像的采集時間和場景有限,不能很好地反映真實環境下車輛的工作狀態,因此本文采用背景去除的方法手動實現駕駛場景的多樣化。攝像頭固定后,車輛行駛時,拍攝背景中只有車窗外的環境是變化的,故以車窗外的圖像作為變量,利用背景疊加法,通過變換車窗外的環境來增加數據樣本的多樣性。車窗部分背景通過綠幕去除獲得,利用白色部分生成掩碼(Mask),如圖3a 所示;在原始圖像上疊加背景圖像以模擬車輛在不同場景中的數據采集狀態,如圖3b所示。

圖3 背景替換前、后效果
本文所采集的深度數據能夠反映攝像頭與物體的實際距離,利用攝像頭的內部參數可以計算出物體的三維空間坐標,進而生成采集圖像對應的RGBD 圖像數據和點云數據。RGB 圖像和深度圖像的分辨率不同,故本文首先將RGB 圖像和深度圖像進行對齊,并調整RGB圖像的分辨率為240×180,最終得到RGBD圖像和點云圖。
相機坐標系到像素坐標系的轉換關系為:
利用式(1)和攝像頭模組的內部參數,使用RGB圖像和深度圖像可以生成如圖4所示的點云信息。
針對分心駕駛和車內遺留檢測,本文建立了一個全天候、多工況的車內人員數據集,包含駕駛員和后排乘員等數據,可供人體姿態估計、分心駕駛和車內人員檢測等多個任務使用,如圖5所示。

圖5 車內人員安全監測系統
卷積神經網絡能夠提取圖像的深層特征并得到特征的線性組合,實現對整幅圖像的理解。對采集的數據集進行分析發現,駕駛員的特定分心駕駛動作存在一定規律,且分心動作出現的頻率相對固定。為了驗證數據集的有效性,本文利用經典的深度學習模型進行測試。為滿足不同工況的應用需求,對數據進行多種方式的組合,利用不同模型進行交叉驗證和測試。
3.1.1 試驗設置
本文選用經典的深度學習模型(AlexNet[11]、VGG[12]、ResNet[13]、MobileNet V2[14])進行測試,選用不同的數據圖像輸入以適應不同場景的光照條件變化。試驗使用處理后的數據集,且為滿足不同工況,將不同的圖像源進行分組,作為神經網絡的輸入。
3.1.2 訓練設置
訓練利用Pytorch 深度學習框架在2 塊RTX Titan X 顯卡上進行,訓練基本參數設置為:輸入圖片分辨率為224×224,訓練周期為200個周期(Epoch),批次大小(Batch_Size)為32 張,初始學習率lr=0.01,選用Adam 作為優化器,選用交叉熵作為損失函數。不同模式下模型在測試集上的分類準確率如表2所示。

表2 測試集分類準確率%
3.1.3 結果分析
數據集包含白天和夜晚的分心駕駛數據,能夠滿足不同光照條件下的實際應用。針對不同光照條件,選取不同的圖像作為輸入檢驗駕駛員分心檢測的效果。由表2可知,ResNet34的準確率最高,但模型的參數量和計算量較大。由于最終要在邊緣計算設備上運行,因此選用參數量和計算量較少的MobileNet V2 作為算法骨干網絡,融合深度圖像和紅外圖像信息作為輸入圖像源。
3.1.4 檢測結果
本文對MobileNet V2作為算法骨干網絡的RGB圖像檢測結果進行了可視化,其結果如圖6所示。

圖6 分心駕駛檢測結果
為了驗證車內乘員數據的實用性,本文利用人體檢測、人臉檢測、人體姿態檢測方法對數據集進行測試,并對多種車內乘員遺留檢測方案進行試驗。
3.2.1 點云占據物體檢測
目前,對于車內乘員遺留的研究多基于非視覺傳感器,本文通過視覺傳感器采集的車內乘員數據可以不同的角度和方案實現車內乘員檢測。停車后車內通常沒有乘員,因此可以利用點云或深度圖提取車輛的座椅背景,在車內有乘員的情況下,也可以通過點云或深度圖像的差異得到車內遺留信息,如圖7所示。利用點云進行聚類,區分不同個體并將不同個體的點云數據投影到二維圖像上,得到對應的掩碼,利用掩碼裁剪出個體的圖像范圍,再針對不同的個體串聯分類網絡即可實現對成人、兒童及寵物的檢測。

圖7 去除座椅等背景前、后點云數據
3.2.2 視覺檢測方案
考慮到運用點云數據進行特征提取的復雜性,本文提出利用視覺方式檢測成人、兒童以及寵物遺留的方案。攝像頭模組獲取圖像后輸入目標檢測器,首先對視野范圍內進行檢測,如果檢測到乘員,再利用串聯的人臉檢測器檢測人臉圖像,進而采用年齡分類算法進行分類,區分成人和兒童,檢測方案流程如圖8所示。

圖8 檢測方案流程
3.2.3 視覺檢測方案試驗結果
本文采用檢測成功率對車內遺留檢測任務進行評價:
式中,P為檢測成功率;R為檢測成功次數,本文將檢測對象的位置和類別均正確視為檢測成功;A為總檢測次數。
本文進行了多次測試,測試在視頻流上進行,試驗的平均結果如表3所示。

表3 車內遺留檢測結果
本文在實車場景下進行了多次試驗,試驗中攝像頭布置在前排座椅上方車頂中心位置,試驗結果與表3的結果相近,略有波動。
3.2.4 視覺檢測方案檢測結果
由于第2種視覺方式檢測方案的實現過程較為簡單,最終選作車內乘員遺留的檢測方案,目標檢測器選用YOLO[15]系列中的YOLO V5,人臉檢測算法選用DBFace 模型,年齡分類網絡選用MobileNet V2網絡,最終的檢測結果如圖9所示。

圖9 車內遺留檢測結果
針對車內人員安全的分心駕駛和車內遺留檢測功能開發了測試界面,如圖10和圖11所示。

圖10 分心駕駛測試界面

圖11 車內遺留測試界面
本文建立了多模式、多工況的分心駕駛數據集和車內遺留人員數據集,選取MobileNet V2 作為分心駕駛檢測算法,在滿足實時性的條件下達到了95.7%的檢測準確率,實現了真實場景下的分心駕駛識別,同時,設計了一種基于視覺的車內遺留檢測方案,實現對車內成人、兒童及寵物的識別,檢測成功率高達90%。結合本文所開發的測試軟件,對車內人員安全監測2個任務進行了測試,結果表明,本文所提出的方案能夠滿足實際使用需求。