999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種基于深度學習的駕駛員打電話行為檢測方法*

2021-07-29 00:38:56代少升黃向康王海寧
電訊技術 2021年7期
關鍵詞:駕駛員特征檢測

代少升,黃向康,黃 濤,王海寧,梁 輝

(1.重慶郵電大學 通信與信息工程學院,重慶 400065;2.東北大學 計算機科學與工程學院,沈陽 110167)

0 引 言

隨著智能手機在日常生活中的頻繁使用,駕駛途中的打電話行為越來越多。研究表明,開車打電話會導致駕駛人注意力下降20%,如果通話內容很重要,則駕駛人的注意力會下降37%[1]。因駕駛員打電話導致的道路交通事故報道不時見諸新聞[2],而且開車時打電話亦是違反交通法的行為,因此能實時準確地對駕駛員打電話行為進行檢測并預警具有很大的市場需求[3]。

目前,對駕駛員打電話行為檢測的方法主要分為兩種:一種是基于手機信號檢測,另一種是基于機器視覺檢測?;谑謾C信號檢測是通過監測手機信號的變化來確定駕駛員是否在打電話,因為接打電話時的手機功率相較于待機狀態更強。Rodriguez[4]等人通過在固定區域安裝天線,監控行駛中車輛上的手機信號來判斷駕駛員打電話行為,但此方法容易受到乘客手機信號的干擾,誤檢率較高。

基于機器視覺的檢測方法是通過分析采集到的駕駛室視頻,運用圖像處理算法監測是否存在打電話行為[5]。王丹[6]通過將駕駛員行為分解為一系列包含時序關系的原子動作,如手部動作、頭部姿勢等多項信息,再由此來綜合判斷打電話動作,但檢測結果在頭部偏轉和光照比較強烈時誤差較大。吳晨謀等人[7]基于人體三維姿態估計的方法,獲取駕駛員上半身的8個骨骼節點的三維坐標,對駕駛員的行為識別分析,以此判斷駕駛員是否接打電話。李兆旭等人[8]提出的基于局部二值模式(Local Binary Pattern,LBP)特征和極端梯度提升(eXtreme Gradient Boosting,XGBoost)級聯分類器的手機檢測算法,對手機的識別率達到不錯的檢測效果,但非駕駛員的打電話行為以及車內其他位置的手機都會對檢測結果產生干擾,無法準確判別是否出現駕駛員打電話。張波等人[9]綜合灰度共生矩陣(Gray-level Co-occurrence Matrix,GLCM)與方向梯度直方圖(Histogram of Oriented Gradient,HOG)提取圖像特征確定手部位置,最后運用模式邏輯判別打電話行為。王盡如[10]采用支持向量機(Support Vector Machine,SVM)算法來進行檢測,但該方法受駕駛環境影響較大,誤判率比較高。熊群芳等人[11]采用漸進校準網絡算法和改進YOLOV3算法判斷駕駛員是否處于打電話狀態,雖然該方法能達到較高的檢測準確率,但多層卷積神經網絡算法中包含大量的矩陣運算,只適用于配備GPU等計算加速模塊的PC端使用?,F有檢測方法都存在一定缺陷,包括檢測準確率低、無法檢測免提接聽電話行為、對設備性能要求較高、檢測速度慢等問題。

為解決上述缺陷,本文采用改進多任務卷積神經網絡(Multi-task Convolutional Neural Network,MTCNN)算法檢測人臉[12],并根據人臉坐標通過淺層卷積神經網絡進行手持電話行為檢測,同時根據臉部關鍵點由級聯形狀回歸算法得到嘴巴特征點及其寬高比來進行講話行為判別,然后使用交叉驗證法訓練優化模型,最終將兩種行為的檢測結果相“與”的方法進行駕駛員打電話行為判別。另外,此套方案已成功加載至CEVA DSP硬件平臺,進一步驗證了算法在實際駕駛場景下的檢測效果。

1 駕駛員打電話行為檢測方法

本文所采用的駕駛員打電話行為檢測方法可同時檢測聽筒和免提接聽兩種狀態,并融合手持電話與講話兩種行為的檢測結果,作為最終的打電話行為判別結果。其檢測流程如圖1所示。

圖1 算法流程圖

1.1 駕駛員人臉檢測

針對DSP端的處理器性能、內存大小等限制[13],本文使用優化后的級聯卷積神經網絡算法來檢測圖像中的人臉及面部關鍵點,其中框架采用的是基于NCNN的卷積神經網絡架構。NCNN框架是騰訊公司專門為移動端設計優化的一個高性能神經網絡前向計算框架,它具有純C++實現利于跨平臺、計算速度快、內存占用低、無需借助GPU加速以及自帶庫體積小等優點,利于ARM、DSP等嵌入式平臺開發使用[14]。

人臉檢測算法采用級聯卷積神經網絡算法,該算法借鑒MTCNN(Multi-task Convolutional Neural Network)人臉檢測算法[15],將MTCNN算法改進后用于駕駛員人臉檢測。其檢測順序如下:對輸入圖像做相鄰幀對比→圖像金字塔→P-Net(Proposal Network)→人臉框初步判別→R-Net(Refine Network)→人臉框二次判別→O-Net(Output Network)→人臉框信息與面部5個特征點坐標。

相比較于MTCNN檢測算法,改進后的人臉檢測算法針對駕駛室環境做了特殊處理,主要包括以下幾點:

(1)由于開車過程中駕駛員的臉部位置一般移動較少,因此本文將新一幀的待檢測圖像與上一幀圖像在人臉框區域進行差異度對比,若重復度大于85%,則延續使用上一幀圖片的人臉檢測結果,否則重新進行人臉檢測。

(2)由于駕駛座位前后可調整范圍較小,因此在攝像頭所采集圖像中駕駛員人臉大小變化不大,所以圖像金字塔的構建本文只使用三層縮放,縮放比例依次為上一層的0.8倍,來減少多層縮放導致的計算量增加。

(3)在前兩層級聯CNN網絡后分別加入人臉檢測框判別,只有當本層網絡的檢測結果中包含疑似人臉框時才進行之后的運算,否則便終止此幀圖像的檢測流程,開始新一幀圖像的檢測,如此便能減少大量非必要的運算,降低算法冗余度。

通過上述步驟加速優化后的人臉檢測算法相較于MTCNN算法既保證了人臉檢測的高準確率,同時使檢測速度平均提升了7倍,極大限度地提高了檢測效率。

1.2 手持電話行為判別

本文采用淺層卷積神經網絡[16]S-CNN進行特征提取并判別檢測手持電話行為,其中不僅包括正常的聽筒接聽電話狀態,還包括免提接聽狀態。該方法首先根據前一部分檢測到的人臉框坐標及大小裁剪臉部兩側及下方區域作為手持電話行為待檢測區域,然后對待檢測圖像通過S-CNN進行特征提取以及行為分類判別。

待檢測區域指的是用于判別駕駛員手持電話行為的圖像區域。駕駛員在打電話過程中可能會采取兩種方式:一種是聽筒接聽,此方式一般手握電話靠近耳旁進行通話;另一種是免提接聽,此方式一般會手握電話于臉部下方區域接聽電話。故本文通過裁剪兩側耳旁及臉部下方區域圖像來進行手持電話行為檢測。根據第一部分人臉檢測框的坐標及大小,裁剪出的手持電話行為待檢測區域如圖2中紅框區域所示。

圖2 手持電話行為待檢測區域

對此區域圖像,本文參考AlexNet[17]和VGG[18]等網絡來構建輕量級卷積神經網絡,旨在減少卷積參數及計算量;同時,由于卷積神經網絡的淺層網絡所提取到的特征圖,感受野更加關注的是圖像中形狀、紋理等特征。而手持電話行為含有豐富的邊緣特征信息,手機與手部相結合的形狀特征明顯,這對于手持電話行為的判別非常重要。由于光線變化或車輛后排物體的影響,可能導致手持電話的顏色及大小與所處背景相近,進而提取出的候選區域可能不是手持電話圖像而是背景圖像,為此,我們將待檢測區域圖像均調整為32 pixel×32 pixel大小送入網絡,將非手持物品行為的圖像剔除。

針對32 pixel×32 pixel的輸入圖像,對其進行多層卷積、池化等操作,并將全部卷積層的輸出特征進行可視化顯示,以觀察各層的處理效果及最終的分類結果。經過可視化后發現,卷積層第1層是各種邊緣探測器的集合,幾乎保留了原始圖像中的所有信息,而隨著層數的加深,卷積層所提供的特征越來越抽象,即視覺可觀察到的信息越來越少,關于類別的信息越來越多,但訓練參數也更多,計算量與過擬合風險增加。最終,本文采用5個卷積層與2個全連接層構建一個輕量級卷積神經網絡S-CNN分類器,對于其中的每個卷積層,分別對上層通道的圖像四周補0,采用卷積核大小均為3×3,通過設置不同的步長提取邊緣信息,對于下采樣操作設置步長為2,其他為1,激活層均采用ReLu函數。該網絡的結構圖如圖3所示,每一卷積層運算后的可視化二維特征圖如圖4所示。

圖3 S-CNN網絡

圖4 S-CNN網絡各卷積層可視化二維特征圖

由于是二分類任務,因此損失函數采用的是Sigmoid交叉熵損失,其計算公式如式(1)所示:

(1)

S-CNN網絡經過數據集訓練后,在測試視頻中的檢測效果如圖5所示,包括聽筒和免提兩種接聽狀態。

圖5 手持電話行為檢測效果圖

1.3 駕駛員講話行為判別

針對駕駛員講話行為,本文主要利用嘴巴寬高比的變化來檢測[19]。首先,根據人臉檢測所得到的基本特征點,其中主要用到左右嘴角特征點和鼻尖特征點,裁剪獲取嘴巴區域的圖像,并通過級聯形狀回歸算法[20-21]來得到嘴巴的全部特征點,得到的特征點預測形狀如圖6所示,其中包括三種狀態:正常狀態、講話狀態和打哈欠狀態[22]。

圖6 不同狀態嘴巴特征點預測圖

之后根據特征點計算嘴巴的寬高比,其中寬高比計算中,寬是嘴角兩點的距離,高是上下嘴唇相對應的8組特征點距離的均值。然后統計一段時間內的寬高比變化,如圖7所示為某段測試視頻提取到的寬高比變化圖。

圖7 嘴巴寬高比變化統計圖

通過統計分析大量的嘴巴寬高比數據可知,在正常、講話以及打哈欠三種狀態下的嘴巴寬高比變化不同。通過研究三種狀態的寬高比變化模型得出,正常狀態下的嘴巴寬高比值一般較小,并且僅有輕微的波動;打哈欠狀態下會出現很高的峰值,一般大于1,且無頻繁波動;而講話狀態下最為復雜,嘴巴寬高比值相較于正常狀態下的平均高度一般更高但又不會大于打哈欠狀態,而且波動范圍更大、更加劇烈。

因此,針對上述發現,本文提出了兩種方案進行實驗,來對比分析找出最優的駕駛員講話狀態檢測方案。第一種方案,通過設定固定閾值來區分三種狀態,其中包括上、下兩個閾值,判別方法為:連續30幀圖片的嘴巴寬高比均值高于上閾值為打哈欠,低于下閾值的為正常狀態,只有當圖像的嘴巴寬高比值處于上下域值之間時才為講話狀態。第二種方案,通過對連續多幀圖像的寬高比振蕩差值來判斷。正常狀態下的寬高比值振蕩幅度非常小,浮動的峰谷差值基本都在0.03以內;而講話狀態下的卻比較激烈,峰谷差值大多數都大于0.05,但最大不會超過0.5;打哈欠狀態下的振蕩更加劇烈,其差值一般超過0.5,甚至大于1。因此,針對正常、打電話及打哈欠三種狀態,設置連續20幀圖像的寬高比峰谷差值波動范圍分別為[0,0.04]、(0.04,0.5)、[0.5,∞)。

針對上述兩種方案,本文進行了大量的實驗。通過對不同性別、年齡的人物,在白天和夜晚兩種情形下進行測試得出結論,方案二的效果要明顯好于方案一,后者的檢測平均準確率可達到90%以上,而前者的平均準確率卻不到70%。方案一在實驗過程中,始終難以確定出最合適的閾值范圍,經過分析其原因在于不同的人在正常狀態下的嘴巴閉合形狀不一樣,而且說話過程中會出現寬高比均值低于正常狀態的情況。綜上所示,本文采用方案二的方法進行駕駛員講話行為判別。

在得出上述兩種行為的判別結果后,便可以得到最終的駕駛員打電話行為判別結果。采用的方式是通過兩者相“與”運算進行判別,即只有當駕駛員既存在手持電話行為,同時又存在講話行為時,才可判斷其正處于一邊開車一邊打電話的狀態,從而對駕駛員發出警告。如果其中一種行為并未被檢測到,便不會發出警告,如此既能避免由于某一種行為的誤檢而導致的誤報,又能保證免提通話一樣能夠被檢測到。

2 實驗結果分析

2.1 實驗設置及數據

本實驗訓練模型所使用服務器為64位Ubuntu 16.0系統,配備了Intel Xeon Silver 4215處理器,128 GB內存,2張GeForce RTX 2080Ti顯卡,每張顯卡顯存11 GB。

本文系統最終運行在聯詠公司NT96687平臺上,此平臺由控制核心和運算核心兩部分組成。控制核心使用的是Dual Core ARM Cortex-A53芯片,主要實現圖像的采集、存儲和傳輸等資源調度以及檢測結果的顯示和報警功能。運算核心承擔著本文算法實現的主要部分,使用的是CEVA DSP XM4芯片,CPU為DualCEVA DSP XM4,RAM 4 GB,ROM 16 GB,OS為FreeRTOS V9.0。

實驗數據集由兩部分組成:一部分為中科院亞洲人臉數據集CAS-PEAL,它由1 040個個體(包括595名男性和445名女性)的30 900張圖像組成,此部分為正常環境下非打電話圖片數據集;另一部分為駕駛環境下,使用紅外攝像頭采集的107位駕駛員在不同角度和光照條件下的打電話數據集,其中包含6 470張打電話圖片和13 510張正常駕駛圖片,稱為駕駛員打電話行為數據集(Driver's Calling Behavior Dataset,DCBD)。以上數據集組成了本次實驗的數據集,如圖8所示。

實驗中,人臉檢測部分使用了上述數據集的全集。此外,負樣本由車載環境下采集的非人臉圖像的55 000張圖片組成。確定了人臉坐標及檢測區域后,打電話行為判別使用DCBD作為數據集,其中的正樣本為打電話圖片,負樣本使用正常駕駛圖片。本文通過交叉驗證法將數據集的80%作為訓練集,另外的20%作為測試集,多次訓練測試以達到最優的檢測效果。

2.2 結果分析

為了驗證模型的檢測效果,將算法部署在車載NT96687平臺上,通過DSP運算核心的向量處理單元(Vector Process Unit,VPU)、矩陣運算及卷積等操作來加速算法運行,并完成檢測任務。測試數據為12名駕駛員在偏僻道路上的駕車行駛途中,通過紅外攝像頭實時采集視頻進行檢測。在上述實際場景下,本文算法在某段駕駛視頻中的檢測效果統計如圖9所示。

圖9 實際駕駛場景檢測結果統計

本文算法的整體檢測效果采用檢測平均準確率(mean Average Precision,mAP)、平均召回率(Average Recall,AR)、特效度(Specificity,SP)以及平均檢測速度(ms/frame)作為評價標準,其中AR和SP的計算公式分別如公式(1)和公式(2)所示:

(1)

(2)

式中:TP代表真正正樣本,FN代表假負樣本,TN代表真正負樣本。各類算法的檢測性能指標對比如表1所示。

表1 檢測算法對比

由表1可以看出,本文算法在權衡檢測精度和速度上要優于其他算法。在實際駕駛環境下,本文的平均檢測準確率雖然比YOLOV3少了0.2%,但特效度卻達到了98.8%,表明算法的誤報率很低,極少出現沒有打電話的情況下發出警報,從而避免影響駕駛員的正常駕駛行為。此外,本文算法的檢測速度相比較于其他算法縮短了至少一倍,在對比其他各類算法中檢測速度最快,對駕駛員的打電話行為檢測效果更好,實時性更強。

3 結 論

本文提出了一種基于深度學習的駕駛員打電話行為檢測算法,可同時對聽筒和免提接聽兩種狀態進行檢測,相比較于其他只對聽筒接聽進行判別的算法更具實用性,而且融合手持電話與講話行為共同判別駕駛員打電話行為,相比較于以往的檢測方法具有更高的檢測精度,能極大程度地防止誤報。經過在駕駛環境下的實驗,分別與Haar+AdaBoost、LBP+XGBoost、HOG+SVM、YOLOV3等算法在檢測準確率和速度上進行對比,結果表明,本文所提的檢測方法在實際駕駛環境下具有更好的檢測效果,在提升檢測精度的情況下,檢測速度也有很大的提升,在嵌入式平臺下的平均檢測速度僅在230 ms/frame左右,可對實際駕駛場景下的駕駛員打電話行為進行準確、及時的預警。

猜你喜歡
駕駛員特征檢測
基于高速公路的駕駛員換道意圖識別
駕駛員安全帶識別方法綜述
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
小波變換在PCB缺陷檢測中的應用
起步前環顧四周是車輛駕駛員的義務
公民與法治(2016年4期)2016-05-17 04:09:26
主站蜘蛛池模板: 国产精品刺激对白在线| 91美女在线| 国产乱子伦精品视频| 亚洲欧洲日韩国产综合在线二区| 天堂va亚洲va欧美va国产| 亚洲精品va| 国产精品女熟高潮视频| 亚洲综合第一区| 日韩精品亚洲一区中文字幕| 福利在线一区| 欧美福利在线播放| 一级片免费网站| 久久国产热| 中文字幕欧美成人免费| 色网站在线免费观看| 国产亚洲欧美在线专区| 国产尤物在线播放| 国产亚洲欧美在线专区| 四虎国产成人免费观看| 亚洲浓毛av| 香港一级毛片免费看| 日韩av高清无码一区二区三区| 国产97公开成人免费视频| 日韩精品一区二区深田咏美| 亚洲欧美自拍中文| 日韩精品一区二区深田咏美| 99ri精品视频在线观看播放| 国产日韩欧美一区二区三区在线| 99ri精品视频在线观看播放| 亚洲国产成人综合精品2020| 91口爆吞精国产对白第三集| 国产高清在线观看| 91www在线观看| 成人另类稀缺在线观看| 久青草免费在线视频| 在线国产你懂的| a毛片在线| 久久一级电影| 国产福利一区在线| 激情六月丁香婷婷| 亚洲欧美综合在线观看| 国产成人成人一区二区| 欧美精品一区在线看| 亚洲国产亚洲综合在线尤物| 人妻一本久道久久综合久久鬼色| 欧类av怡春院| 小说 亚洲 无码 精品| 亚洲色无码专线精品观看| 波多野结衣AV无码久久一区| 一本一本大道香蕉久在线播放| 在线日韩一区二区| 在线观看91精品国产剧情免费| 国产福利微拍精品一区二区| 亚洲精品不卡午夜精品| 国产成人喷潮在线观看| www精品久久| 99爱在线| 亚洲成a人在线观看| 四虎在线观看视频高清无码| 99re这里只有国产中文精品国产精品| 亚洲综合精品第一页| 91色综合综合热五月激情| 日本道中文字幕久久一区| 欧美日韩福利| 超薄丝袜足j国产在线视频| 久久男人资源站| 亚洲欧美日韩中文字幕在线一区| 最新亚洲人成网站在线观看| 国产精品永久免费嫩草研究院| 久久精品国产精品一区二区| 中国黄色一级视频| 九月婷婷亚洲综合在线| 亚洲国产天堂久久综合226114| 亚洲精品黄| 欧美激情网址| 国产乱子伦一区二区=| 囯产av无码片毛片一级| 成人精品区| 欧美一区福利| 日韩AV无码免费一二三区| 青青青亚洲精品国产| 天天色天天综合|