999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于改進RetinaFace和YOLOv4的船舶駕駛員吸煙和打電話行為檢測

2023-01-03 04:44:12王鵬尹勇宋策
上海海事大學學報 2022年4期
關鍵詞:駕駛員檢測模型

王鵬, 尹勇, 宋策

(大連海事大學航海動態仿真和控制交通行業重點實驗室, 遼寧 大連 116026)

0 引 言

我國是一個航運大國,海上交通運輸行業的發展非常迅速。隨著現代科技和造船技術的快速發展,船舶逐漸向大型化、自動化和智能化發展,由此導致的海上安全事故也顯著增加[1]。據統計,80%的海上安全事故與人的因素有關,其中駕駛員異常行為導致的海上事故占相當大的比例[2]。

值班駕駛員吸煙和打電話行為是威脅船舶航行安全的主要因素,尤其是當船舶航行在近岸和港區水域時,由于這些水域船舶密度大、通航環境復雜,一旦值班駕駛員注意力分散,發生航行安全事故的概率將會大大增加。為保證船舶航行安全,最大程度地降低海上安全事故發生的概率,設計一種實時性強、誤檢率低的船舶駕駛員吸煙和打電話行為檢測系統顯得尤為重要。

目前,針對駕駛員吸煙和打電話行為的檢測方法主要包括傳統方法和計算機視覺。傳統方法使用煙霧傳感器[3]檢測香煙煙霧,進而識別吸煙行為;通過檢測手機收發信號的波動來識別打電話行為[4]。隨著計算機視覺和深度學習的快速發展,越來越多的基于目標檢測的吸煙和打電話行為識別算法被提出。在吸煙檢測方面:文獻[5-6]通過檢測煙霧特征來識別吸煙行為,該方法相較于煙霧傳感器的檢測效果有所提升,但也存在煙霧濃度低、易擴散導致檢測不穩定的問題[7];文獻[8-10]使用手勢傳感器或機器學習的方法提取吸煙手勢來判斷是否存在吸煙行為,但吸煙手勢復雜、膚色多樣、相機角度等問題使得識別手勢存在差異,誤檢率較大;李倩[11]將檢測到的人臉圖像作為煙支檢測候選區域,從而大幅縮小目標檢測區域,并使用更快速區域卷積神經網絡(faster region-based convolution neural networks,Faster R-CNN)對香煙目標進行檢測以此來降低誤檢率;程淑紅等[12]使用級聯多個卷積神經網絡的方式來實現嘴部敏感區域的定位,利用殘差網絡對感興趣區域(region of interest,ROI)內的目標進行檢測和狀態識別;韓貴金等[13]利用人臉檢測來縮小目標檢測區域,在HSV(hue, saturation, value)顏色空間下使用腐蝕膨脹操作進行煙支初檢,最后利用Faster R-CNN進行煙支細檢。在打電話檢測方面:魏民國[14]通過Adaboost算法檢測人臉后,提取耳部ROI,計算梯度直方圖,再通過支持向量機判斷是否存在打電話行為;王丹[15]將駕駛員打電話行為分解為一系列滿足一定時序關系的子動作,通過統計解析的方法在視頻中檢測駕駛員打電話行為;駱文婕[16]采用Haar特征及核化相關濾波器跟蹤算法(kernelized correlation filters,KCF)實時獲取人臉位置,針對耳部ROI進行Canny邊緣檢測,以此判斷是否存在打電話行為;王盡如[17]提出一種基于支持向量機的駕駛員打電話行為檢測算法;吳晨謀等[18]基于人體姿態估計的方法,估計人體上半身8個骨骼節點的三維坐標,以此判斷駕駛員是否接打電話。

上述算法能在一定程度上提升吸煙和打電話行為檢測的精度,但實際場景中由于目標過于微小,網絡提取的特征不明顯,容易將白色條狀物誤檢為香煙,將鼠標、充電寶等誤檢為手機。為解決這個問題,本文提出一種兩階段的吸煙和打電話行為檢測算法,首先使用改進的RetinaFace網絡[19]提取人臉ROI,再使用改進的YOLOv4[20]目標檢測算法來檢測該區域內是否存在香煙或手機,從而識別船舶駕駛員的吸煙和打電話行為。

本文貢獻主要有以下2個方面:

(1)提出一種兩階段的吸煙和打電話行為檢測算法,首先放大檢測到的人臉區域得到頭部區域圖像,在頭部區域進行目標檢測,提高目標檢測的效率,同時也可以避免復雜背景的干擾;使用輕量級網絡模型替換RetinaFace和YOLOv4的主干網絡,利用深度可分離卷積改進YOLOv4目標檢測模型中的路徑聚合網絡(path aggregation network,PANet),在檢測精度下降不太多的情況下提升檢測速度。

(2)將疑似香煙和疑似手機的目標作為負樣本進行訓練,降低算法的誤檢率;使用復制粘貼數據增強手段,將香煙、手機等小目標隨機粘貼在圖像上,擴充目標數量,增強目標檢測模型的泛化能力。

1 基于改進RetinaFace網絡的人臉檢測算法

1.1 RetinaFace網絡

RetinaFace是InsightFace團隊提出的一種魯棒的單階段人臉檢測網絡,其檢測模型見圖1。它利用額外監督與自監督結合的多任務學習,對不同尺寸的人臉進行像素級定位,使用的多任務損失函數由人臉分類損失Lcls、人臉框回歸損失Lbox、人臉關鍵點回歸損失Lpts和密集人臉回歸損失Lpixel組成,在WIDER FACE數據集上有著非常好的表現。

圖1 RetinaFace人臉檢測網絡模型

1.2 改進的RetinaFace網絡

為滿足檢測的實時性要求,采取優化網絡結構的思想,在檢測精度下降不太多的情況下,為盡可能地減少計算量,采用輕量級的卷積神經網絡MobileNet[21]對RetinaFace的主干特征提取網絡ResNet50[22]進行替換。MobileNet的核心思想是用深度可分離卷積代替普通卷積,見圖2。

圖2 深度可分離卷積示意

用深度可分離卷積代替普通卷積可顯著減少模型的參數量和計算量。假設輸入特征圖的寬、高、通道數分別為Dk、Dk、M,卷積核的寬、高、通道數分別為DF、DF、M,卷積核的數量為N,則普通卷積的計算量為DkDkDFDFMN,深度可分離卷積的計算量為DkDkDFDFM+MNDkDk。

改進的RetinaFace網絡使用標注好的人臉數據集WIDER FACE[23]進行訓練,該數據集共有32 203張圖像和393 703個人臉框。人臉在尺度、姿態、遮擋、表情、裝扮、光照等方面都有很大差異,人臉特征具有多樣性。訓練模型時,在61個場景分類中隨機采樣,WIDER FACE數據集被分為3個子集,其中40%用于模型訓練,50%作為測試集,其余的為驗證集。訓練模型正負樣本的處理參考傳統RetinaFace網絡的訓練方法。

為更好地顯示改進效果,分別使用傳統的和改進的RetinaFace網絡檢測同一段視頻,結果見圖3,改進前后模型的檢測幀率分別是9.46和22.73幀/s,改進后模型的檢測速度明顯增加。使用的深度學習框架為PyTorch,測試硬件環境為Nvidia GTX950M GPU,測試軟件為PyCharm 2020。

a)改進前

b)改進后

2 基于改進YOLOv4的吸煙和打電話行為檢測

2.1 人臉區域圖片裁剪

考慮打電話行為檢測的ROI主要是耳朵所在的區域,而RetinaFace網絡檢測的人臉框并不包含耳朵,因此需要對人臉框進行一定程度的放大。由于檢測到的人臉大小不一,采用一種自適應方法進行人臉圖片的裁剪,即根據RetinaFace網絡檢測到的人臉框的大小來確定裁剪圖片的尺寸,具體計算方法見式(1),其中,wf和hf分別為人臉框的寬和高,w和h分別為裁剪的人臉圖片的寬和高。人臉圖片的裁剪過程見圖4。

圖4 人臉圖片裁剪示意

(1)

2.2 改進的YOLOv4目標檢測模型

YOLOv4是一種實時、高精度的目標檢測模型。當輸入特征圖的寬、高、通道數分別為416、416、32,批量大小為B時,YOLOv4目標檢測模型的網絡結構見圖5,YOLOv4目標檢測模型的網絡結構由CSPDarknet53主干特征提取網絡、空間金字塔池化(spatial pyramid pooling,SPP)、PANet和YOLOv3-Head檢測頭組成。CSPDarknet53使得網絡在輕量化的同時保持準確性;SPP和PANet將具有不同空間分辨率的特征圖生成層次結構,有效增強感受野,使細粒度的局部信息可用于頂層,大大豐富輸入檢測頭的信息。除此之外,YOLOv4目標檢測模型還使用Mosaic數據增強、標簽平滑、CIOU(complete intersection over union)損失、學習率余弦退火衰減等小技巧。經比較可知,YOLOv4目標檢測模型的推理速度比與其性能相當的EfficientDet模型的快2倍,平均精度(average precision,AP)和幀率較YOLOv3的分別提高10%和12%。

圖5 YOLOv4目標檢測模型網絡結構示意

為讓提出的吸煙和打電話行為檢測算法在低算力設備上也有較好的表現,需要對YOLOv4目標檢測模型進行一定的改進。改進的主要策略是用一個輕量級的網絡模型替換原有的CSPDarknet53,在網絡的頸部PANet部分使用深度可分離卷積代替普通卷積,以降低參數量。

使用MobileNetv3[24]對YOLOv4目標檢測模型進行改進。MobileNetv3是MobileNet系列網絡的最新版(見圖6),綜合MobileNetv1的深度可分離卷積DConv和MobileNetv2的逆殘差結構,使用普通卷積Conv進行升降維,在此基礎上加入通道注意力機制(squeeze and excitation,SE),使用h-swish激活函數代替swish函數。MobileNetv3在分類、目標檢測以及語義分割任務中都取得了優異的成績。

圖6 MobileNetv3基本卷積模塊

為對比改進前后模型的參數量變化,使用一張416×416像素的圖片測試YOLOv4、YOLOv4-tiny和YOLOv4-MobileNetv3目標檢測模型的參數量,結果見表1。使用3種目標檢測模型在自建吸煙和打電話行為檢測數據集上進行訓練,模型的檢測精度和速度見圖8。圖8中,類平均精度指所有類別的平均精度。

表1 YOLOv4與其改進模型參數量對比

綜上,改進的YOLOv4目標檢測模型在檢測精度和速度上取得一個較好的折中:與YOLOv4目標檢測模型相比,改進的YOLOv4目標檢測模型總參數量僅為原來的1/5,在檢測精度下降1.3%的情況下,檢測速度提升近1倍;與官方推出的YOLOv4-tiny相比,改進的YOLOv4目標檢測模型在犧牲一定檢測速度的情況下,將檢測精度維持在較高的水平。

圖8 YOLOv4與其改進模型檢測性能對比

3 實驗設計和結果分析

3.1 數據集和數據增強

使用的實驗數據集是自建吸煙和打電話行為檢測數據集,共有10 000張圖片,全部截自航海模擬器駕駛臺中存儲的視頻片段。針對實際場景中香煙、手機目標過于微小容易誤檢的問題,在數據集中加入白色的筆、充電寶、鼠標等疑似香煙或手機的目標作為負樣本,整個數據集共有香煙目標4 594個,手機目標4 341個,疑似香煙目標2 372個,疑似手機目標2 187個,正負樣本比例約為2∶1。使用labelimg工具將所有樣本標注為VOC2007格式的數據集。

由于數據采集的環境光照不同以及設備的性能優劣等,手動采集的數據存在對比度不夠、有噪聲等缺點,在模型訓練前對數據集進行預處理和圖像增強。除此之外,還使用復制粘貼[25]數據增強手段對數據集進行擴充,即裁剪樣本中的一些小目標,并隨機粘貼到每一張圖片上,編寫腳本自動生成對應標注,通過增加每一張圖片上的目標數來增強目標檢測網絡的泛化能力,改善小目標的檢測效果。經復制粘貼數據增強后的樣本見圖8。

圖8 復制粘貼數據增強后的樣本

3.2 模型訓練

實驗所用環境為Windows 10、Inter Core i7-6700CPU、Nvidia GTX1050Ti GPU,使用的深度學習框架為PyTorch。采用遷移學習的思想分2步進行訓練:首先利用在ImageNet[26]分類任務上訓練好的MobileNetv3模型權重對改進的YOLOv4目標檢測模型進行初始化,凍結此部分權重,設置批量大小為16,學習率為0.001,采用自適應矩估計(adaptive moment estimation,Adam)的優化方法訓練50個世代;然后解凍所有網絡權重,設置批量大小為8,學習率為0.000 1,采用同樣的優化器再訓練50個世代。

整個訓練過程耗時14.3 h,模型驗證損失曲線見圖9??梢钥闯?,使用MobileNetv3預訓練權重的模型損失在訓練開始后迅速下降,并在訓練35輪后逐漸收斂到較低的水平。在解凍所有網絡權重后,模型的訓練損失進一步下降,在訓練85輪后收斂到1.5左右。

a)訓練50輪

b)訓練100輪

3.3 實驗和結果分析

利用測試集中的1 000張圖片對模型進行評估,選取精確率P(Precision)、召回率R(Recall)、F1(P和R的調和平均數)、平均精度εAP和類平均精度εMAP作為主要指標來評價模型的性能。

(2)

式中:NTP為模型將正例識別為正例的圖片數量;NTN為模型將負例識別為負例的圖片數量;NFP為模型將負例識別為正例的圖片數量;NFN為模型將正例識別為負例的圖片數量;N為類別的個數。將檢測框的閾值設為0.5,模型精確率-召回率曲線見圖10。

a)吸煙

b)打電話

c)疑似吸煙

d)疑似打電話

表2展示了不同類別的主要評價指標,經過計算知,本文模型的εMAP為98.51%。

表2 不同類別的主要評價指標

為進一步驗證本文模型檢測吸煙和打電話行為的性能,使用Faster R-CNN[27]、SSD[28]和RetinaNet[29]模型在自建數據集上進行對比實驗,結果見表3。從實驗結果可以看出,本文模型的εMAP明顯優于其他3種模型,檢測速度與最快的SSD模型的相當,有著良好的準確性和實時性。

表3 不同模型實驗結果對比

為驗證加入負樣本對模型誤檢問題的改善以及數據增強對模型泛化能力的提升,還做了一組消融實驗,見表4。實驗結果表明:在數據集中加入疑似吸煙和疑似打電話的負樣本后,模型的誤檢率顯著下降,由原來的7.9%降為4.6%;數據增強后,模型的檢測能力有一定的提升,尤其是針對小目標檢測的泛化能力,εMAP由95.28%提高到98.51%。本次消融實驗更好地說明在數據集中加入負樣本和數據增強的有效性,體現本文的創新意義。

表4 消融實驗結果

將系統各部分模塊進行整合,使用PyQt結合QtDesigner對系統界面進行設計和開發。系統可以接入攝像頭進行實時檢測,也可以讀取本地的視頻文件進行檢測,支持MP4、AVI等主流視頻格式;界面右側可以控制檢測的開始和結束,顯示檢測結果;使用多線程技術將視頻讀取、視頻處理和主線程獨立開來,避免系統使用卡頓,顯著提高視頻處理的效率。在航海模擬器中的檢測效果見圖11。

a)白天吸煙

b)夜間吸煙

c)白天疑似吸煙

d)夜間疑似吸煙

e)白天打電話

f)夜間打電話

g)白天疑似打電話

h)夜間疑似打電話

由圖11不難看出,提出的吸煙和打電話行為檢測算法可以較為準確地檢測出駕駛員的吸煙和打電話行為,對不同環境光照、疑似吸煙、疑似打電話等干擾因素具有較強的魯棒性,能夠較好地適應船舶駕駛臺的復雜環境,誤檢率較低,基本滿足實時檢測的要求。當檢測出駕駛員吸煙或打電話行為的持續時間超過一定的閾值時,立即發出警報,提醒駕駛員集中精力操縱船舶,該閾值默認設置為60 s,可根據航行水域、天氣海況等因素進行調整。

4 結 論

本文提出一種兩階段的船舶駕駛員吸煙和打電話行為檢測算法,首先使用改進的RetinaFace網絡提取人臉感興趣區域,再使用改進的YOLOv4目標檢測模型來檢測該區域內是否存在香煙或手機,從而識別船舶駕駛員的吸煙和打電話行為。實驗結果表明:本文改進RetinaFace人臉檢測網絡和YOLOv4目標檢測模型可有效提高模型的檢測速度;在數據集中加入負樣本可顯著降低模型的誤檢率;使用復制粘貼數據增強手段可明顯提升模型的泛化能力;使用PyQt開發的圖像界面程序在模擬駕駛環境中可以較為準確地檢測出駕駛員的吸煙和打電話行為,對不同環境光照等干擾因素具有較強的魯棒性,能夠較好地適應船舶駕駛臺的復雜環境,同時滿足實時檢測的要求。在后續工作中,嘗試繼續改進算法提高復雜環境下算法的可靠性。

猜你喜歡
駕駛員檢測模型
一半模型
基于高速公路的駕駛員換道意圖識別
駕駛員安全帶識別方法綜述
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
小波變換在PCB缺陷檢測中的應用
主站蜘蛛池模板: 久久精品国产免费观看频道| 国产国语一级毛片| 粗大猛烈进出高潮视频无码| 亚洲码在线中文在线观看| 萌白酱国产一区二区| 欧美午夜小视频| 欧美特黄一级大黄录像| 最新国产精品第1页| 亚洲va视频| 久久99国产乱子伦精品免| 97久久精品人人| 国产91丝袜在线播放动漫| 成人免费视频一区二区三区 | 久夜色精品国产噜噜| 欧美啪啪视频免码| 伊人大杳蕉中文无码| 91视频首页| 中文字幕在线日本| 国产十八禁在线观看免费| 国产成人精品一区二区免费看京| 成人午夜视频在线| 五月婷婷综合网| 国产区人妖精品人妖精品视频| 亚洲视频二| 露脸国产精品自产在线播| 久久精品这里只有国产中文精品| www.国产福利| 99久久国产综合精品女同| 国产精品yjizz视频网一二区| 国产微拍精品| 久久精品中文字幕少妇| 福利片91| jizz国产视频| 九九九九热精品视频| 亚洲人在线| 日韩精品免费一线在线观看| 久久精品91麻豆| 免费av一区二区三区在线| 国产精品青青| 中文字幕精品一区二区三区视频 | 午夜欧美理论2019理论| 国产视频一二三区| 91久久夜色精品国产网站 | 丁香亚洲综合五月天婷婷| 日韩不卡高清视频| 国产福利在线观看精品| 亚洲一道AV无码午夜福利| 午夜福利网址| 色婷婷丁香| 中文字幕人成人乱码亚洲电影| 露脸一二三区国语对白| 国产男人的天堂| 欧美成人手机在线观看网址| 国产欧美日韩在线一区| 国产亚洲精品精品精品| 午夜影院a级片| 中国一级特黄大片在线观看| 色综合天天视频在线观看| 婷婷伊人久久| 在线看片国产| 国产微拍精品| AV在线天堂进入| 国产黑丝视频在线观看| 一级不卡毛片| 国产一区二区精品高清在线观看| 国产凹凸一区在线观看视频| 日韩无码视频播放| 四虎亚洲精品| 国产伦精品一区二区三区视频优播 | 亚洲免费福利视频| 日本日韩欧美| 热re99久久精品国99热| 97精品国产高清久久久久蜜芽| 91免费在线看| 91区国产福利在线观看午夜| 国产精品毛片在线直播完整版| 97超碰精品成人国产| 国产视频入口| 色婷婷国产精品视频| 人人妻人人澡人人爽欧美一区| 成年人福利视频| 日韩在线第三页|