葛 嘯
(無錫商院職業技術學院,江蘇 無錫 214000)
目前,吸煙群體已逐漸呈低齡化趨勢,高校學生在校園公共區域吸煙的行為屢見不鮮。教育部聯合國家衛生健康委印發《關于進一步加強無煙學校建設工作的通知》要求將學生吸煙行為作為學生日常行為規范管理的重要內容,明確提出建設無煙校園的要求,通過宣傳教育定期檢查等多種方式維護無煙環境。目前,校園中禁煙管理工作的展開主要通過人工實現,對吸煙行為進行勸導和處罰為主要管理手段。然而,人工管理效率較低,需要消耗大量的人力、物力,難以及時全面地對吸煙行為監管并進行處置。因此,如何利用吸煙檢測技術提升校園的禁煙監管效率成為亟待解決的問題之一。
在過去的幾十年中,旨在對吸煙行為進行檢測的技術取得了長足的發展,包括傳感器、計算機視覺與模式識別等[1]。傳感器技術對吸煙行為的檢測效果受空間大小、通風情況、光照強度等因素影響,多適合于較小的空間范圍如酒店房間、車站衛生間等。可穿戴設備對吸煙的手勢動作、胸部的起伏程度等因素進行檢測,雖然能起到一定的檢測的效果但也易受其他日常行為動作的干擾。較高的設備成本使其在實際推廣中存在較大的阻力。
隨著計算機處理能力的提升,結合圖像處理技術與深度學習方法對監控獲取到的視頻及圖片進行針對性的目標檢測已成為熱點之一。目前,基于圖像處理技術對吸煙圖像數據進行分析主要從以下幾個角度進行:(1)檢測圖像中的香煙煙霧,但煙霧形狀抽象、煙霧濃度不可控等因素都易對檢測效果造成影響;(2)對吸煙圖片中的手部姿勢進行分割,該方法要求吸煙手部姿勢特征更具有代表性,因此對其他手勢的識別效果較差;(3)將香煙作為檢測目標,但由于其尺寸較小,易與背景信息混淆。陳睿龍等[2]設計一系列卷積神經網絡模塊,定位圖像中的煙頭位置,取得了較好的檢測效果;孫召龍等[3]采用YOLOv5深度學習算法對油田作業現場吸煙行為進行檢測,檢測準確率達89%;韓貴金等[4]基于結合圖像分割方法與Faster R-CNN算法能較好地對煙支目標進行檢測。以上研究表明,圖像處理技術與深度學習算法結合能夠有效地解決檢測吸煙行為的問題。
通過分析存在的問題與研究現狀,為簡化對吸煙行為的判斷,本文將嘴部存在香煙視為吸煙行為即將或正在發生,主要檢測過程可分為兩個階段。第一階段:對采集的圖像中人臉的位置進行定位并裁剪以降低背景圖像的干擾;第二階段,選取人臉圖像中的嘴部作為感興趣區域(Region of Interst,ROI),利用目標檢測算法結合遷移學習方法對嘴部是否存在香煙做進一步檢測研究,本文檢測流程如圖1所示。
圖1 吸煙行為檢測流程
RetinaFace算法是一種自然場景下較為精確的人臉檢測算法,利用多任務聯合額外監督學習和自監督學習的優點,可以對不同尺度的人臉進行定位[5],該算法在WIDER FACE 數據集上有著優秀的表現。RetinaFace在實現人臉檢測的同時還能夠對人臉中的關鍵點進行定位。
MobileNet V2網絡是由谷歌提出的準確率更高、模型更小的卷積神經網絡。該算法在ImageNet數據集有著優秀的表現。該網絡除延續V1版本的深度可分離卷積外,還引入了線性瓶頸(Linear Bottleneck)和倒殘差(Inverted Residual),進而減少信息的丟失,豐富特征數量,有助于提高檢測精度[6]。本文考慮到模型在終端部署時應盡量降低內存需求,因此在實際的吸煙行為目標檢測中,MobileNet V2網絡輕量化的特點更適用于本方案。
目前,基于圖像處理技術與深度學習方法對吸煙行為進行分析的諸多研究主要圍繞香煙煙霧、手部姿勢、香煙特征等建立了數據集,且并無通用的、標準統一的數據集。因此,在對吸煙行為進行檢測前,本方案需建立吸煙數據集。數據集一部分可通過網絡下載獲取,另一部分可通過對教學樓走廊、實訓樓、食堂門口等校園公共區域的吸煙行為進行拍攝獲得。本文對采集到的圖像進行對比度變換、亮度變換、旋轉等操作從而擴充數據集規模,在去除無效數據后將圖片調整為合適的輸入尺寸。
本文以校園環境中教學樓課間為例,下課時學生流量較大,人臉密集程度較高,對密集人臉進行檢測就對算法的檢測效果與實時性提出了較高的要求。除此之外,數據集中的圖片或是采集到的視頻中通常并非僅有人臉,還包括諸多環境背景信息。為降低背景信息對實驗結果的影響,本文首先需對圖片中的人臉區域進行定位。當吸煙行為發生時,人臉與監控間的角度隨機并不固定,戶外環境因素也會對人臉的定位產生影響。為獲得較好的人臉檢測效果,本文引入RetinaFace算法對人臉中的關鍵點進行定位。由于香煙目標較小,為了進一步減少背景信息對檢測效果的影響,本文對裁剪后的人臉圖像中的嘴部區域進行定位。由于RetinaFace算法的特點在于對人臉圖像進行檢測的同時,對人臉的關鍵點也會進行標注,因此本方案可確定嘴部關鍵點、眼部關鍵點、鼻部關鍵點。本文縱向選取鼻部關鍵點至圖像底邊,橫向選取人臉圖像左側邊緣至右側邊緣,從而盡可能將嘴部區域以及存在香煙的區域選取進來。
在完成上述的步驟后,本文進行香煙目標檢測模塊的設計。香煙作為較小的目標,檢測難度較大,因此MobileNet V2網絡被引入以對香煙目標進行檢測。在確定了嘴部感興趣區域(ROI)后,本文將獲取到的圖像尺度歸一化為適合MobileNet V2網絡輸入的大小。考慮到建立的數據集規模有限,直接對其進行訓練易造成過擬合,而遷移學習常用作解決實際目標檢測任務中數據集圖片數量不足的常用手段[7]。由于MobileNet V2網絡是經過ImageNet訓練過的卷積神經網絡,因此其模型參數結構與其他任務具有較高的關聯性[8]。本文基于MobileNet V2的預訓練模型,設計通過遷移模型參數結合吸煙數據集做進一步優化。在自建的吸煙數據集上,本文使用預訓練的神經網絡對圖像進行特征提取,得到特征向量作為輸入用于訓練新的神經網絡,通過多次迭代更新得到較優的網絡模型,從而達到節約訓練時間、提升檢測精度的效果。
系統物理架構主要包括圖像采集攝像頭、交換機、管理員主機、服務器等設備,具體拓撲如圖2所示。本文為兼顧實時性與檢測精度,將攝像頭采集到的視頻流通過交換機傳輸至服務器并通過代碼進行抽幀處理,對抽出的幀做預處理后交給目標檢測算法進行檢測。本設計中,存在吸煙行為的幀將被標注并保存在本地。檢測結果以圖片的形式出現在管理員主機上進行提醒。
圖2 物理架構拓撲
本文提出了校園場景下吸煙行為檢測方案,并將任務分為人臉檢測與香煙檢測兩個子任務。本文使用RetinaFace算法,降低背景信息與冗余信息帶來的影響。為提升模型的訓練速度,方案引入MobileNet V2并對其進行遷移學習,旨在解決數據集規模較小易導致過擬合的問題。MobileNet V2網絡輕量化的特點也有助于在移動端進行部署,從而進一步增強了本方案的實用性。基于以上設計,本文能有效地檢測校園吸煙行為,有助于糾正校園內的不文明行為。此外,吸煙群體除抽香煙外,抽電子煙的群體也占據了一部分的比例,后續研究擬對抽電子煙的吸煙人群作進一步檢測以提升檢測方案的適用性。