999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于人體姿態估計的手機使用狀態監控①

2021-03-19 06:38:04范長軍瞿崇曉
計算機系統應用 2021年3期
關鍵詞:關鍵點檢測模型

劉 軍,范長軍,瞿崇曉

1(中國人民解放軍63650 部隊,烏魯木齊 841700)

2(中國電子科技集團公司第五十二研究所,杭州 310012)

隨著信息技術的快速發展,手機的使用越來越普遍,人對手機的依賴程度越來越高,帶來方便快捷的同時也給人們的生活和工作帶來了一系列問題和挑戰.比如,駕駛員在開車時因為打電話或玩手機而手離開方向盤,或行人在過馬路時低頭看手機,從而導致發生車禍的事件時有發生;在學校里,學生低頭“刷手機”的行為也給學習效果和課堂紀律帶來了不良的影響.此外,一些特殊場所,如部隊駐地或者涉及信息安全的重要資料檔案室,手機的違規使用容易造成失泄密事件,對國家安全造成不必要的損失.在上述場景下手機的使用是被嚴格控制的,需要對相關人員的一些違規使用手機行為進行實時預警,其中就包括通過攝像頭檢測他們是否在打電話、玩手機或用手機拍照等.因此,研究對手機使用狀態的監控具有重要的應用價值和現實意義.

當前,已有一些關于手機使用狀態檢測與監控的研究工作,主要集中于安全駕駛領域針對駕駛員打電話行為的檢測.文獻[1]首先采用漸進校準網絡算法進行人臉的檢測與實時跟蹤,確定打電話檢測候選區域,然后通過基于卷積神經網絡的算法在候選區域實現駕駛員打電話行為的檢測.文獻[2]先對監控圖像中目標車輛的車窗、駕駛員候選區域進行定位,獲得駕駛員的頭肩區域后,再采用卷積神經網絡進行接打電話的檢測與識別.除了此類基于計算機視覺的方法[3],還可以通過傳感器進行駕駛員打電話的識別,如文獻[4]采用WiFi和手機傳感器相結合的方式來檢測與識別危險駕駛動作,此類應用受設備和場景的限制較大.與上述駕駛員打電話相關的研究工作相比,針對玩手機等行為進行識別的研究工作較少.文獻[5]從采集的圖象中截取包含人體的周圍區域,判斷人是否拿著手機或者人體周圍是否有手機,計算人臉的朝向,然后判斷人的狀態是否為“玩手機”.

上述的研究工作均取得了不錯的效果,但是目前所監控的手機使用狀態種類少且單一,針對一些特殊場景下的復合需求仍缺少相應的研究工作.比如,在重要資料檔案室等敏感場所打電話、拍照或玩手機等各類手機使用行為具有不同的影響,需要同時對這些行為進行識別與監控.此外,現有的方法對異物遮擋、圖像旋轉、光照變化等的適應性也各有不足.近年來,基于深度學習的人體姿態估計得到快速發展,給人體行為分析提供了良好的技術支撐.本文提出了一種基于人體姿態估計的手機使用狀態監控系統,實現了對打電話、玩手機、手機拍照等行為的識別.

1 算法設計與實現

1.1 算法總體框架

基于人體姿態估計的手機使用狀態監控系統的落地應用著重考慮兩個方面:手機使用狀態檢測的準確率和運行效率.準確高效的系統實現面臨著諸多的挑戰,比如,人體姿態的變化容易遮擋手機,現有的人體姿態估計算法計算量大耗時較長.為了應對上述挑戰,設計整個的算法框架與流程如圖1所示.

圖1 算法整體框架與流程圖

總的算法框架涉及到3 個關鍵的功能組件,分別是目標檢測、人體姿態估計以及手機使用狀態識別.其中,目標檢測包括兩部分,分別是人體檢測與手機檢測.人體檢測用于判斷圖像中是否有人,手機檢測進而判斷人的手中是否握有手機;人體姿態估計則在中間環節主要用于對檢測出的人體進行姿態估計,以便于得到手部的位置,方便后續的手機檢測;在檢測到手機并獲取人體姿態骨架后,基于人體姿態關鍵點及其與手機的空間位置關系進行手機使用狀態的分類識別.

總體的系統算法流程如下:首先,采用YOLOv3 檢測圖片中的人體;其次,對檢測出的人體,通過OpenPose進行人體關鍵點的檢測,獲取手部的位置;然后,通過標簽為“手”的關鍵點坐標來獲取手部區域,并采用YOLOv3 對這些區域進行手機檢測,判斷手機是否存在;最后,根據手機的存在情況設計神經網絡分類器,將人體骨架中與手機操作強相關的若干關節點以及手機的位置作為輸入,進行手機使用行為的識別.具體的算法流程請參見圖1.

原則上,人體檢測對于采用OpenPose 進行的人體姿態估計不是必須的,但是對于一個實際的應用系統而言,監控場景中并不總是存在“人”,預先檢測和截取人體區域,可減少不必要的人體姿態估計計算資源和時間,以提高效率.此外,人體關鍵點檢測和手機檢測易受身體姿態、遮擋、光照等的影響,前置步驟估算出目標的預期位置,便于有針對性地對局部區域進行處理,提高相應的檢測準確度.

1.2 人體檢測與手機檢測算法

在數據采集之后,首先要對獲取的圖像進行人體檢測.在通過OpenPose 推理得到關鍵點為“手”的坐標后,針對手部區域再進行手機檢測,以判斷其是否攜帶手機.此兩類檢測的功能不同,但是檢測的原理類似,此處選用YOLO v3 來作為算法基線,以實現相應的功能.

YOLO 最早是由Redom 等在2016年提出的一個端到端的深度卷積神經網絡模型,相比于以 RCNN[6]系列算法為代表的兩步檢測網絡,它能夠兼顧速度和檢測精度[7].經過Redmon 等的持續研究,YOLO 隨后發展出v2、v3 等版本[8,9].相比于前兩個版本,YOLOv3采用了特征融合以及多尺度檢測的方法,目標檢測的精度和速度都得到了很大提升.

YOLOv3的網絡架構為darknet-53,它去掉了v2中的池化層和全連接層,并在前向傳播過程中通過改變卷積核的步長來實現張量尺寸的變換;它采用了殘差的設計思想,用簡化的殘差塊來加深網絡結構,以提升網絡的速度;針對手機等小目標漏檢率高的問題,YOLOv3 借鑒了特征圖金字塔網絡,增加了從上至下的多級預測,采用多尺度來對不同大小的目標進行檢測,可解決遠距離目標圖象過小的問題,具體參見圖2.YOLOv3的損失函數主要由3 部分組成:目標置信度損失,目標分類損失,以及目標定位偏移量損失,三者之間通過加權系數進行平衡.針對前兩者,不同于YOLOv2采用Softmax+交叉熵來處理,YOLOv3 采用n個二值交叉熵來實現.交叉熵越小,代表兩個概率分布越接近,可較好地刻畫兩個概率分布之間的距離.針對后者,采用的是真實偏差值與預測值之差的平方和.

圖2 YOLOv3的網絡結構

人體檢測可以直接采用YOLOv3 在COCO 數據集上的預訓練模型來推理[9],手機檢測對應的網絡模型是在YOLOv3 預訓練模型的基礎上用采集的數據集重新訓練得到的.在通過人體姿態估計算法獲取手部的關節點后,以此點為中心將手部及其附近區域劃出一片固定大小的區域(如208×208),并調整為統一的大小(如416×416),再由采集的數據集對YOLOv3 模型進行訓練.

如圖2所示,YOLOv3 分別輸出13×13、26×26、52×52 三種不同尺寸的特征圖,并且在回歸預測部分每一個單元格借助3 個錨點框(anchor box)預測3 個邊框,即每個輸出張量中的任一網格會輸出3 個預測框.以包含80 種類別的COCO 數據集為例,輸出張量的維度為(5+80)×3=255.其中,5 表示每個預測框的置信度以及坐標信息,即(c,x,y,w,h),3 則表示每個網格預測的模版框個數.針對手機檢測場景,僅有一類待檢測目標,故將輸出維度變為(5+1)×3=18,以減少計算量并提高檢測精度和速度.

2 人體姿態估計算法

在人體行為監控中,人體關鍵點檢測與分析是重中之重,此類問題往往又被統一歸為人體姿態估計問題.近年來多種人體姿態估計方法被研發出來,早期的方法只用于單人關鍵點檢測,先識別出人身體的各個部位,然后再連接各部分來獲得姿態.近年來多人姿態估計也取得了較快的發展.多人姿態估計主要分為兩類,第一類是自頂向下(Top-down)的方法,即先檢測出圖像中的所有人,再對每一個人進行姿態估計,這種方法具有較高的準確率但是處理速度不高,如AlphaPose;第二類是自底向上(down-top)的方法,即先檢測出所有的關節點,再判斷每一個關節屬于哪一個人,這種方法可以做到實時檢測人體關鍵點,如OpenPose.

OpenPose 由卡耐基梅隆大學的研究人員于2017年提出[10],它是一個實時的、多人骨骼關節點檢測的二維姿態估計開源庫,可以在單目攝像頭的基礎上獲得實時且準確率高的二維人體骨骼關節點坐標.Open-Pose 借鑒了卷積姿態機[11]中采用大卷積核獲得大感受野的思想,使得OpenPose 算法可以較好地處理遮擋情況下的人體姿態估計問題.其網絡模型如圖3所示.

圖3 YOLOv3 整體網絡結構圖

具體地,OpenPose 模型使用VGG-19 深度神經網絡提取圖像的原始特征圖(feature map),然后再分成兩個分支,第1 個支路中的每一階段使用卷積神經網絡預測身體關鍵點的熱度圖,第2 個支路中的每一階段使用卷積神經網絡預測部分親和字段(Part Affinity Fields,PAF).部分親和字段是記錄肢體位置和方向的2 維向量,它表示身體各部分之間的關聯程度.關鍵點熱度圖和部分親和字段在每一個階段下與輸入特征層的關系映射視為St和Lt(t∈[1,2,···,T]),輸入層除第一個階段為VGG-19 網絡輸出的特征層外,其余階段(即t≥2)的輸入層均為前一個階段的兩個輸出向量與VGG-19 輸出層的連接組合,如式(1)所示,其中,F是通過VGGNet 提取出的原始圖像的特征,δt和ξt分別表示在階段t時L和S的卷積神經網絡.在通過各層網絡模型計算之后,通過貪心推理分析置信度圖ST和部分親和字段LT,為圖像中的所有人輸出二維身體關節點.綜上,模型采用尺寸為W×H的彩色圖像作為輸入,生成圖像中每個人的骨骼關鍵點的二維圖像位置作為輸出.

OpenPose是一種自下而上的方法,在無人的背景圖區域可能會誤檢出關節點,影響整個系統的性能.上一步驟通過YOLO 算法檢出圖像中的人的位置,可有效緩解此問題.本文采用了基于微軟COCO 數據集預訓練的可檢測18 個身體關鍵點的模型[12],其以檢測出的人體區域彩色圖像作為輸入,可輸出圖像中人體的18 個骨架關節點的二維坐標及置信度,如圖4所示.

圖4 OpenPose 人體關鍵點示意圖

3 手機使用狀態識別算法

經過人體檢測、人體姿態估計與手機檢測,能夠得到人本身的姿態以及是否攜帶手機的狀態,此時,需要進一步判斷當前是何種手機使用狀態,因為不同的場景下對手機使用的限制是不同的,即便在同一場景下不同的手機使用行為造成的潛在影響也是不同的.手機使用狀態的識別處于最后的環節,受前面諸多環節的影響.由于受光照變化、遮擋等的影響,人體檢測以及手機檢測的效果不一定理想.比如,人體檢測時目標的置信度過低,或者手機被遮擋而無法檢測出等.為了兼容上述各類異常情況并保證主要場景下的識別準確度,本文采用了可配置的規則,并且設計了閾值配置方案來針對不同情況進行處理.

具體地,人體檢測、手機檢測與人體姿態估計都存在著相應的置信度,當置信度閾值設定過高時,有可能遺漏待檢測的目標,當置信度閾值設定過低時,誤檢測的目標將會很多,占用大量計算時間.簡而言之,置信度閾值設定是一個對檢測準確度和效率進行折中的過程,因此要針對具體應用場景對其合理設置.通常情況下,針對具體的應用場景可多次試驗擇優選擇對應閾值.在本文中,由OpenPose 采用默認配置實現人體姿態的估計,并規定人體檢測的置信度大于50%且手機檢測的置信度大于30%時才觸發下一環節的手機使用狀態識別.

為設計神經網絡分類器,首先預設手機的使用狀態為4 類:打電話、玩手機、手機拍照以及其他活動,因此分類網絡最后的輸出層的節點數為4.神經網絡分類器(圖5)的實現具體如下:前三層神經網絡的激活函數采用tanh 函數,最后一層網絡的激活函數采用Softmax,對應的損失函數采用交叉熵,以將多個神經元的輸出映射到(0,1)區間內,并且這些神經元的輸出滿足累和為一的性質,可以將其理解為概率,也即該圖片樣本中的人的行為被劃分為各類手機使用狀態的置信度.當檢測得到手機的置信度大于預設的閾值時,訓練一個神經網絡模型,網絡的輸入采用人體姿態關鍵點、手機以及它們的位置坐標.當檢測的置信度無法滿足閾值門限時,將對應的樣本自動歸類為其他活動.

圖5 分類網絡結構

4 實驗及其分析

為對提出的方法進行驗證,搜集了大量的手機使用狀態的照片,包括打電話、玩手機、手機拍照三類圖片的數據各5000 張,以及其他手機使用場景7000余張,比如手持手機行走等,并使用LabelImg 工具進行標注,生成訓練所需要的XML 文件.

在實驗過程中,涉及到4 個神經網絡模型,分別是人體檢測模型、人體姿態估計模型、手機檢測模型以及手機使用狀態分類模型.其中,人體檢測和人體姿態估計模型分別是在對應的COCO 數據集上訓練得到的開源YOLOv3和OpenPose 預訓練模型,可以直接使用;手機檢測模型則是采用darknet53.conv.74 預訓練權重并修改yolov3.cfg 配置文件后,基于收集的數據進一步訓練得到的;手機使用狀態分類模型是根據手機的存在情況通過將對應的人體關鍵點、手機及其坐標輸入設計的神經網絡分類器中訓練得到的.人體檢測、手機檢測、人體姿態估計與手機使用狀態識別的效果如圖6所示,檢測結果會以檢測框的形式顯示,同時,也會給出對應的置信度.從測試的結果可以看出本文方案具有良好的識別效果,能滿足相關場景的應用需求.

圖6 手機使用狀態識別效果圖

為方便進行試驗,每一次將采集的數據集隨機打散并按照比例進行分配,訓練集90%,測試集10%,并進行一次試驗,如此循環往復5 次得到的實驗結果如下如表1所示.這里選擇分類算法中常用的準確率(Precision)、召回率(Recall)和F1 值(F1-score)來進行評估,它們的定義如下:

其中,TP、FP、FN分別表示將正樣本預測為正樣本,將負樣本預測為正樣本,以及將正樣本預測為負樣本的樣本數.

表1 手機使用狀態分類結果(%)

從表1中可以看出,本文方法經過5 次測試得到的平均準確率達90.95%,平均召回率達88.70%,平均F1 值達89.81%.本文提出的方法既能對手機使用狀態進行準確地識別,又能做到比較全面地檢測,在4 種手機使用狀態識別的各類指標上均取得了比較好的效果,并且檢測的結果相對穩定.

目前,已有一些采用OpenPose 人體骨架進行行為識別的研究工作[13],其中一些涉及到手機使用行為識別,如NTU RGB+D 動作分析數據集就包含了“打電話”和“玩手機”兩類行為[14].為驗證本文總體方案(以M0 表示)的效果,在其基礎上設計以下3 類方法:M1—去掉M0的人體檢測步驟,根據人體骨架截取人體區域;M2—去掉M0的手機檢測步驟,采用YOLO 在人體區域直接檢測手機;M3—去掉M0的手機檢測步驟,分類階段網絡的輸入不采用手機及其位置信息.針對方法M0~M3,將采集的數據集隨機打散,分割訓練集與測試集的比例為8:2,分別訓練并測試,得到F1-score的值并比較,結果如圖7所示.從圖中可以看出,當不限定手部位置進行手機的檢測或完全不檢測手機時,手機使用狀態識別的性能明顯下降,而本文方法考慮了諸多方面的因素,整合并發揮了YOLOv3和OpenPose的優勢,取得了較好的識別效果.

圖7 不同方案的性能對比

此外,從表1中還可以看出,在一些測試數據集下召回率會偏低,經過仔細對比發現,在這些數據集中出現了人體被部分遮擋或手機被完全遮擋的樣本,此時人體檢測或手機檢測的置信度小于閾值,導致了此類樣本被直接認定為其他活動,而沒有識別出相應的手機使用狀態.這是本文方法待改進之處,是筆者未來算法優化的重點方向.

5 結論與展望

本文給出了基于人體姿態估計的手機使用狀態監控方案,用于監控社會生活中的一些手機違規使用場景,以避免違規使用手機帶來的負面影響,具有一定的現實意義.該方案整合了YOLOv3 目標檢測算法和OpenPose 人體姿態估計算法,先通過人體檢測獲取人的前景圖,再通過人體姿態估計獲取手部的位置,以提高手機檢測的準確度,并由手機的位置結合人體姿態來判定當前的手機使用狀態.系統測試結果表明,本文提出的方案應用效果良好,可以滿足相關的應用需求.針對由于遮擋等因素導致人體或手機檢測的置信度過低,并造成漏檢或誤識別的情況,筆者在未來的工作中將優化現有方法,并著力加以解決.

猜你喜歡
關鍵點檢測模型
一半模型
聚焦金屬關鍵點
肉兔育肥抓好七個關鍵點
今日農業(2021年8期)2021-11-28 05:07:50
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
小波變換在PCB缺陷檢測中的應用
主站蜘蛛池模板: 蜜芽国产尤物av尤物在线看| 欧美中出一区二区| 亚洲天堂网2014| 99中文字幕亚洲一区二区| 国产一级二级三级毛片| 天天做天天爱夜夜爽毛片毛片| 九九九国产| 国产精品手机在线观看你懂的| 午夜毛片免费观看视频 | 精品无码一区二区在线观看| 国产欧美日韩另类精彩视频| 无码网站免费观看| 免费av一区二区三区在线| 71pao成人国产永久免费视频| 天天操精品| 午夜久久影院| 亚洲综合二区| 日本www色视频| 欧美日韩北条麻妃一区二区| 成人va亚洲va欧美天堂| 国产一级小视频| 久久久久免费看成人影片 | 欧美不卡视频一区发布| 老色鬼欧美精品| 欧美在线三级| 任我操在线视频| 婷婷色婷婷| 国产精品区视频中文字幕| 人人爱天天做夜夜爽| 国产成人免费手机在线观看视频| 久久综合结合久久狠狠狠97色| 91久久大香线蕉| 国产精品视频白浆免费视频| 91香蕉视频下载网站| 一区二区理伦视频| 日韩久草视频| 国产美女免费| 国产激情无码一区二区APP | 特级精品毛片免费观看| 超清无码一区二区三区| 22sihu国产精品视频影视资讯| 国产青青操| 2020精品极品国产色在线观看| 毛片在线看网站| 亚洲色图综合在线| 国产超碰一区二区三区| 成人小视频网| 国产精品无码久久久久久| 亚洲欧洲天堂色AV| 黄色不卡视频| 九色视频线上播放| 国产成人精品第一区二区| 中文字幕免费视频| 亚洲精品成人福利在线电影| h视频在线观看网站| 熟妇丰满人妻| 在线亚洲精品自拍| 亚洲热线99精品视频| 国产高潮视频在线观看| 国产精品亚欧美一区二区| 狠狠做深爱婷婷综合一区| 国产无码制服丝袜| 亚洲欧美国产五月天综合| 波多野结衣中文字幕一区二区| 久久99热66这里只有精品一| 国产真实乱子伦精品视手机观看 | 欧美成人精品高清在线下载| 91视频免费观看网站| 欧美亚洲国产一区| 亚洲成A人V欧美综合| 国产亚洲欧美日韩在线一区二区三区 | 国产欧美精品专区一区二区| 鲁鲁鲁爽爽爽在线视频观看| a在线观看免费| 日本不卡在线播放| 国产系列在线| 久久99国产视频| 亚洲中文字幕23页在线| 美女一区二区在线观看| 九九热视频在线免费观看| 亚洲欧美国产高清va在线播放| 4虎影视国产在线观看精品|