余雪源
(西南交通大學(xué)信息科學(xué)與技術(shù)學(xué)院,成都610000)
隨著我國交通基礎(chǔ)設(shè)施建設(shè)趨于完善,機(jī)動(dòng)車數(shù)量不斷增長,加油站遍布城市的各個(gè)角落。與此同時(shí),加油站的安全問題也成為城市安全保障的重要一環(huán),在人口密集的市區(qū),一旦由于員工操作失誤造成安全隱患,會(huì)產(chǎn)生無法彌補(bǔ)的后果。目前針對(duì)加油站員工行為的檢測(cè)還沒有一套智能化方案,當(dāng)前主要通過對(duì)員工進(jìn)行嚴(yán)格培訓(xùn)以及人工巡檢的方式進(jìn)行,這種方式的自動(dòng)化以及智能化的程度不高,耗費(fèi)了大量人力成本的同時(shí),無法對(duì)員工的危險(xiǎn)操作進(jìn)行及時(shí)報(bào)警。
隨著深度學(xué)習(xí)的不斷發(fā)展,常用的多階段算法Faster R-CNN[1]和單階段算法YOLO[2]、SSD[3]等被用于目標(biāo)檢測(cè)任務(wù),但這些方法只能獲取視覺場景下各物體的類別和位置信息,不能表達(dá)人物之間的語義關(guān)系這種深層信息,從而無法判斷員工操作某一物體時(shí)是否違規(guī)。目前對(duì)于人體動(dòng)作識(shí)別使用的主要方法有3D 人體姿態(tài)識(shí)別,這種方法雖然可以帶來良好的準(zhǔn)確度,但計(jì)算成本太大,不適用于實(shí)際生產(chǎn)環(huán)境。Alpha-Pose[4]可以提供一個(gè)輕量級(jí)的實(shí)時(shí)人體關(guān)鍵點(diǎn)檢測(cè)模型,但如何有效利用這些關(guān)鍵點(diǎn)信息,得到人物之間的交互關(guān)系和交互動(dòng)作也是一大難點(diǎn)。
本文著眼于人物交互檢測(cè)這一熱門的計(jì)算機(jī)視覺研究領(lǐng)域,在以實(shí)例為中心的注意力網(wǎng)絡(luò)iCAN[5](Instance-Centric Attention Network)的基礎(chǔ)上,利用目標(biāo)檢測(cè)結(jié)果,判斷人和物體之間的交互關(guān)系以及交互動(dòng)作類別,為檢測(cè)員工的操作行為是否符合規(guī)范提供了一種智能化方法。并且本文結(jié)合了AlphaPose 的關(guān)鍵點(diǎn)檢測(cè)結(jié)果,將關(guān)鍵點(diǎn)特征與卷積特征結(jié)合,取得了更好的效果。iCAN 算法由Chen Gao 和Yuliang Zou 于2018 年提出,引入了在自然語言處理中常用的注意力機(jī)制(Attention),在人物交互檢測(cè)的公開數(shù)據(jù)集HICODet[6]上取得了極好的準(zhǔn)確度,是目前常用的人物交互檢測(cè)方法。
由于我國的交通基礎(chǔ)設(shè)施建設(shè)不斷提升,我國加油站數(shù)量已突破10 萬座,加油站中存在大量攝像頭,本文選取了加油站的卸油口場景作為研究對(duì)象,卸油口是加油站中安全風(fēng)險(xiǎn)等級(jí)最高的場景之一,并且在卸油口場景下,員工需要進(jìn)行大量手動(dòng)操作,因此對(duì)于一些危險(xiǎn)行為需要進(jìn)行及時(shí)報(bào)警。首先,我們選取了市區(qū)20 余座加油站,在不同的天氣情況下,收集了員工操作卸油過程視頻。由于視頻中員工抽煙、打電話等危險(xiǎn)行為樣本較少,因此讓員工對(duì)這些行為進(jìn)行模擬。對(duì)收集的視頻進(jìn)行抽幀后得到6832 張圖片,對(duì)圖片數(shù)據(jù)進(jìn)行清洗,刪除大部分無人物交互以及出現(xiàn)模糊的圖片后,最終得到6397 張圖片,將這些圖片按照7:3 的比例劃分為了訓(xùn)練集和測(cè)試集。
通過觀察整理加油站卸油口場景下員工操作行為,在該數(shù)據(jù)集上定義了21 個(gè)人物交互關(guān)系,設(shè)計(jì)以<人,物,交互動(dòng)作>三元組的形式對(duì)人物交互類別進(jìn)行標(biāo)注,人物交互關(guān)系類別定義如表1 所示。本文的數(shù)據(jù)標(biāo)注借鑒了V-COCO 數(shù)據(jù)集的處理方式[7],V-COCO 是MS-COCO 的一個(gè)子集,包含了80 個(gè)目標(biāo)類別以及28 個(gè)交互動(dòng)作類別,常用于人物交互檢測(cè)任務(wù)。本文首先對(duì)圖片中目標(biāo)的包圍框位置和類別進(jìn)行標(biāo)注,對(duì)于和物體產(chǎn)生交互關(guān)系的員工,我們記錄下物體和員工所對(duì)應(yīng)的包圍框ID,將這兩個(gè)ID 進(jìn)行關(guān)聯(lián),按三元組的形式標(biāo)注其交互動(dòng)作類別。因?yàn)閱T工可能會(huì)同時(shí)進(jìn)行多項(xiàng)操作,因此在一張圖片上,針對(duì)某一員工可能會(huì)存在多個(gè)三元組以表示同一人員同一時(shí)間存在多組人物交互關(guān)系。

表1 人物交互關(guān)系類別
本文僅在市區(qū)20 余座加油站進(jìn)行了數(shù)據(jù)采集,由于各加油站卸油區(qū)的設(shè)計(jì)不統(tǒng)一,攝像頭的位置和角度也會(huì)隨之變化,導(dǎo)致不同加油站采集的數(shù)據(jù)差異明顯,并且戶外的光照以及天氣差異對(duì)目標(biāo)檢測(cè)的效果有較大影響。為了提高算法的泛化能力,以適用于更多的加油站卸油區(qū)場景,本文采用圖片旋轉(zhuǎn)、水平翻轉(zhuǎn)、伽馬變換的方式對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行增廣,產(chǎn)生大量相似卻不相同的訓(xùn)練數(shù)據(jù),滿足深度學(xué)習(xí)對(duì)訓(xùn)練數(shù)據(jù)多樣性的需求。
本文采用了Faster R-CNN 作為目標(biāo)檢測(cè)網(wǎng)絡(luò),得到人和物體的位置及分類,使用ResNet 50[8]提取輸入圖片的卷積特征,將卷積特征送入以實(shí)例為中心的注意力模型iCAN,檢測(cè)得到人和物體之間的交互動(dòng)作類別,最終得到完整的<人,物,交互動(dòng)作>三元組。為了提高交互動(dòng)作檢測(cè)的準(zhǔn)確性,在原有的iCAN 算法基礎(chǔ)上,本文使用了AlphaPose 提取人體關(guān)鍵點(diǎn)特征,將關(guān)鍵點(diǎn)特征與卷積特征結(jié)合,預(yù)測(cè)人的交互行為,模型結(jié)構(gòu)如圖2 所示。

圖1

圖2 模型結(jié)構(gòu)圖
Faster R-CNN 是目前常用的目標(biāo)檢測(cè)算法,它是一個(gè)完全的端到端算法,在檢測(cè)的速度和準(zhǔn)確度上均取得了出色的效果。不同于Fast R-CNN 中的Selective Search 方法,在Faster R-CNN 中使用了候選區(qū)域生成網(wǎng)絡(luò)RPN(Region Proposal Network)提取候選區(qū)域,在保證精度的同時(shí)減少了候選區(qū)域提取的耗時(shí)操作。RPN 對(duì)于特征圖上的每一個(gè)錨點(diǎn)(anchor),生成具有不同寬高比和尺寸的錨點(diǎn)框,然后將這些錨點(diǎn)框送入分類以及回歸模塊計(jì)算目標(biāo)類別以及位置,RPN網(wǎng)絡(luò)結(jié)構(gòu)如圖3 所示。本文使用了ResNet 50 作為特征提取主干網(wǎng)絡(luò),結(jié)合Faster R-CNN 產(chǎn)生目標(biāo)的位置以及分類,將得到的卷積特征作為人物交互檢測(cè)模塊的輸入特征。

圖3 RPN網(wǎng)絡(luò)結(jié)構(gòu)圖
人物交互檢測(cè)模塊包含了以人為中心、以物為中心以及人物結(jié)合三個(gè)不同的分支。將目標(biāo)檢測(cè)得到的卷積特征作為分支輸入,在以人為中心和以物為中心的分支上,使用了以實(shí)例為中心的注意力網(wǎng)絡(luò)iCAN,在人物結(jié)合分支上使用了人和物的聯(lián)合特征,在各分支上預(yù)測(cè)人物交互動(dòng)作得分,最后采用多分支融合的策略,得到最終的交互動(dòng)作得分,得分計(jì)算公式定義為:

式中,sh與so分別為預(yù)測(cè)的人和物類別得分,,分別是以人為中心、以物為中心以及人物結(jié)合三個(gè)分支預(yù)測(cè)的交互動(dòng)作得分。
以實(shí)例為中心的注意力網(wǎng)絡(luò)iCAN 將卷積特征作為輸入,使用RoI 池化、ResNet 殘差塊,以及全局平均池化(Global Average Pooling,GAP),得到實(shí)例級(jí)外觀特征。使用1×1 的卷積核改變特征的維度,使用矢量點(diǎn)積的形式將卷積特征與實(shí)例級(jí)外觀特征一起嵌入到512 維的空間中,然后通過Softmax 函數(shù)計(jì)算得到以實(shí)例為中心的注意力圖。Softmax 將特征圖中的每個(gè)像素點(diǎn)的值映射到(0,1)區(qū)間,讓所有值的和為1,每個(gè)點(diǎn)的像素值就轉(zhuǎn)化成了概率值。Softmax 函數(shù)表達(dá)式為:

將注意力圖與卷積特征進(jìn)行矢量點(diǎn)積運(yùn)算,通過全局平均池化以及全連接操作得到上下文特征,將上下文特征與實(shí)例級(jí)的外觀特征進(jìn)行拼接得到該分支的輸出特征。將該分支的輸出特征通過21 個(gè)二分類器進(jìn)行分類,我們將分類的結(jié)果輸入到sigmoid 函數(shù)中,將輸出映射到(0,1)區(qū)間,sigmoid 函數(shù)表達(dá)式為:

本文使用到的損失函數(shù)為交叉熵?fù)p失,該損失函數(shù)常用于分類問題,N 個(gè)樣本的總交叉熵?fù)p失表達(dá)式如下:

本文設(shè)計(jì)了實(shí)驗(yàn)驗(yàn)證算法的可行性,并且參考了大量文獻(xiàn)后設(shè)計(jì)了多個(gè)對(duì)比實(shí)驗(yàn),研究不同特征提取算法對(duì)生成注意力圖的影響,以及關(guān)鍵點(diǎn)檢測(cè)方法對(duì)人物交互動(dòng)作的分類是否有幫助。本實(shí)驗(yàn)基于Linux 系統(tǒng),使用了兩塊NVIDIA TITAN XP 顯卡、32G 內(nèi)存,使用的深度學(xué)習(xí)框架為TensorFlow,實(shí)驗(yàn)檢測(cè)結(jié)果如圖4 所示。

圖4 實(shí)驗(yàn)檢測(cè)結(jié)果
平均精度均值(mean Average Precision,mAP)常作為多標(biāo)簽圖像分類任務(wù)的評(píng)價(jià)標(biāo)準(zhǔn),衡量的是在所有類別上的平均好壞程度。本文使用了交并比(Intersection over Union,IoU)來判斷預(yù)測(cè)包圍框結(jié)果的準(zhǔn)確性,IoU 指預(yù)測(cè)框與真實(shí)框的交集與并集的比值,通過設(shè)定閾值來衡量正負(fù)樣本。

為研究不同特征提取算法對(duì)生成注意力圖的影響,本文分別使用了VGG 16、ResNet 50、ResNet 101 作為特征提取網(wǎng)絡(luò),根據(jù)大量的參考文獻(xiàn)表明,ResNet 101 提取的特征相較于VGG 16 以及ResNet 50 具有更豐富的視覺和語義信息。實(shí)驗(yàn)結(jié)果如表2 所示,從表中我們可以得出,更豐富的特征,會(huì)使網(wǎng)絡(luò)生成更具有表現(xiàn)力的注意力圖,利用注意力圖可以凸顯特征中與目標(biāo)更加相關(guān)的部分,將網(wǎng)絡(luò)的注意力集中到該部分,可以提升檢測(cè)的準(zhǔn)確性。但ResNet 101 的檢測(cè)速度不夠理想,出于實(shí)用性的考慮,本文選擇了ResNet 50 作為特征提取網(wǎng)絡(luò),以此達(dá)到速度與精度的平衡。
為研究人體關(guān)鍵點(diǎn)對(duì)人物交互動(dòng)作檢測(cè)的影響,本文使用了目前常用的關(guān)鍵點(diǎn)檢測(cè)算法AlphaPose,獲取人體的關(guān)鍵點(diǎn)信息,關(guān)鍵點(diǎn)檢測(cè)如圖5 所示。本文設(shè)計(jì)了兩組對(duì)照試驗(yàn),一組是將圖片的卷積特征與關(guān)鍵點(diǎn)特征結(jié)合,一組只使用了卷積特征。實(shí)驗(yàn)結(jié)果如表2 所示,兩組實(shí)驗(yàn)都可以取得不錯(cuò)的效果,但是由于關(guān)鍵點(diǎn)特征對(duì)人體動(dòng)作具有較強(qiáng)的指示性,同一動(dòng)作其人體關(guān)鍵點(diǎn)特征符合一定的模式,因此使用了關(guān)鍵點(diǎn)特征最多會(huì)高出4.4%的mAP。

表2 實(shí)驗(yàn)結(jié)果

圖5 關(guān)鍵點(diǎn)檢測(cè)
本實(shí)驗(yàn)以目前計(jì)算機(jī)視覺中的重點(diǎn)研究領(lǐng)域?yàn)榛A(chǔ),對(duì)加油站中卸油口場景下的人物交互動(dòng)作進(jìn)行了研究,不僅從目標(biāo)檢測(cè)的角度確定目標(biāo)的位置以及類別,而且分析圖片中各目標(biāo)之間更深層的交互關(guān)系。本文使用了以實(shí)例為中心的注意力模型iCAN,同時(shí)結(jié)合了AlphaPose 檢測(cè)的人體關(guān)鍵點(diǎn)特征來提高檢測(cè)的準(zhǔn)確度,相較于加油站現(xiàn)有的人工巡檢方式節(jié)省了大量人力成本,具有一定的使用價(jià)值。
這一研究不僅可以在加油站場景中及時(shí)檢測(cè)到員工的違規(guī)操作,避免危險(xiǎn)的產(chǎn)生,同時(shí)基于人物之間的交互關(guān)系分析人類的行為,判斷這些行為的危險(xiǎn)性,可以對(duì)不法分子在公共場合下的危險(xiǎn)行為及時(shí)預(yù)警。隨著這一領(lǐng)域的不斷發(fā)展,隨之產(chǎn)生的應(yīng)用會(huì)為社會(huì)帶來更加穩(wěn)定和智能化的安全保障。