沈茂東,高 宏,付新陽,周 偉,張俊嶺,公凡奎,馮志珍
1(國(guó)網(wǎng)山東省電力公司,濟(jì)南 250001)
2(山東魯能軟件技術(shù)有限公司,濟(jì)南 250001)
3(中國(guó)石油大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,青島 266580)
電力復(fù)雜場(chǎng)景下人員的檢測(cè)跟蹤,對(duì)于預(yù)防人員違規(guī)及保證檢修人員的人身安全有極為重要的研究意義.目前流行的單目標(biāo)追蹤主要是Siamese 系列,在孿生網(wǎng)絡(luò)的基礎(chǔ)上通過增加改進(jìn)全連接層、區(qū)域候選網(wǎng)絡(luò)、Mask 分支來改進(jìn)目標(biāo)檢測(cè)的準(zhǔn)確度.本論文針對(duì)多目標(biāo)人員跟蹤現(xiàn)階段算法進(jìn)行了深刻的研究,對(duì)于電力場(chǎng)景下的人員檢測(cè)跟蹤方法相對(duì)較少,本論文針對(duì)電力檢修特殊場(chǎng)景下進(jìn)行行人追蹤,有效地提高人員目標(biāo)準(zhǔn)確率,緩解目標(biāo)之間的部分遮擋和位置突變問題.不同的視頻跟蹤算法,模型的建立與目標(biāo)的更新方式都不一樣.判定模型法對(duì)后驗(yàn)概率建模,對(duì)物體的跟蹤效果較好,但其運(yùn)算較復(fù)雜,判別式算法一般是通過分類器從圖像中找出與目標(biāo)表觀最為相似的區(qū)域[1].攝像頭下視頻跟蹤算法層出不窮,大致可分為生成式和判別式兩類.
對(duì)于生成式跟蹤方法,跟蹤成為了在目標(biāo)物體附近搜索最相似的區(qū)域.生成式可理解為先提取多目標(biāo)的特征,學(xué)習(xí)出代表相應(yīng)目標(biāo)的外觀模型,通過它依次搜索圖像區(qū)域進(jìn)行模式目標(biāo)匹配,在圖像中找到和模型最匹配的區(qū)域,即判別為目標(biāo)[2–4].生成式算法大致流程:輸入圖像序列并初始化目標(biāo)狀態(tài),提取目標(biāo)特征生成表觀模型,目標(biāo)表示,建立目標(biāo)模型,通過相鄰幀間的時(shí)空特性,定位目標(biāo)最可能出現(xiàn)的區(qū)域,在該候選區(qū)域提取目標(biāo)特征,與待跟蹤目標(biāo)進(jìn)行匹配,輸出目標(biāo)狀態(tài)[5–10].
傳統(tǒng)的跟蹤算法均屬于生成式跟蹤算法.卡爾曼濾波跟蹤方法是充分利用目標(biāo)在相鄰幀間的空間位置特性對(duì)目標(biāo)進(jìn)行快速預(yù)測(cè)定位.粒子濾波跟蹤方法是通過非參數(shù)化的蒙特卡羅模擬(Monte Carlo)方法實(shí)現(xiàn)遞推貝葉斯濾波,該類方法適用于非線性系統(tǒng).CamShift 算法是在MeanShift 基礎(chǔ)上改進(jìn)的可以很好的適應(yīng)多尺度變換的行人多目標(biāo)跟蹤算法.在目標(biāo)匹配問題上,當(dāng)目標(biāo)匹配不準(zhǔn)確時(shí)此方法容易引起檢測(cè)漂移[10–17].對(duì)于生成模型法,其跟蹤更新策略較簡(jiǎn)單,容易產(chǎn)生物體特征漂移等情況,跟蹤效果相對(duì)較差.
對(duì)于判別式跟蹤方法,通過訓(xùn)練分類器準(zhǔn)確區(qū)分檢測(cè)目標(biāo)與背景,訓(xùn)練出一個(gè)分類器從背景中區(qū)分出檢測(cè)目標(biāo)物體.目前大部分的深度學(xué)習(xí)方法普遍使用的分類器主要有KNN、SVM、AdaBoost 等分類器.近年來,基于相關(guān)濾波的跟蹤方法由于其運(yùn)行速度快而頗受歡迎,相關(guān)濾波類方法主要是通過將輸入特征回歸為高斯分布來對(duì)濾波器進(jìn)行訓(xùn)練,并且在后續(xù)的目標(biāo)跟蹤中尋找預(yù)測(cè)分布中的響應(yīng)峰值來定位目標(biāo)的位置.相關(guān)濾波器類算法巧妙地應(yīng)用快速傅里葉變換算法使其速度大幅提升[18–21].由于相關(guān)濾波算法在單目標(biāo)追蹤領(lǐng)域的成功應(yīng)用,提出核相關(guān)濾波算法把實(shí)數(shù)域的數(shù)據(jù)處理過程轉(zhuǎn)為頻率域處理,在處理速度上得到大大提升.
目前多目標(biāo)運(yùn)動(dòng)跟蹤算法大多是判別式方法,主要是從提升準(zhǔn)確性和追蹤速度兩個(gè)方面提升目標(biāo)追蹤.提升準(zhǔn)確性的算法有馬爾科夫決策模型[22](MDP)、卷積網(wǎng)絡(luò)的在線多目標(biāo)追蹤(AP_RCNN)[23]、多特征融合的相關(guān)濾波追蹤(MAP-RF)[24]等;提升追蹤速度的算法有交并比(IOU-tracker)[20,25](SORT)、深度關(guān)聯(lián)簡(jiǎn)單在線實(shí)時(shí)追蹤(DeepSORT)[26]等.
對(duì)于多目標(biāo)追蹤算法,一般準(zhǔn)確率和追蹤速度是呈反比的,如果僅利用目標(biāo)的位置狀態(tài)信息建立目標(biāo)運(yùn)動(dòng)模型追蹤速度相對(duì)較快,但實(shí)際追蹤效果的準(zhǔn)確性較差;當(dāng)考慮外觀模型進(jìn)行追蹤處理時(shí),追蹤準(zhǔn)確性雖會(huì)提升,但又會(huì)使處理速度相對(duì)減慢[5].某些方法雖然對(duì)網(wǎng)絡(luò)進(jìn)行集成,提高了對(duì)遺漏和遮擋的魯棒性,但多目標(biāo)在實(shí)時(shí)運(yùn)動(dòng)過程中遠(yuǎn)小近大而產(chǎn)生的尺度大小變化現(xiàn)象并沒有實(shí)際解決.本論文提出了基于改進(jìn)SSD的電力檢修多目標(biāo)人員跟蹤算法,根據(jù)目標(biāo)檢測(cè)、預(yù)測(cè)及匈牙利關(guān)聯(lián)算法確定當(dāng)前幀多目標(biāo)行人跟蹤位置.
電力檢修視頻下的人員安全監(jiān)控跟蹤,是大規(guī)模智能電力檢修監(jiān)控系統(tǒng)的重要研究方向.基于CSSD的電力檢修多目標(biāo)人員跟蹤算法引入模塊的出發(fā)點(diǎn)針對(duì)現(xiàn)階段基于攝像頭的目標(biāo)尺寸、遠(yuǎn)近和角度改變的特點(diǎn),通過增大感受野來加強(qiáng)網(wǎng)絡(luò)的特征提取性能,在結(jié)構(gòu)上增加了特征圖的融合,注重目標(biāo)的邊緣特征,使提取的特征細(xì)粒化,提高了多目標(biāo)檢測(cè)的準(zhǔn)確率和回歸率.網(wǎng)絡(luò)在前5 層中加入特征融合的模塊,前5 層直接采用VGG 網(wǎng)絡(luò),第6、7 層由全連接層改為卷積層,利于參數(shù)共享,便于計(jì)算.Conv1-2 采用64 個(gè)3×3×3 卷積核,邊緣填充padding=2,步長(zhǎng)為s=1,得300×300×64;最大池化max pooling為2×2,s=2,得150×150×64;Conv2-3,Conv3-4,Conv4-5 同樣采用3×3 卷積,卷積核數(shù)量分別為128、256、512,網(wǎng)絡(luò)結(jié)構(gòu)各個(gè)層級(jí)的卷積數(shù)量以及參數(shù)依次如圖1所示.
本文基于行人多目標(biāo)追蹤技術(shù)為基礎(chǔ),提出了一種CSSD 網(wǎng)絡(luò)來進(jìn)行模型的檢測(cè),并使用卡爾曼濾波跟蹤預(yù)測(cè)目標(biāo)位置狀態(tài),基于預(yù)測(cè)檢測(cè)框的位置和IOU的匈牙利算法來解決視頻前后幀目標(biāo)匹配問題.本論文利用CSSD 目標(biāo)檢測(cè)網(wǎng)絡(luò)對(duì)圖像序列進(jìn)行特征提取并進(jìn)行目標(biāo)檢測(cè),在Conv6(19×19)層之前進(jìn)行細(xì)化特征映射,該網(wǎng)絡(luò)主要在SSD 網(wǎng)絡(luò)[27]中引入1×1 Conv、2×2 pool、4×4 pool 3 個(gè)層進(jìn)行處理,將卷積層得到的特征層進(jìn)行2 次池化應(yīng)用于網(wǎng)絡(luò)前端的特征映射中,再將得到的特征圖融合在一起,將此模塊集成到SSD 網(wǎng)絡(luò)結(jié)構(gòu)的前端卷積層進(jìn)行卷積池化訓(xùn)練,在控制計(jì)算損失的情況下準(zhǔn)確度相對(duì)提高.

圖1 CSSD 網(wǎng)絡(luò)結(jié)構(gòu)圖
目標(biāo)定位損失采用如式(1),避免梯度爆炸.

置信度損失采用式(2)Softmax 損失函數(shù):

目標(biāo)定位損失和置信度損失之和,式(3)為CSSD網(wǎng)絡(luò)總損失函數(shù):

在結(jié)構(gòu)上CSSD 網(wǎng)絡(luò)整體上是基于SSD 網(wǎng)絡(luò)進(jìn)行改進(jìn),主要是在SSD的基礎(chǔ)上加入了卷積池化層,注重目標(biāo)的邊緣特征,加強(qiáng)網(wǎng)絡(luò)的特征提取性能,使提取的特征細(xì)?;?使用輕量級(jí)網(wǎng)絡(luò)來實(shí)現(xiàn)其高準(zhǔn)確性和高速率,改進(jìn)后的網(wǎng)絡(luò)檢測(cè)速度比較快,通過增加網(wǎng)絡(luò)的感受野加強(qiáng)網(wǎng)絡(luò)的特征提取能力有效提高對(duì)于小目標(biāo)的檢測(cè)識(shí)別,同時(shí)對(duì)于多目標(biāo)的檢測(cè)速度和識(shí)別精度也有一定的提高.網(wǎng)絡(luò)結(jié)構(gòu)類似于金字塔結(jié)構(gòu),網(wǎng)絡(luò)全部采用卷積層,加入的特征融合部分可以提高網(wǎng)絡(luò)結(jié)構(gòu)的感受野,網(wǎng)絡(luò)特征提取全部采用3×3的卷積核,而且通過特征圖的降采樣方法,小的特征圖對(duì)應(yīng)小目標(biāo),大大特征圖對(duì)應(yīng)大目標(biāo),隨著層數(shù)的加深,輸出特征圖尺寸變小,加強(qiáng)網(wǎng)絡(luò)特征提取性能,最后直接用卷積神經(jīng)網(wǎng)絡(luò)來識(shí)別檢測(cè)目標(biāo).輕量級(jí)模型部署簡(jiǎn)單便于優(yōu)化,有利于電力檢修復(fù)雜場(chǎng)景應(yīng)用.
基于CSSD的電力檢修多目標(biāo)匹配匈牙利算法解決人員多目標(biāo)跟蹤中的前后幀數(shù)據(jù)關(guān)聯(lián)問題,求得攝像頭視頻前后幀目標(biāo)匹配問題的組合優(yōu)化算法,實(shí)現(xiàn)人員的最準(zhǔn)確匹配問題.將置信度較高的目標(biāo)輸入匈牙利算法進(jìn)行匹配,這樣才能得到較好的結(jié)果.為進(jìn)一步提高跟蹤準(zhǔn)確率,跟蹤器也使用了多種方法對(duì)運(yùn)動(dòng)多目標(biāo)的外觀特征狀態(tài)進(jìn)行建模.
匈牙利算法用來匹配前后兩幀目標(biāo)進(jìn)行最大匹配,求出來的匹配不一定是飽和匹配,但卻是最優(yōu)關(guān)聯(lián)匹配.如圖2,t–1 幀的object{1,2,3,4,5,6,7}和t幀object{1,2,3,4,5}的人員匹配,匹配后object4 離開第t幀視頻.跟蹤人員目標(biāo)的過程中,因人員的運(yùn)動(dòng)速度不是恒定的,即人員目標(biāo)運(yùn)動(dòng)加減速,會(huì)產(chǎn)生相應(yīng)的噪聲.針對(duì)因噪音產(chǎn)生的檢測(cè)邊界框不準(zhǔn)確和檢測(cè)模型的非線性問題,本文采用卡爾曼濾波原理進(jìn)行處理,處理完噪音后,再進(jìn)行預(yù)測(cè)估計(jì)檢測(cè)框位置,采用簡(jiǎn)單的卡爾曼濾波原理結(jié)合改進(jìn)的SSD 網(wǎng)絡(luò)模塊,調(diào)整行人檢測(cè)的邊界框,有效提高目標(biāo)檢測(cè)框定位的準(zhǔn)確性.

圖2 匈牙利算法應(yīng)用
對(duì)于SORT 算法,直接采用匈牙利算法進(jìn)行目標(biāo)關(guān)聯(lián)分析,使用馬氏距離計(jì)算檢測(cè)物體和物體跟蹤之間的距離.忽略了被檢測(cè)物體的表面特征,且不能很好的解決長(zhǎng)時(shí)間被遮掩的物體關(guān)聯(lián)性問題[20].在DeepSORT中,采用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行人員大規(guī)模數(shù)據(jù)集提取特征和訓(xùn)練,使用最近鄰匹配算法,融合目標(biāo)運(yùn)動(dòng)信息和目標(biāo)特征信息的測(cè)量指標(biāo),有效改善了目標(biāo)追蹤過程中的遮掩問題[25].基于改進(jìn)SSD的電力檢修多目標(biāo)人員跟蹤在使用簡(jiǎn)單的卡爾曼濾波處理逐幀數(shù)據(jù)的關(guān)聯(lián)性的基礎(chǔ)上使用匈牙利算法進(jìn)行關(guān)聯(lián)度量,在電力檢修高幀速率視頻中獲得了良好的多目標(biāo)人員追蹤性能.
本論文中使用了CSSD 網(wǎng)絡(luò)來進(jìn)行模型的檢測(cè),并使用卡爾曼濾波方法跟蹤預(yù)測(cè)目標(biāo)的位置狀態(tài),預(yù)測(cè)檢測(cè)框位置,使用IOU 方法和匈牙利算法聯(lián)合來解決視頻連續(xù)前后幀目標(biāo)匹配問題.使得算法具有很高的效率.目標(biāo)追蹤流程圖3所示.
由于Kalman 濾波的自身特點(diǎn),使得目標(biāo)追蹤具有很好的準(zhǔn)確性和處理數(shù)據(jù)的快速性,本論文采用簡(jiǎn)單的卡爾曼濾波原理結(jié)合改進(jìn)的SSD 網(wǎng)絡(luò)模塊,調(diào)整行人檢測(cè)的邊界框,利用Kalman 濾波建立目標(biāo)的外觀模型,并將其融合到多目標(biāo)追蹤中,針對(duì)多個(gè)目標(biāo)建立多個(gè)追蹤器進(jìn)行目標(biāo)訓(xùn)練和檢測(cè).用計(jì)算目標(biāo)相似性距離解決目標(biāo)重識(shí)別問題,求目標(biāo)圖像的平均像素,當(dāng)兩個(gè)目標(biāo)平均像素誤差小于特定閾值時(shí),認(rèn)為是同一個(gè)目標(biāo).對(duì)于追蹤過程中目標(biāo)消失問題,本論文設(shè)定一個(gè)最大丟失時(shí)間,當(dāng)目標(biāo)丟失時(shí)間超過此閾值則認(rèn)為目標(biāo)消失,即追蹤結(jié)束.

圖3 目標(biāo)追蹤整體流程圖
訓(xùn)練模型時(shí)使用的軟硬件設(shè)備為顯卡:NVIDIA GeForce GTX 1080TI;CPU 版本 Intel Core i5-6500@3.2 GHZ×4;顯存:16 GB;Ubuntu 16.04 LTS 64 位操作系統(tǒng);CUDA8.0 版本.
(1)多目標(biāo)跟蹤準(zhǔn)確度MOTA (Multiple Object Tracking Accuracy):

MOTA 度量算法中,FN為False Negative,FP為False Positive,IDSW為ID Switch,GT為Ground Truth物體的數(shù)量.FNt、FPt、IDSWt分別是缺失數(shù)、誤判數(shù)和誤配數(shù).MOTA 考慮了追蹤中所有幀中目標(biāo)位置匹配錯(cuò)誤.MOTA 給出了一個(gè)非常直觀的衡量跟蹤器在檢測(cè)物體和保持軌跡時(shí)的性能,與物體位置的估計(jì)精度無關(guān).MOTA 以及MOTP是計(jì)算所有幀的相關(guān)指標(biāo)再進(jìn)行平均.
(2)多目標(biāo)跟蹤精度MOTP (Multiple Object Tracking Precision):

MOTP 主要量化檢測(cè)器的定位精度,是關(guān)于位置誤差的評(píng)判指標(biāo).dt,i表示第t幀下目標(biāo)和它配對(duì)假設(shè)位置之間的距離大小.MOTP 精度高低的好壞主要取決于度量距離d的定義方式,本論文中多目標(biāo)算法精度越大越好,且不包含與跟蹤器實(shí)際性能相關(guān)的信息.c為在當(dāng)前幀匹配成功的數(shù)目.
(3)MT (Mostly Tracked):正確跟蹤軌跡占80%以上的百分比,在所有跟蹤目標(biāo)中所占的比例.
(4)ML (Mostly Lost):目標(biāo)跟丟的軌跡占20%以下的百分比,在所有跟蹤目標(biāo)中所占的比例.
(5)Recall:召回率是指正確匹配的檢測(cè)目標(biāo)數(shù)占總的正例的比重.
(6)Precision:精確度是指追蹤時(shí)正確匹配的檢測(cè)目標(biāo)數(shù)/檢測(cè)出的總目標(biāo)數(shù).
(7)FM (Frag Mentation):每當(dāng)軌跡將其狀態(tài)從跟蹤狀態(tài)改變?yōu)槲锤櫊顟B(tài),并且在稍后的時(shí)間點(diǎn)跟蹤相同的軌跡時(shí),就會(huì)對(duì)FM 進(jìn)行計(jì)數(shù).跳變數(shù)是指跟蹤軌跡從“跟蹤”到“不跟蹤”狀態(tài)的變化數(shù).FM 計(jì)算的是跟蹤有多少次被打斷(即Ground Truth的track 沒有被匹配上).
本文對(duì)幀差法、GMM、ViBe、SORT、DeepSORT等算法在MOT2017 數(shù)據(jù)集上進(jìn)行了測(cè)試,測(cè)試結(jié)果如下,經(jīng)過試驗(yàn)對(duì)比表明基于CSSD 網(wǎng)絡(luò)的人形多目標(biāo)追蹤算法在追蹤準(zhǔn)確率上表現(xiàn)最好,如表1.

表1 各算法性能對(duì)比
對(duì)比了其它方法的差距,基于CSSD 網(wǎng)絡(luò)的多目標(biāo)追蹤方法在公開行人視頻數(shù)據(jù)集上測(cè)試取得了優(yōu)化,特別是在MOTA和MOTP 測(cè)試上算法滿足可靠魯棒性.經(jīng)實(shí)驗(yàn)測(cè)試表明,本方法在電力設(shè)備場(chǎng)景下取得了人員跟蹤檢測(cè)在準(zhǔn)確率和速度兩方面最優(yōu),跟蹤時(shí)可有效處理視頻幀中人員遮擋問題.以下是SORT、Deep SORT 及CSSD 算法截取連續(xù)幀的實(shí)驗(yàn)效果圖,如圖4.

圖4 算法對(duì)比效果圖
圖4中綠色代表ViBe 算法的追蹤;紫色代表DeepSORT 算法的追蹤;紅色是本文方法,圖4(a)、圖4(b)為MOT2017 數(shù)據(jù)集上的測(cè)試結(jié)果,圖4(c)、圖4(d)為電力現(xiàn)場(chǎng)數(shù)據(jù)集上的測(cè)試結(jié)果.實(shí)驗(yàn)分析表明本論文算法目標(biāo)跟蹤平均速度22 fps 接近實(shí)時(shí),能夠有效緩解追蹤時(shí)因?yàn)楸碛^突變或者部分遮擋導(dǎo)致的準(zhǔn)確率下降問題,小目標(biāo)跟蹤精度和準(zhǔn)確率都大大提升,能最大程度的適應(yīng)目標(biāo)的尺寸、遠(yuǎn)近和角度改變等.
本文基于改進(jìn)SSD 網(wǎng)絡(luò)的電力檢修多目標(biāo)人員跟蹤算法,構(gòu)建目標(biāo)追蹤外觀模型,利用圖形檢測(cè)建模,構(gòu)建目標(biāo)追蹤的運(yùn)動(dòng)模型,利用位置信息追蹤,結(jié)合空間和時(shí)間多策略的匹配對(duì)電力檢修特定場(chǎng)景的目標(biāo)追蹤有了很大提升.攝像頭采集到大量視頻數(shù)據(jù),主要任務(wù)為檢測(cè)圖片中是否存在人員目標(biāo),可在各種復(fù)雜場(chǎng)景中快速實(shí)時(shí)的檢測(cè)到圖片中的工作人員,是一種魯棒性的目標(biāo)檢測(cè)追蹤算法.本論文結(jié)合實(shí)際項(xiàng)目需要,具體項(xiàng)目已部署于電力場(chǎng)地,為促進(jìn)國(guó)民企業(yè)發(fā)展提供強(qiáng)有力的理論依據(jù)和技術(shù)支撐.