李福進 李軍 宮海洋



摘要:針對粒子濾波目標跟蹤過程中初始化和權值退化的數據處理情況,在粒子濾波框架下提出一種基于稀疏子空間的卷積神經網絡目標跟蹤算法。以仿生學為基礎,在目標跟蹤過程中引入稀疏子空間和卷積神經網絡。首先,利用稀疏子空間模型篩選出與目標狀態相似度較高的候選區域進行后續跟蹤處理,減少冗余計算并降低跟蹤的復雜性;然后,將稀疏子空間輸出用作卷積神經網絡的輸入,并利用卷積神經網絡模型對圖像數據處理的優點進行目標跟蹤的數據處理;最后,通過對目標數據的不斷更新來減少目標表觀變化的影響。實驗表明,該算法能夠更好地處理目標跟蹤中的目標遮擋、運動模糊、光流與尺度變化,提高算法的準確性和數據處理能力。
關鍵詞:稀疏子空間;卷積神經網絡;粒子濾波;目標跟蹤;相異系數矩陣
中圖分類號:TP18 文獻標志碼:A 文章編號:1674-5124(2019)07-0122-06
收稿日期:2018-05-16;收到修改稿日期:2018-07-08
基金項目:國家自然科學基金(61203343);河北省自然科學基金(E2014209106);河北省高等學??茖W技術研究青年基金項目(QN2016102,QN2016105)
作者簡介:李福進(1957-),男,河北唐山市人,教授,碩士生導師,博士,主要研究方向是智能控制與智能儀表。
0 引言
目標跟蹤是用來估計視頻中所標記的目標狀態過程。以圖像處理技術為核心,在計算機視覺領域中目標檢測、目標跟蹤、目標識別、三維重建、姿態估計等一直是非常熱門的研究方向。2013年,Wang等[1-2]針對目標跟蹤準確性問題提出LDSs算法,通過聚類和噪音壓制的一系列方法,在UCF體育和電影數據方面有很大提高。2014年,張才千等[3]提出了基于目標跟蹤的粒子群粒子濾波算法,通過粒子群實現粒子優化使大部分粒子移動到密集分布區域,通過實驗驗證了粒子的濾波能力有明顯提高。2014年,許倫輝等[4]提出一種改進粒子濾波對人物跟蹤的應用,在粒子濾波的基礎上提出融合權值繁衍和遺傳算法相結合,使得算法以相對少的計算量得到更高的準確度,較好地解決粒子濾波算法中初始化與重采樣過程帶來的誤差問題。2015年,許婉君等[5]提出顯著性模型和稀疏編碼結合來檢測遙感圖像,將特征矩陣作為訓練對象來形成模型,并構建GBVS,SR,SDS,FT,WSCR顯著圖。當前比較流行的LRSP算法[6]在2016年由陳蕓等提出,改進了傳統算法,提高對大尺度目標進行跟蹤的準確性。
針對目標跟蹤的魯棒性和準確性,本文提出一種基于稀疏子空間的卷積神經網絡目標跟蹤算法研究,仿照人眼視覺神經系統[7],能快速有效地定位重要的目標并進行分析,通過聚類映射數據并學習分類器,粒子濾波用于實現在線跟蹤目標。在實驗環節,將本文所提出的跟蹤算法與相關的跟蹤算法的跟蹤性能對比,通過定量和定性分析,驗證算法的有效性。
1 粒子的稀疏子空間表示
人類視覺的認知能力非常強,其注意機制可以在惡劣的環境下準確識別和跟蹤目標。人類視覺系統研究的主要目的是讓計算機模擬人的思維活動以優化算法提高精度與效率,在復雜環境中做出一定的決策。有研究[8-9]表明,人類視覺被某個物體所吸引時,只有少量的神經元被激活,大多數神經元則處于睡眠狀態。這表明當觀察目標時,可用少量的神經元來對目標進行表示。稀疏表示受人類視覺系統的工作特點啟發,是信號處理領域的熱點之一,廣泛應用于模式識別[10-11]。
稀疏即是將高維空間數據映射到低維空間中,已知源數據X={x1,x2,…,xM}和目標數據Y={y1,y2,…,yN),利用度量標準計算源數據與目標數據之間的相似性。假設D為一相異矩陣,D=[d1,d2,…,dM]T,D里的每個列向量均為相異系數矩陣,即:式中M、N分別為源數據和目標數據中元素的個數;di,j示xi與yj相似程度,用歐氏距離計算,di,j值越小說明相似程度越高,在實際中的跟蹤效果越好。稀疏子空間建模為:假設存在一個概率矩陣Z∈RM×NZ中的元素zi,j與元素di,j一一對應,用相異性矩陣D求解概率矩陣Z,通過以下優化問題求解:式中‖.‖p表示‖l‖p范數;I(t)表示指示函數,當t=0時,函數值為0,否則值為1;λ>0,為平衡前兩項約束的參數;ωj>0,是懲罰因子;ej∈[0,1],表示yj是奇異元素的概率。公式(2)可以通過乘數交替方向算法求解。當源數據中的xi對應的系數矢量zi滿足max(zi)>μ‖zi‖1,則xi為子集合中的元素,文中μ取值為0.2。目標數據Y中yj可以用子集合中的元素稀疏表示:
δyj=argmaxzi,j,i∈{l1,…,lC}(3)式中δyj∈[1,…K]表示目標數據Y中yj的類別,K為聚類中心數量;C為子集合中元素的數量。子集合的類別定義為系數矢量的最大值所對應的目標數據的類別。通過式(2)和式(3)可將候選區域聚類同時將目標數據分配類別,使得后續處理中冗余計算降低并減少計算的復雜度。
2 卷積神經網絡結構
卷積神經網絡(CNN)[12-13]是由貓的視覺系統得到啟發發展而來,只有部分鄰層神經元鏈處于興奮狀態,神經元的感知區域只感知局部而不是整個圖像。CNN具有3個重要的思想架構分別為:局部區域感知,權重共享,空間或時間上的采樣。
局部區域感知就是提取局部特征并得到某特征的空間分布。CNN的每一層通過多個特征map構成,每一層都能得到不同層級的表達式。權值策略的應用降低預訓練參數,模型抗干擾能力和泛化作用進一步提高。采樣的目的主要是混淆特征的具體位置,對變形和扭曲的圖片進行識別。
卷積神經網絡由卷積層提取出局部基本特征,由池化層進行組合構成更加抽象的特征,最后產生可以對圖片對象直觀描述的特征。圖1為卷積神經網絡的示例圖。
將卷積網絡學習得到的第1層特征輸出,如圖2所示,圖中包括不同朝向與不同頻率的邊緣特征與顏色特征。
卷積層經過池化過程處理進入池化層,池化層計算窗口無重疊,Toolbox計算池化用卷積(conv2(A,K,'valid'))來實現,卷積核大小為2X2,元素為原來1/4,刪除計算結果中的重疊部分,如圖3所示。
通過全連接層,將卷積后的圖片轉化成向量形式,每個像素作為神經元節點。卷積層和池化層對圖像數據的交替處理,大大提高了多維數據的處理能力。
3 粒子濾波框架
在本節中,基于上述外觀模型,在粒子濾波的框架下,提出了一種基于稀疏子空間的卷積神經網絡跟蹤算法?;舅枷胧菍⒒贑NN的稀疏子空間外觀模型有效地融入到粒子濾波框架中,該框架通過Monte Carlo采樣實現遞歸貝葉斯濾波。粒子濾波器主要是通過隨機采樣得到相關權重的粒子表示后驗密度,粒子的權重決定了粒子的重要性。
粒子濾波器有兩個主要部分:1)狀態模型:根據以前的粒子生成候選樣本;2)觀察模型:計算候選樣本的權值。給定對象對應時間的所有觀測值y1:t=[y1,…,yt],基于粒子濾波器的跟蹤系統的目的是估計p(xt|y1:t),它是目標狀態的后驗密度,用貝葉斯理論后驗概率p(xt|y1:t)可以表示為
P(xt|y1:t)∝p(yt|xt)∫p(xt|xt-1)p(xt-1|y1:t)dxt-1(4)其中p(xt| xt-1)是狀態模型,P(Ytl xt)是觀測模型。積分的計算通過蒙特卡羅采樣在粒子濾波器中進行。也就是說后驗概率p(xt由一組粒子和相關的權重表示。最后,在t時刻最優對象狀態xt*可以通過最大后驗估計來確定:式中xt=(ptx,pty,ωt,ht),表示包括水平坐標、垂直坐標、寬度和高度在內的對象狀態參數。
p(xt|xt-1)=N(xt:xt-1,∑)(6)其中∑是對角協方差矩陣,對角元素是相應參數的相應變化。對于每個狀態xt,將圖像塊標準化為32×32像素的對應圖像塊。基于提出的稀疏子空間的卷積神經網絡計算似然函數p(yt|xt)模型:
p(yt|xt)= exp(dt)(7)
目標狀態表觀由于會受到光流、視角和障礙物形變等不可抗因素的影響,隨著時間的推移首幀信息形成的目標模型已不能適應當前的變化,可能導致跟蹤的失敗。為了捕獲外觀變化,似然函數需要隨時間適應稀疏子空間的卷積神經網絡外觀模型更新,以達到良好的跟蹤效果。為使得跟蹤方法更加有效,在實驗時每過5幀進行一次判斷,置信度最大的粒子小于設定的閾值T(0.75)時進行更新,權重計算方法采用文獻[10]中的方式。在每次更新時,保留首幀指定的目標模板,降低漂移現象的產生。實驗結果表明,此更新方法與本文提出的基于稀疏子空間的卷積神經網絡模型結合,能夠準確捕捉表觀變化,獲得更加準確的結果。
4 實驗過程及結果分析
4.1 跟蹤過程的流程圖與實驗步驟
實驗步驟:
初始化階段(t=1):
1)在基于稀疏子空間的卷積神經網絡模型中預訓練數據;
2)手動獲取第1幀的目標標簽;
3)采集正負樣本分別記為得到相應的模板;
4)調整每個模板的大小為32×32;
5)微調模型中的預訓練正負樣本;
6)初始化粒子濾波的目標狀態和權重
7)設置相似度閾值T。
跟蹤階段:t=2:N
1)預測:for i=1,…,N1生成xti~p(xt|xt-1i);
2)可靠性估計:for i=1,…,N1,得到ωti=ωt-1ip(yt|xti):
3)檢測目標的最優狀態xt*并賦予粒子最大的權重;
4)重采樣:歸一化權重并計算歸一化權重的協方差,如果該方差超過設定閾值則用最大權重的粒子替換最小權重的粒子。
5)當t為5的整數倍時,判斷相似度大小,若相似度值小于設定的值T時,則進行模板的更新。
目標跟蹤流程如圖4所示。首先獲取第一幀圖像,通過粒子濾波器進行粒子的采樣和分類,將基于CNN的稀疏子空間外觀模型有效地融入到粒子濾波框架中,根據N的值判斷相似度對模板進行更新。
4.2 實驗結果與分析
仿真實驗在Intel(R)COre(TM)i3-2310M CPU@2.10GHz電腦配置下通過對http://cvlab.hanyang.ac.kr/tracker_benchmark視頻數據庫的視頻序列進行Matlab仿真完成。用以驗證本文提出基于稀疏子空間的卷積神經網絡目標跟蹤算法。meanshift算法是一種具有一定代表性的經典目標跟蹤算法,基于IVT的目標跟蹤算法在以往的證明中效果相對最優,為驗證算法的有效性,比較了meanshift目標跟蹤算法和基于IVT的目標的仿真結果。仿真結果如圖5和圖6所示。在設置參數時,將文中測試閾值設置為0.75,通過大于閾值的部分可以反映跟蹤效果。實驗設計包括目標尺寸變化和短期目標遮擋下的目標跟蹤。通過定性和定量分析跟蹤算法證明了該算法在整體跟蹤性能方面的優越性。
定性分析:
實驗1:圖5中黑色線框為本文算法,綠色框為meanshift跟蹤算法,藍色框為基于IVT跟蹤算法,在沖浪者視頻序列中,角色的上半身被選擇作為跟蹤目標,并且目標的初始位置是x5=(27713560120)。主要特點是目標位置在場景中變化和旋轉并伴有尺度變化,選取1375幀,實驗結果包含了視頻幀中的50,90,170,240幀。
實驗2:圖6黑色線框是本文的算法,綠色框是meanshift目標跟蹤算法,藍色線框基于IVT目標跟蹤算法,在所選擇的視頻序列中,選取人臉為目標,并且目標的初始位置為x0=(120557595)。主要特點是隨著照明強度發生變化對目標追蹤的影響。選取視頻1~350幀,實驗結果包含了視頻幀中的50,90,170,240幀。仿真結果表明,該算法在復雜條件下追蹤效果最好。
4.3 定量分析
圖7~圖9分別是本文算法與IVT目標跟蹤和meanshift目標跟蹤算法跟蹤過程中的穩定曲線。在Matlab中用tic與toc口令計算對同一個視頻序列(為節約時間只計算前350幀)進行跟蹤的時間,圖7用時18.1172s,圖8用時24.6273s,圖9用時28.7644s。根據實驗時間本文算法在時間上得到提高,證明跟蹤的快速性得到改善。在受到外部干擾的情況下,根據穩定曲線圖分析,本文算法的波動幅度最小,證明穩定性得到提高。
圖10為根據對比參數準確度A和中心誤差E得到的仿真圖。式中n(p)表示中心位置點小于設定閾值p的幀數;Nf為總幀數,本文中取值為350;XC和YC為實際和跟蹤結果的中心坐標。由圖可以看出,該算法在準確度和中心誤差方面優于其他兩種算法。
5 結束語
本文在粒子濾波框架下提出一種基于稀疏子空間的卷積神經網絡目標跟蹤算法。該算法可以較好地處理局部遮擋、光照變化和尺度變化的影響,有著對多樣本數據處理速度的優越性能,增強濾波模板目標和背景的分類能力。在復雜情況下,相比于meanshift目標跟蹤算法和IVT的目標跟蹤算法進行了仿真驗證和分析。稀疏子空間模型對候選區域進行跟蹤處理后,可縮短運算時間,減少計算量,具有較好的目標跟蹤效果。當出現遮擋,光照和背景干擾的問題,卷積神經網絡能很好地克服外界帶來的干擾,準確進行跟蹤,從而驗證了算法的魯棒性和準確性,在目標的識別和跟蹤應用中具有一定實用價值。
參考文獻
[1]WANG H,YUAN C,LUO G,et al.Action recognition usinglinear dynamic systems[J].Pattern Recognition,2013,46(6):1710-1718.
[2]YANG S,YUAN C,WAN(;H,et al.Combining sparseappearance features and dense motion features via random forest for action detection[C]//IEEE International Conferenceon Acoustics:IEEE,2013.
[3]張才千,葛磊,韓東.基于目標跟蹤的粒子群粒子濾波算法研究[J].計算機仿真,2014,31(8):392-396.
[4]許倫輝,叢曉野.改進粒子濾波對人物跟蹤的應用[J].計算機仿真,2014,31(1):344-347.
[5]許婉君,侯志強,余旺盛,等.基于顏色和空間信息的多特征融合目標跟蹤算法[J].應用光學,2015,36(5):755-761.
[6]陳蕓,吳飛,荊曉遠,等.魯棒低秩稀疏表示的在線目標跟蹤[J].計算機工程與設計,2016,37(4):1062-1066.
[7]趙二群.視覺神經系統仿生模型及其應用研究[D].長沙:湖南大學,2014.
[8]HINAULT T,DUFAU S,LEMAIRE P.Strategy combinationin human cognition:a behavioral and ERP study inarithmetic[J].Psychonomic Bulletin&Review,2015,22(1):190-199.
[9]OLSHAUSEN B A,FIELD D J.Natural image statistics andefficient coding[J].Network,2009,7(2):333.
[10]王保憲,趙保軍,唐林波,等.基于雙向稀疏表示的魯棒目標跟蹤算法[J].物理學報,2014(23):174-184.
[11]YIN H.Sparse representation with learned multi-scaledictionary for image fusion[J].Neurocomputing,2015,148(148):600-610.
[12]DONG C,CHEN C L,HE K,et al.Image super-resolutionusing deep convolutional networks[J].IEEETransactions onPattern Analysis and Machine Intelligence,2016,38(2):295-307.
[13]KRIZHEVSKY A,SUTSKEVER I,HINTON G E.Imagendclassification with deep convolutional neural[C]//Advances inNeural Information Processing Systems,2012.
(編輯:莫婕)