韓開旭,袁淑芳
(1. 北部灣大學電子與信息工程學院,廣西 欽州 535011;2. 北部灣大學理學院,廣西 欽州 535011)
在視頻文件分析過程中,視覺跟蹤是一個至關重要的環節,尤其是在安全監督、視頻壓縮和機器人視覺系統等方面更是尤為重要。雖然相關科研人員從未停止對視頻跟蹤的研究,但是由于各種噪聲、目標姿態變化和光照改變等因素,依舊是科研過程中的技術難題,尤其當視覺跟蹤的目標是非剛性物體時,跟蹤過程困難度更大。
陳國軍等人[1]提出了基于深度學習的單目視覺圖像目標跟蹤方法,采用訓練過的深度卷積神經網絡算法計算視頻中的每個圖像的傳輸圖,從而實現視覺跟蹤。但是該方法存在一定的弊端,當圖像背景較復雜,或者目標姿態和光照突然改變時,將會導致漂移,難以準確地跟蹤目標。蒲磊等人[2]提出了基于空間可靠性約束的魯棒視覺跟蹤方法,利用預先經過訓練的卷積神經網絡模型提取目標的多層深度特征,與各層的濾波器進行加權融合,從而實現視覺跟蹤。但是在圖像復雜的情況下,難以對圖像作出全面的描述或者分離出目標,往往會出現目標漂移的情況。
基于此,本文提出了基于深度學習的雙閾值圖像局部分塊視覺跟蹤方法,并通過仿真驗證了該方法的可行性與有效性。
深度卷積神經網絡(Fully Convolutional Networks,FCN)是基于深度學習的一種網絡模型,被廣泛應用于圖像分割。FCN有以下幾點優勢:
1)用卷積層替換全連接層,實現端到端的卷積網絡訓練。
2)為使圖像達到像素級分割,對圖像中全部的像素特征進行預測分類。但是針對視覺環境較復雜的圖像,FCN網絡結構上采樣依然采取最簡單的反卷積方式,導致無法識別到圖像的細節特征,最終分割的圖像輪廓模糊,粘連較嚴重。
為此提出使用Mask R-CNN,其作為一種實例分割(Instance segmentation)方法,把感興趣區域(Region of Interest,ROI)作為深度卷積神經網絡的網絡分支,實現對目標圖像的實例分割。為保留目標空間位置坐標的精度,Mask R-CNN網絡用ROIAlign操作替換ROIPool操作。對于空間量化特征提取錯位的層,ROIAlign可以起到修正作用。雙線性差值使輸入網絡和輸出網絡之間的空間位置精度保持不變,對應ROI bin上的坐標值。使判斷類別(Class)與輸出掩模(MASK)之間的依賴關系降為最低,實現對其中每一個目標單獨地用平均二值交叉熵損失預測二值掩模,降低了類別之間的競爭力,提高了圖像分割的效率。
在Mask R-CNN網絡結構的基礎上,還對網絡深度和網絡寬度進行了優化調整,在給定的訓練參數上進行遷移學習。以分割目標圖像為基礎,通過求出不同層數和不同卷積核之間的分割準確率來得到最優網絡參數和網絡模型。
最終本文確定最優網絡模型為PigNet網絡結構,對Mask R-CNN網絡結構在卷積層和類別數方面作出兩點優化改進:
1)對于圖像中不同的目標區域,Mask R-CNN網絡第四階段由原來的69層卷積層變為12層,一方面可以降低特征損耗,另一方面還可以降低卷積運算量。
2)Mask R-CNN網絡的Mask分支最后一層卷積層類別數優化調整為PigNet類和background類兩類。具體結構如圖1所示。

圖1 PigNet網絡結構十一圖
PigNet網絡結構由五個階段、四十四個卷積層構成,所有卷積層均采用殘差學習結構。其中每條弧線包含3個卷積層,1×1×64層表示卷積核為1×1、通道數為64的卷積層。殘差學習結構在很大程度上減少了參數數量,使計算更加簡單的同時保持了目標的空間位置精度不變。通過網絡圖弧線部分,殘差學習結構將輸入的信息直接傳輸給后面的層,也降低了部分特征損耗。殘差學習結構還可以把每一層卷積層的滑動步長由原來的2個像素縮小為四分之一,同時輸出通道數不斷的增加,直到2048為止。
在PigNet主干網絡結構上涉及到兩種特征提取過程[3]:其中一方面是通過候選區域網絡(Region proposal networks,RPN)對網絡模型conv4_12卷積層輸出的特征圖(Feature map)作出分析處理,提取所需的特征信息;另一方面,它向前傳播生成特征映射。RPN可以用最快的速度選取感興趣區域。
PigNet網絡的損失函數L主要由三部分分類誤差Lcls、檢測誤差Lbox、分割誤差Lmask構成,公式如下
L=Lcls+Lbox+Lmask
(1)
式中,Lcls、Lbox處理全連接層以此來預測所有感興趣區域的所屬類別和目標空間的回歸框坐標值。Lmask分割并對每一個感興趣區域的目標圖像賦予掩模。選擇圖像中所有感興趣區域類別為pig類的目標圖像,這樣在繼續計算對區域分割產生的損失函數時只需要考慮pig類的相對熵誤差即可。為了避免類別間競爭,計算pig類的相對熵誤差時不考慮background類。Lbox主要作用是保證目標圖像回歸框的位置坐標不發生偏離。Lmask則用來確保目標圖像生成掩模的精準度。Class分支預測感興趣區域類別為pig類,那么Lmask只需要對pig類別預測像素點,保證目標圖像輪廓分明,不發生粘連的情況,以此來保證不同層深度上的輪廓位置坐標信息的精準度,使圖像可以實現精準的分割。本文PigNet網絡模型由卷積計算得到2個感興趣區域,Lbox用來預測目標空間回歸框的位置坐標,Lmask利用平均二值交叉熵損失函數與Sigmoid函數的結合,可以單獨地預測目標空間回歸框的位置坐標形成一個二值掩模。分割圖像用兩種不同顏色的掩模表示,放在兩個不同的層深度中。即使分割目標更多的圖像,PigNet模型也會對每個分割目標形成相對應的二值掩模。
概率潛在語義分析(probabilitistic latent semantic analysis,PLSA),最開始在文本分類和信息檢索領域應用甚廣,隨著研究的不斷深入,在機器視覺領域也得到迅速發展。它主要用來發現圖像分割區域中的“主題”部分。這里本文依然使用原始術語“文檔”、“主題”、“詞匯”等描述PLSA模型。“文檔”表示分割塊,“主題”表示閾值信息,屬于潛在的中間變量,“詞匯”表示分割圖像中的視覺詞匯。
由于目標遮擋、光照等條件改變會對閾值圖像產生影響,為了降低這種影響帶來的檢測誤差,本文主要對圖像的SIFT(quick scale invariant feature transform)特征進行提取,并利用k-means算法對提取的SIFT特征進行類聚,每個聚類中心為一個視覺單詞,用BOW對直方圖視覺詞匯進行描述。
圖像分割塊用Di={d1,d2…,dNi}(i=1,2,3)表示,其中N表示被分割個數,基于k-means算法聚類可得到M個視覺詞匯{x1,x2…,xM},n(di,xj)表示某個視覺詞匯在某個分割塊di(i∈1,…N)中的數量;如果存在k個潛在主題(z1,z2…,zk),那么每個分割塊中每個視覺詞匯都有一個可能的主題變量zk(k=1,…,k)與之相關聯。聯合概率為p(xj,di,zk),通過對主題的邊緣求和可確定條件概率p(xj|di)

(2)
式(2)中,di表示分割塊,zk表示主題,xj表示視覺詞匯,P(zk|di)表示在di中zk出現的概率;P(xj|zk)表示zk中xj出現的概率,PLSA模型圖如圖2所示。

圖2 PASA模型
代入EM算法可求出PLSA模型參數。EM算法可以用來估算主題分布,利用極大似然原則對潛在變量模型參數的標準過程進行估計。本文通過EM算法求得最大條件概率P(zk|di,xj)。
最后分析主題與分割區域的對應程度,利用KL(Kullback-Leibler)算法對每個分割區域進行加權,可以看出分割區域出現亮度不一致的圖塊,在這些分割區域中選出亮度較高的圖塊作為閾值圖像進行提取。


(3)


(4)
對于式(4)中的p(st|rt),可通過閾值的狀態信息估算出st的值。對于已知的閾值圖像的空間位置信息,可通過計算得出st的條件概率,st的條件概率p(st|rt)為

(5)

(6)

(7)


(8)

(9)
那么式(9)的等效形式可以用lg函數的單調性表示為

(10)

(11)
為驗證本文設計的基于深度學習的雙閾值圖像局部分塊視覺跟蹤方法的實際有效性,在MATLAB環境中設計如下仿真加以驗證。
在仿真中,選取Seq_mb圖像序列、Skating2圖像序列和Shaking圖像序列作為實驗對象,分別用本文方法與文獻[1]、文獻[2]方法對其進行視覺跟蹤,最終確定在姿態變化、光照變化、部分遮擋等條件下三種方法的最優結果,并以目標平均中心位置像素誤差為衡量標準。
三個圖像序列的詳細信息如表1所示。

表1 仿真中應用的圖像序列描述
不同方法的仿真結果如圖3所示。

圖3 三種圖像序列跟蹤誤差曲線
從圖3中可以看出,相比文獻[1]、文獻[2]方法,本文方法的誤差更小。圖4(b)中,由于圖像中姿態大幅度變化,文獻[1]、文獻[2]方法的跟蹤區域逐漸漂移甚至丟失,而本文方法表現出了較高的一致性;圖4(c)中,由于視頻中光照改變,目標部分遮擋導致文獻[1]、文獻[2]方法視覺跟蹤效果變得極差,但是本文方法一直處于穩定跟蹤目標的狀態。
仿真結果表明,在復雜的視覺環境下,本文方法較文獻[1]、文獻[2]方法相比跟蹤誤差更小,證明本文方法跟蹤效果更好。
本文提出了一種基于深度學習的雙閾值圖像局部分塊視覺跟蹤方法。以深度卷積神經網絡為基礎構建PigNet網絡,有效地解決了復雜視覺環境下對圖像的分割。利用PLSA算法類別估計分割區域,貝葉斯算法跟蹤閾值圖像,并利用EM算法進行優化,完成視覺跟蹤任務。通過仿真結果證明了本文方法比文獻[1]、文獻[2]方法更有優勢,在視覺跟蹤方面準確性更高。但本文方法對于粘連較嚴重的圖像在分割跟蹤任務方面仍有不足,需要做更深入的研究。