范 潔,謝 鑫,陳戰勝
(北京聯合大學應用科技學院,北京 100101)
現階段計算機智能監控技術[1]的快速發展,視頻序列中目標檢測定位已成為現下圖像處理領域的關鍵技術之一。隨著科技的發展,人們想要獲得的信息越來越多且信息的詳細度要求更高,因此如何加強目標個體定位技術,以滿足社會現實需求成為現下研究領域中較為重要的課題[2]。
相關領域專家得到的較好成果如下:文獻[4]提出了一種基于擴展卡爾曼濾波(EKF)的目標定位算法。根據視頻平臺鎖定跟蹤目標的特性,對同一目標進行多次測量。依據組合姿態信息結合地球橢球模型,確定目標的視軸指向,建立狀態方程和測量方程,最后利用擴展卡爾曼濾波實現視頻目標定位。但是該方法的視頻目標姿態映射效果較差,應用過程較為復雜,導致目標定位結果存在較大誤差。文獻[5]針對目標快速運動、遮擋等復雜視頻場景中,目標跟蹤魯棒性差和跟蹤精度低的問題,提出一種基于多層卷積特征的自適應決策融合目標識別跟蹤算法。首先提取卷積神經網絡(CNN)中幀圖像的多層卷積特征,改善網絡單層特征表征目標信息不全面的缺陷,增強算法的泛化能力;同時使用多層特征計算幀圖像相關性響應,提高算法的目標姿態跟蹤精度;最后該方法使用自適應決策融合算法將所有相應中目標位置決策動態融合以定位目標。融合算法綜合考慮生成響應的各跟蹤器歷史決策信息和當前決策信息,以保證算法的魯棒性。該方法的視頻目標姿態跟蹤效果較好,但是存在復雜度高、定位精度不理想問題。
雖然上述兩種傳統方法能夠對視頻動態幀中目標進行定位,但在實際操作過程中,都具有定位精度不夠理想且未有效消除噪聲干擾導致定位不精準。基于此,提出新的關鍵姿態映射下視頻動態幀目標定位方法。根據核密度估計理論建立非參數模型。獲取連續多幀微分法確定像素點和背景模型的概率分布,使方法在一定程度上克服了諸如光、振動等因素的干擾,并且定位精度更高。
核密度估計[6]在一般情況下作為數學估計方面的數理統計工具,在圖像領域中該方法不用圖像背景的特征分布形式,也能在核函數統計結果中選取出合適的數據矩陣,并且求解出矩陣中每個不同的概率分布,然后根據結果構建出數據樣本以及空間中的分布模型。
在目標區域的個體劃分和提取特征過程中,由于存在外界非自然環境影響和自然噪聲干擾,取得結果不夠精準。而常規方法往往忽略了先驗知識步驟,導致在樣本足夠的情況下,核密度估計無法逐步收斂。因此本文首先設定先驗知識,使所提方法在視頻通用性方面更有效地提取動態目標。
假設存在某一維空間,并且空間數據點有n個,用R=(x1,x2,…,xn)表示,在R集合中取獨立分布隨機變量,而對應變量是一個完全滿足于分布密度函數的條件變量p(x),那么在任意x(x∈R)的核密度估計為

(1)
式(1)中K(·)為核函數,而n和h則分別表示數據點數量與光滑參數[7],以每個采樣點為中心的局部函數加權平均效應為數據塊的估計概率密度函數值。在實際計算的過程中,K(·)都會選擇以零為中心點,且具有部分支撐點的概率密度函數取值,核函數具體取值如下表1:


(2)

這樣根據式(2)便可得知核密度估計,是由視頻序列中每個像素進行加權平均處理后得知概率密度分布[8]的,而高斯函數則可以表述出樣本概率的具體分布密度,從而可以確定函數的平滑、連續和最小密度,以便對小樣本產生良好估計效果。那么式(2)可以進一步寫為

(3)
在實際應用中,核函數的帶寬取值是非常重要的,因為該取值會直接影響計算的最后結果以及圖像顯著性區域檢測的精準度。樣本密度分布曲線可能有較大波動,如果帶寬取值過大,那么便會呈現出一種平滑現象。因此,需要獲得任意連續幀樣本絕對差和平均值:
其中,連續幀樣本中值m=median(|xi-xi+1|),假設xi服從高斯分布N(μ,?2),那么(xi-xi+1)同樣服從于N(0,2?2)的高斯分布,根據正態分布的對稱性及中位數的定義得Pr(N(0,2?2)>m)=0.25,因此標準差可得
參數曲線被分為四個調整區域,它們分別是:高光、亮調、暗調、陰影。我們可以通過曲線區域下方的三個三角形滑塊控制這四個區域覆蓋的影調范圍。向左移動第一個三角,即縮小陰影區域,擴大暗調區域;其他區域以此類推。當我們將鼠標移動到曲線上方,當前的可調整區間則會被高亮顯示出來。單擊并拖動鼠標即可對對應區域進行更改。

(4)
在同一特定圖像序列中,背景圖像通常是相同的。因此,在實際應用中,像素值較長、較為穩定則為背景像素。如果像素的當前值與背景值匹配,可以改變閾值,達到提取背景信息的目的。
通過對每個像素點的概率進行研究,利用上述公式確定的模型計算幀中像素點的概率分布P(x),如果分布概率p小于默認閾值T,則將像素分類為前一個風景點,否則,程序可以隔離背景并識別剪輯中的動態目標。閾值通常是根據實驗列中使用的視頻序列來確定的,因此有

(5)
由于視頻序列中的場景是不斷變化的,為了適應視頻序列的變化,保證目標提取的準確性,需要不斷更新背景模型,在核密度模型中。一般情況下,使用當前幀圖像代替原始幀圖像作為新的樣本,使背景更新方法便于對背景樣本中采集的透視像素進行分類。其中連續幀差分[9]計算求解的結果將會作為下一次更新視頻序列的前提。若在下次計算的過程中,活動點是固定的目標動態,那么視頻像素將不會發生改變,而原始的像素樣本就需要在保持原有位置的基礎上對其進行改變,用來當作背景板的樣例。
假設It-1,It-2,It是固定時間t-2,t-1,t中的動態圖像,那么針對三幀圖像同步進行的運算式就有

(6)
在三個消解幀中提供運動像素,分析兩幀之間的差異,并從第一幀中提取活動幀的運動區域。如果運動目標存在,且在短時間內出現,則可以有效避免將背景像素作為前像素進行檢測,減少誤識區域。它可以減小目標的運動和跟蹤區域。
(7)
根據上式結果,對前景圖像目標沒有變化的視頻幀進行統計,并在一定基礎上設置閾值th,當實際的統計數值高于指定閾值時,那么就可以認為前景視頻動態圖像的像素是一直保持在靜止狀態的,這樣就可以將其重新投放到新的背景中,根據檢測出來的顯著性區域M、M1以及M2即可獲取出新的視頻關鍵姿態背景模型

(8)

圖1 目標定位流程圖
假設如果m維空間同時擁有著n個數據點(x1,x2,…,xn),并且其中任意一個姿態數據點都可以將其看作為視頻目標中心點,那么就可以將數據點xi出的密度指標判定為

(9)
結合上式的計算結果,根據減法聚類算法[10]思想,當計算求解出所有數據點的密度指標后,便可選取出其中一個密度指標最高的節點來作為第一個關鍵姿態,本文設定xc1為該目標中心,而Pc1則是其對應的核函數密度指標,這樣任意數據點xi的指標便可根據下式做出對應的改變

(10)
這里hbj(j=1,2,…,m)為常數,一般情況下hbj=ηhaj,其中將η描述為大于1的正常數值,防止出現距離較近的兩個目標中心。
當視頻動態中數據點的核密度指標[11]出現變動后,將其中密度指標最大取值設定為待定位視頻中目標個體,在此期間利用不斷的迭代獲得最優目標中心,Pi<ε·Pc1(0<ε≤1)為迭代終止指令。
在對視頻動態目標進行定位的過程中,目標實際核密度取值在一定范圍內是與圖像數據點以及密集程度成正比的,根據這一特征點,便可用于描述視頻目標的帶寬參數。
假設通過計算獲取出第一個目標中心點的數據點取值為x1時,與其相互對應的帶寬值[12]便可標記為h1i,而Pc1則描述為數據點的密度取值,這樣當第i個用于描述視頻目標的帶寬取值hij即可變換為hij=(pi/Pc1)·h1i。
為驗證論文方法的應用效果,設計實驗。本次實驗采用某時間段的交通視頻監控圖像作為實驗測試樣本,視頻樣本采集室內環境如圖2所示。圖3為視頻樣本中隨機抽取的視頻圖像樣本。

圖2 實驗樣本采集環境

圖3 實驗樣本
為驗證所提方法分析的視頻序列像素點噪聲概率密度的有效性,對樣本視頻圖像進行兩次訓練,驗證該步驟是否能夠降低視頻目標噪聲。本次處理的視頻幀數為30fps,實驗迭代次數為25次,訓練結果如圖4所示。

圖4 樣本訓練結果
依據圖4實驗結果可知,經過兩次樣本訓練,視頻圖像的目標噪聲得到了有效降低,說明所提方法的為所提方法分析的視頻序列像素點噪聲概率密度具有降低圖像噪聲效果,為方法的應用性驗證提供依據與條件。
為驗證提出方法的視頻圖像目標定位性能,設計不同方法動態幀目標定位精度對比實驗。本次實驗的樣本視頻圖像中包括多目標,如行人、騎行人、行駛車輛,且存在多處交通危險點,利用該樣本圖像進行實驗結果的驗證具有可靠性。將文獻[4]提出的基于擴展卡爾曼濾波(EKF)的目標定位算法、文獻[5]提出的基于多層卷積特征的自適應決策融合目標識別跟蹤算法作為實驗的對照組,與提出方法進行對比分析,動態幀目標定位精度對比結果如圖5所示。

圖5 不同方法視頻目標定位精度對比
由圖5實驗結果可以看出,文獻[4]方法定位識別出的視頻圖像點為兩處,但是這兩個目標點僅有一個是交通異常點,另外一個目標為正常行駛車輛,說明該方法的視頻目標定位精度偏低。與該方法相比,文獻[5]方法定出出的視頻圖像目標更多,但是此時間點的交通狀況的關鍵點沒有進行定位,即交通事故點,說明該方法的定位應用效果不理想。所提方法的視頻圖像目標定位效果為圖4的(c),從該結果中可以看出,所提方法的目標定位更為全面,對該監控視頻中的交通事故、騎行危險者以及肢體沖突均完成的定位,具有較好的定位效果。這是因為所提反復噶采用高斯密度估計法構建了視頻動態圖像關鍵姿態背景模型,可以高精度提取動態個體目標關鍵姿態特征輪廓,以更高的準確度實現視頻圖像目標的定位。
現階段視頻目標個體定位問題也成為了現下領域中較為重要的研究課題之一,但傳統目標定位方法無法滿足于當前基本需求,基于此本文在關鍵姿態映射的基礎上,提出新的視頻動態幀目標定位方法,采用高斯密度估計方法建立視頻動態圖像的背景模型,對視頻序列中像素點的種質素值進行概率密度分析,提取動態目標,選擇第一個目標中心,改變樣本點的密度估計,達到實現目標位置的目的。實驗結果表明該方法有效地解決了傳統定位方法存在的問題,具有良好的定位效果。