李琴 王靖


摘要:基于深度學習的視頻目標跟蹤檢測技術當中,對目標進行視頻跟蹤是最基本的技術之一,正確的檢測到基于深度學習的視頻目標跟蹤,是準確地對視頻每幀圖像序列的基于深度學習的視頻目標跟蹤進行跟蹤的關鍵所在。因此,基于深度學習的視頻目標跟蹤檢測技術的質量標準,直接影響到基于深度學習的視頻目標跟蹤的好壞。本文主要介紹基于深度學習的視頻目標跟蹤檢測常用的三種方法,并對不同的方法進行對比研究,分析其優缺點,希望對視頻跟蹤檢測算法的深入研究提供一點幫助。
關鍵詞:深度學習;視頻跟蹤;算法
中圖分類號: TP3? ? ? 文獻標識碼:A
文章編號:1009-3044(2019)16-0187-02
開放科學(資源服務)標識碼(OSID):
1 前言
視頻和圖像處理的基礎是基于深度學習的視頻目標跟蹤檢測,基于深度學習的視頻目標跟蹤檢測的準確度是高層次的處理工作是否能順利進行的直接因素,需要高準確度的檢查行為主要包括三個,第一個是對后期的目標的跟蹤準確度,第二個是對目標的識別準確度,第三個是對場景理解的準確度。雖然我們常見的基于深度學習的視頻目標跟蹤檢測方法多種多樣,但由于目標通常速度是時變的而且隨著時間改變的路徑和速率是無規律的,這也是這種檢測技術的難點之所在。再加上檢測時外部信息的干擾,有太多的噪音夾雜在目標特征之中,所以,基于深度學習的視頻目標檢測的準確度很難得到保證,是一個亟待解決的問題。
根據拍攝器材與基于深度學習的視頻目標跟蹤之間運動狀態的不同,基于深度學習的視頻目標跟蹤檢測方法通常被分成兩大類,第一類是在動態背景下對目標的檢測,第二類是靜態背景下對目標的檢測,當錄像儀器不動,只有檢測目標移動,這就是靜態背景下的基于深度學習的視頻目標跟蹤檢測;而動態背景下的運動檢測是指拍攝器材在監視過程中運動,被檢測的物體在錄像儀器的鏡頭下也在移動,使得對物體的跟蹤變的復雜多變。現在通常使用的靜態背景對目標的檢測的方法有三種:第一種是光流法(0ptica1 f1ow),第二種是幀差分法(frame difference)第三種是背景差分法(backgr0und subtracti0n)。由于其各自的實現原理不同,其使用的場合也有所不同。
2 視頻目標跟蹤檢測的常用方法
2.1 目標跟蹤方法概述
近年來,由于國家對科研項目的重視,使得基于深度學習的視頻目標跟蹤技術也迅速的發展,在基于深度學習的視頻目標跟蹤領域國內外專家學者都進行了大量的研討學習,許多目標跟蹤的算法被提了出來。一般情況,根據特定的情況適用于對應的特定方法,跟蹤的對象不同、適用場合的不同也就有了多種不同的分類方法,按照拍攝器材在跟蹤過程中運動狀態的不同,可以分為靜態背景下的目標跟蹤和動態背景下的目標跟蹤;按照跟蹤拍攝器材數量的不同可分為單設備跟蹤和多設備跟蹤,如圖1所示。
2.2 視頻目標跟蹤檢測的常用方法
1)光流法
早在二十世紀五十年代Gibs0n就提出了光流的概念,這一概念的意思是當物體運動時,拍攝出來的畫面的每一個像素點的瞬時移動速度就稱為光流。為了從序列圖像中近似計算出圖像的運動場,進而研究光流場。所以,計算光流場是光流法的主要作用,也就是在合適的平滑約束性條件下,按照圖像序列的時空梯度估算運動場,通過對運動場的變化進行分析,對基于深度學習的視頻目標跟蹤和場景進行分割。
在監視場景中目標發生移動,灰度模式運動在物體表面形成這就是光流場,以假設目標的灰度梯度基本恒定為基礎是這種方法最主要的特征。光流指的是灰度圖像的表面運動,基于深度學習的視頻目標跟蹤的三維速度矢量反應在成像平面上的投影實際上是光流中所包含的基于深度學習的視頻目標跟蹤的信息,其反映了在圖像中的瞬時變化。光流法的工作流程,首先對所在環境中目標的結構與運動狀態的關系進行分析,然后對圖形灰度隨時間的變化進行分析,最后實現目標檢測[33]。使用光流法的最大好處在于錄像設備是否運動對拍攝結果沒有影響,不需要考慮目標的背景環境信息。但是光流法也有它的不足之處,即計算量龐大,算法復雜且耗時,很難實現目標的實時檢測,并且環境其他影響較大,抗噪差,因此實現起來很復雜,在實時監控很難應用。
2)幀間差分法
兩幀差法,又叫幀差分法。在連續的兩幀到三幀的圖像里,將檢測目標的灰度閾值化,然后提取圖像當中檢測目標所在的運動范圍,以此檢測基于深度學習的視頻目標跟蹤。因為只用檢測相鄰幀圖像之間的差異,所以是一種簡單實用的方法。一方面,計算量不大,另一方面,實時性很強,再有就是在檢測中使用廣泛 [34]。
當錄像設備處于不動時,拍攝出視頻圖像,然后在視頻圖像里取出連續的序列,對第一幀圖片[fk(x,y)]以及第二幀幀圖片[fk-1(x,y)]做兩個處理,第一個是平滑噪處理,第二個是幀差法處理,也就是用第一幀圖片[fk(x,y)]減去第二幀圖片[fk-1(x,y)],得到二值圖像[Dk(x,y)]。公式表示如下:
對相同環境下所拍攝的連續兩幀圖像進行差分處理,就得到了差分圖像Dk(x,y),這時候由于是相同的背景,所以進行查分時,連續的兩幀圖像的灰度是不會改變的,所以兩張圖像的差分圖像去掉了背景圖像,而背景灰度和基于深度學習的視頻目標跟蹤有很大的不同,且在相鄰兩幀圖像中的位置也不一樣,所以基于深度學習的視頻目標跟蹤在兩幀圖像相減后就很明顯了。幀差分法的最大好處在于,外界的光線發生改變時對這種方法進行檢測的效用影響很小,對動態條件下的檢測結果穩定有效,在基于深度學習的視頻目標跟蹤的變化明顯時跟蹤效果很好。其中,T的選擇可根據經驗獲得。若T選取的太大,可能出現較大的空洞甚至漏檢的檢測目標,若T選取太小,對于運動變化較慢的目標檢測的將會出現大量噪聲,影響準確性。但是同時,因其對圖像中目標入侵能夠快速判別,所以也得到了廣泛的應用。幀間差法原理圖如圖2所示。
3)背景差分法
背景差分法,又名背景減除法,基于深度學習的視頻目標跟蹤的檢測是對比圖像序列中當前圖片和背景模型圖片。這個方法是在視頻上建立背景圖像的像素模型,設定閾值,對比每幀圖像和背景圖像,將兩幅圖像像素差別大于閾值的像素點看作是基于深度學習的視頻目標跟蹤,像素差別小于閾值的像素點看作是背景。該方法需要考慮背景模型的表示方法,初始化以及背景模型更新的方法等。
采用背景差分法對其進行差分處理,得到的圖像是二值圖像[Mk(x,y)],在這個二值圖像里,白色的區域表示檢測到的前景,黑色區域代表背景。
首先,背景模型[Bk(x,y)]是通過圖像進行統計建模后得到的,將當前幀圖像[fk(x,y)]與背景幀圖像[Bk(x,y)]相減,比較相減后圖像中的像素值與閾值T,如果說圖像的像素值比閾值要小一些,就說明這是背景像素,如果說圖像的像素值比閾值要大一些,就說明是目標像素,這樣就成功的檢測出了目標像素,再將其二值化,再用形態學處理二值化以后的目標圖像提高被檢測出的圖像的質量[2]。背景差分法的主要特點有兩個,一個是這種方法能夠提供全面的目標特征,第二個是這種方法對目標的位置進行提取的速度和精度就很高。本課題通過對上述幾種方法的對比,在基于深度學習的視頻目標跟蹤的檢測中最后決定采用背景差分法進行檢測。
使用背景差分法做目標圖像跟蹤檢測首要的工作是將背景模型建立起來,方法多種多樣,其中,用得最多是高斯背景模型里的自適應背景模型,高斯背景模型有兩種類型,一種單高斯模型,另一種是多高斯模型。對于模型的選擇主要遵循以下原則:第一,如果背景點的顏色很集中,應該使用單高斯模型;第二,如果像素點離散度高就應該使用多高斯模型,共同描述圖像模型需要多個分布模型。但是背景環境的信息都能通過圖像模型反映出來,所以這種方法只適合應用在背景變化較小的場景中,如圖3所示。
3 結論
本文介紹的幾種跟蹤方法各有優缺點,對于雜波下的目標跟蹤,基于神經網絡的算法是一種最優選擇的算法,它有很好的跟蹤效果,其缺點是需要經過大量訓練,運算任務繁重將對計算機造成一定的計算負擔。總體來說,現在的目標跟蹤方法下特定算法應用與特定問題是相對應的,只要是在復雜變化的跟蹤場景下算法的適應能力就會變得很差。
參考文獻:
[1] 戴鳳智,魏寶昌,歐陽育星,金霞.基于深度學習的視頻跟蹤研究進展綜述[J/OL].計算機工程與應用:1-14[2019-0403].http://kns.cnki.net/kcms/detail/11.2127.tp.20191644.016.html.
[2] 吳潤澤.基于學習、檢測的目標穩定跟蹤[D].中國科學院大學(中國科學院光電技術研究所),2018.
[3] 周輝.基于深度學習的多目標跟蹤算法研究[D].電子科技大學,2018.
【通聯編輯:張薇】