摘 要:視頻圖像理解側重于對視頻序列進行解釋,既涉及到圖像的空間特性,也涉及到視頻序列的時間特性,是目前計算機視覺領域的一個研究熱點。回顧了視頻圖像理解方法的研究現狀,提出視頻圖像理解的一般性框架,包括層次結構、涉及的技術領域和應用的系統結構,并以一個實際應用作為示例解釋該框架的層次結構。
關鍵詞:視頻圖像理解; 視頻圖像分割; 目標識別; 行為理解; 場景理解
中圖分類號:TP391 文獻標志碼:A
文章編號:1001-3695(2008)07-2203-05
Research on common framework of video image understanding
LIANG Ying-hong, WANG Zhi-yan, CAO Xiao-ye, XU Xiao-wei
(School of Computer Science Engineering, South China University of Technology, Guangzhou 510640, China)
Abstract:Video image understanding technology places emphasis on interpreting video sequences, including spatial and temporal features of video sequences. It is a hot spot in the field of computer vision. This paper first reviewed the current status of research on video image understanding methods, and then proposed a common framework for understanding video sequences, including the layered structure, the correlative fields and the common system structure. Finally, discussed a real application for interpreting the layered structure of this framework.
Key words:video image understanding; video image segmentation; object recognition; behavior understanding; scene understanding
0 引言
隨著計算機硬件和軟件技術的進步,越來越多的人工操作轉向計算機自動處理。在計算機視覺領域,人們試圖使計算機代替人的視覺感官,對視覺信息進行加工處理,實現自動理解。在人們所接收到的信息中,視覺信息占到絕大多數,而圖像在人的感知中扮演著非常重要的作用,人們隨時隨處都要接觸圖像[1]。圖像理解就是通過計算機方法對數字化的圖像進行解釋,是計算機視覺領域的重要內容。
視頻序列與一般的圖像區別在于:視頻序列不是單獨的一幅圖像,它是由一個圖像序列組成,也稱做視頻幀。視頻圖像理解過程往往不是針對單獨一幅圖像來進行的,而是要綜合考慮該圖像所處的圖像序列特征,既涉及到圖像的空間特性,也涉及到圖像序列的時間特性。靜態圖像理解主要是在空間層面上,即在單幅圖像內進行理解,不可避免地要利用一些先驗知識;而視頻圖像理解總是對一系列時間關聯的圖像進行處理,從中找到感興趣的區域,既有空間上也有時間上的操作,具備一定的自學習功能,如在視頻中進行背景學習[2]。在實際應用中,對視頻圖像處理有很強的實時性要求,所以在一般情況下,視頻圖像的理解更偏重于時間特性。
目前,越來越多的應用從對靜態圖像的處理轉到對視頻圖像序列的處理。視頻圖像處理一般包含兩個主要步驟:視頻圖像捕捉和視頻圖像理解。前者主要涉及圖像的壓縮和傳輸;后者主要對視頻圖像進行分割和目標識別,獲取有用信息。視頻圖像理解的研究在最近十年得到人們的廣泛關注,其應用范圍相當廣泛,最典型的例子是利用計算機和視頻捕捉設備對場景進行監控[3,4]。在自動監控過程中,首先要克服視頻圖像的畸變以及場景和視頻設備本身所帶來的噪聲,區分前景和背景;然后要識別前景,判斷其所屬類別(如是否是人類);最后理解其行為。這三個過程對應了視頻圖像理解的三個層次。
視頻圖像理解的潛在應用包括:
a)智能視頻監控。目前,越來越多的場合安裝了監控設備。這些設備主要用于人控監視或視頻錄像,通過將計算機與視頻監控設備相結合,實現對場景的自動監控。以地鐵站為例,通過統計入口人數,可以細致了解某個地鐵站的人流高峰低峰時間,從而為發車間隔和人員管理作出指導;通過估計地鐵站內候車的人群密度,可以為人員疏導作出指示;通過監視月臺上的安全指示線,可以自動發出報警。
b)人機交互。利用計算機和視頻設備對人的行為進行理解,如表情、姿態、手勢等。傳統的人機交互依賴于人的手動輸入,計算機無法理解人的行為;基于視頻圖像的人機交互模式能夠智能化地將人的行為映射成為控制命令,從而減輕人與計算機對話的復雜程度。
c)視頻壓縮。利用視頻圖像理解的視頻壓縮也可以稱為基于視頻內容理解的視頻壓縮方式,這也是未來視頻圖像壓縮領域的一個重要方向。目前的一個簡單應用就是采用運動觸發錄像的硬盤錄像監控設備,通過運動檢測(motion detection)來啟動視頻監控設備錄像,從而大大減少視頻存儲空間。
d)運動提取和運動分析。提取視頻圖像中的運動目標,并跟蹤其運動路徑,分析其運動姿態。通過將運動物體從場景中抽離,可以將該運動物體映射到其他場景中,從而實現場景替換。此外運動抽取和分析還可以用于三維建模,在游戲、電影等產業有著廣闊的發展前景。
e)機器人視覺。機器人通過單目或雙目的圖像傳感器捕獲場景信息,通過分析找到最優路徑,避免與障礙物發生碰撞。
視頻圖像理解的應用范圍遠不止于此,然而在研發基于視頻圖像的應用時,往往只針對個案進行處理,難以形成一個通用的框架和技術路線。
1 回顧
有關視頻圖像理解方面的研究已經有數十年的歷史,最早的研究是從運動檢測和跟蹤開始。由于在單幅圖像中尋找運動物體存在一定的困難,轉向視頻序列的分析。早期由于計算機硬件的限制導致對視頻序列的處理在速度上存在瓶頸,研究難以應用于實際,而計算機技術的進步使得實時視頻處理成為可能,于是越來越多的研究偏向實際應用。視頻監控是視頻圖像理解最重要的研究方向,其研究主要包括運動檢測、運動跟蹤和運動分析等。人機交互是視頻圖像理解的另一個重要研究方向,包括表情識別和動作識別等。通過對實際應用的總結,類似于圖像理解的層次結構[5,6],將視頻圖像理解分為三個主要層次,分別為視頻圖像分割、目標識別和場景/行為理解。圖1描述了視頻圖像理解層次結構。