包頭醫學院計算機科學與技術系 唐思源
基于語義的關鍵幀的提取
包頭醫學院計算機科學與技術系 唐思源
關鍵幀反映了一段視頻圖像的主要內容,提取關鍵幀信息對觀察者意義重大。本文在總結了風光片特點及用戶注意力的基礎上,利用鏡頭類型和運動矢量特征表現了用戶關注的焦點,提出了一種基于語義的關鍵幀提取方法。首先根據P幀運動矢量的幅度和夾角,判斷鏡頭運動的類型;然后分別根據平移運動速度、持續時間及運動矢量的分布等特征提取關鍵幀。實驗證明使用該方法提取的關鍵幀能較好地反映用戶的關注焦點和視頻鏡頭的內容。
關鍵幀;風光片;用戶注意力
在收集視頻圖像的時候,不是所有視頻信息都是用戶需要的,一些關鍵的圖像信息對整個視頻內容起到解釋說明作用,從視頻圖像中提取某一張視頻圖片,我們稱為關鍵幀,一個關鍵幀通常可以反映圖像幀的主要內容。所以,對視頻圖像中關鍵幀的提取也是觀察者們研究的熱點,因為,本文應用基于語義的方法來提取視頻圖像中的關鍵幀。
在國內及國外提取關鍵幀的方法有很多,但在提取的時候,首先要判斷視頻的類型,根據類型的不同,可以選擇基于鏡頭邊界提取關鍵幀[1],基于圖像信息提取關鍵幀[2],基于運動分析提取關鍵幀[3],基于MPEG壓縮流的宏塊統計特性提取關鍵幀[4]等。這些方法都有各自的優點,同時在不同類型的視頻中,由于采用的拍攝手法、表現內容的方式,以及用戶關注焦點的不同,提取關鍵幀的方法也應該不同。例如在故事片中,存在大物體的運動時用戶關注的焦點是該物體,而在風光片中,即使存在大物體運動,用戶關注的焦點仍然是背景。如何將用戶關注的焦點與關鍵幀提取聯合起來,已經成為當前的研究重點。
2.1 鏡頭運動的類型
鏡頭的運動可以分為無運動,大物體運動和攝像頭運動等三種[5]。無運動是指一個鏡頭的前景和背景都沒有大的變換;大物體運動是指鏡頭中存在大物體,并且該物體的運動幅度比較大;攝像頭運動是指鏡頭的全局運動發生有規律的變換,鏡頭的背景變化比較大。在風光片中,攝像頭運動模式主要包括攝像頭的平移運動和推拉運動。
(1)推拉運動:拍攝者可以通過推近和拉遠相機的焦距來觀察所拍攝的場景,如果鏡頭的焦距推近,可以更清晰的觀察近距離的場景,仔細的拍攝物體的運動情況,如果想觀察更全面的場景,可以拉遠鏡頭焦距,觀察更多的物體運動情況,不管是推近還是拉遠,每一幀的運動速度和運動矢量都相差無幾。
(2)平移運動:當觀看全景時,往往采用平移鏡頭,其中主要的運動方向時左右搖動和上下搖動。當鏡頭為平移運動時,每一幀的運動速度和運動矢量就有很大差別,根據移動的方向,運動矢量的值也不同,可以通過該值來判斷平移的距離及平移多少最適合觀察。
(3)大物體運動:在拍攝場景中有大運動對象出現時,例如參觀的人群。為了更全面和清晰的拍攝大運動物體,要通過相鄰來決定鏡頭移動的情況,通過鏡頭重復采集畫面,把大運動物體的鏡頭畫面疊加,計算出相鄰MB的運動矢量的值,來判斷鏡頭移動的情況,采集視頻幀,能更有效的拍攝大物體的運動情況。
我們根據鏡頭的運動類型和鏡頭持續的時間,使用不同的方法提取關鍵幀[6]。
(1)當鏡頭運動為無運動時,表明鏡頭中視頻幀的內容幾乎沒有變化。此時只需要提取一個關鍵幀,為了計算簡單,就選取每個鏡頭的第一幀為關鍵幀。
(2)當鏡頭運動為平移運動時,關鍵幀提取方法為:首先計算平移運動的速度,平移速度的定義為兩個I幀之間宏塊的移動位數;然后根據平移速度和鏡頭的持續時間,確定選取的I幀,再根據鏡頭的運動方向,將選取的I幀進行合并生成新的圖像。該新圖像為關鍵幀。
(3)當鏡頭運動為推拉運動時,關鍵幀提取方法為:分別選取第一幀,中間幀和最末幀。
(4)當鏡頭運動為大物體運動時,鏡頭的關鍵幀提取方法為:根據運動矢量的分布,選取背景盡可能多的幀為關鍵幀。
為了檢測算法的效果,我們從風光片中抽取了運動不同的視頻序列進行測試,該視頻序列的幀大小是576× 704。我們首先對這些視頻序列檢測鏡頭邊界,然后根據P幀的運動矢量判斷鏡頭運動類型,在此基礎上提取了關鍵幀。下面給出了部分實驗的結果。圖1(a)是一個鏡頭的所有I幀,該鏡頭存在一個從下向上搖動。其運動速度為I幀之間具有3個宏塊的移動距離,持續時間為19個I幀,所得到的關鍵幀如圖1(b)所示。同理,圖2表明了存在左右搖動時,從鏡頭提取到的關鍵幀。圖3表明了存在推拉運動時,分別選取近景、中景和遠景三個幀作為關鍵幀的例子。圖4(a)是在介紹尼羅河上的一座橋,圖中的人和船只是陪襯,因此選擇了圖4(b)作為關鍵幀。實驗證明使用該方法提取的關鍵幀能較好地反映視頻鏡頭的內容。

圖1 攝像頭上下搖動

圖2 攝像頭左右搖動

圖3 攝像頭推拉運動

圖4 大物體運動
文中針對紀錄片的特點和用戶關注的焦點,提出了一種基于語義的關鍵幀提取方法[7]。在平移運動時,提取的關鍵幀不是某幾個幀,而是把不同內容的幀進行合并,用一幅圖表示完整的內容。在大物體運動時,不是提取多個關鍵幀,而是提取背景盡可能多的幀為關鍵幀。實驗證明使用該方法提取的關鍵幀能較好地反映視頻鏡頭的內容。
[1]A.Nagasaka L.Tanaka,Automatic video indexing and full video search for object appearances,in Visual Database System 1992.
[2]H.Zhang, J.Wu,D.Zhong and S.W.Smoliar, an integrated system for content based video retrieval and browsing, Pattern Recognition,vol.30 no.4, pp. 643-658,1997
[3]W.Wolf, key frame selection by motion analysis, in Proc.IEEE Int.Conf. Acoust,Speech, and Signal Proc.,1996
[4]P.O.Gresle T.S.Huang,Gisting of video documents:A key frames selection algorithm using relative activity measure, in The 2nd Int. Conf.On Visual information System,1997.