鄭天宇,顧曉東
注意力選擇在人的認知方面中起到重要作用。同時,在人的認知過程中,也充分的用到了先驗知識。所以可以模仿人腦的功能,將注意力選擇和先驗知識用于目標的檢測與跟蹤。足球是世界第一運動,有著很高的普及率和關注度。足球的檢測和跟蹤能夠用來輔助裁判判決、攝像機的自動跟蹤拍攝和技術統計等。但是,足球的檢測還存在很多難點,足球視頻轉播時攝像機進行遠距離拍攝,此時畫面中的足球非常小,而整個背景較為復雜,這給足球的檢測帶來很大的困難。本文對此進行了一定的研究。
當前有很多的目標跟蹤方法,比如改進的模塊匹配算法[1],比傳統模塊匹配方法有了較大改進;基于Meanshift和粒子濾波以及卡爾曼濾波的方法[2],該方法有較高的魯棒性;此外還有針對群體目標跟蹤的分布式挖掘算法[3],適合大量的群體性目標的跟蹤。當然,除了以上的算法以外,還有以下的專門針對足球跟蹤的算法,參考文獻[4]用改進的卡爾曼濾波器對足球位置進行預測;參考文獻[5]中運用顯著圖來直接提取球場中的人和球。參考文獻[6]和參考文獻[7]將球員和球進行分割,通過足球運動的軌跡來推算足球的運動趨勢。但是,足球比賽的轉播畫面中球員和足球的運動速度快,互相之間會有接觸和遮擋,所以上述方法在特定的場景中不能達到理想的效果。
本文將具有先驗知識的注意力選擇和PCNN(Pulse Coupled Neural Network)空洞濾波相結合用于足球檢測。在注意力選擇部分,采用四元數可以很快的得到注意力顯著圖。此外本文在四元數模型中引入了先驗知識,并采用PCNN空洞濾波增強了物體的連通性,所以在大多數情況下能直接檢測到目標。該算法首先進行預處理,提取出球場區域,并判斷是否發生鏡頭切換。然后,用四元數傅里葉變換(Phase Spectrum of Quaternion Fourier Transform,PQFT)算法生成顯著圖,用 PCNN空洞濾波處理后直接檢測足球;如果檢測失敗,使用顯著圖在圖像幀中提取感興趣區域,并基于足球的形狀、顏色和面積等特征檢測足球。如果足球被遮擋或者殘缺,當前圖像中無法檢測出足球時,則用卡爾曼濾波器預測足球的位置,從而提高檢測率。
整個足球檢測算法的流程,如圖1所示:

圖1 算法流程
首先讀入圖像,提取出球場的范圍并判斷視頻在當前圖像幀是否有鏡頭切換。如果有鏡頭切換,則要對參數進行初始化。比如卡爾曼濾波器的參數;然后用改進的PQFT生成顯著圖,用 PCNN空洞濾波后直接檢測目標;如果檢測失敗,我們利用顯著圖提取球場的感興趣區域,在感興趣區域中用足球的物理特征檢測足球;如果都未檢測成功,則使用卡爾曼濾波器的預測作為最后結果。
針對足球視頻的特點,在預處理中引入了基于先驗知識的PQFT注意力選擇模型,能大大減少算法的運算量。此外,為了解決足球顏色不均勻以及噪聲干擾等問題,使用PCNN空洞濾波和PCNN模糊顏色匹配的神經網絡。PCNN模型的引入不僅能夠更完整的提取出足球區域,而且能夠有效地消除孤立噪聲,提高算法的魯棒性。
在足球視頻畫面有廣告牌、看臺、跑道等眾多的無關區域,這些區域的色彩和結構特征復雜,嚴重干擾足球的檢測。所以首先要提取出球場的區域,為下一步的檢測和跟蹤消除干擾。
經過觀察發現,在HSV或者HSI顏色空間中,足球場地的H值的分布范圍非常的小。在HSV顏色空間中,草地顏色的H分量在0.2~0.3之間。根據這一特性,可以很容易的提取出球場區域,從而去除雜亂的背景。提取的足球場地效果,如圖2(a、b)所示:

圖2 (a)原圖(b)提取的球場區域
此外,為了判斷視頻在轉播過程中是否有鏡頭切換,計算圖像中非球場區域的面積,當圖像中非球場區域面積與前一幀圖像相差在設定閾值范圍內時,視頻轉播是連續的。當非球場區域的面積差大于閾值時,轉播中發生了鏡頭切換,系統里的部分參數需要重新初始化。
顯著圖指的是視覺場景中容易引起人眼關注的區域或物體。例如人們可以很容易找出面前有顯著特征的物體,這正是注意力選擇機制的作用[8]。如果用注意力選擇的方法,把圖像的顯著區域提取出來,那么對于足球的檢測將有很大的幫助。本文的算法選擇基于PQFT的注意力選擇模型[9][10]。相比其他模型,PQFT不依賴于參數的選擇,而且運算速度也很快,能滿足實時的要求。
PQFT注意力選擇模型考慮3種不同的特征,即色差、亮度和運動。為了更好的運用足球特征,對原始PQFT的通道設置做了改變。運動通道在足球檢測中作用不大,所以用足球顏色的先驗知識來代替這一通道。已知足球的顏色,分別是,將 d取反后,代替運動通道。由于先驗知識的加入,改進后的PQFT模型使得產生的顯著圖更加清晰。

式(1)表示,對當前像素點與參考值的差值進行取反。當前像素點越接近參考值,像素點對應的d值越大。先驗知識的加入,使得四元數顯著圖中的足球目標更為明顯和清晰,如圖3(a、b)所示:

圖3 (a)為原始PQFT顯著圖,(b)為加入先驗知識后的PQFT顯著圖
由于球場中部分球員衣服的顏色以及球場白線的顏色與足球顏色相近,所以包括足球在內的很多物體的顯著特性都得到了增強。
通常為了表達物體連通的特性,如果物體內部存在空洞,這些空洞都必須得到填充,此過程稱為空洞濾波。在視頻中,足球是具有連通性的,但當圖像中足球不清楚或者模糊的時候,會對足球的檢測造成困難。如果使用空洞濾波,可以使得處理后的目標更加清晰,提高檢測的效果。本文中,使用單位連接的PCNN來完成空洞濾波[11]。
單位連接的 PCNN網絡是一種單層局部連接的神經網絡。在圖像中,像素點與神經元一一對應,即每一個神經元對應一個像素點。同時,每個神經元與鄰域的神經元相連。像素點的值輸入到對應神經元的F通道,而L通道的輸入為鄰域神經元的輸出。神經元的輸出只有兩種狀態,點火或不點火。神經元工作的方程如公式(2)所示:

像素點的輸入值越大,則對應神經元點火的時間就越早。通過F通道和L通道的相乘調制,符合條件的鄰域神經元開始逐漸點火,產生的脈沖通過神經網絡傳播。在這里我們規定,任意神經元只要其四鄰域中的神經元有一個點火,它也就點火。這樣就使得整個神經網絡中的脈沖能沿著4個方向自由而快速地傳播。每個神經元只點火一次,單位連接的PCNN空洞濾波的工作過程,如圖4所示:

圖4 單位連接的PCNN模型
當足球不被其他物體遮擋或接觸時,顯著圖中的足球較為明顯。此時進行 PCNN空洞濾波后,得到下面的圖。通過簡單的篩選,足球能夠很快檢測出來,如圖5所示:

圖5 空洞濾波后的顯著圖
當足球與球員或其它物體接觸或遮擋時,無法在顯著圖中直接檢測到足球。此時,利用PQFT生成的顯著圖,找出感興趣區域。由于足球的顯著特性,它會出現在圖像感興趣區域中的某一個區域中,如圖6(a、b)所示:

圖6 (a)原圖 (b)提取的感興趣區域
PQFT生成的注意力選擇區域,圖6(a)中足球與球員接觸。圖6(b)為對球場區域生成的感興趣區域。
對球場區域進行感興趣區域的提取,因為非球場區域中存在大量的干擾。而去除這一區域后,圖4(b)的顯著圖中可以清晰的看到球員和球。感興趣區域提取后,由于足球肯定位于某一塊感興趣區域,這樣就避免了在整幅圖像中進行搜索,減少了大量的運算。
在顏色匹配模型中,采用簡化的 PCNN模型來完成候選目標的提取,此模型與先前的 PCNN空洞濾波模型有所區別,在參數和通道設置上有差別。在此模型中,設置神經元的F通道,。其中分別是R、G、B3個通道的匹配結果,需要在3個通道上進行顏色分量的比較。當參考顏色和輸入顏色的值小于設置的閾值時,顏色匹配。比如,表示R通道的顏色匹配。

來自L通道的信號加上一個正的偏移量與來自F通道的信號Fj進行相乘調制(公式4),βj為聯結強度(在本文方法中,βj=1)。使用簡化的PCNN模型得到候選的足球目標,其中βj=1,θj0=6。即5個或者5個以上鄰域的神經元點火,當前神經元才會點火。

如果Uj的值大于jθ,神經元輸出Yj等于1,神經元點火。與此同時,Yj會形成反饋,使得jθ的值超過Uj,所以Yj的值會變成0。模型利用PCNN的脈沖傳播特性,使得相鄰的像素點之間互相影響,有效的去除了噪聲,匹配的結果在形態上更加符合要求。
當顯著圖在空洞濾波后無法直接檢測到足球的時候,基于感興趣區域的提取和PCNN顏色匹配,已經確定了若干候選目標。接下來,將對提取出的候選目標進一步篩選:
1) 面積:在遠距離拍攝的足球場景中,足球相對圖像比較小,所以面積過大或者過小的候選目標可以排除。
2) 圓形度:足球是圓形的,在不遮擋的情況下,候選目標中圓形度越高,就越可能是足球。圓形度的公式:C=(4·π·S)/P2。其中S為面試,P為周長。圓形度越接近于1,表示該區域的形狀越接近于圓。
3) 離心率,區域長軸與短軸尺寸之比。離心率的公式:E=DL/ DS ,其中DL和DS分別表示區域最小邊界矩形的長和寬。離心率越大,該區域是足球的概率就越小。
如果前面的檢測步驟都不成功,則利用前若干幀的檢測結果,用卡爾曼濾波器預測當前圖像幀中足球的位置。這樣可以在足球被部分遮擋的這部分圖像幀中準確檢測出足球的位置,大幅提高了檢測正確率。實驗結果也驗證了這一結果。
卡爾曼濾波器的方程組見式(5)。其中X為系統狀態向量,Wk和Vk為正態分布的運動和測量噪聲,Zk為系統觀測向量。A為系統轉移矩陣,H為觀測矩陣。

使用公式(5),當直接檢測失敗時,使用前幾幀的結果來預測當前幀中足球的位置。
在分析實驗結果時,與當前一些目標檢測和跟蹤算法進行了比較。由于在視頻畫面中足球的面積非常小,這造成很多如 Meanshift、粒子濾波等傳統方法無法有效的跟蹤足球。Dynamic Kalman Filter with Velocity Control[4]和Real Time Ball Detection Framework[5]兩種專門用于足球檢測跟蹤的算法,能較好的進行足球檢測。下文給出了與兩種算法的比較。
選取了3段不同特點的視頻。第一段視頻是球員連續帶球的場景,共1000幀,此視頻的特點是球離球員非常近,大部分圖像幀球與球員有接觸,如表1所示:

表1 第一組圖片檢測結果
表1中,不使用Kalman即單幅圖像檢測;加上Kalman,即當單幅圖像無法檢測出來時,利用前若干幀的結果,使用卡爾曼濾波器預測足球的位置。實驗數據顯示,Kalman濾波器的使用能夠大幅的提高足球的檢測率。
第二段視頻是球員之間短傳球配合的過程,也是連續的1000幀,此視頻幀的特點是球會被遮擋,大部分圖像幀中球與球員有接觸。可以看到,在使用卡爾曼濾波器后檢測成功率有大幅的上升,彌補由于足球被遮擋無法直接檢測而產生的缺陷,實驗結果,如表2所示:

表2 第二組圖片檢測結果
第三段視頻是球遠離所有球員的情況,共連續的 400幀,此組圖片的特點是球離其他的物體都很遠,所以在產生感興趣區域時,球會單獨出現在一個感興趣區域里。在沒有其它物體干擾的情況下,PCNN模型能夠很好的匹配并分割出完整的足球,因此檢測幾乎沒有錯誤。檢測結果,如表3所示:

表3 第三組圖片檢測結果
另外,為了檢驗本文算法的檢測效果,選取了在足球檢測中有較好檢測效果的兩篇文獻 Dynamic Kalman Filter with Velocity Control[4]和Real Time Ball Detection Framework[5],重新編寫實現了他們的算法,并用本文的視頻數據做了對比。結果,如表4所示:

表4 第二組圖片檢測結果對比
從表4的檢測結果可以看到,本文的方法檢測率均高于兩種參考文獻方法。原因在于基于四元數的PQFT模型更加出色,能夠得到更加精細的視覺顯著圖。此外 PCNN模型更充分和準確的使用了足球的物理特征,并有效的抑制了噪聲干擾。
本文將先驗知識引入四元數注意力選擇模型,并采用PCNN空洞濾波處理注意力顯著圖。和兩種的傳統足球檢測方法相比[4][5],檢測結果得到了明顯的提高。實驗結果顯示,當足球沒有被遮擋時,本方法的檢測率接近100%;當足球與人有身體接觸,或者足球被部分遮擋時,用卡爾曼濾波器預測,也有很高的檢測成功率。
[1]Kim,T.Lee,S.et al.Combined shape and feature-based video analysis and its application to non-rigid object tracking,IET Image Processing,pp.87-100,Dec 11,2009.
[2]Zulfiqar Hasan Khan,Irene Yu-Hua Gu,et al.Robust Visual Object Tracking Using Multi-Mode Anisotropic Mean Shift and Particle Filters,IEEE Transactions on circuit and system for video technology,Vol.21,No.1,pp.74-87,Jan,2011.
[3]Hsiao-Ping Tsai,De-Nian Yang,et al.Mining Group Movement Patterns for Tracking Moving Objects Efficiently,IEEE Transactions on knowledge and date engineering, Vol.23,No.2,pp.266-282,Feb,2011.
[4]Jong-Yun Kim,Tae-Yong Kim,Soccer Ball Tracking using Dynamic Kalman Filter with Velocity Control,Sixth International Conference on Computer Graphics,Tianjin,pp.367-374,Aug.11-14,2009.
[5]Chaoke Pei,Shuyuan Yang,et al,A Real Time Ball Detection Framework For Soccer Video,16th International Conference on Systems,Signals and Image Processing(IWSSIP),Chalkida ,pp.1-4,June.18-20,2009.
[6]Liu,S.X,Lijun Jiang,Garner J.et al.Video Based Soccer Ball Tracking,Image Analysis & Interpretation(SSIAI),Austin,TX,pp.53-56,May 23-25,2010.
[7]Yu Xian,Zeng Gui-hua, Scheme for football detection and tracking based on trajectory,Computer Engineering and Applications,46(26), pp.148-151,2010.
[8]Itti,L.et al.,a model of saliency-based visual attention for rapid scene analysis,IEEE Transactions on Pattern Analysis and Machine,Intelligence,20(11),pp.1254-1259,1998.
[9]Chenlei Guo,Liming Zhang,A Novel Multiresolution Spatiotemporal Saliency Detection Model and Its Applications in Image and Video Compression, IEEE Transactions on Image Processing,19(1), pp.185-198,2010.
[10]Chenlei Guo,Qi Ma ,Liming Zhang, Spatio-temporal Saliency detection using phase spectrum of quaternion fourier transform,Computer Vision and Pattern Recognition,Anchorage,AK,pp.1-8,June.23-28,2008.
[11]顧曉東,郭仕德,余道衡,基于PCNN的二值文字空洞濾波,[j]計算機應用研究,12,pp.65-66,2003
[12]Ell,T.Sangwin,S.Hypercomplex Fourier Transforms of Color Images,IEEE Transactions on Image Processing,16(1),pp.22-35,2007.
[13]Reinhard Eckhorn ,Neural Mechanisms of Scene Segmentation: Recordings from the Visual Cortex Suggest Basic Circuits for Linking Field Models,IEEE Transactions on Neural Networks ,15(5), pp.464-479, 2004.
[14]Johnson J L,Padgett M L.PCNN Models and Applications,IEEE Transactions on Neural Networks,10(3),pp.480-498,1999.